Block-level link analysis

December 26th, 2005 - Posted by Ulco in Optimalisatie

Block-level links analysis is ontwikkeld en uitgewerkt door Microsoft in samenwerking met de universiteiten van Beijing en Chicago. Het bijbehorende whitepaper geeft ons een goede indruk welke technieken er allemaal gebruikt worden om zoektechnologie te verbeteren en spam tegen te gaan. Hier een analyse van de werking en hoe wij hier voordeel van kunnen hebben.

Overzicht

Het gebruik van links naar een document om de waarde van dit document te bepalen is een belangrijk deel van de zoektechnologie. Bijvoorbeeld Pagerank en HITS zijn populaire algoritmen. Helaas is het ook erg vatbaar voor misbruik, de wetenschap dat links je positie verbeteren heeft er voor gezorgd dat optimaliseren voor zoekmachines voornamelijk draait om het verzamelen van zoveel mogelijk links.

Block-level link analyse kan dit misbruik tegen gaan of in ieder geval beperken. Dit wordt gedaan door pagina’s op te delen in ‘blokken’ waarbij elk blok een aparte waarde heeft voor een link. De pagina is dus niet langer het kleinste deel van de zoektechnologie. Om dit wat te verduidelijken het volgende voorbeeld waarbij een oude versie van Ulco.nl gebruikt wordt.

Door de pagina zoals in het voorbeeld op te delen in blokken ontstaan bij wijze van spreken 2 nieuwe algoritmen. Block Level PageRank en Block Level HITS

VIsion-based Page Segmentation

VIPS (VIsion-based Page Segmentation) is een algoritme wat is gebaseerd op block-level link analyse. Het gebruikt de semantische structuur van de HTML om te bepalen in hoeverre een ‘block’ bij het document hoort en geeft hier een bepaalde waarde aan. Deze waarde is weer een factor voor de waarde van een link in het ‘block’.

Als we weer de voorbeeld pagina erbij pakken is het logisch dat het tekstblok de grootste waarde zou hebben voor een link. Tenslotte bevat dit het grootste deel van het document. Van de links aan de rechter kant krijgt het blokje ‘Links’ de laagste waarde. Dit omdat er in dit blok alleen maar links naar andere websites staan die relatief gezien niets met het document te maken hebben. Daarnaast is het ook nog eens het kleinste ‘block’ in het document.

Waardefactoren voor blocks

De relatie die het blok heeft ten opzichte van het document wordt op een wiskundige manier berekend. Dit gebeurt met allerlei algoritmen die we er voor het gemak maar buiten laten. Wat wel belangrijk is om te weten is welke factoren de document-block relatie bepalen, dat zijn:

  • Afmetingen van het blok (groter is beter)
  • Aantal links in het blok
  • Relatie van de links in het blok t.o.v. het document
  • Positie van het blok t.o.v. het midden van de pagina (centraal is beter)
  • Extra factoren (achtergrond kleur, lettertype, labels)

Resultaten en conclusies

Block-level link analyse zal voornamelijk worden gebruikt als toevoeging aan bestaande algoritmen als PageRank en HITS. Die algorimten zullen precieser worden doordat links directer gekoppeld kunnen worden aan waarde ten opzichte van het document. Ook kan op deze manier behalve de waarde duidelijker worden ingeschat of het document waarnaar gelinkt wordt gerelateerd is aan het document van waar gelinkt wordt.

Wanneer je probeert de waarde van een website of een bepaald document voor zoekmachines te vergroten is het dus belangrijk om te weten dat de beste links tegenwoordig ‘in’ het juiste ‘block’ staan. Het blok wat gecentreerd op de pagina staat en content bevat die het best gerelateerd is aan jouw website. Op deze manier is de beste positie in zoekmachines haalbaar.

Geen reacties tot nu toe