Topic distillation d.m.v. analyse uitgaande links

Author: email[at]ulco.nl
Pubdate: 2006-02-19
Published: Ulco.nl
Original: Location

Abstract

Topic Distillation is een belangrijk onderdeel van zoekgerelateerde algoritmen als HITS en Hilltop. Helaas is het vaak ook erg beïnvloedbaar en daarom spam-gevoelig.

Analyse van uitgaande links is een spam-ongevoelige methode van Topic Distillation die een belangrijke rol (kan gaan) spelen in zoek algoritmen.

Introductie

Momenteel telt het Word Wide Web miljarden documenten, het vinden van relevante informatie wordt dus steeds ingewikkelder. Logisch gevolg is dat zoekmachines steeds gecompliceerdere algoritmen gaan gebruiken om toch enige orde in al deze documenten aan te kunnen brengen. Belangrijk onderdeel van deze nieuwe orde is het clusteren van documenten voordat deze gerangschikt worden. De analyse van uitgaande links is hiervoor een bruikbare methode. Onder andere Google past deze methode toe in haar zgn. link profielen.

Uitgaande vs. Inkomende links

Naast uitgaande links zijn ook inkomende links een bruikbare methode om documenten te clusteren. Inkomende links hebben echter één groot nadeel: Ze zijn extern beïnvloedbaar. Dit probleem wordt duidelijk in hetvolgende voorbeeld:

X concurreert met Y in de bananenbranche, beide horen in het cluster Bananen, Y staat hoger in Google dan X. Op een dag is X het beu en linkt naar Y vanaf 100 sexsites. Door deze links valt Y niet langer in het cluster Bananen maar is Google ervan overtuigd dat Y hoort bij het cluster Sex. Een zoektocht naar Bananen geeft nu X als eerste resultaat weer.

Bovenstaand voorbeeld maakt hopelijk duidelijk waarom inkomende links minder geschikt zijn. Uitgaande links hebben dit probleem echter niet. Een goede site linkt onder normale omstandigheden bijvoorbeeld naar de leverancier, afnemers en misschien zelfs naar een aantal concurrenten. Voor Topic Distillation en Clustering zijn die links wel bruikbaar aangezien op die sites waarschijnlijk ook (deels) over bananen gaan.

Bruikbaarheid in SEO

Met uitgaande links is het mogelijk een webpagina te positioneren in het cluster waar jouw site thuishoort. Je zou dit kunnen omschrijven als Cluster Optimalisatie. Inkomende links zorgen voor de grove waardering van een document. Door je uitgaande links onder controle te houden zorg je dat deze waardering optimaal benut wordt.

Bekende (weblog) problemen

Een bekend probleem komt bijvoorbeeld naar voren bij Weblogs. Veel weblogs hebben een zogenaamde Blogroll waarin gelinkt wordt naar vrienden en bekenden zonder dat er gelet wordt op topic relevantie. Een ander probleem wordt veroorzaakt door bestaande commentaar functionaliteit. Onder ideale omstandigheden zou commentaar bij weblogs voornamelijk geleverd worden door mensen met gerelateerde websites. In werkelijkheid is dit helaas nauwelijks waarheidsgetrouw en veroorzaakt dus een probleem. Mogelijke oplossingen liggen in het gebruik van rel="nofollow" en redirection scripts.

Pagerank verlies

Wie bekend is met het Pagerank algoritme weet dat elke uitgaande link leidt tot verlies van Pagerank. Toch staat dit in geen verhouding tot de eventuele winst die te behalen is door de positionering. Vergeet ook niet dat je webpagina door het linken naar andere documenten zijn HUB-status vervult wat voor onder andere Hilltop een vereiste is. Wees dus niet bang om naar anderen te linken maar zorg er wel voor dat uitgaande links On-Topic zijn.

Conclusie

Naast waardering is een belangrijke functie van links ook positionering. Linken naar gerelateerde bronnen geeft je de mogelijkheid een webpagina te positioneren in een cluster. Deze positionering zorgt er op haar beurt weer voor dat je optimaal gebruik maakt van je waardering.

Referenties