Author: email[at]ulco.nl
Pubdate: 2006-02-19
Published: Ulco.nl
Original: Location
Topic Distillation is een belangrijk onderdeel van zoekgerelateerde algoritmen als HITS en Hilltop. Helaas is het vaak ook erg beïnvloedbaar en daarom spam-gevoelig.
Analyse van uitgaande links is een spam-ongevoelige methode van Topic Distillation die een belangrijke rol (kan gaan) spelen in zoek algoritmen.
Momenteel telt het Word Wide Web miljarden documenten, het vinden van relevante informatie wordt dus steeds ingewikkelder. Logisch gevolg is dat zoekmachines steeds gecompliceerdere algoritmen gaan gebruiken om toch enige orde
in al deze documenten aan te kunnen brengen. Belangrijk onderdeel van deze nieuwe orde is het clusteren van documenten voordat deze gerangschikt worden. De analyse van uitgaande links is hiervoor een bruikbare methode. Onder andere Google past deze methode toe in haar zgn. link profielen
.
Naast uitgaande links zijn ook inkomende links een bruikbare methode om documenten te clusteren. Inkomende links hebben echter één groot nadeel: Ze zijn extern beïnvloedbaar. Dit probleem wordt duidelijk in hetvolgende voorbeeld:
X concurreert met Y in de bananenbranche, beide horen in het cluster
Bananen, Y staat hoger in Google dan X. Op een dag is X het beu en linkt naar Y vanaf 100 sexsites. Door deze links valt Y niet langer in het clusterBananenmaar is Google ervan overtuigd dat Y hoort bij het clusterSex. Een zoektocht naarBananengeeft nu X als eerste resultaat weer.
Bovenstaand voorbeeld maakt hopelijk duidelijk waarom inkomende links minder geschikt zijn. Uitgaande links hebben dit probleem echter niet. Een goede site linkt onder normale omstandigheden bijvoorbeeld naar de leverancier, afnemers en misschien zelfs naar een aantal concurrenten. Voor Topic Distillation en Clustering zijn die links wel bruikbaar aangezien op die sites waarschijnlijk ook (deels) over bananen gaan.
Met uitgaande links is het mogelijk een webpagina te positioneren
in het cluster waar jouw site thuishoort. Je zou dit kunnen omschrijven als Cluster Optimalisatie. Inkomende links zorgen voor de grove
waardering van een document. Door je uitgaande links onder controle te houden zorg je dat deze waardering optimaal benut wordt.
Een bekend probleem komt bijvoorbeeld naar voren bij Weblogs
. Veel weblogs hebben een zogenaamde Blogroll
waarin gelinkt wordt naar vrienden en bekenden zonder dat er gelet wordt op topic relevantie. Een ander probleem wordt veroorzaakt door bestaande commentaar functionaliteit
. Onder ideale omstandigheden zou commentaar bij weblogs voornamelijk geleverd worden door mensen met gerelateerde websites. In werkelijkheid is dit helaas nauwelijks waarheidsgetrouw en veroorzaakt dus een probleem. Mogelijke oplossingen liggen in het gebruik van rel="nofollow" en redirection scripts.
Wie bekend is met het Pagerank algoritme weet dat elke uitgaande link leidt tot verlies van Pagerank. Toch staat dit in geen verhouding tot de eventuele winst die te behalen is door de positionering. Vergeet ook niet dat je webpagina door het linken naar andere documenten zijn HUB-status vervult wat voor onder andere Hilltop
een vereiste is. Wees dus niet bang om naar anderen te linken maar zorg er wel voor dat uitgaande links On-Topic zijn.
Naast waardering is een belangrijke functie van links ook positionering. Linken naar gerelateerde bronnen geeft je de mogelijkheid een webpagina te positioneren in een cluster. Deze positionering zorgt er op haar beurt weer voor dat je optimaal gebruik maakt van je waardering.