Google patent: Historische data en ranking

January 2nd, 2006 - Posted by Ulco in Optimalisatie, Patenten

Eén van de patenten die Google heeft ingediend is het patent “Information retrievel based on historical data” oftewel “US Patent #20050071741”. Uit dit patent blijkt dat Google profielen aanmaakt van documenten en de URL of domein waar het document staat. Ook wordt informatie opgeslagen over het document wat naar het onderzochte document linkt.

Deze profielen worden vervolgens gebruikt om geldigheid en relevantie van de informatie in het document en te bepalen. Dit uiteindelijk natuurlijk allemaal om zo nauwkeurig mogelijk de zoekresultaten te kunnen bepalen.

De inhoud van de profielen kan in een aantal onderdelen opgesplitst worden, namelijk on-page elementen, on-page links, inkomende links en elementen op paginas die naar het document linken.

On-page elementen profiel bevat:

  • Een orginele versie van het document plus geschiedenis van de wijzigingen
  • Data van de gemaakte wijzigingen
  • Een evaluatie van de nieuwe inhoud van het document
  • Een evaluatie van het belang v/d nieuwe inhoud ten opzichte van de orginele inhoud
  • Andere factoren die de regelmaat v/d wijzigingen en de geschiedenis van het document aangeven

On-page links profiel bevat:

  • Een kopie van de orginele site structuur en alle wijzigingen die in de loop van tijd gemaakt zijn
  • Anchor tekst gebruikt voor interne links en de gemaakte wijzigingen
  • Toevoeging van nieuwe documenten aan de site plus regelmaat van deze toevoegingen
  • De relevantie van alle pagina’s waarnaar gelinkt wordt binnen het domein

Inkomende links profiel bevat:

  • Alle historische informatie v/d documenten die naar het onderzochte document linken
  • Veranderingen aan de inhoud van document die naar het onderzochte document linken
  • De leeftijd van en hoeveelheid links in het document wat naar het onderzochte document linkt
  • De voor links gebruikte anchor tekst in het document wat naar het onderzochte document linkt
  • Veranderingen in links in het document wat naar het onderzochte document linkt
  • De regelmaat waarmee links in het document wat naar het onderzochte document linkt wijzigen
  • Een test in hoeverre de documenten waartussen gelinkt wordt relevant zijn ten opzichte van elkaar

Elementen op pagina’s die naar het document linken bevat:

  • De leeftijd van het document
  • De geschiedenis van het domein of de URL
  • Een orginele versie van het document en de gemaakte wijzigingen
  • Een evaluatie van de trustfactor en relevantie van alle links van en naar het document
  • Het doel van de links in het document
  • De regelmaat waarmee links worden gewijzigd
  • De in het document gebruikte anchor tekst
  • Het aantal links naar het document vanaf het domein waar het document zich bevindt
  • De relevantie van de gebruikte anchor tekst in de links vanaf het document en het domein

Het patent is nog veel uitgebreider en behandelt in totaal 63 punten, de meeste hiervan hebben ook weer betrekking op andere punten. In het volgende deel wordt geprobeerd het een enigzins begrijpelijk, en bruikbaar, geheel van te maken.

Groei en redenen voor wijzigingen

Door de populariteit van Google was het niet langer voldoende om simpele link algoritmen als Pagerank al het werk te laten doen. Deze algoritmen waren makkelijk te beinvloeden wat weer een negatief effect had op de zoekresultaten. Door deze wijzigingen hoopt Google dat het manipuleren van de zoekresultaten moeilijker wordt.

Ook de uitbreiding naar het indexeren van multimedia maakte het nodig om te veranderen. Google’s missie is naar eigen zeggen: “to organize the world’s information and make it universally accessible and useful”. Hier naar zijn ze aardig op weg maar het indexeren van zo veel informatie betekend ook dat er een berg ‘rotzooi’ tussen zit en het kaf van het koren gescheiden moet kunnen worden.

De historische profielen

De resultaten van Google zijn afhankelijk van vele, vaak variabele factoren. Het patent beschijft één van die factoren: Historische gegevens. Dit kan vrijwel alles betekenen, leeftijd van het document maar ook hoe het zich ontwikkeld in de zoekresultaten en hoe vaak het vanaf de zoekresultaten aangeklikt wordt. In het patent staan een aantal zaken als links naar het document toe en hoe deze zich in de loop van tijd ontwikkelen.

Ook wordt elke verandering die in de loop van tijd aan een document gemaakt wordt opgeslagen in het historisch profiel. Documenten die langere tijd op dezelfde locatie te vinden zijn worden geacht een hogere waarde te hebben. Links naar een document die langere tijd bestaan geven een document ook een hogere waarde voor de uiteindelijke zoekresultaten. Hetzelfde geldt voor documenten die met der tijd uitgebreid worden.

Waaruit bestaat het totale historische profiel?

Geschiedenis van de URL

  • Eigenaar
  • Vorig gebruik van het domein
  • Geschiedenis van penalties of problemen met het domein
  • Leeftijd van de site op het domein
  • IP adres van de documenten
  • Geschiedenis van penalties of problemen met het IP

Geschiedenis van documenten

  • Orginele versie van het document
  • Geschiedenis van de wijzigingen aan het document
  • Vergelijking tussen de huidige en vorige inhoud van het document
  • Onderzoek van alle wijzigingen aan het document
  • Relevantie van de inhoud t.o.v. de gelinkte documenten

Link evaluatie

  • Totaal aantal links naar een document
  • Relevantie van de inhoud van aanlinkende documenten
  • Veranderingen van links over tijd
  • Veranderingen van de inhoud van aanlinkende documenten
  • Totaal aantal links in het document
  • Het doel van de links in het document
  • Historisch profiel van de aanlinkende documenten
  • Leeftijd, IP en anchor tekt van aanlinkende documenten
  • Gebruik van anchor tekst binnen het document
  • Relevantie van de linkstructuur binnen het document

Bezoekersgedrag

  • Hoe lang blijft een bezoeker op een document
  • Welke paden volgt een bezoeker binnen een document/domein
  • Eventueel toevoegingen aan favorieten
  • Hoe komt een bezoeker op locatie (zoekmachine, direct, via link)
  • Via welke woorden komen bezoekers bij een document en hoe vaak

Inhoud en context

Nieuwe inhoud blijft beloond door Google, Google houdt bij hoe vaak nieuwe pagina’s worden toegevoegd per periode en houdt verhoudingen bij tussen de totale inhoud en nieuwe inhoud (groeifactoren). Dit geeft Google een indicatie van hoe upto date en/of relevant gevonden informatie is.

Verder wordt bijgehouden welke delen van een site betrekking hebben tot welke keywords en welke delen het vaakst worden vernieuwd. Hierdoor kan Google beter en effectiever spideren. Google weet ook wie waar naar zoekt en wanneer, documenten die vaker opgevraagd worden krijgen een hogere waarde binnen de zoekresultaten.

Er zijn gevallen waarin nieuwe inhoud niet wordt verkozen boven oude (stabiele) inhoud. Denk hierbij bijvoorbeeld aan documenten als de Amerikaanse grondwet en wetgevingen. Ook wordt hier minder gefilterd op zgn. duplicate content, dit zal voornamelijk komen doordat vanuit de zoekopdrachten vaker wordt doorgeklikt naar zo’n document en dat deze documenten een hogere waarde hebben dan de concurrentie.

Evaluatie van de waarde van links

De basis van Google’s algoritmen blijft nog steeds Pagerank wat bijna alleen is gebaseerd op links. Wat wel veranderd is dat Google nu meer onderzoekt waarom bepaalde links er zijn en wat de waarde is (relatie) t.o.v. het document. Ook wordt gekeken naar hoe vaak links veranderen, statische links hebben uiteraard meer waarde dan links die vaak veranderen.

Als Google een nieuwe link naar een document ontdekt dat wordt onderzocht wat de relatie is van het document waarvan gelinkt wordt t.o.v. het document waarnaar gelinkt wordt. Hoe de inhoud van beide documenten zich verhoudt en of de link wordt gebruikt als bijvoorbeeld aanvulling of referentie. Verder wordt gekeken naar wat voor links er nog meer zijn toegevoegd en hoe die zich verhouden tot het onderzochte document.

Als laatste wordt gekeken naar hoe de anchor tekst van de nieuwe link zich verhoud tot de anchor tekst van al bekende links naar een document. Normaliter zou het natuurlijk zo moeten zijn dat alle gebruikte anchor tekst een bepaalde relatie zou moeten hebben. Is dit niet zo of is de anchor tekst te vaak exact hetzelfde kan deze gefilterd worden. Het analyse van de links zorgt ook voor een bepaalde “trust factor” waarmee naast de kwaliteit van het document ook de orginaliteit en authenticiteit wordt vastgesteld.

Domein en gebruiksgerelateerde informatie

Ook de gegevens met betrekking tot het domein zijn een onderdeel van de totale score die een document kan halen. De belangrijkste factor die hieraan ontleend kan worden is wel de geografische locatie (lokale zoekopdrachten). Dit wordt niet alleen herleid uit de extensie maar ook uit de hosting gegevens (IP adres). Andere factoren zijn hoe lang het domein al eigendom is en hoe lang dezelfde site er al op staat. Een wat vagere factor is voor hoe lang het domein geregistreerd is. In zijn algemeenheid geldt dat wanneer het domein voor langere tijd geregistreerd is hoe serieuser de site in de ogen van Google is (en dus hoger zal scoren).

Google houdt ook bij in welke perioden bezoekers voornamelijk op een site komen. Een kerstsite, die dus voornamelijk in de kerstperiode bezocht zal worden zal in die periode ook de beste ranking hebben.

Conclusie

Het patent beschrijft heel duidelijk een veelheid aan methoden die Google gebruikt om de resultaten van haar zoekmachine te bepalen. De basis van dit patent draait om het profiel wat Google van elk document bijhoudt. Deze profielen beinvloeden indirect ook de ranking van jouw website en pagina’s. Naast links en Pagerank zijn er dus wel een aantal factoren bij gekomen waar je met “zoekmachine optimalisatie” rekening mee kunt/dient te houden. Gelukkig kennen we door dit patent deze factoren en kunnen we hier mee werken.

Geen reacties tot nu toe