Indexafmetingen Google, Yahoo & MSN
Een aantal studenten van de Stanford University komen met een document waarin ze een schatting maken van de indexgrootte van zowel Google en Yahoo als MSN. Volgens hun tellen de indexen nu:
- Google – 53 miljard documenten
- Yahoo – 8,4 miljard documenten
- MSN – 3,7 miljard documenten
De nauwkeurigheid is twijfelachtig en dat wordt in hun werk gelukkig ook niet ontkend. Vooral de problemen die ze hadden met MSN komen goed naar voren. Wat het werk leuk maakt is de gebruikte methoden en berekeningen.
Zelf heb ik een aantal maanden geleden voor een tijdschrift ook een schatting gemaakt. Toen kwam ik met de volgende cijfers:
- Google – 31 miljard documenten
- Yahoo – 23 miljard documenten
- MSN – 10,5 miljard documenten
Ik had een geheel eigen methode die werkte met domeinen, pagina’s per domein en het percentage geindexeerde pagina’s per zoekmachine. Volgens mij is dat betrouwbaarder aangezien er bij de door Stanford gebruikte methode teveel geëxtrapoleerd moet worden.
