Crawler behaviour en scheduling

January 17th, 2006 - Posted by Ulco in Literatuur

Door mijn rescente ervaring met Feedo ben ik toch weer eens in de boekenkast ‘gedoken’. Door de combinatie van zoekmachine en RSS reader loop je namelijk tegen een interessant probleem aan.

Gebruikers van de RSS reader tevreden houden met voldoende actuele content en het gedrag van de crawlers (voor de zoekmachine) binnen de perken houden.

Was het alleen een zoekmachine dan was het “niet zo moeilijk”, via diverse wiskundige algoritmen is er best een crawl-schema te berekenen wat voldoende actueel is zonder een zogenaamd rapid-fire te veroorzaken (rapid-fire is wanneer de crawlers een te hoge serverbelasting veroorzaken).

Voor de geinteresseerden heeft er in het Journal of scheduling ooit een mooi stuk gestaan over Optimal robot scheduling for web search engines. Zeker de moeite waard alleen wel een heel hoog Wiskunde freak gehalte, je bent dus gewaarschuwd.

Combinatie met RSS-reader

Het probleem voor zo’n crawl schema wordt voornamelijk veroorzaakt doordat er in het geval van Feedo ook een RSS reader wordt aangeboden. Bij sites met een hoge update frequentie zal dit nog wel meevallen, het wordt lastig door sites die juist een hele lage update frequentie hebben.

Een site die bijvoorbeeld slechts één keer in de week (of nog minder) wordt geupdate zou door een crawler dan ook één keer in de week bezocht worden. Stel dat dit één dag voor een nieuwe update gebeurd, dan zitten de gebruikers van de RSS reader nog 6 dagen zonder de nieuwe content terwijl die wel al op de site te vinden is.

Eventuele oplossingen

Er moet natuurlijk een oplossing voor te bedenken zijn. De beste die ik heb kunnen bedenken is om naast de berekende intervallen ook op vastgestelde intervallen de XML-feeds te indexeren en hierop weer de berekende intervallen aan te passen. Alleen dit implementeren is nog niet zo makkelijk, ten eerste krijg je werkelijk een draak van een wiskundige formule (bekijk de functies uit bovengenoemd document maar eens) en ten tweede moet het ook allemaal voldoen aan de kwaliteitsverwachtingen van de bezoekers.

Ik ga er in ieder geval mijn hoofd nog eens over breken (lees: Mark Fletcher een mailtje sturen hoe hij dit bij Bloglines aangepakt heeft).

Geen reacties tot nu toe