ArtReal's readme
personal unreality:  точка пушистости

Гугль, sitemap и блоги

03.09.05 14:21 ◇ keywords: gsitemap, web

Многие, наверное, удивятся, когда узнают, что Гугль не использует sitemap для индексирования сайта и, что интересно, загружает sitemap не тогда, когда он изменился — а тогда, когда Гугль сочтет нужным загрузить sitemap. Понятно, что глупо надеяться на то, что получив сигнал об изменении sitemap, Гугль ринется индексировать новые страницы.
Дальше возникает вопрос «кто виноват и что делать». В формулировке «зачем тогда нужен этот sitemap и какой с него толк».
Так вот, Гугль загружает и использует sitemap не для индексирования сайта, а для того, чтобы оптимизировать работу паука при индексировании этого сайта. Анализируя sitemap, Гугль узнает структуру сайта (со стороны своей, гугловской, колокольни), а делая diff двух sitemap — что и как часто изменяется. В-третьих, анализируя частоту изменений sitemap, можно прогнозировать динамику пополнения сайта и долю новых страниц. Это дает ему возможность заранее распланировать очередной визит своего паука.
Понятно, что при такой стратегии вы не можете повлиять на индексирование (только косвенно), зато облегчите работу гугловскому пауку.

Можно заметить, что при таком раскладе sitemap хорош для «статических» сайтов, отдающих объемную (по размеру) страницу с небольшим числом навигационных линков. И не имеет особого смысла для интенсивно-динамичных сайтов и блогов — новые записи лучше индексировать начиная с blog root, а не путем выковыривания их из sitemap (почему именно так, напишу позже).
А для форумов он вообще бесполезен.

 [ link ] -1 [ thread ]