ArtReal's readme
personal unreality:  точка пушистости

Явление паука к sitemap

05.09.05 10:45 ◇ keywords: gsitemap, web

Почему же использование sitemap для блогов неэффективно? Попробуем взглянуть на индексирование блога со стороны паука поисковой системы.

Метод номер 1. Паук заходит на blog root и начинает обход по тем линкам, которые там упомянуты. Несложно догадаться, что упомянуты там линки на самые последние записи.

Лирическое отступление. Добавление одной новой записи в блог приводит не только к созданию новой страницы, но и к изменению 5–10 связанных с ней страниц (раскладка по ключевым словам/категориям, архивы года/месяца/дня и т.д.). Исходя из этого факта несложно прикинуть количество страниц в блоге с 1000 записями (небольшой блог).

Теперь переходим к методу номер 2. Робот загружает sitemap. Так как число действующих страниц в 2–4 раза превышает количество записей, то sitemap из-за довольно большого объема загружается раз в 48 часов. Допустим, что за это время вы добавили 5–10 новых записей. Поэтому анализ sitemap выявляет 50 новых и изменившихся страниц.
Вопрос на засыпку: в каком порядке паук начнет их индексировать?
А поскольку паук индексироует не сплошным методом («ковровое индексирование» может завалить сервер), а «порциями», пытаясь достичь равномерного покрытия, то вопрос становится еще более интересным.
И это — не считая «убитых» на генерацию sitemap ресурсов сервера.

Какой из двух методов для вас более привлекателен?

 [ link ] +1 [ thread ]    comments : 6