ArtReal's readme
personal unreality:  точка пушистости

Thread: gsmap


Simple sitemap

11.09.05 15:24 ◇ keywords: gsitemap

Несмотря на ужасы индексирования, есть два достаточно простых и ненавязчивых метода для «скармливания» sitemap для блога Гуглю.

а) «только новые». В качестве sitemap подсовывается rss. Раз уж он и так есть, то почему бы не предложить его Гуглю для «учета и дальнейших выводов»? От владельца блога не требуется даже пинговать Гугль — все работает в «автоматическом режиме».
б) «только структура». Гуглю подсовывается сокращенный sitemap, без длинного списка линков на конкретные записи (т.е. мы их просто skip). Как лучше эти записи индексировать — пусть сам Гугль думает, наше дело — немного ему помочь со структурой.

Интересно, можно ли скомбинировать оба метода (т.е. дать Гуглю одновременно sitemap и rss)?

 [ link ] [ thread ]    comments : 1

Явление паука к sitemap

05.09.05 10:45 ◇ keywords: gsitemap, web

Почему же использование sitemap для блогов неэффективно? Попробуем взглянуть на индексирование блога со стороны паука поисковой системы.

Метод номер 1. Паук заходит на blog root и начинает обход по тем линкам, которые там упомянуты. Несложно догадаться, что упомянуты там линки на самые последние записи.

Лирическое отступление. Добавление одной новой записи в блог приводит не только к созданию новой страницы, но и к изменению 5–10 связанных с ней страниц (раскладка по ключевым словам/категориям, архивы года/месяца/дня и т.д.). Исходя из этого факта несложно прикинуть количество страниц в блоге с 1000 записями (небольшой блог).

Теперь переходим к методу номер 2. Робот загружает sitemap. Так как число действующих страниц в 2–4 раза превышает количество записей, то sitemap из-за довольно большого объема загружается раз в 48 часов. Допустим, что за это время вы добавили 5–10 новых записей. Поэтому анализ sitemap выявляет 50 новых и изменившихся страниц.
Вопрос на засыпку: в каком порядке паук начнет их индексировать?
А поскольку паук индексироует не сплошным методом («ковровое индексирование» может завалить сервер), а «порциями», пытаясь достичь равномерного покрытия, то вопрос становится еще более интересным.
И это — не считая «убитых» на генерацию sitemap ресурсов сервера.

Какой из двух методов для вас более привлекателен?

 [ link ] [ thread ]    comments : 6

Гугль, sitemap и блоги

03.09.05 14:21 ◇ keywords: gsitemap, web

Многие, наверное, удивятся, когда узнают, что Гугль не использует sitemap для индексирования сайта и, что интересно, загружает sitemap не тогда, когда он изменился — а тогда, когда Гугль сочтет нужным загрузить sitemap. Понятно, что глупо надеяться на то, что получив сигнал об изменении sitemap, Гугль ринется индексировать новые страницы.
Дальше возникает вопрос «кто виноват и что делать». В формулировке «зачем тогда нужен этот sitemap и какой с него толк».
Так вот, Гугль загружает и использует sitemap не для индексирования сайта, а для того, чтобы оптимизировать работу паука при индексировании этого сайта. Анализируя sitemap, Гугль узнает структуру сайта (со стороны своей, гугловской, колокольни), а делая diff двух sitemap — что и как часто изменяется. В-третьих, анализируя частоту изменений sitemap, можно прогнозировать динамику пополнения сайта и долю новых страниц. Это дает ему возможность заранее распланировать очередной визит своего паука.
Понятно, что при такой стратегии вы не можете повлиять на индексирование (только косвенно), зато облегчите работу гугловскому пауку.

Можно заметить, что при таком раскладе sitemap хорош для «статических» сайтов, отдающих объемную (по размеру) страницу с небольшим числом навигационных линков. И не имеет особого смысла для интенсивно-динамичных сайтов и блогов — новые записи лучше индексировать начиная с blog root, а не путем выковыривания их из sitemap (почему именно так, напишу позже).
А для форумов он вообще бесполезен.

 [ link ] [ thread ]

Thread: gsmap