Sitemap как идея хинтов
13.06.05 15:45 ◇ keywords: web, технологииС введением в строй гугловского sitemap вопрос хинтов для поисковых систем все равно остается актуальным.
Понятно, что контент обновляемого сайта можно поделить на две категории:
а) Динамическая. Это новые и часто обновляемые страницы. Необходимость быстрой индексации: высокая
б) Статическая. Фактически это архив сайта. Изменяется редко, за исключением индексов. Необходимость быстрой индексации: низкая.
Третью категорию («левый контент»), формально не входящую в стостав сайта, рассматривать не будем.
Что предлгает Гугль? Он предлагает выложить список всех страниц сайта с указанием last modified и частоты изменения (для каждого url). Что с этим списком собирается делать Гугль не совсем понятно (в документации это не описано).
Предположительно, Гугль начнет сверять sitemap со своим списком страниц. «Новые» страницы, отсутствующие в гугловском списке, пойдут в очередь на индексацию. «Старые» страницы сравниваются по last modified и, при необходимости, пойдут на реиндексацию.
Все это, конечно, хорошо… но!
Поэтому, на мой взгляд, было бы логичней не смешивать все в один котелок, а отделить мух от котлет и учитывать каждую категорию отдельно. Динамическую часть получать из «облегченного» rss, а статическую из списка разделов (тот же sitemap, но не по отдельным url, а по разделам). А для каждого раздела еще можно указать, какие страницы индексировать в первую очередь, а какие вообще нежелательно (например, «версия для печати»).
>>сайте/блоге. А это, между прочим, не одна тысяча url.
что мешает строить sitemap один раз, при запросе оного гуглем?
ArtReal: В смысле?
Т.е. построил один раз и спишь спокойно? А как тогда доводить до Гугля новые страницы?
[ 2 ] Sly / 13.06.2005 16:14
ArtReal: А он его будет запрашивать? По документации это непонятно: там предлагают самому пинговать Гугль после того, как sitemap изменился; а будет ли Гугль сам регулярно проверять непонятно.
Даже если Гугль будет сам приходить в чем смысл аврального сбора sitemap, если его можно заготовить заранее?
[ 3 ] wmas.ru / 13.06.2005 16:14
ArtReal: Предлагаю внимательно изучить значение слова «hint».
[ 4 ] Sly / 13.06.2005 16:18
[ 5 ] wmas.msk.ru / 13.06.2005 16:33
[ 6 ] wmas.msk.ru / 13.06.2005 16:38
ArtReal: Гугль не дурак по каждому чиху ходить.
[ 7 ] Sly / 13.06.2005 16:41
ты про питоновский скрипт? он для построения сайтмапа для готовых сайтов. а заархивированный в gz xml гугл будет забирать сам, об этом говорится в ограничении на размер такого файла и необходимость его разбивки -- что бы паук не положил сервер надолго.
>>Даже если Гугль будет сам приходить — в чем смысл аврального сбора sitemap, если его
>>можно заготовить заранее?
а это чье:
>>
>>сайте/блоге. А это, между прочим, не одна тысяча url.
?
сайтмап
хотя мне наверное понятна нерадость, в регистре ведь нет возможности _просто_ достать список постов и дат модификации, т.к. он на плоских файлах построен? т.е. захотев получить такой список, надо подготавливать/обновлять при постингах отдельный файл?
ArtReal: У меня записи не в файлах хранятся, а в DBA. Но все равно: пиковых нагрузок надо избегать.
[ 8 ] Sly / 13.06.2005 16:45
>>и т.д. всё понятно, но если твой намёк заюзаю то их серваки точно заглохнут, каждый
>>поставит чтоб его сайт обновлялся чуть ли не каждую секунду и т.д. и т.п. хоть бы из того
>>же прикола.
>>Нет однозначно серьёзные поисковики должны максимально отстранять пользователя от
>>воздействия на систему.
а никто и не говорит, что гугл ринется обновлять индекс ровно с такой периодичностью, как укажет вебмастер. пристальное внимание гугла еще нужно заслужить, наличие сайтмапа для неинтересных для гугла сайтов не увеличит квоту индексируемых за раз страниц, и не вытянет из песочницы.
ArtReal: «Using Google Sitemaps will not influence your PageRank; there will be no change in how we calculate the ranking of your pages.»
[ 9 ] wmas.msk.ru / 13.06.2005 17:00
ArtReal: Благие намерения пользователя Гугль учитывает ровно в той мере, в какой ему хочется учитывать. Что же касается хаков так идеальной защиты от злоумышленника еще никто не придумал.
[ 10 ] Sly / 13.06.2005 17:09
>>хорошо оптимизированную ху
можно посмотреть на количество оптимизаций для отдельно взятых поисковиков. она будет одинакова?
[ 11 ] Sly / 13.06.2005 17:14
>>надо избегать.
так и отлично! какой может быть пиковая нагрузка в простых запросах, пользующих соответствующие индексы? тем более что эта нагрузка для большинства сайтов будет один раз в несколько месяцев (гугл за первую скачку получил инфу для размышлений по поводу приоритетов и частоты обновления, в следующий раз зайдет не скоро, т.к. есть еще куча сайтов, которых ожидают первого забора сайтмапа). поэтому пересчет on demand будет стоить одного пика (например 30 секунд) в месяц, а пересчет после каждого поста будет стоить секунду помноженную на количество постов. можно пойти дальше -- осуществлять пересчет раз в сутки по крону во время наименьшей активности. просто sitemaps действительно не больше чем hint для кравлера, поэтому имхо не стоит париться с мегаоптимизацией процесса, гугл еще по ссылкам на индексируемых страницах пройдется, пока не исчерпает квоту.
[ 12 ] wmas.msk.ru / 13.06.2005 17:26
[ 13 ] Sly / 13.06.2005 17:33
как это тебе «может хватить»? слово «может» от неуверенности? давай будем опираться на логику.
[ 14 ] wmas.msk.ru / 13.06.2005 17:44
[ 15 ] Sly / 13.06.2005 17:54
>>это может помочь загрузить сервер мусором, создав миллион искусственно созданных
>>страниц соответствующих алгоритмам о качестве страниц и т.п. Железо останется железом
что тебе мешает создать те же миллион искуственных страниц? отсутвие mod_rewrite? или навыков программиста? чем тогда для тебя отличается индексирование сайта с головы по линкам, от индексирования сайта из середины по сайтмапу?
>>и по моему идея хоть и вкусная, но опасная, посмотрим чем это всё кончится. Гугл много
>>экспериментирует, помнишь он
инетересно, где ты узрел связь? может быть ты так же думаешь что ускоритель интернета загнулся
[ 16 ] wmas.msk.ru / 13.06.2005 18:13
ArtReal: (удивленно) какая шумиха?
[ 17 ] Sly / 13.06.2005 18:30
>>ещё?
а какая разница? если первый позволяет создать любое количество виртуальных страниц? _любое количество_. если к бесконечности добавить N, что получится? будет ли в этом случае N иметь значение?
резимирую: уморил. не хочешь понимать что написано (или занудствуешь). надеюсь если сниму чекбокс про комментарии на почту, то отпишусь.
[ 18 ] wmas.msk.ru / 13.06.2005 18:40
at attempt to comment, the answer will be received !!not soon!! :))
[ 19 ] wmas.msk.ru / 14.06.2005 13:54
Да, если найти двух спорщиков, то выйдет элюзия шумихи … жаль, что как таковой спора не было Sly убедил меня в полезности Google SiteMap, в которой я и не сомневался, а я лишь высказал озабоченность перспективами этого решения, которые и не разделил мой оппонент, ух как сказал … пошёл писать диссертацию :)