ArtReal's readme
personal unreality:  точка пушистости

Sitemap как идея хинтов

13.06.05 15:45 ◇ keywords: web, технологии

С введением в строй гугловского sitemap вопрос хинтов для поисковых систем все равно остается актуальным.

Понятно, что контент обновляемого сайта можно поделить на две категории:
а) Динамическая. Это новые и часто обновляемые страницы. Необходимость быстрой индексации: высокая
б) Статическая. Фактически — это архив сайта. Изменяется редко, за исключением индексов. Необходимость быстрой индексации: низкая.
Третью категорию («левый контент»), формально не входящую в стостав сайта, рассматривать не будем.

Что предлгает Гугль? Он предлагает выложить список всех страниц сайта с указанием last modified и частоты изменения (для каждого url). Что с этим списком собирается делать Гугль — не совсем понятно (в документации это не описано).
Предположительно, Гугль начнет сверять sitemap со своим списком страниц. «Новые» страницы, отсутствующие в гугловском списке, пойдут в очередь на индексацию. «Старые» страницы сравниваются по last modified и, при необходимости, пойдут на реиндексацию.

Все это, конечно, хорошо… но! Что-то меня не радует необходимость перестраивать sitemap после каждого обновления на сайте/блоге. А это, между прочим, не одна тысяча url.
Поэтому, на мой взгляд, было бы логичней не смешивать все в один котелок, а отделить мух от котлет и учитывать каждую категорию отдельно. Динамическую часть получать из «облегченного» rss, а статическую — из списка разделов (тот же sitemap, но не по отдельным url, а по разделам). А для каждого раздела еще можно указать, какие страницы индексировать в первую очередь, а какие — вообще нежелательно (например, «версия для печати»). Где-то так…

 [ link ] -1 +1

Comments   [ 19 ]
[ 1 ] Sly  / 13.06.2005 16:03
>> Что-то меня не радует необходимость перестраивать sitemap после каждого обновления на
>>сайте/блоге. А это, между прочим, не одна тысяча url.
что мешает строить sitemap один раз, при запросе оного гуглем?

ArtReal: В смысле?
Т.е. построил один раз и спишь спокойно? А как тогда доводить до Гугля новые страницы?


[ 2 ] Sly  / 13.06.2005 16:14
т.е. запросил гугль sitemap -- ты его построил. т.е. вначале ты спишь, потом когда приходит гугль -- строишь sitemap. опять спишь. опять приходит гугль -- опять строишь.

ArtReal: А он его будет запрашивать? По документации это непонятно: там предлагают самому пинговать Гугль после того, как sitemap изменился; а будет ли Гугль сам регулярно проверять — непонятно.
Даже если Гугль будет сам приходить — в чем смысл аврального сбора sitemap, если его можно заготовить заранее?


[ 3 ] wmas.ru  / 13.06.2005 16:14
По моему всё чушь. Нельзя доверять пользователю определять что идексировать и как часта. Единственное что должно быть доступно пользователю это запрет идексации. Иначе начнётся хаос и война. Посмотрите что творится с SEO, это же просто ужас. Одни хотят выдвинуть сайт на первое место, другие отсеить фуфло и что в итоге?

ArtReal: Предлагаю внимательно изучить значение слова «hint».


[ 4 ] Sly  / 13.06.2005 16:18
2wmas: ну если чушь, так зачем вы лезете со своим мнением? зачем тратите свое драгоценное время? ;-)

[ 5 ] wmas.msk.ru  / 13.06.2005 16:33
Стоп, я не хотел проявить свои умения в оскорблениях, это если ты так подумал, я просто хотел сказать о целесообразности предоставления пользователю указания паукам что и когда индексировать. Думаю терь всё прояснилось :)

[ 6 ] wmas.msk.ru  / 13.06.2005 16:38
Да я знаю английский «hint» – намёк, наводка, совет, легкая подсказка … и т.д. всё понятно, но если твой намёк заюзаю то их серваки точно заглохнут, каждый поставит чтоб его сайт обновлялся чуть ли не каждую секунду и т.д. и т.п. хоть бы из того же прикола. Нет однозначно серьёзные поисковики должны максимально отстранять пользователя от воздействия на систему.

ArtReal: Гугль не дурак по каждому чиху ходить.


[ 7 ] Sly  / 13.06.2005 16:41
>>А он его будет запрашивать? По документации это непонятно: там предлагают самому пинговать Гугль после того, как sitemap изменился; а будет ли Гугль сам регулярно проверять — непонятно.
ты про питоновский скрипт? он для построения сайтмапа для готовых сайтов. а заархивированный в gz xml гугл будет забирать сам, об этом говорится в ограничении на размер такого файла и необходимость его разбивки -- что бы паук не положил сервер надолго.


>>Даже если Гугль будет сам приходить — в чем смысл аврального сбора sitemap, если его
>>можно заготовить заранее?
а это чье:

>> Что-то меня не радует необходимость перестраивать sitemap после каждого обновления на
>>сайте/блоге. А это, между прочим, не одна тысяча url.
? :-))
сайтмап
для нескольких тысяч url не есть проблемой для стандартного сервера (например 150 байт на одного урл, т.е. сравнимо с 150 килобайтной страничкой). нет никакой авральности. и sitemap будет строится on demand, и у тебя не будеть нерадующей необходимости.

хотя мне наверное понятна нерадость, в регистре ведь нет возможности _просто_ достать список постов и дат модификации, т.к. он на плоских файлах построен? т.е. захотев получить такой список, надо подготавливать/обновлять при постингах отдельный файл?

ArtReal: У меня записи не в файлах хранятся, а в DBA. Но все равно: пиковых нагрузок надо избегать.


[ 8 ] Sly  / 13.06.2005 16:45
>>wmas.msk.ru
>>и т.д. всё понятно, но если твой намёк заюзаю то их серваки точно заглохнут, каждый
>>поставит чтоб его сайт обновлялся чуть ли не каждую секунду и т.д. и т.п. хоть бы из того
>>же прикола.
>>Нет однозначно серьёзные поисковики должны максимально отстранять пользователя от
>>воздействия на систему.
а никто и не говорит, что гугл ринется обновлять индекс ровно с такой периодичностью, как укажет вебмастер. пристальное внимание гугла еще нужно заслужить, наличие сайтмапа для неинтересных для гугла сайтов не увеличит квоту индексируемых за раз страниц, и не вытянет из песочницы.

ArtReal: «Using Google Sitemaps will not influence your PageRank; there will be no change in how we calculate the ranking of your pages.»


[ 9 ] wmas.msk.ru  / 13.06.2005 17:00
[b]2sly[/b] Конечно, сейчас поисковики становятся всё умнее и умнее, но всё рано они остаются машинами и если есть какой либо алгоритм получения доступа к индексации, его заюзают. Я уже приводил пример с SEO. Посмотри, несмотря на все консперации поисковиков на первых местах можно встретить хорошо оптимизированную ху … Я так в этом уверен потому, что и сам веду созданный и создаваемый мной каталог. И поверь, война между мной и пользователями не оконьчится никогда, а уж Google, Яндекс и т.д. стоит ли говорить :)

ArtReal: Благие намерения пользователя Гугль учитывает ровно в той мере, в какой ему хочется учитывать. Что же касается хаков — так идеальной защиты от злоумышленника еще никто не придумал.


[ 10 ] Sly  / 13.06.2005 17:09
>>Посмотри, несмотря на все консперации поисковиков на первых местах можно встретить
>>хорошо оптимизированную ху
можно посмотреть на количество оптимизаций для отдельно взятых поисковиков. она будет одинакова? :-))) советую подумать над мыслью, что поисковик ищет не только по каталогам линков, вдруг окажется что для того же гугла все твои потуги на спам в оптимизации составляют ничтожный процент по сравнению с тем, что ищет пользователи. и будет нескромным полагать, что используемые в поисковиках алгоритмы затачиваются под небольшой процент накрутчиков. да, спам в результатах встречается, но можно выделить кучу поисковых запросов, в которых спама не существует. т.к. тема запросов никак не соприкасается со спамерами, крутящими рекламу баннерообменных сетей. так вот, если посмотреть с этой стороны, инициатива гугла с сайтмапами более чем полезна в контентных проектах, полезна и для пользователей и для вебмастеров. и тут уже никого не волнует борьба с спамерами, ибо они отсутстсвуют как класс ;-))

[ 11 ] Sly  / 13.06.2005 17:14
>>ArtReal: У меня записи не в файлах хранятся, а в DBA. Но все равно: пиковых нагрузок
>>надо избегать.
так и отлично! какой может быть пиковая нагрузка в простых запросах, пользующих соответствующие индексы? тем более что эта нагрузка для большинства сайтов будет один раз в несколько месяцев (гугл за первую скачку получил инфу для размышлений по поводу приоритетов и частоты обновления, в следующий раз зайдет не скоро, т.к. есть еще куча сайтов, которых ожидают первого забора сайтмапа). поэтому пересчет on demand будет стоить одного пика (например 30 секунд) в месяц, а пересчет после каждого поста будет стоить секунду помноженную на количество постов. можно пойти дальше -- осуществлять пересчет раз в сутки по крон’у во время наименьшей активности. просто sitemaps действительно не больше чем hint для кравлера, поэтому имхо не стоит париться с мегаоптимизацией процесса, гугл еще по ссылкам на индексируемых страницах пройдется, пока не исчерпает квоту.

[ 12 ] wmas.msk.ru  / 13.06.2005 17:26
Ё-маё ходим по кругу. СайтМап это просто открытие ещё одной дыры для как сказано спамера и юзера и её может хватить. Всё я сдаюсь по этому сабжу если идея не будет услышана :’(

[ 13 ] Sly  / 13.06.2005 17:33
ГДЕ? где написано, что сайтмап это средство администрирования гугловского кравлера? :-))) как тебе как спамеру это поможет? :-))))) давай продолжим, интересно ведь? ;-))
как это тебе «может хватить»? слово «может» от неуверенности? давай будем опираться на логику.

[ 14 ] wmas.msk.ru  / 13.06.2005 17:44
это может помочь загрузить сервер мусором, создав миллион искусственно созданных страниц соответствующих алгоритмам о качестве страниц и т.п. Железо останется железом и по моему идея хоть и вкусная, но опасная, посмотрим чем это всё кончится. Гугл много экспериментирует, помнишь он как-то запускал свой ускоритель Интернета …

[ 15 ] Sly  / 13.06.2005 17:54
блин, как же с тобой неинтересно… почему ты не пробуешь думать на шаг вперед?

>>это может помочь загрузить сервер мусором, создав миллион искусственно созданных
>>страниц соответствующих алгоритмам о качестве страниц и т.п. Железо останется железом
что тебе мешает создать те же миллион искуственных страниц? отсутвие mod_rewrite? или навыков программиста? чем тогда для тебя отличается индексирование сайта с головы по линкам, от индексирования сайта из середины по сайтмапу? :-))) да, прочитай еще раз про слово «hint».

>>и по моему идея хоть и вкусная, но опасная, посмотрим чем это всё кончится. Гугл много
>>экспериментирует, помнишь он как-то запускал свой ускоритель Интернета …
инетересно, где ты узрел связь? может быть ты так же думаешь что ускоритель интернета загнулся из-за нагрузки? :-)) имхо версия с тем, что ускоритель делает префетч страниц по линкам, чем напарывается на ссылки «delete», «post», «reset password» и прочие, гооораздо более разумная, побудившая отправить ускоритель из бэты обратно в рисерч.


[ 16 ] wmas.msk.ru  / 13.06.2005 18:13
Фух, согласен, со мной скучно, но с тобой не соскучишься. Как ты и сказал модреврайт и т.п. загружают гугле и это проблема, но зачем добавлять ещё? В целом, я не против новаторств, просто пока к этому нельзя отнестись серьёзно, как и к ускорителю … Шумиха вокруг сайтмап может оказаться слишком раздутой, посмотрим что из этого получится и там поспорим :)

ArtReal: (удивленно) какая шумиха?


[ 17 ] Sly  / 13.06.2005 18:30
>>. Как ты и сказал модреврайт и т.п. загружают гугле и это проблема, но зачем добавлять
>>ещё?
а какая разница? если первый позволяет создать любое количество виртуальных страниц? _любое количество_. если к бесконечности добавить N, что получится? будет ли в этом случае N иметь значение? :-)))) опять скажу, что ты себе льстишь, если думаешь, что гугл за один заход выгребет все с твоего сайта, что ты укажешь в сайтмапе. да и толку тебе как спамеру с каталогом ссылок, если пейджранк будет на все твои виртуальные старницы равен нулю?..

резимирую: уморил. не хочешь понимать что написано (или занудствуешь). надеюсь если сниму чекбокс про комментарии на почту, то отпишусь.


[ 18 ] wmas.msk.ru  / 13.06.2005 18:40
Хм, я не спамер, но зная проворство некоторых личностей … и почему ты думаешь что из за модреврайта у гугля нет проблем? Да и нюансы могут быть разными. Резюмирую: с полезностью сайтмапа согласен, конечно если учесть что генерить его будут единицы, ибо не всяк знает PHP или не особо поспешит утруждаться. И ещё вопрос, если всё так одинаково, чем же полезен сайтмап?
at attempt to comment, the answer will be received !!not soon!! :))

[ 19 ] wmas.msk.ru  / 14.06.2005 13:54
Re: ArtReal (удивленно) какая шумиха?
Да, если найти двух спорщиков, то выйдет элюзия шумихи … жаль, что как таковой спора не было Sly убедил меня в полезности Google SiteMap, в которой я и не сомневался, а я лишь высказал озабоченность перспективами этого решения, которые и не разделил мой оппонент, ух как сказал … пошёл писать диссертацию :)

Comments   [ 19 ]