ArtReal: На грани иронии

Адрес странички на сайте: http://artreal.pp.ru/toweek/2003/a0406.html

Site download

    Помнится, пару лет назад я дегустировал пару программ, посвященных закачке сайта (site download). Количество кнопочек и параметров в каждой программе варьируется, но ключевых параметров три: откуда начать; глубина просмотра ссылок; скачивать ли рисунки... после получения которых программа начинает усиленно пыхтеть - скачивать сайт.
    Идиллия? Как бы не так. Из полученного объема только 10-30% содержат нужную информацию, все остальное - мусор. Потомучта программа тупааая, знает только два тега: img и a href, но пытается скачать все, что может быть скачано (точнее, все, что напоминает url).
    Интересно, за два года эти программы стали умнее? Есть подозрение, что нет.

    Чтобы программа стала умнее, есть три пути:

   1. Снабдить программу искусственным интеллектом или эвристическим алгоритмом "нужности линка". Количество мусора уменьшится... но никто не даст гарантию, что скачаются все нужные страницы. Эвристика - штука тонкая и лес темный. "Умная" программа часто понимает нужды пользователя совсем не так, как хочется пользователю.

   2. Программа управляется сценарием, в котором изложена логика закачки и сортировки линков. Чем детальнее написан сценарий, тем меньше мусора.
    Что, лень писать сценарий? Как говорится, лучше потратить день, но долететь за пять минут, чем потратить пять минут, но долететь за день. Да и трафик экономится.

   3. Визуальное конструирование профиля загрузки. Идея простая - берем типовую страницу сайта и начинаем размечать ее на блоки - мышкой и в WYSYWIG. Отмечаем, где меню, где основной текст, где "запретные зоны" - исходя из этих данных программа знает примерную схему учета ссылок. В результате получается компромисс между первым и вторым методом... зато простой в использовании.

    Что интересно, эти три пути аналогичны трем разным подходам к использованию программ и технологий. Иначе говоря, любая технология должна реализовывать эти три подхода, будь то технология операционных систем, файл-менеджеров и т.д.

    Создатели сайтов, кстати, совсем не собираются облегчать жизнь тем, кто пользуется сайтокачалками. Вы видели на каких-то сайтах надпись "Сайт оптимизирован для скачивания Телепортом"? Я вот не видел...
    Кроме того, создатели сайтов все чаще делают сайты с динамическими страницами и хитрым ЧПУ (если до него руки доходят, в противном случае адрес страницы может быть совершенно невменяемым). Так что "три пути" пока остаются актуальной темой.

(a) Контент: Vadim Artamonov, 1999 - 2009 Anno Domini