VirtFS
07.06.05 09:50 ◇ keywords: soft, технологииСовременный уровень развития RTS и виртуализации позволяет считать файлом что угодно (независимо от того, где это физически расположено и как хранится), если:
- это упорядоченный набор байтов ограниченной длины
- к нему применимы «стандартные» файловые операции open, read, write, pos, close, delete/truncate
- прозрачно монтируется к локальной FS
MD5 customize
11.06.05 15:05 ◇ keywords: soft, технологии, bugsПрактические применения коллизий в md5.Борьба с коллизиями на «бытовом уровне» базируется на том, что считается не один хеш, а пара.[ >>> ]
В пример приводятся два абсолютно разных postscript документа, с одинаковым md5 хэшем.[ >>> ]
В простейшем случае, первый хеш считаем от всего текста i=hash(text), а второй от половины j=hash(subtext). У полученной пары (i,j) вероятность коллизий много меньше.
Но лучше для подсчета j брать другую
Sitemap как идея хинтов
13.06.05 15:45 ◇ keywords: web, технологииС введением в строй гугловского sitemap вопрос хинтов для поисковых систем все равно остается актуальным.
Понятно, что контент обновляемого сайта можно поделить на две категории:
а) Динамическая. Это новые и часто обновляемые страницы. Необходимость быстрой индексации: высокая
б) Статическая. Фактически это архив сайта. Изменяется редко, за исключением индексов. Необходимость быстрой индексации: низкая.
Третью категорию («левый контент»), формально не входящую в стостав сайта, рассматривать не будем.
Что предлгает Гугль? Он предлагает выложить список всех страниц сайта с указанием last modified и частоты изменения (для каждого url). Что с этим списком собирается делать Гугль не совсем понятно (в документации это не описано).
Предположительно, Гугль начнет сверять sitemap со своим списком страниц. «Новые» страницы, отсутствующие в гугловском списке, пойдут в очередь на индексацию. «Старые» страницы сравниваются по last modified и, при необходимости, пойдут на реиндексацию.
Все это, конечно, хорошо… но!
Поэтому, на мой взгляд, было бы логичней не смешивать все в один котелок, а отделить мух от котлет и учитывать каждую категорию отдельно. Динамическую часть получать из «облегченного» rss, а статическую из списка разделов (тот же sitemap, но не по отдельным url, а по разделам). А для каждого раздела еще можно указать, какие страницы индексировать в первую очередь, а какие вообще нежелательно (например, «версия для печати»).
Масштабирование
14.06.05 15:47 ◇ keywords: технологии, fictionИнтересным примером масштабирования в зависимости от объемов задачи является рыба пирана. На практике стая пиран за ограниченное время способна освоить еду на несколько порядков превышающую возможности одной пираны.
В
update: если один муравей способен утащить «груз», в несколько раз превышающий его собственный вес, то сколько муравьев потребуется, чтобы утащить слона?
Метаразметка
21.06.05 08:43 ◇ keywords: system synthesis, xblog, технологии«Это не „непонятный символ“, а тензор форматирования второго уровня»
А не поговорить ли нам о метаразметке? Потому как на небольших текстах нет разницы, какой разметкой вы пользуетесь html или wiki, особенно при quick insert («выделил вставил») и по этому поводу копья можно не ломать.
Так вот, в отличие от «обычной» разметки, метаразметка базируется на том, что контент полностью отделен (в идеале) от визуального представления.
Т.е. производится разметка структурными блоками/элементами, причем прямого соответствия с
Понятно, что переходить на метаразметку это хорошая мысль: записи из блога при этом можно перенести куда угодно и в любом виде
Поскольку речь идет о разметке записей в блогах, то XML как строгий, инертный и неудобный вариант метаразметки рассматривать не будем.
Более привлекателен вариант, когда запись считается «документом, встраиваемым в среду», а развертывание в html производится средствами самой среды. Стратегия разметки записи при этом напоминает тюнинг, подстройку рельефа записи т.е. выделение структурных единиц из plain text.
Следующий момент это синтаксис. Он (сюрприз!) не обязан быть парным. Зато разметка обязана быть однозначной и в этом смысле теговая разметка безопаснее разметки спецсимволами, но менее прозрачна.
Автоматическая классификация
25.06.05 15:17 ◇ keywords: system synthesis, технологииРаз уж руки не доходят попробовать АК на натуре, то попробую умно порассуждать.
Так вот, АК это способ выцеплять ключевые слова (КС) прямо из текста (заметки или статьи). Выцепленные слова морфологически нормализуются и предлагаются пользователю «на утверждение». При необходимости пользователь может отредактировать эти КС.
Есть две основные стратегии работы АК:
а) исключающая. Стратегия предусматривает фильтрацию и отбрасывание «незначащих и/или несущественных» слов. «Сухой остаток» это и есть искомые КС.
Плюсы: позволяет выцепить даже те КС, которые раньше не встречались
Минусы: непонятно, как в общем случае определять малоценность слова
б) включающая. Стратегия, обратная предыдущей: из текста выцепляются «знакомые» слова, из которых и формируется список КС.
Плюсы: объем базы знаний меньше, чем в варианте «а»; автоматический учет синонимов
Минусы: не способен опознать КС, которое раньше не встречалось; сложнее в настройке и сопровождении
Следующий шаг урезание списка КС. Ну зачем вам нужны все 1020 (или больше) КС?
Поэтому КС рейтингуются (по весу/важности) и оставляются наиболее ценные, остальные отбрасываются.
Идеальный агрегатор
26.06.05 13:52 ◇ keywords: виртуальные диалоги, технологии«Это был необычайно умный и прожорливый зверек»
Никс, а что это за «вывернутая шкурка идеального агрегатора», о котором ты вчера трепалась с Джи?
Ммм… в двух словах этого не объяснить.
Ничего, я удобно устроилась и никуда не тороплюсь.
Вот негодяйка! Ладно, слушай. Исходная предпосылка такая: идеальный агрегатор (в классическом понимании) получается мифическим. Потому как на вкус и предпочтение… а попробуй учти всех их в одной программе. Разработчики, конечно, пытаются учесть «все» и нарастить «функциональную мощь», но… попытка идти экстенсивным путем это примерно как «если требуется повысить удои, то начинаем разводить кур».
А раз гибкость и эффективность немаловажный для нас фактор, то тут мы подходим к следующей предпосылке: почему бы нам не зайти с другой стороны со стороны пользователя и его предпочтений? И тогда речь пойдет об идеальном поведении агрегатора. А оно зависит не от того, как и что может показать агрегатор, а от того, в каком виде и под каким соусом пользователь хочет читать свои любимые фиды. И тут у нас есть два варианта. Первый: агрегатор распределяет записи по тематике, и оставляет все остальное на усмотрение пользователя. Второй базируется на том, как пользователь предпочитает работать с информацией. Мне, к примеру, удобно читать новые записи лентой, разбитой по порциям. И от агрегатора требуется не только упорядочить записи по тематике, но и сформировать ленту, с учетом того, какую тематику я хочу читать первой, а какую оставить на сладкое.
А если сегодня ты захочешь одно, а завтра другое?
А для этого есть система профилей или
Иначе говоря, ты хочешь навязать агрегатору свои правила игры. А идеальное поведение это когда он принимает их?
В точку! Агрегатор должен предоставлять столько возможностей, сколько мне нужно и в том разрезе, как мне удобно. И не должен навязывать мне правила, как мне читать. Его задача поддерживать мой темп и стиль работы с информацией. Как сказала Джи, «эвристики программы заканчиваются там, где начинаются эвристики пользователя». А моя задача объяснить свои эвристики программе: что и как подавать мне в горшочке, а что в тарелочке с синей каемочкой.
Ты так хорошо расписала… знаешь, а мне тоже нужен такой нежный и заботливый зверек.
Автоматическая классификация (2)
28.06.05 14:13 ◇ keywords: технологии, softВ каких случаях АК может быть вполне приемлемой штукой?
Навскидку вот как:
- в агрегаторах (тематическое распределение и простановка КС в собственном, а не источника, пространстве КС),
- при использовании секретарши в качестве инструмента публикации на сайте (в том числе внутрикорпоративном),
- в почтовом клиенте для выборки «кластера» писем (кстати, а почему почтовые клиенты выполняют, в основном, транспортные функции и не содержат развитых средств работы с информацией и функций информационного центра?),
- …
где-то еще.
Bonus track: Classifier4J, Ruby Classifier
Только разбирайтесь с этим сами я ни java, ни ruby не знаю.
rss 3.0
09.07.05 14:18 ◇ keywords: rss, технологииРешил поискать, что известно «Уважаемому Интернету» о rss 3.0. Выяснилось, что проект такой штуки действительно существует (пример фида), но…
Впрочем, у меня вот какой вопрос. Если я хочу воткнуть собственные теги в rss 2.0 каким образом это делается? Поднять собственный namespace или
Интерес пока чисто теоретический.
Identity и восприятие
11.07.05 08:48 ◇ keywords: virtual, социальные технологии, философскоеЛюдям свойственно путать real identiny с virtual identity. Virtual
Кроме того, многие изначально делают ошибку: переносят свои привычки и стереотипы из реальной реальности в виртуальную. А потом удивляются диссонансу…