Thread: autoclassify
Автоматическая классификация (2)
28.06.05 14:13 ◇ keywords: технологии, softВ каких случаях АК может быть вполне приемлемой штукой?
Навскидку вот как:
- в агрегаторах (тематическое распределение и простановка КС в собственном, а не источника, пространстве КС),
- при использовании секретарши в качестве инструмента публикации на сайте (в том числе внутрикорпоративном),
- в почтовом клиенте для выборки «кластера» писем (кстати, а почему почтовые клиенты выполняют, в основном, транспортные функции и не содержат развитых средств работы с информацией и функций информационного центра?),
- …
где-то еще.
Bonus track: Classifier4J, Ruby Classifier
Только разбирайтесь с этим сами я ни java, ни ruby не знаю.
Автоматическая классификация
25.06.05 15:17 ◇ keywords: system synthesis, технологииРаз уж руки не доходят попробовать АК на натуре, то попробую умно порассуждать.
Так вот, АК это способ выцеплять ключевые слова (КС) прямо из текста (заметки или статьи). Выцепленные слова морфологически нормализуются и предлагаются пользователю «на утверждение». При необходимости пользователь может отредактировать эти КС.
Есть две основные стратегии работы АК:
а) исключающая. Стратегия предусматривает фильтрацию и отбрасывание «незначащих и/или несущественных» слов. «Сухой остаток» это и есть искомые КС.
Плюсы: позволяет выцепить даже те КС, которые раньше не встречались
Минусы: непонятно, как в общем случае определять малоценность слова
б) включающая. Стратегия, обратная предыдущей: из текста выцепляются «знакомые» слова, из которых и формируется список КС.
Плюсы: объем базы знаний меньше, чем в варианте «а»; автоматический учет синонимов
Минусы: не способен опознать КС, которое раньше не встречалось; сложнее в настройке и сопровождении
Следующий шаг урезание списка КС. Ну зачем вам нужны все 1020 (или больше) КС?
Поэтому КС рейтингуются (по весу/важности) и оставляются наиболее ценные, остальные отбрасываются.