ArtReal's readme
personal unreality:  точка пушистости

Thread: autoclassify


Автоматическая классификация (2)

28.06.05 14:13 ◇ keywords: технологии, soft

В каких случаях АК может быть вполне приемлемой штукой?
Навскидку вот как:

  • в агрегаторах (тематическое распределение и простановка КС в собственном, а не источника, пространстве КС),
  • при использовании секретарши в качестве инструмента публикации на сайте (в том числе — внутрикорпоративном),
  • в почтовом клиенте для выборки «кластера» писем (кстати, а почему почтовые клиенты выполняют, в основном, транспортные функции и не содержат развитых средств работы с информацией и функций информационного центра?),
  • где-то еще.

Bonus track: Classifier4J, Ruby Classifier
Только разбирайтесь с этим сами — я ни java, ни ruby не знаю.

 [ link ] [ thread ]

Автоматическая классификация

25.06.05 15:17 ◇ keywords: system synthesis, технологии

Раз уж руки не доходят попробовать АК на натуре, то попробую умно порассуждать.

Так вот, АК — это способ выцеплять ключевые слова (КС) прямо из текста (заметки или статьи). Выцепленные слова морфологически нормализуются и предлагаются пользователю «на утверждение». При необходимости пользователь может отредактировать эти КС.

Есть две основные стратегии работы АК:
а) исключающая. Стратегия предусматривает фильтрацию и отбрасывание «незначащих и/или несущественных» слов. «Сухой остаток» — это и есть искомые КС.
Плюсы: позволяет выцепить даже те КС, которые раньше не встречались
Минусы: непонятно, как в общем случае определять малоценность слова
б) включающая. Стратегия, обратная предыдущей: из текста выцепляются «знакомые» слова, из которых и формируется список КС.
Плюсы: объем базы знаний меньше, чем в варианте «а»; автоматический учет синонимов
Минусы: не способен опознать КС, которое раньше не встречалось; сложнее в настройке и сопровождении

Следующий шаг — урезание списка КС. Ну зачем вам нужны все 10–20 (или больше) КС?
Поэтому КС рейтингуются (по весу/важности) и оставляются наиболее ценные, остальные — отбрасываются.

 [ link ] [ thread ]    comments : 6

Thread: autoclassify