ArtReal's readme
personal unreality:  точка пушистости

Автоматическая классификация

25.06.05 15:17 ◇ keywords: system synthesis, технологии

Раз уж руки не доходят попробовать АК на натуре, то попробую умно порассуждать.

Так вот, АК — это способ выцеплять ключевые слова (КС) прямо из текста (заметки или статьи). Выцепленные слова морфологически нормализуются и предлагаются пользователю «на утверждение». При необходимости пользователь может отредактировать эти КС.

Есть две основные стратегии работы АК:
а) исключающая. Стратегия предусматривает фильтрацию и отбрасывание «незначащих и/или несущественных» слов. «Сухой остаток» — это и есть искомые КС.
Плюсы: позволяет выцепить даже те КС, которые раньше не встречались
Минусы: непонятно, как в общем случае определять малоценность слова
б) включающая. Стратегия, обратная предыдущей: из текста выцепляются «знакомые» слова, из которых и формируется список КС.
Плюсы: объем базы знаний меньше, чем в варианте «а»; автоматический учет синонимов
Минусы: не способен опознать КС, которое раньше не встречалось; сложнее в настройке и сопровождении

Следующий шаг — урезание списка КС. Ну зачем вам нужны все 10–20 (или больше) КС?
Поэтому КС рейтингуются (по весу/важности) и оставляются наиболее ценные, остальные — отбрасываются.

 [ link ] [ thread ]    comments : 6