[Moscow.pm] Корпус слов

Сб Янв 24 04:16:21 PST 2009

Здравствуйте.

А  что такое корпус? Это список из слов и их частот? Или там ещё связи
между словами есть?

Что можно с корпусом делать в теории?

Мне  видится,  что  можно  как-то  посчитать близость текста и корпуса
слов. Вот только как правильно это сделать?

Можно,  наверное, взять совпадающие слова и в многомерном пространстве
из  них  посчитать  угол между многомерным вектором корпуса и вектором
текста.   Слово   -  это  измерение.  Частота  слова  -  это  значение
координаты,  отложенное  в  этом  измерении.  Так  правильно  близость
текстов   считать?   Нужно   ли  слова  предварительно  через  стеммер
пропускать? Или вместо слов лучше шинглы использовать?

Можно   ли   на   коллекции   разных  текстов  сделать  автоматическое
тематическое разбиение этих текстов, заранее не зная о чём они? Скажем
нужно  разбить  коллекцию  на  100  тематических групп. Как эти группы
выделить?

P.S.
Посоветуйте  хороший  бесплатный  стеммер,  который  бы  справлялся  с
неизвестными ему словами русского и английского языков.

VS> Мысль сделать автоматическую добавлялку фидов.

VS> Также есть Мысля, что мы таки сделаем language detection.

VS> Киньте ссылок на блоги, там где про перл на разных языках, мне нужен
VS> корпус языков для самообучения,
VS> Сдаётся мне, что десяток языков я выделить смогу.

--

С уважением,
Михаил Монашёв, SoftSearch.ru
mailto:postmaster на softsearch.ru
ICQ# 166233339
http://michael.mindmix.ru/
Без бэкапа по жизни.