[Moscow.pm] Корпус слов

Dmitry Eremeev dmitry на eremeev.ru
Сб Янв 24 23:58:33 PST 2009


На "Озоне" есть несколько книжек по лингвистике и текстологии, дешевые  
но полезные.
Потратьте пару недель - очень увлекательно. :о)



24.01.2009, в 16:16, Михаил Монашёв написал(а):

> Здравствуйте.
>
> А  что такое корпус? Это список из слов и их частот? Или там ещё связи
> между словами есть?
>
> Что можно с корпусом делать в теории?
>
> Мне  видится,  что  можно  как-то  посчитать близость текста и корпуса
> слов. Вот только как правильно это сделать?
>
> Можно,  наверное, взять совпадающие слова и в многомерном пространстве
> из  них  посчитать  угол между многомерным вектором корпуса и вектором
> текста.   Слово   -  это  измерение.  Частота  слова  -  это  значение
> координаты,  отложенное  в  этом  измерении.  Так  правильно  близость
> текстов   считать?   Нужно   ли  слова  предварительно  через  стеммер
> пропускать? Или вместо слов лучше шинглы использовать?
>
> Можно   ли   на   коллекции   разных  текстов  сделать  автоматическое
> тематическое разбиение этих текстов, заранее не зная о чём они? Скажем
> нужно  разбить  коллекцию  на  100  тематических групп. Как эти группы
> выделить?
>
> P.S.
> Посоветуйте  хороший  бесплатный  стеммер,  который  бы  справлялся  с
> неизвестными ему словами русского и английского языков.
>
> VS> Мысль сделать автоматическую добавлялку фидов.
>
> VS> Также есть Мысля, что мы таки сделаем language detection.
>
> VS> Киньте ссылок на блоги, там где про перл на разных языках, мне  
> нужен
> VS> корпус языков для самообучения,
> VS> Сдаётся мне, что десяток языков я выделить смогу.
>
> --
>
> С уважением,
> Михаил Монашёв, SoftSearch.ru
> mailto:postmaster на softsearch.ru
> ICQ# 166233339
> http://michael.mindmix.ru/
> Без бэкапа по жизни.
>
> --
> Moscow.pm mailing list
> moscow-pm на pm.org | http://moscow.pm.org



Подробная информация о списке рассылки Moscow-pm