[Moscow.pm] Корпус слов

Dmitry Arsentiev dmarsentev на gmail.com
Вс Янв 25 07:36:32 PST 2009


> На "Озоне" есть несколько книжек по лингвистике и текстологии, дешевые но
> полезные.
> Потратьте пару недель - очень увлекательно. :о)
Дмитрий, а вы бы не могли конкретно какие-то книжки посоветовать?

PS Очень информативное письмо от Юрия Заварина, большое Юрию спасибо,
так интересно было читать!

25 января 2009 г. 10:58 пользователь Dmitry Eremeev <dmitry на eremeev.ru> написал:
> На "Озоне" есть несколько книжек по лингвистике и текстологии, дешевые но
> полезные.
> Потратьте пару недель - очень увлекательно. :о)
>
>
>
> 24.01.2009, в 16:16, Михаил Монашёв написал(а):
>
>> Здравствуйте.
>>
>> А  что такое корпус? Это список из слов и их частот? Или там ещё связи
>> между словами есть?
>>
>> Что можно с корпусом делать в теории?
>>
>> Мне  видится,  что  можно  как-то  посчитать близость текста и корпуса
>> слов. Вот только как правильно это сделать?
>>
>> Можно,  наверное, взять совпадающие слова и в многомерном пространстве
>> из  них  посчитать  угол между многомерным вектором корпуса и вектором
>> текста.   Слово   -  это  измерение.  Частота  слова  -  это  значение
>> координаты,  отложенное  в  этом  измерении.  Так  правильно  близость
>> текстов   считать?   Нужно   ли  слова  предварительно  через  стеммер
>> пропускать? Или вместо слов лучше шинглы использовать?
>>
>> Можно   ли   на   коллекции   разных  текстов  сделать  автоматическое
>> тематическое разбиение этих текстов, заранее не зная о чём они? Скажем
>> нужно  разбить  коллекцию  на  100  тематических групп. Как эти группы
>> выделить?
>>
>> P.S.
>> Посоветуйте  хороший  бесплатный  стеммер,  который  бы  справлялся  с
>> неизвестными ему словами русского и английского языков.
>>
>> VS> Мысль сделать автоматическую добавлялку фидов.
>>
>> VS> Также есть Мысля, что мы таки сделаем language detection.
>>
>> VS> Киньте ссылок на блоги, там где про перл на разных языках, мне нужен
>> VS> корпус языков для самообучения,
>> VS> Сдаётся мне, что десяток языков я выделить смогу.
>>
>> --
>>
>> С уважением,
>> Михаил Монашёв, SoftSearch.ru
>> mailto:postmaster на softsearch.ru
>> ICQ# 166233339
>> http://michael.mindmix.ru/
>> Без бэкапа по жизни.
>>
>> --
>> Moscow.pm mailing list
>> moscow-pm на pm.org | http://moscow.pm.org
>
> --
> Moscow.pm mailing list
> moscow-pm на pm.org | http://moscow.pm.org
>


Подробная информация о списке рассылки Moscow-pm