[Moscow.pm] Корпус слов
Dmitry Arsentiev
dmarsentev на gmail.com
Вс Янв 25 07:36:32 PST 2009
> На "Озоне" есть несколько книжек по лингвистике и текстологии, дешевые но
> полезные.
> Потратьте пару недель - очень увлекательно. :о)
Дмитрий, а вы бы не могли конкретно какие-то книжки посоветовать?
PS Очень информативное письмо от Юрия Заварина, большое Юрию спасибо,
так интересно было читать!
25 января 2009 г. 10:58 пользователь Dmitry Eremeev <dmitry на eremeev.ru> написал:
> На "Озоне" есть несколько книжек по лингвистике и текстологии, дешевые но
> полезные.
> Потратьте пару недель - очень увлекательно. :о)
>
>
>
> 24.01.2009, в 16:16, Михаил Монашёв написал(а):
>
>> Здравствуйте.
>>
>> А что такое корпус? Это список из слов и их частот? Или там ещё связи
>> между словами есть?
>>
>> Что можно с корпусом делать в теории?
>>
>> Мне видится, что можно как-то посчитать близость текста и корпуса
>> слов. Вот только как правильно это сделать?
>>
>> Можно, наверное, взять совпадающие слова и в многомерном пространстве
>> из них посчитать угол между многомерным вектором корпуса и вектором
>> текста. Слово - это измерение. Частота слова - это значение
>> координаты, отложенное в этом измерении. Так правильно близость
>> текстов считать? Нужно ли слова предварительно через стеммер
>> пропускать? Или вместо слов лучше шинглы использовать?
>>
>> Можно ли на коллекции разных текстов сделать автоматическое
>> тематическое разбиение этих текстов, заранее не зная о чём они? Скажем
>> нужно разбить коллекцию на 100 тематических групп. Как эти группы
>> выделить?
>>
>> P.S.
>> Посоветуйте хороший бесплатный стеммер, который бы справлялся с
>> неизвестными ему словами русского и английского языков.
>>
>> VS> Мысль сделать автоматическую добавлялку фидов.
>>
>> VS> Также есть Мысля, что мы таки сделаем language detection.
>>
>> VS> Киньте ссылок на блоги, там где про перл на разных языках, мне нужен
>> VS> корпус языков для самообучения,
>> VS> Сдаётся мне, что десяток языков я выделить смогу.
>>
>> --
>>
>> С уважением,
>> Михаил Монашёв, SoftSearch.ru
>> mailto:postmaster на softsearch.ru
>> ICQ# 166233339
>> http://michael.mindmix.ru/
>> Без бэкапа по жизни.
>>
>> --
>> Moscow.pm mailing list
>> moscow-pm на pm.org | http://moscow.pm.org
>
> --
> Moscow.pm mailing list
> moscow-pm на pm.org | http://moscow.pm.org
>
Подробная информация о списке рассылки Moscow-pm