[SP-pm] [OFF] - Dúvida Antiga

Daniel de Oliveira Mantovani daniel.oliveira.mantovani at gmail.com
Mon Mar 30 16:29:08 PDT 2015


2015-03-30 19:04 GMT-03:00 Marcio Ferreira <marciodesouzaferreira at gmail.com>
:

> Existem mesmo, vários métodos dentro de Cluster Analysis,se você quiser
>> definir os grupos manualmente para todos as notícias que forem escritas,
>> você pode usar Web Semantica.
>>
>
> (Estou respondendo porque essa dúvida pode ser a de muitos).
>
> Relacionar Web Semantica à trabalho manual, é como dizer que fazemos um
> Sistema Operacional do zero porque precisamos usar um *device*. Não
> criamos ontologias do zero, normalmente reaproveitamos as milhares de bases
> abertas que existem, exemplo é dbpedia e freebase.
>
> A customização vem do ponto do seu negócio, o que é absolutamente normal.
> Quando instalo minha distro, preciso instalar mais programas que utilizo e
> configurá-los, ou ainda quando instalo meu database preciso configura-lo,
> criar tabelas, inserir registros, etc. Você pode estar se confundindo um
> pouco porque o paradigma não é convencional, pensar em grafos não é
> convencional.
>


A *única coisa* que Semantic Web resolve, é o fato de inserir
metainformação para descrever atributo(s). Mas isso não resolve o problema
de *separar notícias pelo mesmo assunto*.  Semantic Web não pode resolver o
problema de agrupar notícias pelo mesmo assunto por causa da segunda lei da
termodinâmica, entropia. Chega a ser absurda a simples comparação entre
Cluster Analysis e Semantic Web, seria como comparar asteroides e shampoos
para caspa. Se você quiser saber o nome de todas as pessoas numa
determinada notícia, Semantic Web seria como uma luva.


Enquanto Cluster Analysis não precisa se preocupar com semântica das
palavras (porque não importa), além de um esforço extra de engenharia de
software e vai funcionar perfeitamente para *QUALQUER IDIOMA*.

1. What is Clustering?
A loose definition of clustering could be “the process of organizing
objects into groups
whose members are similar in some way”.
https://www.cs.duke.edu/courses/fall03/cps260/notes/lecture18.pdf

É a segunda vez que você fala de grafos como um pombo enxadrista. Só porque
uma solução FOO usa grafos, não significa que uma solução BAR que usa
grafos resolve o mesmo problema. Você não usa o Google Maps para indexar o
seu banco de dados, não é mesmo ? (Red-Black Tree e Google Maps, ambos usam
grafos)


> *Unsupervised learning* normalmente se emprega com uso de números, mas
> você consegue fazer de textos. Há muitos algoritmos e técnicas pra
> classificar texto, inclusive redes neurais.
>


Unsupervised learning machine não, não se emprega a "números normalmente"
(Seja lá o que isso signifique). Não existe relação nenhuma com o que você
está dizendo "normalmente se emprega com números, mas você consegue fazer
de textos". Em estatística os tipos das variáveis são discretas ou
continuas.


>
> Machine Learn é um campo extenso, cuidado com o martelo de Thor. Recomendo
> entender os diversos campos e aplicações antes de dar martela em tudo com
> unsupervised learning.
>


O termo não é martelo de Thor, é golden hammer
http://en.wikipedia.org/wiki/Law_of_the_instrument
Ninguém está falando em aplicar Cluster Analysis em tudo, e sim aplicar
nesse problema específico.


>
>
> Márcio,
>>
>> Você está certo. Existem vários métodos de agrupamento. A utilização de
>> cliques em grafos é apenas mais um exemplo.
>> A aplicação de cálculos de distância do cosseno, similaridades, entropia
>> da informação, entre outros métodos que utilizam as palavras (algumas
>> delas) do conteúdo de um documento são apenas mais alguns dos vários
>> exemplos de métodos existentes de agrupamento.
>>
>> Abs,
>>
>> 2015-03-30 15:09 GMT-03:00 Lucas Moraes <lucastiagodemoraes at gmail.com>:
>>
>>> Vale a pena ver de novo: "London-pm" ...
>>>
>>>
>>>
>>> =begin disclaimer
>>>    Sao Paulo Perl Mongers: http://sao-paulo.pm.org/
>>>  SaoPaulo-pm mailing list: SaoPaulo-pm at pm.org
>>>  L<http://mail.pm.org/mailman/listinfo/saopaulo-pm>
>>> =end disclaimer
>>>
>>>
>>
>>
>> --
>> Wesley Seidel Carvalho
>> 11-9-8169-1163
>> www.ime.usp.br/~wesleys
>> www.ltasks.com <http://ltasks.com/>
>> @wseidel
>>
>>
>> =begin disclaimer
>>    Sao Paulo Perl Mongers: http://sao-paulo.pm.org/
>>  SaoPaulo-pm mailing list: SaoPaulo-pm at pm.org
>>  L<http://mail.pm.org/mailman/listinfo/saopaulo-pm>
>> =end disclaimer
>>
>>
>
>
> --
>
> -dom
>
> --
>
> Daniel de Oliveira Mantovani
> Business Analytic Specialist
> Perl Evangelist /Astrophysics hobbyist.
> +55 11 9 8538-9897
> XOXO
>
>>
>> =begin disclaimer
>>    Sao Paulo Perl Mongers: http://sao-paulo.pm.org/
>>  SaoPaulo-pm mailing list: SaoPaulo-pm at pm.org
>>  L<http://mail.pm.org/mailman/listinfo/saopaulo-pm>
>> =end disclaimer
>>
>>
>
> =begin disclaimer
>    Sao Paulo Perl Mongers: http://sao-paulo.pm.org/
>  SaoPaulo-pm mailing list: SaoPaulo-pm at pm.org
>  L<http://mail.pm.org/mailman/listinfo/saopaulo-pm>
> =end disclaimer
>
>


-- 

-dom

--

Daniel de Oliveira Mantovani
Business Analytic Specialist
Perl Evangelist /Astrophysics hobbyist.
+55 11 9 8538-9897
XOXO
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://mail.pm.org/pipermail/saopaulo-pm/attachments/20150330/24129535/attachment-0001.html>


More information about the SaoPaulo-pm mailing list