[Dresden-pm] perl

Toni Stadler Toni.Stadler at mailbox.tu-dresden.de
Mi Mär 18 15:17:42 PDT 2015


Danke für die Antwort!
Das stimmt, bei 4.000 Texten ist das eine ziemlich komplexe Aufgabe.  
Vielleicht war ich da etwas zu optimistisch. Es würde zunächst auch  
ausreichen, wenn ich mir ein einziges Medikament (bzw.  
Mischkonsum-Kombination) auswähle und die dazugehörigen Texte auswerte.

Alternativ wäre es auch möglich zu schauen wie oft ein bestimmtes Wort  
pro Substanz auftaucht. Zum Beispiel: Wie oft taucht das Wort "bunt"  
in Berichten über LSD (die Texte beinhalten auch  
Drogenerfahrungsberichte) auf und wie oft in Berichten über eine  
beliebige andere Substanz.

Das Ganze ist für eine Arbeit für die Uni. Es geht weniger um das  
Endergebnis als um das Programmieren und die Verarbeitung von Texten  
selbst.  Das heißt, solange ich am Ende ein ausführbares Script habe,  
das die gegebenen Texte entsprechend verarbeitet, ist das völlig  
ausreichend.

Ich habe übrigens das Ganze nochmal als Textdatei (.txt) bekommen, in  
der alle 4.000 Einzeltexte in einer einzigen Datei untereinander  
stehen. So wäre es also nicht nötig mit .xml zu arbeiten.

Liebe Grüße

Zitat von ddpm at liscovius.de:

> Am 18.03.2015 19:39, schrieb Toni Stadler:
>> Medikament auflistet. Wenn es also z.B. 38 Texte über den Mischkonsum
>> von Aspirin und Alkohol gibt, dann sollte die Funktion jeden dieser
>> Texte nacheinander durchgehen und mir eine Liste mit den am häufigsten
>> gebrauchten Wörtern ausgeben, etwa so:
>> 27x "übel"
>> 19x "schlecht"
>> 16x "schwindelig" usw.
>
> Und wenn jemand schreibt:
> <drug>Koffein und Alkohol</drug>
> <text>Also ClubMate-Wodka ist garni ma so übel. Mir ist überhaupt ni  
> schlecht gewordn und hab die Weiber schwindlig getanzt.</text>
>
> Klingt für mich nach einer recht komplexen Aufgabe die maschinelles  
> Sprachverständnis benötigt. Was soll denn rauskommen und für wen?
>
> _______________________________________________
> Dresden-pm mailing list
> Dresden-pm at pm.org
> http://mail.pm.org/mailman/listinfo/dresden-pm





Mehr Informationen über die Mailingliste Dresden-pm