[Dresden-pm] perl
Toni Stadler
Toni.Stadler at mailbox.tu-dresden.de
Mi Mär 18 11:39:07 PDT 2015
Hallo! Vielleicht kann mir jemand von euch mit meinem Perl-Projekt
helfen. Es geht um die Wirkung von Medikamenten bzw. die Effekte bei
Mischkonsum von verschiedenen Medikamenten.
Zunächst brauche ich erstmal eine Funktion, die eine Sammlung von
Einzeltexten öffnet. In diesen Texten wird die Wirkung der Substanzen
von Endverbrauchern beschrieben. Ziel ist es herauszufinden, ob in den
Beschreibungen bestimmter Medikamente einige Wörter besonders häufig
auftreten. Diese Texte sind im xml-Format und befinden sich in einem
Unterordner in Dokumente -> Texte_alles -> xml_raw.
Zu Beginn jedes dieser Einzeltexte gibt es eine Kopfzeile in der steht
um welche(s) Medikament(e) es sich jeweils in dem Text handelt. Das
sieht in jedem Einzeltext etwa so aus:
<drug>Aspirin</drug> oder
<drug>Mischkonsum von Aspirin und Alkohol</drug>
Um herauszufinden welche Wörter häufig in der Beschreibung zu
bestimmten Medikamenten benutzt werden, brauche ich eine Funktion, die
alle 4.000 Einzeltexte nach Medikamenten sortiert und dann die
absolute Häufigkeit jedes Wortes in allen Texten zu genau diesem
Medikament auflistet. Wenn es also z.B. 38 Texte über den Mischkonsum
von Aspirin und Alkohol gibt, dann sollte die Funktion jeden dieser
Texte nacheinander durchgehen und mir eine Liste mit den am häufigsten
gebrauchten Wörtern ausgeben, etwa so:
27x "übel"
19x "schlecht"
16x "schwindelig" usw.
Natürlich werden auch Wörter wie "und" oder "der" usw. ausgegeben,
aber die Analyse wird dann später "per Hand" gemacht.
Ich hoffe ich habe das verständlich ausgedrückt. Ich würde mich riesig
freuen wenn mir jemand damit helfen kann, zumindest ein paar
Denkanstößen.
Danke im Vorraus
Toni
Mehr Informationen über die Mailingliste Dresden-pm