[Dresden-pm] perl

Mi Mär 18 11:39:07 PDT 2015

Hallo! Vielleicht kann mir jemand von euch mit meinem Perl-Projekt  
helfen. Es geht um die Wirkung von Medikamenten bzw. die Effekte bei  
Mischkonsum von verschiedenen Medikamenten.

Zunächst brauche ich erstmal eine Funktion, die eine Sammlung von  
Einzeltexten öffnet. In diesen Texten wird die Wirkung der Substanzen  
von Endverbrauchern beschrieben. Ziel ist es herauszufinden, ob in den  
Beschreibungen bestimmter Medikamente einige Wörter besonders häufig  
auftreten. Diese Texte sind im xml-Format und befinden sich in einem  
Unterordner in Dokumente -> Texte_alles -> xml_raw.

Zu Beginn jedes dieser Einzeltexte gibt es eine Kopfzeile in der steht  
um welche(s) Medikament(e) es sich jeweils in dem Text handelt. Das  
sieht in jedem Einzeltext etwa so aus:
<drug>Aspirin</drug> oder
<drug>Mischkonsum von Aspirin und Alkohol</drug>

Um herauszufinden welche Wörter häufig in der Beschreibung zu  
bestimmten Medikamenten benutzt werden, brauche ich eine Funktion, die  
alle 4.000 Einzeltexte nach Medikamenten sortiert und dann die  
absolute Häufigkeit jedes Wortes in allen Texten zu genau diesem  
Medikament auflistet. Wenn es also z.B. 38 Texte über den Mischkonsum  
von Aspirin und Alkohol gibt, dann sollte die Funktion jeden dieser  
Texte nacheinander durchgehen und mir eine Liste mit den am häufigsten  
gebrauchten Wörtern ausgeben, etwa so:
27x "übel"
19x "schlecht"
16x "schwindelig" usw.

Natürlich werden auch Wörter wie "und" oder "der" usw. ausgegeben,  
aber die Analyse wird dann später "per Hand" gemacht.

Ich hoffe ich habe das verständlich ausgedrückt. Ich würde mich riesig  
freuen wenn mir jemand damit helfen kann, zumindest ein paar  
Denkanstößen.
Danke im Vorraus
Toni