Description:
Aus der Verfügbarkeit großer Textkorpora ergeben sich für die maschinelle Sprachverarbeitung und für die Lexikographie neue Perspektiven. In dieser Arbeit werden Möglichkeiten aufgezeigt, mittels statistischer Verfahren zu verläßlichen Aussagen über mehrgliedrige lexikalische Einheiten auf Grund ihres wiederholten Auftretens in Textkorpora zu gelangen. Verschiedene statistische Verfahren werden beschrieben und deren Güte bewertet. Anhand dreier Fallstudien werden anschließend - am Beispiel von Korpora der deutschen Sprache - die Möglichkeiten und Grenzen der automatischen Akquisition komplexer lexikalischer Einheiten gezeigt.
The availability of extensive text corpora opens up new vistas for computer language processing and lexicography. This study points up ways of using statistic procedures to arrive at reliable statements on complex lexical units on the basis of their recurrent incidence in text corpora. Various statistic approaches are discussed and their quality compared. Finally, three case studies (taken from German-language corpora) are presented to demonstrate the potentialities and limitations displayed by machine acquisition of complex lexical units.