Computerlinguistische Methoden für die Digital Humanities - Melanie Andresen

Computerlinguistische Methoden für die Digital Humanities (eBook)

Eine Einführung für Geisteswissenschaftler:innen

Melanie Andresen (Autor)

eBook Download: EPUB

2024 | 1. Auflage
240 Seiten
Narr Francke Attempto (Verlag)
978-3-8233-0505-7 (ISBN)

Computerlinguistische Methoden durchdringen unseren Alltag, etwa in Form von Suchmaschinen und Chatbots. Aber auch für die geisteswissenschaftliche Textanalyse bieten sie große Potenziale, die unter anderem in den Digital Humanities erschlossen werden. Der Band bietet eine niedrigschwellige Einführung in die Computerlinguistik für Geisteswissenschaftler:innen, ohne Erfahrungen mit Mathematik oder Programmieren vorauszusetzen. Es wird gezeigt, wie distributionelle Semantik, Sentimentanalyse, Named Entity Recognition, manuelle Annotation, maschinelles Lernen und Co. neue Zugänge zu Texten eröffnen und wie diese Methoden gewinnbringend für geisteswissenschaftliche Fragestellungen eingesetzt werden können. Alle Kapitel werden von Übungen und einem digitalen Anhang mit Musterlösungen und Beispielskripten in Python begleitet. Vom theoretischen Fundament bis zu den Werkzeugen für die praktische Umsetzung vermittelt der Band alle Grundlagen für den Einstieg in dieses spannende interdisziplinäre Forschungsfeld.

Dr. Melanie Andresen hat über neun Jahre an den Universitäten Hamburg und Stuttgart in der Linguistik, Computerlinguistik und den Digital Humanities gelehrt und geforscht. Seit 2024 arbeitet sie bei DeepL an der Verbesserung maschineller Übersetzung.

2.4 Der Wortschatz von Korpora

Die Frequenzen von Wörtern und die Verteilung dieser Frequenzen in Korpora folgen einer Reihe von Mustern, die für die Arbeit mit Korpora immer wieder von Bedeutung sind und die wir hier betrachten werden.

Welche Wörter würden wir erwarten, wenn wir die häufigsten Wörter im Foodblogkorpus betrachten? Tabelle 1 zeigt die Lösung: In der Mehrzahl handelt es sich um sog. Funktionswörter, also Artikel, Konjunktionen, Präpositionen und Pronomen. Diese Wörter verraten uns zunächst nichts oder wenig über den Inhalt des Korpus und sind auch für jedes Korpus des Deutschen ungefähr gleich. Das einzige Wort, das einen Hinweis auf die Textsorte gibt, ist g (wie in 500 g Mehl) als häufige Mengenangabe für Zutaten. Die hohe Frequenz von ich kann zusätzlich als Hinweis auf eine Textsorte interpretiert werden, in der Menschen von ihren eigenen Erfahrungen berichten.

Rang

Types

Frequenz

und

2730

die

1546

mit

1211

1108

der

1065

749

den

740

ich

683

das

636

auf

620

Die 10 häufigsten Types im Foodblogkorpus

Wenn wir die Frequenz aller Wörter im Korpus ermitteln, sortieren und grafisch darstellen, ergibt sich für jedes Korpus eine Verteilung wie in Abbildung 1. Jedes Korpus hat somit eine sehr kleine Anzahl von Wörtern, die extrem häufig sind (linker Rand). Von Rang zu Rang nimmt die Frequenz aber sehr schnell ab. Außerdem hat jedes Korpus extrem viele Wörter, die nur sehr selten oder sogar nur ein einziges Mal vorkommen (rechter Rand in Abbildung 1). Dieser Zusammenhang wird als das Zipf’sche Gesetz bezeichnet. Formaler ausgedrückt besagt das Gesetz:

Die Frequenz eines Wortes ist umgekehrt proportional zu seinem Rang in der sortierten Wortliste. Das heißt: Wenn die Frequenz eines Wortes W1 k-mal so groß ist wie die eines Wortes W2, dann ist der Rang von W2 ungefähr k-mal so groß wie der von W1. (Perkuhn, Keibel & Kupietz 2012: 84; ursprünglich Zipf 1949)

Die Werte in Tabelle 1 zeigen, dass das zumindest annähernd der Fall ist: die hat einen doppelt so hohen Rangplatz wie und, dem Gesetz nach müsste die Frequenz von und also doppelt so hoch sein wie die von die. Tatsächlich liegt die Frequenz 1,77-mal so hoch (2730/1546) und auch manche der folgenden Werte liegen etwas abseits der erwarteten Werte. Aber die ungefähre Tendenz wird durch das Gesetz gut beschrieben, wie auch an der charakteristischen Kurve in Abbildung 1 erkennbar ist.

Die häufigsten Wörter des Foodblogkorpus und ihre Frequenz, nach Frequenz sortiert

Die beschriebene Verteilung von Wortfrequenzen bedeutet auch, dass es in jedem Korpus eine hohe Anzahl an sog. Hapax Legomena (Singular: Hapax Legomenon) gibt, d. h. Wörtern, die im Korpus nur ein einziges Mal vorkommen. Auch dies lässt sich am Foodblogkorpus veranschaulichen: Wie bereits oben genannt, umfasst das Korpus insgesamt 89.448 Token (inkl. Interpunktion) und 13.042 Types, also unterschiedliche Wörter. Davon handelt es sich bei ganzen 7.707 um Hapax Legomena. Das heißt, dass ungefähr jeder zweite Type nur ein einziges Mal im Korpus vorkommt. Dieser Anteil variiert zwar von Korpus zu Korpus, die Größenordnung ist aber recht stabil.

Für die korpus- und computerlinguistische Praxis bedeutet dies: Die hochfrequenten Funktionswörter können ein Problem darstellen, da sie (für die meisten Fragestellungen) wenig Information transportieren, aber viel frequenter sind als alle anderen Wörter. Diesem Problem wird häufig mit sog. Stoppwortlisten begegnet, d. h. Listen von genau diesen Funktionswörtern, die basierend auf der Liste von der Analyse ausgeschlossen werden können. Wie bereits erwähnt, sind diese hochfrequenten Wörter korpusübergreifend relativ stabil, sodass nicht für jedes Korpus eine eigene Liste erstellt werden muss. Textsortenspezifische Ergänzungen können aber durchaus sinnvoll sein.

Am anderen Ende der Verteilung kann die hohe Zahl an Hapax Legomena eine Herausforderung sein. Im Gegensatz zu den hochfrequenten Wörtern ist in diesem Bereich mit sehr viel Variation zwischen Korpora zu rechnen. Das bedeutet, dass jedes neue Korpus, das wir analysieren, wieder sehr viele noch unbekannte Wörter enthält, für die der Computer aber etwa bei der automatischen Annotation mit Wortarten trotzdem eine sinnvolle Analyse anbieten soll.

Eine einfache Möglichkeit, den Wortschatz eines Korpus zu charakterisieren, ist der sog. Type-Token-Ratio (TTR). Dabei handelt es sich um ein Maß für die lexikalische Vielfalt eines Textes, das zahlreiche Anwendungsmöglichkeiten hat. Das Maß wird zum Beispiel verwendet, um den Sprachstand Lernender zu beschreiben: Je besser man eine Sprache beherrscht und je größer der Wortschatz wird, desto größer wird die lexikalische Vielfalt der Texte. In der Literaturwissenschaft könnte man annehmen, dass die lexikalische Vielfalt in „anspruchsvoller“ Literatur höher ist als in Heftromanen – Jannidis, Konle & Leinen (2019) können diese Hypothese allerdings nicht bestätigen.

Der TTR berechnet sich als Quotient aus der Anzahl der Types und der Anzahl der Token in einem Korpus.

Das Foodblogkorpus beispielsweise hat 89.448 Token und 13.042 Types (beides inkl. Interpunktion), sodass wir den TTR folgendermaßen berechnen können:

Für die Interpretation dieses Wertes ist es hilfreich, sich die möglichen Extremwerte zu vergegenwärtigen. Nehmen wir also den (völlig unrealistischen) Extremfall maximaler lexikalischer Vielfalt an, der darin besteht, dass jeder Type im Korpus nur ein einziges Mal vorkommt. Für das Foodblogkorpus würde das bedeuten, dass 89.448 unterschiedliche Wörter vorliegen. Der TTR würde in diesem Fall einen Wert von 1 erreichen:

Der andere Extremfall besteht darin, dass das ganze Korpus nur aus einem einzigen Wort besteht, das immer wiederholt wird:

Der TTR nimmt in diesem Fall einen Wert sehr nahe an 0 an. Realistische Werte werden immer irgendwo zwischen diesen beiden Extremen liegen. Um letztlich zu einer Beurteilung eines solchen Wertes zu kommen, brauchen wir immer einen Vergleichswert. Hier stoßen wir allerdings auf ein gewichtiges Problem des TTR: Der Wert ist nicht unabhängig von der Korpusgröße. Stattdessen lässt sich beobachten, dass der TTR mit steigender Korpusgröße abnimmt. Dadurch ist ein Vergleich von Korpora unterschiedlicher Größe nicht möglich. Der Grund für diese Abhängigkeit liegt wiederum in der Zipf’schen Verteilung und wird von Perkuhn, Keibel & Kupietz (2012: E6–3) anschaulich beschrieben:

Zur Veranschaulichung dieser Ursache stellen Sie sich vor, Sie gehen ein bestehendes Korpus Worttoken für Worttoken durch und berechnen dabei nach jedem Token den TTR-Wert für das Teilkorpus, das alle bisher gesehenen Tokens enthält. Nach einigen hundert Tokens werden Sie bereits den meisten der hochfrequenten (d. h. häufigen) Worttypes mindestens einmal begegnet sein. Je größer Ihr Teilkorpus wird, desto mehr werden Sie auch von den mittelfrequenten Wörtern mindestens einmal gesehen haben, und es wird immer unwahrscheinlicher, im nächsten Token einen neuen Worttype anzutreffen, denn es verbleiben fast nur noch niederfrequente Worttypes, die Sie noch ein erstes Mal sehen könnten.

Um der Abhängigkeit des TTR von der Korpusgröße Rechnung zu tragen, kommt in der Praxis der standardisierte Type-Token-Ratio (STTR) zum Einsatz. Die Berechnung besteht aus drei Schritten (Perkuhn, Keibel & Kupietz 2012: E6–4):

Wir teilen das Korpus in Segmente gleicher Länge. Häufig wird hier eine Länge von 100 bis 2000 Token gewählt, ein geeigneter Wert hängt aber auch von der Länge der Texte im Korpus ab.
Wir berechnen den TTR für jedes Segment einzeln. Das letzte (in der Regel zu kurze) Segment wird dabei ausgelassen.
Wir bilden das arithmetische Mittel aller TTR-Werte für das Korpus.

Sofern wir die gleiche Segmentlänge wählen, können wir den STTR-Wert von zwei unterschiedlichen Korpora miteinander vergleichen. Auch der STTR kann Werte zwischen 0 und 1 annehmen und ist analog zum TTR zu interpretieren.

Zur Anwendung auf das Foodblogkorpus gibt es unterschiedliche Möglichkeiten. Wir können Textgrenzen und Blogs vorübergehend ignorieren und alle Texte zu einer großen Datei zusammenführen, die dann segmentiert wird. Da die Texte im...

Erscheint lt. Verlag	18.3.2024
Sprache	deutsch
Themenwelt	Geisteswissenschaften ► Sprach- / Literaturwissenschaft
ISBN-10	3-8233-0505-0 / 3823305050
ISBN-13	978-3-8233-0505-7 / 9783823305057

Haben Sie eine Frage zum Produkt?

EPUB (Wasserzeichen)
Größe: 6,0 MB

DRM: Digitales Wasserzeichen
Dieses eBook enthält ein digitales Wasserzeichen und ist damit für Sie personalisiert. Bei einer missbräuchlichen Weitergabe des eBooks an Dritte ist eine Rückverfolgung an die Quelle möglich.

Dateiformat: EPUB (Electronic Publication)
EPUB ist ein offener Standard für eBooks und eignet sich besonders zur Darstellung von Belletristik und Sachbüchern. Der Fließtext wird dynamisch an die Display- und Schriftgröße angepasst. Auch für mobile Lesegeräte ist EPUB daher gut geeignet.

Systemvoraussetzungen:
PC/Mac: Mit einem PC oder Mac können Sie dieses eBook lesen. Sie benötigen dafür die kostenlose Software Adobe Digital Editions.
eReader: Dieses eBook kann mit (fast) allen eBook-Readern gelesen werden. Mit dem amazon-Kindle ist es aber nicht kompatibel.
Smartphone/Tablet: Egal ob Apple oder Android, dieses eBook können Sie lesen. Sie benötigen dafür eine kostenlose App.
Geräteliste und zusätzliche Hinweise

Buying eBooks from abroad
For tax law reasons we can sell eBooks just within Germany and Switzerland. Regrettably we cannot fulfill eBook-orders from other countries.