Vor drei Tagen wurde in der Zeitschrift Science ein bemerkenswerter Artikel veröffentlicht, der einen “radikal neuen Typ wissenschaftlicher Unternehmung” verheißt: „Culturomics“. Was sich dahinter verbirgt, ist eine Kooperation des Cultural Observatory an der Harvard University mit Google Books. Ein Team unter der Leitung von Jean-Baptiste Michel and Erez Lieberman-Aiden haben 2007 begonnen, das immense Textkorpus statistisch zu erforschen, das der Internetgigant seit 2004 in Kooperation mit über 40 Universitätsbibliotheken eingescannt hat. Inzwischen beträgt es über 15 Millionen Bücher, was ungefähr 12% der Menge aller jemals publizierten Bücher entsprechen soll.
Die Entschlüsselung des kulturellen Genoms
Was sich das Team von Michel und Lieberman-Aiden von der statistischen Auswertung des riesigen Textmasse verspricht, ist so etwas wie die Entschlüsselung des „kulturellen Genoms“:
We realized that the study of the evolution of culture needed something like a genome, a dataset so powerful that it would enable such analyses to be done rapidly, on any topic, not just irregular verbs. And we noticed that some of those really obscure books we used… had meanwhile popped up on Google Books. We put two and two together.
Das Ergebnis dieser Arbeit ist nun frei über Google Books‘ Ngram Viewer zugänglich, mit dem über 5,2 Million Bücher nach bestimmten Wörtern oder Phrasen durchsuchbar sind, deren Häufigkeit man sich für einen gewählten Zeitraum grafisch darstellen lassen kann. So läßt sich über länge Zeiträume der Verlauf unterschiedlicher Entwicklungen, etwa von grammatischen oder thematischen Trends beobachten.
Kultur oder Wissenschaft?
Um zu prüfen, wie gut der Titel unseres Blog im geschichtlichen Trend der deutschen Sprache liegt, habe ich den Ngram Viewer einmal mit den Worten „Kultur“ und „Wissenschaft“ gefüttert. Für den Zeitraum von 1800 bis 2008 erhielt ich dazu folgendes Bild.
Während also die „Wissenschaft“ ein beliebtes Thema um 1800 gewesen ist, dass die „Kultur“ noch deutlich in den Schatten stellte, haben beide im Laufe der letzten Jahrhunderte eine Art Schulterschluss vollzogen, wobei es mit beiden allerdings gerade etwas bergab geht. Schlimmer hingegen hat es den Allmächtigen getroffen, der im Vergleich zu den beiden Themen noch sehr viel stärker abgestürzt ist.
Interessant ist allerdings das kurze Comeback des Schöpfers im deutschen Sprachraum zwischen 1942-1945, also genau in der Zeit, in der der Krieg wieder „heim ins Reich“ kehrte. Die Niederlage scheinen die Deutschen ihm sehr übel genommen zu haben, denn nach 1947 kehren sie ihm einfach wieder den Rücken zu. Oder wie sollte man den merkwürdigen Ausschlag interpretieren? Hier gibt Culturomics keine Antwort mehr, wirft aber interessante Fragen auf.
Archäologie des Verdrängten
Mit Google’s Ngram Viewer lassen sich nun nicht nur Konjunkturen und Flauten, sondern auch Zensurvorgänge detektieren, wie die Forscher auf ihrer Homepage erklären:
If you look carefully, you can occasionally see evidence of censorship (such as ‘Marc Chagall’ in the German corpus under the Nazis.)
Nachdem die Erwähnung des Malers bereits seit Mitte der 1920er Jahre rapide abnimmt, ist sein Name zwischen 1936 und 1944 fast ausgelöscht – während er im englischsprachigen Raum kontinuierlich zunimmt. Das ist kein besonders überraschendes Ergebnis, weil man das vorher schon wusste. Wie aber sollte man rein statistisch zwischen nachlassendem Interesse und gezielter Repression unterscheiden können? Auch kann die Statistik nur mehr oder weniger signifikante Hinweise geben: Spuren zeigen, denen man jenseits der Zahlen nachgehen muss.
Eine mathematische Kulturwissenschaft?
Was sich allerdings zeigt ist, dass sich über die statistische Analyse einer riesigen Textmasse Entwicklungen der Sprache nachvollziehen lassen, die Computerlinguisten bisher nur in begrenzten Ausmaßen erforschen konnten. So ergab eine grammatische Analyse der Studie von Michel et al., dass englische Verben im Laufe der Zeit immer regelmäßiger werden:
From Beowulf to Harry Potter, the past forms of many irregular verbs have taken on the standard “-ed” suffix, in a way that fits a startlingly simple mathematical formula.
Statistische Formel nähren nun also die Hoffnung, mit Google Books das Genom des kollektiven Gedächtnisses zu entschlüsseln und Erkenntnisse über kulturelle Evolutionsmechanismen zu erlangen. Vielleicht ist die Zeit dafür reif. Denn, ganz entgegen meiner Erwartung, sinkt die Popularität der Naturwissenschaft – aktuell ist sie sogar unter die Tiefstwerte von 1941 und 1841 gefallen – während die Kulturwissenschaft so beliebt ist wie nie zuvor.
Etwas anders stellen sich zwar die englischsprachigen ‚cultural studies‘ dar, die dem deutschen Pendant nicht ganz entsprechen, aber mit der selben Konsequenz: Tendenziell scheinen beide auf Augenhöhe zu streben.
Das könnte sich aber auch ein Trugschluss erweisen, da zum Beispiel naturwissenschaftliche Publikationen viel häufiger in Zeitschriften erscheinen als kulturwissenschaftliche. Ist die sinkende Tendenz der Naturwissenschaft in Google Books daher ein Zeichen nachlassender Popularität oder nur die Spur einer medialen Emigration?
Like with any other piece of evidence about the human past the challenge with culturomic trajectories lie in their interpretation.
Dunkle Materie im kulturellen Gedächtnis
So führt der Zuwachs positivistischer Befunde nicht unbedingt zu einer Vermehrung von Wissen, in jeden Fall aber von interessanten Beobachtungen. Zu den besonderen Überraschungen der neuen Forschung gehört auch die Entdeckung, dass zumindest englische Bücher “zu einem großen Teil aus lexikalisch Dunkler Materie bestehen”, wie Co-Autor Steven Pinker erklärt. Selbst wenn man alle Eigennamen weglasse, ergeben 52 Prozent der in Büchern verwendeten Wörter ein Vokabular, das in keinem Nachschlagewerk verzeichnet ist.
Das Problem hat Google Books ja nun behoben. Vielleicht erscheint bei Harvard University Press ja in ein paar Jahren ein “Wörterbuch der Dunklen Materie des kulturellen Unbewussten”. Oder sollte man das dem Culturomics Team direkt mal vorschlagen? Mitstreiter für das ambitionierte Projekt werden jedenfalls noch gesucht.
Wer den vollständigen Science-Artikel lesen will, findet ihn hier. Wer keinen Onlinezugang für die Fachzeitschrift hat, kann eine Zusammenfassung der wichtigsten Ergebnisse auch im Discover Magazin oder in der Süddeutschen Zeitung nachlesen.






[...] es an der Zeit, die Objektivität seiner Prognose zu überprüfen. Heute haben wir dank „Culturomics“ (einer Kooperation des Cultural Observatory mit Google Books), die Möglichkeit Millionen [...]