Zur Entstehung von Bibelclouds

Kurze Geschichte von (Tag)clouds

Beispiele einfacher Clouds

Beispiele einfacher Clouds
Oben: Tagcloud eines last-fm Benutzers
Unten: Wortwolken von zwei Reden amerikanischer Präsidenten

In 2010 kam ich beruflich zum ersten Mal mit sogenannten Tagclouds bzw. Wordclouds in Berührung: “Tag clouds” (Schlagwortwolken) wurden 2002 zum ersten Mal im Internet genutzt und fanden seit ca. 2004 immer weitere Verbreitung. Damals nutze z.B. die Webseite flickr.com als eine der ersten diese Visualisierungstechnik. 2006 entstand dann mit tagcrowd.com eine der ersten Webseiten, die diese Art der Textvisualisierung Internetnutzern zur Verfügung stellte, 2008 kam die populäre Seite wordle.net hinzu. Zu diesem Zeitpunkt wurden nicht mehr nur Schlagwortlisten ausgewertet sondern auch ganze Texte und so nannte man die resultierenden Grafiken auch „text clouds“ oder „word clouds“ (Wortwolken). Solche Wortwolken sind Grafiken, die verblüffend einfach den wesentlichen Gehalt eines Textes auf den Punkt bringen. Begriffe werden entsprechend der Häufigkeit ihres Vorkommens im Text unterschiedlich groß dargestellt.

Von Wortwolken zu Bibelclouds

Für das Bibelclouds-Projekt wurden eigens dafür geschriebene Computerprogramme erstellt um so auch speziell auf die Besonderheiten der deutschen Sprache, der Bibel im Allgemeinen und den verschiedenen Bibelübersetzungen im Besonderen eingehen zu können. Bei der Erstellung aussagekräftiger Wortwolken auf Basis kompletter Texte haben sich einige Grundregeln als besonders hilfreich herauskristallisiert. Es empfiehlt sich beispielsweise sogenannte Stoppwörter zu entfernen. Dazu gehören bestimmte Artikel (»der«, »die«, »das«), unbestimmte Artikel (»einer«, »eine«, »ein«), Konjunktionen (z. B. »und«, »oder«, »doch«) und häufig gebrauchte Präpositionen (z. B. »an«, »in«, »von«) sowie die Negation »nicht«. Außerdem hilft es Verben auf ihre Grundform zu reduzieren, wie z. B. »sagen« (statt »sagt«, »gesagt«, »sagte«, »sagten«, »sage« usw.). Dieser als Lemmatisierung bezeichnete Vorgang kann auch auf andere Wortarten wie z.B. Pronomina (z. B. kann man »unseres«, »unser«, »unseren«, »unserem« alle als »unser« zählen) und Substantive („Herr“ statt „Herrn“ usw.) angewandt werden. Substantive im Plural wurden aber nicht auf die Grundform im Singular zurückgeführt um z.B. den Unterschied zwischen „Götter“ und „Gott“ zu erhalten.

Neben den oben beschriebenen allgemeinen Regeln zur Erstellung von Wortwolken wurden dabei auch spezielle theologische Besonderheiten berücksichtigt. Bedeutungsvolle Phrasen, wie z.B. „Tochter Zion“, „Jesus Christus“ oder „so spricht der Herr“ wurden als zusammenhängende Phrasen ausgewertet und erscheinen auch als solche in den entsprechenden Bibelclouds. Die Anzahl der in einer Bibelcloud dargestellten Worte richtet sich nach dem Umfang des jeweiligen Buches: So werden aus dem zweiten Brief des Johannes (insgesamt gut 300 Worte) nur die 14 häufigsten Wörter dargestellt, aus den Psalmen (insgesamt gut 44 000 Worte) dagegen 150 Wörter.

Gerade bei kurzen Büchern hat es diese Vorgehensweise erforderlich gemacht, einige Begriffe auch nach eher subjektiven Kriterien für die Darstellung in einer Bibelcloud auszuwählen. Z.B. wiederholen sich beim zweiten Brief des Johannes die 8 häufigsten Worte drei, vier oder fünf Mal. Alle weiteren Begriffe kommen höchstens zweimal vor. Es muss dann entschieden werden, welche 6 Begriffe, die nur zweimal vorkommen, auch dargestellt werden um die angestrebte Gesamtzahl von 14 Begriffen zu erreichen und trotzdem eine interessante und aussagekräftige Graphik zu erhalten..

Bei der grafischen Anordnung werden dieselben Wörter in den unterschiedlichen Bibelclouds immer mit derselben Farbe dargestellt. Und für Bücher aus derselben Buchgruppe werden dieselben Hintergrundfarben genutzt.

Die verschiedenen Bearbeitungsschritte am Beispiel des Buches Amos, auf Basis der Einheitsübersetzung:

Die Bibelcloud für das Buch Amos nach verschiedenen Bearbeitungsschritten

Die Bibelcloud für das Buch Amos (EÜ) nach verschiedenen Bearbeitungsschritten

Für die Wortwolken der Evangelien wurde ein zusätzlicher Bearbeitungsschritt eingefügt, da die Texte (und damit auch die unbearbeiteten Wortwolken selbst) aufgrund der übereinstimmenden Thematik (das Leben und Sterben Jesu) und der gemeinsam genutzten Quellen eine große Ähnlichkeit aufweisen:

Bibelclouds der Evangelien auf Basis des normalen Bibelcloud-Algorithmus

Bibelclouds der Evangelien (EÜ) auf Basis des normalen Bibelcloud-Algorithmus

Daher wurden zunächst einige Begriffe, die in allen vier Evangelien ungefähr gleich häufig vorkommen, herausgefiltert und im mittleren Teil der entsprechenden Wortwolken einheitlich dargestellt. Außerdem wurde der Platz für den einheitlichen Teil dieser Wortwolken auf ein Drittel der Grafik beschränkt, obwohl rein rechnerisch ungefähr zwei Drittel zur Verfügung stehen müssten. Dadurch kommen im oberen und unteren Teil der Darstellung die spezifischen Besonderheiten der einzelnen Evangelien stärker zum Vorschein:

Die fertigen Bibelclouds der Evangelien mit dem modifizierten Algorithmus

Die fertigen Bibelclouds der Evangelien (EÜ) mit dem modifizierten Algorithmus

Prinzipielle Ungenauigkeiten bei der Textanalyse der Bibelclouds wurden in manchen Fällen in Kauf genommen, etwa wenn ein und dasselbe Wort sehr unterschiedliche Bedeutungen hat. Außerdem konnten häufig Unterschiede zwischen Verben aufgrund trennbarer Präfixe (wie »anstellen«, »aufstellen« und »abstellen«) nicht erfasst werden, sobald diese im Text getrennt auftauchen (z. B. »Er stellte dort bewaffnete Posten auf«). Im Fall eines getrennten Präfixes werden diese Verben dem Verb ohne Präfix zugerechnet – im Beispiel also als »stellen« gezählt.

„Jesus Christus“ und „Christus Jesus“ wurden zunächst getrennt gezählt. Für jedes Buch wurde dann ermittelt, welche Variante häufiger vorkommt und diese dann in der Bibelcloud dargestellt mit der summierten Gewichtung beider Phrasen. Wenn in einem Buch z.B. „Jesus Christus“ häufiger vorkommt, dann wird auch „Jesus Christus in der Bibelcloud dargestellt, allerdings mit einer Gewichtung die der Summe von „Jesus Christus“ und „Christus Jesus“ entspicht.

Und dann gibt es noch eine Kleinigkeit: Als Ingenieur arbeite ich nicht nur gerne systematisch – und habe deshalb auch gleich alle Bücher der Bibel in Bibelclouds umgesetzt – sondern ich habe mir auch eine gewisse Faulheit angewöhnt und lasse gerne den Computer alle „Drecksarbeit“ machen. Darum geschieht das alles automatisch – sozusagen auf Knopfdruck – und dauert ca. 30 Minuten.

Besonderheiten der verschiedenen Übersetzungen

Bibelclouds sind natürlich auch besonders durch die jeweilige Übersetzung geprägt, die den Textanalysen zu Grunde lag. Sie können Besonderheiten der jeweiligen Übersetzung sogar besonders deutlich darstellen. Eine der wesentlichen Kritikpunkte nach Veröffentlichung des ersten Buches in 2012 war daher auch die Verwendung der Einheitsübersetzung als Basis des Projektes. Für den Benutzer ist es am einfachsten, die Bibelclouds auf Basis der ihm/ihr geläufigen Übersetzung zu betrachten da dann der Wiedererkennungswert besonders hoch ist. Für die kritische Auseinandersetzung mit verschiedenen Übersetzungen ist der direkte Vergleich von Bibelclouds basierend auf unterschiedlichen Übersetzungen besonders interessant.

Die BIbel im Gesamtüberblick für drei verschiedene Übersetzungen

Die Bibel im Gesamtüberblick für drei verschiedene Übersetzungen

Besonderheiten der Einheitsübersetzung

Eine Ausnahme bilden Wendungen wie z. B. »der Herr, dein Gott « im Buch Deuteronomium. Hier wurden alle Kombinationen aus Pronomina und Deklinationen immer derselben Grundform hinzugerechnet, also auch z. B. »des Herrn, unseres Gottes« oder »vom Herrn, unserem Gott«.

Besonders fällt natürlich „Herr“ in’s Auge. Dies wird im AT meistens als Übersetzung von JHWH genutzt, im NT z.B. als Ansprache für Jesus.

Besonderheiten der Lutherbibel

Eine Ausnahme bilden Wendungen wie z. B. »der HERR, dein Gott « im Buch Deuteronomium. Hier wurden alle Kombinationen aus Pronomina und Deklinationen immer derselben Grundform hinzugerechnet, also auch z. B. »des HERRN, unseres Gottes« oder »vom HERRN, unserem Gott«.

Es fiel bei der Analyse auf, dass die Lutherübersetzung in einigen Büchern des AT besonders häufig das Verb „sollen“ verwendet, vor allem in den Prophetenbüchern. Bei einer stichprobenartigen Überprüfung stellte sich heraus, das hierbei die Lutherübersetzung in der Tat „sollen“ als Übersetzung für verschiedenste Verbformen im Originaltext genutzt hat und sich darin z.B. deutlich von der Einheitsübersetzung unterscheidet. Daher wurde bei den Wortwolken der Prophetenbüchern die Anzahl von „sollen“ um die Hälfte reduziert (Ezechiel, Hosea , Joel, Micha, Nahum und Sacharja) oder das Wort sogar komplett entfernt (Amos, Obadja, Zefanja, Haggai und Maleachi) um so aussagekräftigere Grafiken zu erhalten.

Die Hintergrundfarben wurden gezielt angepasst: Die fünf Bücher Mose und die Evangelien haben aufgrund Ihrer besonderen Bedeutung eigene Hintergrundfarben, Geschichtsbücher im AT und NT, Prophetenbücher im AT und NT, die Lehrweisheiten sowie die Briefe im NT haben jeweils spezielle Hintergrundfarben.

Für die Lutherbibel gibt es außerdem sogenannte “Bonusclouds“. Zur Erstellung dieser Grafiken wurde jeweils gezielt nach speziellen Begriffen in der Bibel gesucht, z.B. Personennamen, Berufe, oder Gefühle. Da hierbei die Unterschiede zwischen den häufigsten und den seltensten Wörtern sehr groß sind, wurde zur Darstellung der Logarithmus angewendet. Dadurch sind auch seltenere Begriffe besser zu erkennen.

Besonderheiten der Bibel in gerechter Sprache

Natürlich ist es bei der Bibel in gerechter Sprache besonders wichtig, die verschiedenen Gottesnamen richtig wiederzugeben.

Geschlechtsneutrale Formulierungen, z.B. „Israelitinnen und Israeliten“ und „Israeliten und Israelitinnen“ wurden zu einer Version mit der weiblichen Form am Anfang zusammengefasst, im Beispiel zu „Israelitinnen und Israeliten“.