Von Datensätzen, Tweets, Objekten, Menschen, Gefühlen, Verletzungen und Schicksalen

In den letzten 20 Stunden habe ich mich in einer Weise mit #aufschrei beschäftigt, die mir nun mit etwas Distanz merkwürdig vorkommt. Ich möchte gerne etwas richtig bzw. klar stellen.

Wer mir oder dem Hashtag #aufschreistat folgt, oder auf der Mailingliste mit liest, hat sowohl von mir als auch von anderen in dem Zusammenhang Worte wie cool, geil, juhu, Spaß, ect. gelesen. Wir waren damit beschäftigt, die Tweets geordnet zu sammeln, und jeder Tweet, der unsere Sammlung vervollständigt hat, war somit ein Erfolg.

Doch bei #aufschrei geht es in jeder Hinsicht um Negatives. Entweder erzählen Menschen von Ungerechtigkeit, Leid, Demütigung und Gewalt, die sie erfahren haben.  Oder Menschen teilen ihre Empathie, ihre Schuldgefühle, ihre Scham oder ihre Hilflosigkeit demgegenüber mit. Noch andere ignorieren dies, rechtfertigen es, machen sich darüber Lustig oder üben ganz direkte verbale Gewalt aus. Was auch immer davon der Inhalt sein mag, ein #aufschrei-Tweet ist per Definition niemals erfreulich.

Die Arbeitsweise hat es bedingt, dass wir hier mit Programmcode arbeiten, mit Datenbankschemata, API-Aufrufen, Objekten, etc. Die Inhalte der Tweets waren zwar sichtbar, aber liefen zu hunderten pro Sekunden über meinen Bildschirm. Da gab es für mich – ausnahmsweise – mal keine Inhalte, keine Emotionen, keine Menschen und Schicksale.

Wenn es so weitergeht wie es uns derzeit vorschwebt, kommen am Ende viele Ergebnisse heraus. Zuallererst fallen da Zahlen ein, nicht nur die Gesamtzahl der Tweets, sondern auch, dass in über 620 davon das Wort „Lehrer“ vorkommt, aber nur in 23 das Wort „Pfarrer“ oder „Priester“. Prozentsätze, Durchschnittswerte, Alterscluster, was weiß ich..?

Dann kommen Kategorien heraus. Alle Berichte über nicht-einvernehmliches Küssen auf einmal. Alle über das Absprechen von Fähigkeiten. Alle über Missbrauch innerhalb der Familie. Diese Kategorien lassen sich zählen und stellen somit wiederum harte, numerische Fakten dar. Aber die zugehörigen Berichte lassen sich dann auch einsehen, die Inhalt wird dann in ganz besonderer Wucht wahrnehmbar werden. Ohne die umgebenden „eher harmlosen“ Tweets, ohne die Diskussions- und Dabattiertweets, ohne die Meta-Aussagen, ohne Trollerei und Verneinung können diese Mengen an Texten eine Intensität erreichen, die für viele Leser_innen vermutlich nicht mehr erträglich ist. Aber gleichzeitig können Sie evtl. einige Menschen erweichen, die #aufschrei jetzt noch für einen Witz oder Hysterie halten.

Letztlich erhoffe ich mir von diesem Projekt also, zwei entgegengesetzte Auswirkungen: mehr geballte Fakten und mehr geballtes Gefühl. Für jeden Rezipienten, für jede Situation, für jede Verwendung in den Medien jeweils das, was gebraucht wird.

Ich denke, es wird daraus klar, dass die Distanzierte, ja geradezu euphemistische Betrachtung der Tweets als bloße Datenpakete nicht darauf hindeutet, dass ich oder sonst jemand die Lage nicht ernst genug nimmt. In den nächsten Tagen werde ich mich wieder sehr vermehrt den Inhalten, den dahinter stehenden Erfahrungen und Empfindungen beschäftigen. Mein Sprachgebrauch wird dabei sicher weniger euphorisch sein.

Erstaunlicherweise hat auch noch niemand diese potentielle Problematik beanstandet, aber es war mich wichtig, das am besten schon zuvorkommend klarzustellen. Damit ich jetzt endlich auch beruhigt zu Bett gehen kann.

#aufschreistat – Statistische Analyse des Aufschreis

Wichtig: Projektkoordination

Trotz der frühen Phase gab es jetzt schon mehr Hilfsangebote, als ich im Kopf behalten kann, und die Kommunikation über Twitter ist, nunja, schwierig. Hier ein paar Links:

Ich selbst komme vor 20 Uhr (Dienstag) nicht dazu, weiter zu koordinieren, etc. – habt bitte etwas Geduld, oder – noch besser – organisiert euch ein wenig untereinander. Danke!

Warum überhaupt auswerten?

Zur Hashtag-Aktion #aufschrei ist viel wahres, kluges und vor allem emotionales geschrieben worden – siehe dazu z.B. die Blogposts, deren Verlinkungen ich in den letzten Tagen retweetet habe (für eine ordentliche Linksammlung hier fehlt mir gerade Zeit und Kraft). Ich stimme all dem nicht nur sachlich zu, sondern kann auch die darin beschriebenen Gefühle nachvollzielen, habe vieles davon in den letzten Tagen selbst so gespürt. Emotion gehört dazu und ist wichtig. Auch Emotionen stoßen Debatten an.

Aber diese Debatten kommen dadurch nicht unbedingt weiter. Dies ist keine Kritik an Emotionen, es ist der Versuch, diese durch sachliche Fakten und Analysen zu ergänzen, zu stützen und rational begreifbar zu machen.

Ich habe in den ersten 70 Stunden seit dem Beginn von #aufschrei mehr als die Hälfte jener Zeit mit dem Lesen der #aufschrei-Tweets verbracht und nur sehr viel weniger mit Schlafen. Soweit ich das abschätzen kann, habe ich fast alle #aufschrei-Tweets, die seit dem direkt in meiner TL landeten, gelesen. Das dürften etwa 1000 solcher Tweets gewesen sein, somit aber deutlich weniger als 2% aller #aufschrei-Tweets überhaupt. Damit habe ich keinen repräsentativen Überblick über alles, was aufgeschie(b)en wurde. Vermutlich hat kein Mensch auf der Welt das in diesem Moment.

Diverse klassische Medien haben #aufschrei-Tweets zitiert, und die jeweilige Auswahl schien zufällig (was ja immerhin repräsentativ ist) oder aus einem sehr kleinen Sample bewusst ausgewählt. Die Medien haben es damit nicht geschafft, die Menge, Vielfalt und Intensität des #aufschrei zu vermitteln.

Neben der Ursprungs-Aussageform – des Kurzberichtes über ein konkretes sexistisches Erlebnis – entstanden schon bald Meta-Aussagen, die versuchten, Verallgemeinerungen zu treffen. Auch ich habe mich darin versucht, erhielt Zustimmung durch Retweets und Kritik in Form von Antworten durch Menschen, die meine Aussage (wohl meist absichtlich) missverstanden. Aber letztlich waren das sowieso immer Aussagen über Momentaufnahmen meiner Filterbubble und somit ohne globale Bedeutung.

Nun möchte ich dazu beitragen, die Debatte auf das nächste Level zu erheben: den Blick auf die Gesamtproblematik, das Abwägen verschiedener Teildimensionen des Problems oder auch der Teilprobleme, und auf die neuartigen Erkenntnisse die nur durch eine solche Gesamtbetrachtung gewonnen werden können.

Ich denke nicht, dass der Erfolg der Aktion nach der folgenden Formel funktioniert: Tweeten -> sammeln -> statistisch anlysieren -> Erkenntnisse -> bessere Welt. Aber ich bin überzeugt, statistisch fundierte Erkenntnisse helfen dazu, dass die Aktion insgesamt erster genommen wird, dass die Debatte intensiver geführt wird, und letztlich, dass sie konstruktiver abläuft und konkretere Ergebnisse hat.

Technisches

Eine bedeutungsvolle Analyse geht nur mit technischen Hilfsmitteln, aber die allein reichen nicht. Vorausgesetzt, die mehr als 60.000 #aufschrei-Tweets lägen mir gebündelt vor – und das wird vermutlich bald der Fall sein – wären vollautomatische Auswertungen nur auf Wortebene praktikabel, z.B.: Wie oft kommt das Wort „Sportlehrer“ vor? (Vermutung auf Basis des bisher manuell gelesenen: extrem oft.) Allein die Einteilung in zustimmende Tweets vs. Versuche, die Aktion zu kritisieren, relativieren, ins Lächerliche zu ziehen oder einfach nur zu trollen, halte ich für so gut wie gar nicht automatisierbar. Und selbst damit würden wir nur an der Oberfläche der darin verborgenen Erkenntnisse kratzen.

Ich halte es für nötig, die Informationen aus den Tweets in eine „maschinenlesbare“ Form zu bringen. Das kann prinzipbedingt nicht von Maschinen erledigt werden. Mir schwebt dabei vor, den Tweets per Hand Tags zuzuordnen, welche sich danach auswerten lassen. Tags sind dabei semi-strukturierte Informationen, die einem losen Schema folgen. Dieses legt nahe, dass bereits vorhanden Tags identisch weiter benutzt werden, aber erzwingt dies nicht. Das ist wichtig, damit einerseits ähnliche Tweets mit gleichem Tag versehen werden, aber andererseits neu- bzw. andersartige Tweets, die neue Aspekte betreffen, nicht in ein starres, vorgefertigtes Raster gepresst werden.

Dazu braucht es Menschen, die das tun. Menschen, die all diese (teils schmerzvollen) Tweets nochmal aufmerksam lesen und kategorisieren. Das klappt nur, wenn viele Mitmachen. Und es brauch die Software, um diesen verteilten Aufwand zu koordinieren. Ich werde diese Software schreiben.

Ich möchte hier nicht zu technisch werden. Dies geschieht stattdessen auf der Projekthomepage „aufschreistat“ bei GitHub. Viel gibt es dort noch nicht zu sehen, die aktuelle Version kann nichts, außer Tweets in die Datenbank schreiben. Updates zur Aktuellen Entwicklung twittere ich außerdem unter dem Hashtag #aufschreistat.

Die eigentliche Auswertung gilt es dann noch zu klären. Vieles lässt sich direlt als SQL-Abfrage schreiben, vorallem da in der Datenbank fast alle Spalten indiziert sind, incl. Volltext-Index auf den Tweet-Inhalten. Für manche Auswertungen wird spezieller Java-Code nötig sein. Und dann könnte es auch noch Exporte der angereicherten Daten geben, die dann in professionelle Statistik-Software einfließen könnte.

Datenquellen

Die Daten direkt von Twitter zu erhalten ist nicht einfach. Derzeit sieht der Datenbestand wie folgt aus:

  • Freitag 00:00 bis Freitag 11:00 – fehlt
  • Freitag 11:00 bis Montag 11:00 – vollständig durch den Datensatz von Soviet.tv
  • Montag 11:00 bis Dienstag 01:26 – fehlt
  • Dienstag 01:26 bis Dienstag 03:27 – teilweise vorhanden
  • Dienstag 3:27 und danach – vollständig dank eigener Sammlung

Es gibt technisch die Möglichkeit, von Twitter bis zu 150.000 vergangene Tweets zu einem Suchkriterium zu erhalten, was allerdings eine spezielle Genehmigung durch einen hochrangigen Twitter-Mitarbeiter erfordert. Diese habe ich bereits per Mail angefordert, wobei ich versucht habe, die gesellschaftliche Bedeutung von #aufschrei zu erläutern. Hoffen wir mal, dass ein positiver Bescheid kommt, noch bevor die Anzahl der #aufschrei-Tweets 150.000 überschreitet.

Mitmachen

Im Moment ist mir bei der Software-Entwicklung kaum zu helfen – die Software ist noch in einem so embryonalen Zustand, dass eine kooperative Arbeit am Code praktisch nicht möglich ist. Aber das wird sich hoffentlich in 1 bis 2 Tagen ändern. Wie das dann genau aufläuft, wird sich zeigen – dies ist zugegebenermaßen das erste Mal, dass ich ein Open-Source-Projekt auf github leite.

Nachtrag 6:41: Wozu aber jetzt schon jede_r herzlich eingeladen ist: Vorschläge machen, welche Fragestellungen wichtig und interessant sind, die sich evtl. aus den Daten herausziehen lassen. Konkrete Vorschläge, welche Arten von Inhalten getaggt werden könnten. Weitere Wünsche, welche Funktionen die Software erfüllen sollte oder könnte. Alles, was dabei hilft, das grobe Konzept was mir derzeit vorschwebt so zu erweitern, dass nicht nur mein Wissensdurst durch die Ergebnisse befriedigt wird, sondern alle den Erkenntnisgewinn bekommen, den sie sich davon erhoffen.

Sobald die Software Form angenommen hat und nutzbar ist, braucht es viele viele fleißige, mutige Helferlein, die sich durch die Tweets durcharbeiten, sie lesen und mit Tags versehen. Um alle Tweets zu zu verarbeiten, bräuchten wir etwa 1000 Stunden an gespendeter Zeit, des entspricht 125 vollen Arbeitstagen. Ich weiß, so viel werden wir nicht bekommen. Aber damit die Ergebnisse repräsentativ werden, reicht es, wenn wir einen signifikanten Anteil davon verarbeiten – das Programm wird die Tweets in zufälliger Reihenfolge anzeigen, um einen repräsentativen Querschnitt abzubilden. Und das können wir schaffen.

Damit das möglich wird, muss das Projekt bekannt werden. Jetzt wäre es zu früh dafür, noch ist es ein Luftschloss. Aber in 1 bis 2 Tagen hoffe ich auch eine Menge Retweets und ähnliches.

Abschließendes

Mich hat die ganze Sache in den letzten Tagen sehr mitgenommen. Ich musste mich zwar nicht erbrechen und habe auch nicht im nennenswerten Maß geweint, aber das war’s auch schon, was ich positives über meinen Zustand sagen kann. Prinzipiell könnte ich viel anderes, nicht-technisches zu diesem Thema schreiben. Aber momentan versuche ich, meine Energie dahin zu kanalisieren, wo es nützlich ist und wo der Aktivismus derzeit unterrepräsentiert ist. Und das ist nun mal gerade #aufschreistat.

Ich hoffe, dass diese Aktion, zusammen mit all dem was andere im Rahmen von #aufschrei leisten, dazu beiträgt, dass die Debatte nicht vorschnell wieder abebbt. Ich wünsche mir einen Protest, der um ein vielfaches größer ist als das, was wir jetzt haben. Das mediale Echo der letzten Tage hat gezeigt, wer die Massengesellschaft repräsentiert und was diese angeblich denkt. Für mich war das schockierender als die durch #aufschrei aufgedeckten Übergriffe selbst, denn bis dahin konnte ich noch glauben, dass nur ein Bruchteil der Menschen in Deutschland offen sexistisch ist. Nun scheint es mir, als ob entweder eine absolute Mehrheit sexistisch motiviert ist – das schließt ausdrücklich auch Frauen mit ein – oder als wenn eine sexistische Minderheit es erfolgreich schafft, sich als Mehrheit zu präsentieren. So oder so ist das ein Zustand, den ich nicht kampflos hinnehmen werde.

Kämpfen, hieß in den letzten Tagen: lesen, hören und fernsehen schauen. Gelegentlich twittern. Kämpfen, das heißt jetzt gerade, Code schreiben und technische Blogposts verfassen. Kämpfen, das wird in den nächsten Tagen heißen, statistische Analysen durchzuführen und Aussagen abzuleiten, um damit viele zu überzeugen, die den #aufschrei noch für einen unnötigen und nervigen Kurzzeittrend halten.

Und dann wird Kämpfen hoffentlich für mich und tausende andere heißen: raus auf die Straßen, einen lauten und sichtbaren Protest veranstalten, der sich mit den monatelangen Studierendenprotesten von 2009 messen kann.