Das taugen die Umfragen von Civey, die dir gerade überall im Internet begegnen

Hast du auch schon einmal auf eine dieser Umfragen unter Nachrichtenartikeln im Internet geklickt? Dahinter steckt das Start-up Civey. Ich wollte herausfinden, ob das auch wieder nur nicht-repräsentative Gaga-Befragungen sind oder Civey es wirklich schafft, die Meinung der Bevölkerung zu messen. Meine Erkenntnis: Die Meinungsforscher sind seriöser und smarter, als ich dachte.

12.09.2017

Dominik Ritter-Wurnig

Jede Woche befragen zig Meinungsforschungsunternehmen tausende Deutsche, aber trotzdem haben Politiker eigentlich keine Ahnung, was die Bürger wirklich denken. „Wenn du wissen willst, wie denken eigentlich gut ausgebildete Frauen in Berlin über ein bestimmtes Thema? Das kannst du vergessen”, sagt Gerrit Richter. Richter hat jahrelang in der Politikberatung gearbeitet und sich stets über die schlechte Datenlage geärgert – egal, ob bei der Unternehmensberatung Roland Berger oder im Büro des SPD-Politikers Hans Eichel. Was ziemlich absurd ist, wenn man bedenkt, dass die Politik ständig auf Meinungsumfragen schielt, die eigentlich nichts aussagen.

Während für die Gesamtbevölkerung noch halbwegs genaue Erkenntnisse vorliegen, werden die Informationen immer unklarer, je mehr man in die Tiefe geht. Am Ende, meint Richter, sei politische Kommunikation immer reines Bauchgefühl. Als im Sommer 2014 der Leidensdruck für Richter groß genug war, entwickelte er mit seinen Co-Gründern Oliver Serfling und Janina Mütze die Idee für Civey. Ihr Ziel: Die Meinungen der Deutschen exakt vermessen.

Die Gründer Janina Mütze und Gerrit Richter

In welcher Misere die klassischen Meinungsforscher stecken, versteht man sofort anhand der Tatsachen, dass Menschen, die über die „Lügenpresse” schimpfen, oft auch Meinungsforschern misstrauen. Das ist ein riesiges Problem für die 3.000 Markt- und Meinungsforschungsunternehmen in Deutschland, die Politik und Wirtschaft Grundlagen für ihre Entscheidungen liefern sollen. So gut wie alle Meinungsforscher arbeiten mit der gleichen Methode: Zufällig wird ein kleiner Teil der Bevölkerung als Stichprobe ausgewählt und befragt. Alle kämpfen mit dem gleichen Problem, dass Menschen immer seltener an Umfragen teilnehmen. Wenn sich bestimmte Bevölkerungsgruppen komplett verweigern, steigt der Aufwand und die Ergebnisse werden ungenauer. Wie mein Kollege Rico Grimm aufgeschrieben hat, werden unseriöse Umfragen dennoch breit zitiert – sogar von der Bundeskanzlerin persönlich.

Statt mit immer höherem Aufwand Personen nach dem Zufallsprinzip zu befragen, versuchen einige neue Firmen wie Civey mit höherer Statistik und riesigen Datenmengen Deutschland zu vermessen. Mit dem Non-Probabilty-Sampling, so lautet der Fachbegriff, stellen sie ein seit 1936 geltendes, cleveres sozialwissenschaftliches Prinzip infrage. Denn bisher galt die Devise: Wenn man die Befragten zufällig auswählt, reicht es, einen winzigen Anteil (circa 1.000 bis 2.000) einer riesigen Gruppe (zum Beispiel 80 Millionen) zu befragen, um zu wissen, wie alle denken.

Immer mehr Deutsche verweigern die Antwort

Politiker – aber auch Medien und die Wirtschaft – wüssten natürlich gerne besser über die Bürger und Bürgerinnen Bescheid. Auch wenn immer wieder gerne das Gegenteil behauptet wird: Politiker verlassen sich auf Umfragen und richten sich nach dem vermeintlichen Volkswillen. Natürlich kann man das kritisieren. Doch das ist die Realität der Berliner Republik. Das heißt, Meinungsumfragen bestimmen die Politik, und schlechte Meinungsumfragen bedeuten schlechtere Politik. Um bessere Daten zu haben, müsste man auch mehr Menschen befragen. Doch das kostet viel Geld.

Um das zu verstehen, muss ich kurz ausholen und einige trockene Details erklären: Wie wird eigentliche eine klassische Umfrage, etwa von der Forschungsgruppe Wahlen, für das ZDF gemacht? Um sicherzustellen, dass jeder Wahlberechtigte die gleiche Chance hat, befragt zu werden, ruft man zufällig generierte Telefonnummern an. So kann man auch Menschen erreichen, die nicht im Telefonbuch stehen. Allerdings würde man so vor allem Leute mit viel Tagesfreizeit erwischen. Deshalb greifen die Demoskopen zu einem Kniff und befragen nur die Person im Haushalt, die zuletzt Geburtstag hatte. Notfalls wird nochmals angerufen oder ein Rückruf vereinbart, um zu garantieren, dass möglichst viele Angerufene auch teilnehmen.

Wie oft eine Telefonnummer angerufen wird und wie groß der Ausfall der Stichprobe ist, hüten die deutschen Meinungsforschungsunternehmen als Betriebsgeheimnis. Dabei ist genau das eines der wichtigsten Qualitätsmerkmale von Befragungen. „Akademische Umfragen fassen mehr als zehnmal nach. Nichtakademische Umfragen müssen quick-and-dirty sein, da belässt es man dann bei wenigen Versuchen”, sagt Thomas Gschwend, Professor für Quantitative Methoden an der Universität Mannheim.

Gschwend schätzt, dass es den seriösesten Umfrageunternehmen in Deutschland – Forschungsgruppe Wahlen und infratest dimap – gelingt, die Nicht-Antwort-Rate auf 60 Prozent zu drücken. „Die meisten Menschen sind einfach davon genervt, ständig von irgendwelchen Meinungsforschern angerufen zu werden”, sagt Gschwend. Dabei ist die Bereitschaft in Deutschland noch vergleichsweise hoch. In den USA liegt die Verweigerungsrate bei Telefonumfragen bei 99 Prozent.

Masse schlägt Zufall

Da es so schwierig ist, alle aus der zufällig gezogenen Stichprobe auch tatsächlich zu befragen, gewichten die Meinungsforscher ihre Rohdaten. Dafür sehen sie sich an, wie sich die Umfrageteilnehmer nach bestimmten Merkmalen zusammensetzen. Also, wie viele Frauen, wie viele Städter, Junge oder Alte waren dabei. Dem gegenüber steht die Zusammensetzung der Bundesrepublik, die man etwa im Mikrozensus ablesen kann. Der Mikrozensus ist so etwas wie der Goldstandard der statistischen Erhebungen. Jedes Jahr verpflichtet das Gesetz circa 830.000 Bürger, sich von den Statistischen Landesämtern befragen zu lassen.

Ein Rechenbeispiel zur Gewichtung: 15 Prozent der Befragten sind älter als 75 Jahre alt, aber in der Gesamtbevölkerung gibt es nur 11 Prozent in diesem Alter. Um eine repräsentative Aussage machen zu können, muss man dann so rechnen, dass die Alten eine geringere Rolle spielen. Umgekehrt muss ich dafür die Antworten anderer Gruppen in mein Ergebnis stärker reinrechnen; oder hochgewichten, wie Meinungsforscher dazu sagen.

Wie sehr das erhobene Meinungsbild der Realität entspricht, hängt daher stark von den Formeln der Meinungsforscher ab. „Das kann Erfahrungswissen sein oder aber Hexenwerk – nachvollziehbar ist es jedenfalls nicht”, sagt der Soziologe Andreas Diekmann von der Technischen Hochschule Zürich. „Womöglich findet vieles auch einfach Pi mal Daumen statt, und denkbar ist, dass dabei auch auf die Werte der Konkurrenz geschielt wird.”

Umfragen machen mit dem Tinder-Prinzip

Das Start-up Civey versucht erst gar nicht nach dem Zufallsprinzip zu befragen. „Unsere These ist, dass es reine Zufallsstichproben nicht gibt”, sagt Richter. Stattdessen versucht die Firma, möglichst viele Leute dazu zu bringen, immer mehr Fragen zu beantworten. Civey nutzt das Geltungsbedürfnis der Internetnutzer, die wollen, dass ihre Meinung gehört wird. Jede Umfrage wird veröffentlicht, idealerweise auf einer News-Webseite, lautet das Versprechen von Civey. Von der Dating-App Tinder haben sich die Macher den Clickflow abgeschaut, also das Prinzip, dass man immer noch eine Person mehr sehen oder eben eine weitere Frage beantworten will. „Es muss Spaß machen, und du musst neugierig sein, welche Frage als nächstes kommt”, sagt Richter.

Fragen dürfen nicht mehr als 90 Zeichen haben; die Antworten maximal 30. „Eine gute Frage ist so leicht verständlich wie möglich, aber auch nicht zu einfach”, sagt Christopher Gatz, der die Fragen recherchiert und formuliert. Besonders beliebt bei den Nutzern seien tagespolitische, aktuelle Fragen mit konkretem Bezug. Zum Beispiel: „Hat Verkehrsminister Dobrindt Ihrer Meinung nach bei der Regulierung der Automobilindustrie versagt?”

„Eine gute Frage ist so leicht verständlich wie möglich, aber auch nicht zu einfach“, sagt Christopher Gatz, der die Fragen recherchiert und formuliert.

Durchschnittlich 35 Fragen hintereinander beantworten die 350.000 registrierten Nutzer laut eigenen Angaben (Stand: August 2017). Jeden Tag komme so eine halbe Million neuer Antworten zu ihrem Datenschatz hinzu. Rekrutiert werden die User vor allem auf reichweitenstarken Online-Nachrichtenseiten wie Spiegel Online, Welt, aber auch Cicero oder dem Freitag, wo die Civey-Umfrage unterhalb von Artikeln eingebunden ist. Der Nutzen für die Medien: Sie erhalten einen Teil der Daten, und die Leser bleiben länger auf ihren Seiten.

Die Rohdaten der Civey-Umfragen zeichnen ein Bild der überzeugten Wähler.

Die gewichteten Zahlen zeigen ein anderes Bild.

Ohne Gewichtung sagen die Rohdaten, die Civey erhebt, aber erst mal wenig aus. Deshalb streut das Start-up immer wieder Fragen nach dem Alter, Geschlecht oder Familienstand ein. Nach diesen Merkmalen zerlegt Civey die Nutzer in vier Milliarden unterschiedliche Kategorien. Ein Beispiel für solche eine Kategorie: schlecht ausgebildete, verheiratete, berufstätige Frauen zwischen 40 und 50 Jahren mit zwei Kindern in einer Millionenstadt wohnend. Um in Folge die Daten so gewichten zu können, dass sie der Gesamtbevölkerung entsprechen, muss Civey seine Daten an Hand der großen empirischen Sozialstudien wie des Mikrozensus kalibrieren. Auch nach Wahlen wird die Gewichtung für die Sonntagsfrage („Welche Partei würden Sie wählen, wenn am kommenden Sonntag Bundestagswahl wäre?”) neuausgerichtet, damit das Meinungsforschungsunternehmen beim nächsten Mal hoffentlich näher dran ist am tatsächlichen Wahlergebnis.

Höhere Statistik spart Geld

Alle zu befragen, die man kriegen kann, macht Befragungen billiger, sagt Gschwend. Man vergleiche die abgefragten sozialen Informationen mit dem Mikrozensus und gewichte entsprechend. Eine nicht zufällig ausgewählte Stichprobe wird aber immer die zweitbeste Option bleiben. „Wenn man eine repräsentative, zufällige Stichprobe bekommen kann, wird jeder Wissenschaftler immer das nehmen”, sagt Gschwend. Das ist aber in der Regel viel teurer. Deshalb müsse man aus wirtschaftlichen Gründen die Nicht-zufällige-Stichprobe in der Wissenschaft vorantreiben und neue Verfahren mit Big Data weiterentwickeln.

Berechnet wird die Civey-Umfrage mit verschiedenen höheren statistischen Methoden, die Bayesianische Statistik, Riversampling, Poststratifizerung und Raking heißen, und die von deutschen Meinungsforschern noch recht selten verwendet werden. US-amerikanische Statistiker haben in einem ähnlichen Ansatz bereits gezeigt, dass sich aus einer Umfrage unter 346.000 Xbox-Spielern berechnen lässt, wie die gesamte Bevölkerung wählen wird. Und das, obwohl unter den Befragten weit mehr Junge und Männer waren als in der Bevölkerung. Denn in der riesigen Stichprobe sind noch immer ausreichend Frauen oder alte Menschen vertreten.

Geburtsstunde der Zufallsstichprobe

Schon einmal wurde die Meinungsforschung von einem Paradigmenwechsel erschüttert, der heute auch als die Geburtsstunde der modernen Demoskopie gilt. Viermal hatte das US-Magazin The Literary Digest Anfang der 1930er Jahre bereits US-Präsidentschaftswahlen mittels einer Befragung korrekt vorhergesagt. Auch 1936 wurden wieder 10 Millionen Fragebögen verschickt, wovon 2,3 Millionen beantwortet zurückkamen. Ohne die Zahlen zu gewichten oder zu interpretieren, sah man den Republikaner Landon bei 55 Prozentpunkten und den demokratischen Amtsinhaber Franklin D. Roosevelt bei 41 Prozentpunkten.

Am Wahltag kam es dick: Roosevelt gewann haushoch. The Literary Digest erholte sich nie wieder von diesem Glaubwürdigkeitsverlust und machte zwei Jahre später dicht. Die Umfrage hatte zwei fatale Fehler: Die 10 Millionen Befragten wurden vor allem aus dem Telefonbuch und dem Verzeichnis der Autobesitzer rekrutiert. Kurz nach der Wirtschaftskrise konnten sich aber nur Wohlhabende Auto oder Telefon leisten. Man nennt das einen Stichprobenfehler, wenn eine bestimmte Bevölkerungsgruppe – hier also ärmere Menschen – zu selten in der gezogenen Stichprobe vorkommt. Die geringe Rücklaufquote von 25 Prozent zeigt auch, dass eine Schweigeverzerrung zu dem falschen Ergebnis geführt hat. Wenn ein so großer Anteil der Stichprobe die Befragung verweigert, kann das Ergebnis nicht für alle gültig sein. Den Sieger korrekt vorhergesagt hat hingegen George Gallup, indem er 50.000 zufällig ausgewählte Personen aller Bevölkerungsschichten mündlich befragte.

Denn eine Umfrage mit einer Stichprobe ist nur dann repräsentativ für die Allgemeinheit, wenn jeder die gleiche zufällige Chance hat teilzunehmen. Damit begründete Gallup die moderne, methodische Meinungsforschung, wie sie heute noch von Unternehmen wie infratest dimap oder der Forschungsgruppe Wahlen angewandt wird. Bei der Befragung von The Literary Digest wurde hingegen die Stichprobe nicht zufällig ausgewählt. Ohne entsprechende statistische Gewichtung kam es dann zum Fehlschluss.

„Bots sind leicht zu erkennen”

Die Daten von Civey wecken auch schon das Interesse von Wissenschaftlern. Der Berliner Politikwissenschaftler Jost Listemann promoviert zur Social-Media-Aktivität von Parteien und ihrer Spitzenkandidaten im Wahljahr. Dem Social-Stream stellt er den kontinuierlichen Sonntagsfragen-Datenstrom von Civey gegenüber und hofft so, Aussagen über der Wirkung der Social-Media-Auftritte treffen zu können. Entscheidender Vorteil für ihn sei die unmittelbare und schnelle Verfügbarkeit der Daten. „Wenn dasselbe mit klassischer Meinungsforschung machbar wäre, dann würden meine Ergebnisse in der sozialwissenschaftlichen Community sicher besser und leichter Anerkennung finden”, schränkt Listemann ein.

Ein Problem der Civey-Methode bleibt die Gefahr der Manipulation. Zwar ist auch die klassische Meinungsforschung nicht vor Lügen und Unwahrheiten gefeit. Aber bei einer Zufallsstichprobe ist es unmöglich, dass gezielt massenhaft Teilnehmer einer bestimmten Gruppe teilnehmen. Die Möglichkeit technischer Manipulationen durch Bots sieht der Civey-Gründer Richter aber gelassen: „Die Bots, die wir bis jetzt gesehen haben, waren leicht zu erkennen.” Denn die Bots würden widersprüchlich antworten, hätten keinen Tages- und Nachtrhythmus und würden viel zu viele Fragen hintereinander beantworten.

Politiker haben eigentlich keine Ahnung, was die Bürger wirklich denken, sagt Gerrit Richter.

Sonntagsfrage als Marketingtool

Noch lässt sich schwer beurteilen, wie nahe Civey mit seinen Daten an der Wirklichkeit dran ist. Ende 2016 hat der Deutsche Hanfverband in drei Umfragen von Civey, Infratest dimap und TNS Emnid die Einstellung der Deutschen zur Cannabisfreigabe abfragen lassen. Der Ergebnisse der Meinungsforscher unterschieden sich eklatant und lagen bis zu 15 Prozentpunkte auseinander.

Das Start-up wirbt jedenfalls damit, bei der Berliner Abgeordnetenhauswahl 2016 die zweitbeste Prognose abgeliefert zu haben. Für ein Meinungsforschungsinstitut fungiert die Sonntagsfrage als Schaufenster, um die Qualität ihrer Arbeit unter Beweis zu stellen. Denn anders als bei vielen anderen abgefragten Themen, gibt es bei der Sonntagsfrage mit dem Wahltag eine Vollerhebung, die zeigt, wie gut das Unternehmen im Messen der öffentlichen Meinung ist.

Auch die Firma YouGov nutzt die Sonntagsfrage in erster Linie als Marketingvehikel. Die international agierende Firma setzt ausschließlich auf Onlinebefragungen. Anders als Civey setzt YouGov dafür auf einen festen Personenkreis an Teilnehmern, die für das Ausfüllen von Umfragen Gutscheine erhalten. Die User werden dafür in soziodemografischen Gruppen eingeteilt, und User bekommen nur jene Umfragen zugewiesen, in denen ihre Bevölkerungsschicht (wiederum am Mikrozensus orientiert) noch fehlt. So kann YouGov mit wenig Streuverlust und Kosten die nötige Quotierung erfüllen, um repräsentative Aussagen zu treffen. Kritikpunkt an der Methode ist, dass so nur eine ganz bestimmte Gruppe Menschen – Internetnutzer, die ihre Zeit gegen Gutscheine tauschen – befragt wird.

Daneben gibt es noch andere Unternehmen, die versuchen, online schnell und in großer Zahl Meinungen zu erfassen. Das Berliner Start-up Opinary fragt mit einer Kompassnadel die Meinung der Nutzer ab, und hat bereits in den angelsächsischen Raum expandiert. Auch über das österreichische Unternehmen Rawr lassen sich Leserumfragen auf verschiedenen Nachrichtenseiten einbetten und auswerten. Allerdings versuchen die beiden Unternehmen nicht aus den Daten repräsentative Meinungsumfragen zu berechnen.

Harter Kampf um einen großen Markt

Civey ist ein typisches Tech-Start-up, das ein Problem erkannt hat und versucht, es mit Technologie, Design und dem Internet zu lösen. Die Firma wächst schnell, die erste Umfrage ging im Sommer 2016 online. Die Büros sind spartanisch eingerichtet und wurden gerade erweitert; das Nerd-Getränk Club Mate trinkt man hier kistenweise, und viele der 30 Mitarbeiter kamen aus dem Ausland nach Berlin. Gewinn ist momentan noch kein Thema, erst seit zwei Monaten werden überhaupt über den Verkauf Umsätze erwirtschaftet. Ziel sei es, die gesammelte Datensammlung per Flatrate an Unternehmen zu verkaufen. Anders als viele klassische Meinungsforschungsinstitute will Civey aber mit Politikberatung nichts zu tun haben, da sich diese auch nicht automatisieren und vervielfältigen lasse.

Wichtiger als Einnahmen sei momentan Wachstum, sagt Richter. Nächster Schritt sei es, in einem anderen Land Fuß zu fassen. Österreich soll der Testmarkt werden, bevor sich Civey ins englischsprachige Gebiet vorwagt. Am Wahltag ist Zahltag: Dann wird sich zeigen, wie viel die Daten von Civey wert sind.

Rico Grimm hat beim Erarbeiten des Artikels geholfen; Theresa Bäuerlein hat gegengelesen; Martin Gommel hat das Aufmacherfoto ausgesucht (iStock / Alija).

Wir sind …