Schon der Begriff klingt nach völliger Ahnungslosigkeit: Naive Prognose. Gemeint ist damit nichts weiter als das vergangene Wahlergebnis, das als Prognose für die bevorstehende Wahl verwendet wird. Unter Meinungsforschern ist der Vergleich mit dieser Prognose gerade wegen ihrer Einfachheit gefürchtet. Denn wer schlechter als die naive Prognose abschneidet, der kann seine Forschung eigentlich gleich einstellen.
Auch wenn keines der deutschen Forschungsinstitute so schwach abschneidet, dass man diesen Rat erteilen müsste, ist der Vergleich erhellend. Er zeigt, wie wenig die Umfrage ein paar Monate vor dem tatsächlichen Wahltermin mit dem tatsächlichen Wahlausgang zu tun haben – und wie schlecht die Institute auf Extremszenarien vorbereitet sind. Um über die Qualität der deutschen Umfrageinstitute zu urteilen, haben wir ihre Umfragen seit Mitte der Neunzigerjahre miteinander und mit dem tatsächlichen Ergebnis verglichen. Der Vergleich dient zum einen als Grundlage für die Gewichtung, mit der wir unseren Mittelwert errechnen, zum anderen ergibt sich eine Leistungsschau der Institute Allensbach, TNS Emnid, Forsa, Forschungsgruppe Wahlen, GMS und Infratest dimap.
Der wohl wichtigste Vergleich ist der zwischen der letzten Umfrage vor jeder Wahl mit dem Ergebnis. Denn hier können die Umfragen als Prognosen interpretiert werden: Das tatsächliche Ergebnis sollte demnach in 95 Prozent der Fälle innerhalb des vorhergesagten Intervalls liegen – vorausgesetzt, der Zufallsfehler ist die einzige Fehlerquelle. Bei den Sonntagsfragen in den Monaten vor der Wahl ist der Anspruch bescheidener, hier soll lediglich die Stimmung im Lande wiedergegeben werden.
Ergebnisse kurz vor der Wahl
Bei der letzten Umfrage vor der Wahl kommen alle Institute auf den ersten Blick erstaunlich nah an das tatsächliche Ergebnis heran. Mit einer durchschnittlichen Abweichung von 1,5 Prozentpunkten für jede Partei weist die Forschungsgruppe Wahlen noch die größte Differenz auf, die Allensbacher Prognose liegt im Mittel nur 1,2 Punkte vom tatsächlichen Ergebnis entfernt. Die naive Prognose hingegen liegt im Mittel um 3,1 Punkte daneben. Vergleicht man die Abweichungen für die addierten Werte der beiden Koalitionsparteien SPD/Grüne und CDU/FDP, liegt Forsa mit einer durchschnittlichen Abweichung von 0,9 Prozentpunkten vorne. Die mittlere Abweichung liegt in diesem Fall bei 1,4 Punkten, am schlechtesten schneidet GMS mit 2,4 Punkten ab.
Das klingt gut, doch die Daten offenbaren eine Schwäche: Zu oft liegen die Werte der Institute außerhalb des Konfidenzintervalls. Laut Annahme sollte die Prognose in 95 von hundert Fällen das annähernd richtige Ergebnis liefern, nur jeder zwanzigste Wert dürfte jenseits der Spanne liegen. Tatsächlich liegt selbst bei der Forschungsgruppe Wahlen, die in dieser Hinsicht am besten abschneidet, aber jeder zehnte Wert außerhalb des Intervalls, bei Forsa ist es gar jeder fünfte. Insgesamt liegen 15,7 Prozent aller Ergebnisse außerhalb des Intervalls. Damit können die Institute ihre wichtigste Behauptung nicht halten.
Letzte Umfrage vor der Wahl | ||
Mittlere Abweichung (in Prozentpunkten) | Anteil der Ergebnisse außerhalb des Konfidenzintervalls (in Prozent) | |
Allensbach | 1,2 | 15 |
TNS Emnid | 1,5 | 15 |
Forsa | 1,5 | 20 |
Forschungsgruppe Wahlen | 1,5 | 10 |
GMS | 1,4 | 20 |
Infratest dimap | 1,4 | 15 |
Mittelwert (ungewichtet) | 1,3 | 10 |
Naive Prognose (letztes Wahlergebnis) | 3,1 | 60 |
Quelle: eigene Berechnungen |
Als wichtigsten Grund nennen die Institute selbst die Wahl 2005. Viele bezeichnen sie als quasi nicht prognostizierbar: Im Vorfeld ergaben alle Umfragen extrem schwache Werte für die SPD, während sich der Kanzler Gerhard Schröder sogar wachsender Popularität erfreute. Letztlich lagen die Institute allesamt weit neben dem tatsächlichen Ergebnis. Lässt man es mit dieser Begründung außen vor, ergibt sich eine versöhnliche Fehlerquote von 5,9 Prozent. Doch diese Ausnahme zu setzen, ist ein typisches Herdenphänomen: Das unvorhergesehene Ereignis wird als unvorhersehbar bezeichnet. Der schwarze Schwan wird als "Ausreißer" einfach ignoriert. Dabei war die Wahl 2005 womöglich gar kein schwarzer Schwan, denn wie wir in einem späteren Beitrag zeigen werden gibt es Hinweise darauf, dass der in den Umfragen gemessene Vorsprung von Schwarz-Gelb so in Wirklichkeit nie existiert hat!
Aufschlussreich ist daher der Vergleich mit der naiven Prognose: Sie lag 2005 mit einer Abweichung von 3,0 Punkten nur knapp oberhalb des Werts von Forsa (2,8), selbst die „beste“ Prognose der Forschungsgruppe Wahlen (2,1) konnte sich nicht wirklich absetzen.
Ergebnis vier Monate vor der Wahl
Ähnlich bedenklich fällt der Vergleich der Umfragen vier Monate vor der Wahl – analog zu den aktuell veröffentlichten Umfragen – mit dem tatsächlichen Ergebnis aus. Zwar weisen die Institute darauf hin, dass hier nur Stimmungen wiedergegeben werden, sie nehmen aber zumindest billigend in Kauf, dass ihre Umfragen ähnlich wie Konjunkturprognosen gelesen werden: Falls sich nichts Gravierendes ändert, wird die Wahl so wie die aktuelle Umfrage ausgehen. Dabei stimmt das mitnichten: Den Vergleich mit der naiven Prognosen (mittlere Abweichung der Parteiwerte 3,0 Punkte) gewinnen die Institute zwar, die schwächste Allensbach (2,8) und Infratest dimap (3,0) aber nur haarscharf. Allensbach liegt sogar beim Anteil der Ergebnisse außerhalb des Konfidenzintervalls (50 Prozent) nur unwesentlich vor der naiven Prognose (60 Prozent).
Umfrage vier Monate vor der Wahl | ||
Mittlere Abweichung (in Prozentpunkten) | Anteil der Ergebnisse außerhalb des Konfidenzintervalls (in Prozent) | |
Allensbach | 2,8 | 50 |
TNS Emnid | 2,4 | 25 |
Forsa | 2,4 | 30 |
Forschungsgruppe Wahlen | 2,5 | 40 |
GMS | 2,7 | 40 |
Infratest dimap | 3 | 40 |
Mittelwert (ungewichtet) | 2,4 | 40 |
Naive Prognose (letztes Wahlergebnis) | 3,1 | 60 |
Quelle: eigene Berechnungen |
Dieser Vergleich zeigt auch: Die Bundestagswahl 2013 vier Monate vorher als bereits entschieden zu bezeichnen, wäre verfrüht. Der Wahlkampf steht erst bevor und viele Wähler haben sich noch gar nicht entschieden – in Großbritannien wird deshalb in jeder Umfrage der Anteil der Befragten veröffentlicht, die "weiß nicht" antworten. Keine schlechte Idee.
Versucht man anhand dieser Ergebnisse einen Sieger zu küren, fällt die Wahl am ehesten auf die Forschungsgruppe Wahlen.* In das Urteil einfließen können nur die Prognosen eine Woche vor der Wahl. Dass die Umfragen Monate vorher weit vom Ergebnis abweichen, liegt in der Natur der „Sonntagsfrage“ – das Problem ist hier eher in der Kommunikation und der Interpretation als in der Umfrage zu suchen. In der wichtigsten Kategorie, dem Anteil der Werte innerhalb des Konfidenzintervalls, liegt die Forschungsgruppe vorne. Auch bei der Problemwahl 2005 schnitt die Forschungsgruppe am besten ab. Ähnlich gut funktioniert die Prognose von Allensbach, hier ist die mittlere Abweichung sogar ein bisschen niedriger, dafür lag das Institut 2005 weiter daneben und die Anzahl der Ergebnisse außerhalb des Intervalls ist etwas höher.
Vor allem aber zeigen die Werte, dass die Institute allesamt noch Nachholbedarf haben. Ihr Vertrauens(Konfidenz)-Versprechen können sie allesamt nicht halten, in prognostisch schwierigen Zeiten (2005) lesen sich die Ergebnisse ihrer Prognosen insgesamt bescheiden. Da es keinen ganz klaren Sieger gibt, ist es außerdem vor der Wahl schwierig zu beurteilen, wessen Umfrage diesmal am Ende die beste sein wird. Das ist ein Argument für unseren gewichteten Mittelwert, denn der sollte auf jeden Fall deutlich näher am Ergebnis liegen als das schlechteste Institut.
Über die Gründe dafür, warum Umfragen und Ergebnisse mitunter stark voneinander abweichen und was sich im Wahlkampf noch ändern kann, werden wir in einem der nächsten Beiträge berichten.
*Jan Eric Blumenstiel ist Mitarbeiter der Universität Mannheim. Mit der Forschungsgruppe Wahlen hat er jedoch weder beruflich noch privat zu tun. Um den bloßen Anschein einer Interessenkollision zu vermeiden, wurde die Entscheidung wurde an dieser Stelle dennoch allein von Konrad Fischer vorgenommen.