Effektgroesse: Warum die Psychologieforschung so oft sche...

Du hast es sicher schon gesehen. 'Schokolade macht schlank!' - die Schlagzeile ging 2015 viral. Zeitungen, Online-Portale, Talkshows: Alle berichteten euphorisch ueber eine 'wissenschaftliche Studie', die bewies, dass Schokoladenkonsum beim Abnehmen hilft. Die Effektgroesse? Winzig. Cohens d lag bei etwa 0,2 - praktisch bedeutungslos. Die Teilnehmer verloren nur rund 10 Prozent mehr Gewicht als die Kontrollgruppe - bei einer Low-Carb-Diaet, was absolut gesehen wenig bedeutet. Aber die Medien? Sie schrieben 'noch 15 Prozent mehr Gewichtsverlust' und uebergingen vollstaendig, dass es sich um relative Verbesserungen handelte, die praktisch kaum relevant waren.

Hier liegt das Problem. Johannes Bohannon, der Journalist hinter dieser Studie, hatte sie absichtlich als PR-Stunt konzipiert. Er wollte zeigen, wie leicht Medien und Journalisten Wissenschaft missbrauchen. Und es funktionierte. Die Menschen wollten glauben, dass Schokolade schlank macht. Also ignorierten sie die Zahlen. Solche Faelle offenbaren ein systemisches Problem.

Wie die Medien Wissenschaft verkaufen

Die Berichterstattung ueber die Schokoladenstudie zeigt systemisches Versagen. Journalisten lesen selten die Originalstudien. Stattdessen verlaessen sie sich auf Pressemitteilungen - die fuer Klicks optimiert sind, nicht fuer Genauigkeit.

Relatives Risiko statt absolutes Risiko. Das ist der beliebteste Trick. 'Krebsrisiko um 50 Prozent erhoet' klingt dramatisch. Dass dies einer Erhoehung von 2 auf 3 Prozent entspricht? Egal. Die Schlagzeile ist geboren, der Kontext stirbt. Clickbait schlaegt Genauigkeit jedes Mal.

Es geht nicht nur um faule Journalisten. Es geht um ein System, das Genauigkeit bestraft. Wer den komplexen Kontext einer Studie erklaert, verliert Leser. Wer knappe, falsche Schlagzeilen schreibt, gewinnt Klicks. Die Anreize sind pervers. Leser treffen Entscheidungen auf Basis von Halbwahrheiten.

Die Replikationskrise: Die Zahlen sprechen fuer sich

Stell dir vor, du baust ein Haus. Der Architekt sagt: 'Das Fundament haelt mit 39-prozentiger Wahrscheinlichkeit.' Wuerdest du einziehen?

Genau das passiert in der Psychologie. Das Reproducibility Project (Open Science Collaboration, 2015) versuchte, 100 Studien aus drei Spitzenzeitschriften zu replizieren. Das Ergebnis: Nur 39 Prozent der urspruenglichen Befunde konnten reproduziert werden. In den Originalstudien zeigten 97 Prozent 'signifikante' Ergebnisse. In Replikationen nur 36 Prozent. Effektgroessen in Replikationen waren etwa halb so gross wie in Originalen.

Das sind keine Ausnahmen. Das ist ein systemisches Problem.

Der p-Wert-Fetisch: Warum 0,05 ein Problem ist

Was bedeutet p < 0,05 eigentlich? Nicht das, was du denkst.

Ein p-Wert sagt dir nicht, wie wahrscheinlich es ist, dass deine Hypothese richtig ist. Er sagt dir nur, wie wahrscheinlich deine Daten sind - unter der Annahme, dass die Nullhypothese wahr ist. Das ist ein subtiler, aber kritischer Unterschied.

Simmons, Nelson und Simonsohn (2011) zeigten in ihrer Studie 'False-Positive Psychology', was passiert, wenn Forscher Flexibilitaet nutzen. Mit standardmaessigen 'Researcher Degrees of Freedom' - dem Spielraum beim Beenden von Messungen, der Wahl der zu analysierenden Variablen, der Entscheidung, welche Ausreisser zu entfernen sind - konnten sie in 61 Prozent der Faelle einen 'signifikanten' Effekt erzeugen. Selbst wenn kein Effekt existierte.

Die American Statistical Association (Wasserstein & Lazar, 2016) veroeffentlichte 2016 eine beispiellose Erklaerung. Sechs Prinzipien fuer den richtigen Umgang mit p-Werten. Die Kernbotschaft: Ein p-Wert misst weder Effektgroesse noch Bedeutsamkeit eines Ergebnisses.

Das System belohnt Signifikanz ohne Ruecksicht auf Effektgroesse. Das oeffnet die Tuer fuer Manipulation.

Effektgroessen: Die vergessene Waehrung

Hier kommt Cohens d ins Spiel. Jacob Cohen (1988) etablierte Konventionen fuer Effektgroessen: d = 0,2 ist ein kleiner Effekt, d = 0,5 ein mittlerer, d = 0,8 ein grosser Effekt.

Ein kleiner Effekt mit d = 0,2 ist kaum sichtbar. Praktisch irrelevant. Und genau darauf laeuft die Replikationskrise hinaus.

Das Power-Posing-Beispiel veranschaulicht dies perfekt. Die Originalstudie von Carney, Cuddy und Yap (2010) mit nur 42 Teilnehmern behauptete, dass eine dominante Koerperhaltung Testosteron erhoehe und Cortisol senke. Die Replikation von Ranehill et al. (2015) mit 200 Teilnehmern fand: keine hormonellen Effekte. Der Effekt auf das Machtgefuehl betrug nur d ungefaehr 0,2 - und nur bei Maennern.

Die urspruenglichen Effektgroessen waren systematisch uebertrieben. Das Original zeigte d ungefaehr 0,6. Die Replikation d ungefaehr 0,2. Das ist der Unterschied zwischen 'beeindruckend' und 'wen interessiert's?'

Der Unterschied zwischen statistischer und praktischer Signifikanz ist entscheidend. Ein p-Wert sagt dir, dass ein Unterschied existiert. Die Effektgroesse sagt dir, ob dieser Unterschied ueberhaupt relevant ist.

Die grossen Skandale: Von Stapel bis Gino

Die Zahlen aus der Replikationskrise zeigen statistische Probleme. Hinzu kommt bewusster Betrug in der Forschung.

Diederik Stapel (2011): 58 zurueckgezogene Veroeffentlichungen. Der groesste Betrugsfall in der Geschichte der Psychologie. Der niederlaendische Sozialpsychologe erfand jahrelang komplette Datensaetze. Er behauptete, Studien durchgefuehrt zu haben, die nie stattfanden. Das Levelt-Komitee (2012) sprach von einer 'Kultur schlechter Wissenschaft' - einem System, das Tauschung ermoeglichte und schuetzte.

Hans-Ulrich Wittchen (2019-2024): Die PPP-Studie an der TU Dresden. Budget: 2,5 Millionen Euro aus dem deutschen Gesundheitssystem. Die 'Personalbemessung in der Psychiatrie und Psychosomatik'-Studie sollte die Grundlage fuer neue Versorgungsrichtlinien bilden. Stattdessen: erfundene Klinikdaten, zu wenige teilnehmende Kliniken, moeglicher Missbrauch von Projektmitteln. Die neuen Richtlinien wurden umgesetzt - ohne die Studiendaten. 2024 wurden Betrugsanklagen erhoben.

Francesca Gino (2023-2025): Die Ironie ist kaum zu ueberbieten. Eine Harvard-Professorin, die ueber Ehrlichkeit forschte. Data Colada - das Blog-Trio Simonsohn, Simmons und Nelson - deckte Manipulationen in vier Artikeln auf. Die Excel-Analyse zeigte: Zeilen waren manuell zwischen Bedingungen verschoben worden. Die forensische Analyse von calcChain.xml bewies: Jemand hatte die Daten manuell manipuliert. Harvards 1.300-seitiger Untersuchungsbericht bestaetigte das Fehlverhalten. Im Maerz 2024 wurde sie suspendiert. 2025 wurde ihr die Professur entzogen - das erste Mal in der Geschichte Harvards seit den 1940er Jahren.

Alle drei Faelle haben Gemeinsamkeiten: Prominente Forscher. Jahre anhaltender Tauschung. Entdeckung durch Aussenstehende, nicht durch Peer Review. Effektgroessen, die zu gut waren, um wahr zu sein.

Warum das System Betrug beloehnt

Das Problem liegt nicht im individuellen moralischen Versagen. Das Problem ist strukturell - und umfasst alle Ebenen: Forscher, Zeitschriften, Medien, Oeffentlichkeit.

'Publish or Perish' - veroeffentlichen oder verschwinden. Karrieren haengen von Publikationszahlen ab. Zeitschriften bevorzugen positive Ergebnisse zu 96 Prozent gegenueber 44 Prozent (Lakens, 2021). Negative Ergebnisse verschwinden in der Schublade. Effektgroessen spielen bei Publikationsentscheidungen kaum eine Rolle.

Das fuehrt zu einem gefaehrlichen Kreislauf: p-Hacking - analysieren, bis p < 0,05 erreicht ist. Selektive Berichterstattung - nur signifikante Ergebnisse aus mehreren Messungen berichten. Und wenn alles andere scheitert: Datenfaelschung.

Die meisten Forscher beginnen mit legalem Spielraum. Der Karrieredruck steigt. Inkrementelle ethische Kompromisse haeufen sich. Nach zehn Jahren bist du Stapel. Oder Gino.

Die Medien verstaerken das Problem. Sie nehmen, was Zeitschriften veroeffentlichen, und drehen es fuer Klicks weiter. Der Oeffentlichkeit bleibt das fertige Produkt: eine Welt, in der Schokolade schlank macht und Power-Posing Hormone veraendert.

Effektgroessen koennten als Schutz dienen. Wenn Zeitschriften verlangen wuerden, dass signifikante Ergebnisse auch praktisch relevant sind - wuerden viele 'signifikante' Befunde als trivial erkannt. Der Anreiz zur Manipulation wuerde sinken.

Open Science: Die Revolution

Es gibt Hoffnung. Die Open-Science-Bewegung waechst.

Praeregistrierte Studien legen die Hypothese vor dem Experiment fest. Registered Reports drehen den Peer-Review-Prozess um: Die Zeitschrift nimmt das Papier auf Basis der Methodik an oder ab - bevor die Ergebnisse bekannt sind.

Die Zahlen sind ermutigend. Lakens (2021) verglich Standardliteratur mit Registered Reports: 96 Prozent positive Ergebnisse in der Standardliteratur, nur 44 Prozent in Registered Reports. Das ist keine Qualitaetsverschlechterung. Das ist schlicht Ehrlichkeit.

Die Many-Labs-Projekte zeigen, dass Replikation funktioniert. Many Labs 2 (Klein et al., 2018) testete 28 Effekte in 125 Stichproben aus 36 Laendern mit 15.305 Teilnehmern. Das funktioniert. Wenn es richtig gemacht wird.

Das Center for Open Science etablierte die TOP-Richtlinien (Transparency and Openness Promotion). Ueber 1.000 Zeitschriften haben sie uebernommen. Plattformen wie OSF und AsPredicted machen Praeregistrierung einfach.

Die Veraenderung ist langsamer als sie sein sollte. Aber sie geschieht.

Was du jetzt tun kannst

Du musst kein Statistiker sein, um wissenschaftliche Studien kritisch zu lesen. Drei Fragen genuegen: Wie gross ist die Stichprobe? Alles unter n = 100 ist verdaechtig. Wurde die Effektgroesse berichtet? Wenn nur der p-Wert angegeben wird, fehlt die Haelfte der Geschichte. Ist die Studie praeregistriert? Ein Hinweis auf groessere Vertrauenswuerdigkeit.

Pruefe die Effektgroesse, bevor du einer Studie vertraust.

Wenn du selbst forschst oder Studien fuer Entscheidungen nutzt: Verlange Effektgroessen. Ignoriere p-Werte ohne Kontext. Frage nach praktischer Relevanz. Und wenn die naechste Schlagzeile verkuendet, dass X Y verursacht - frag nach den Zahlen. Hinter der Schlagzeile.

Fazit

Die Psychologie steht an einem Scheideweg. Das System der vergangenen Jahrzehnte hat versagt. 39 Prozent Replikationsrate. Allein 58 zurueckgezogene Veroeffentlichungen von Stapel. Ein p-Wert-System, das Manipulation einlaedt. Und Medien, die alles noch schlimmer machen.

Aber es gibt einen Ausweg. Effektgroessen muessen zum Standard werden. Praeregistrierung muss die Norm sein. Registered Reports muessen den Mainstream erreichen. Und du - du musst kritisch lesen.

Die naechste Studie, die du liest - frag nach der Effektgroesse. Nicht nur nach dem p-Wert. Das ist der erste Schritt zurueck zu vertrauenswuerdiger Wissenschaft.

Quellen

Bohannon, J., Koch, D., Homm, P., & Driehaus, A. (2015). Chocolate with High Cocoa Content as a Weight-Loss Accelerator. International Archives of Medicine, 8(55). (Retracted)

Open Science Collaboration (2015). Estimating the reproducibility of psychological science. Science, 349(6251), aac4716.

Simmons, J. P., Nelson, L. D., & Simonsohn, U. (2011). False-positive psychology: Undisclosed flexibility in data collection and analysis allows presenting anything as significant. Psychological Science, 22(11), 1359-1366.

Wasserstein, R. L., & Lazar, N. A. (2016). The ASA statement on p-values: Context, process, and purpose. The American Statistician, 70(2), 129-133.

Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.). Lawrence Erlbaum Associates.

Levelt Committee, Noort Committee, & Drenth Committee (2012). Flawed science: The fraudulent research practices of social psychologist Diederik Stapel.

Lakens, D. (2021). Sample size justification. Collabra: Psychology, 7(1), 33267.

Klein, R. A., et al. (2018). Many Labs 2: Investigating variation in replicability across samples and settings. Advances in Methods and Practices in Psychological Science, 1(4), 443-490.

Carney, D. R., Cuddy, A. J., & Yap, A. J. (2010). Power posing: Brief nonverbal displays affect neuroendocrine levels and risk tolerance. Psychological Science, 21(10), 1363-1368.

Ranehill, E., et al. (2015). Assessing the robustness of power posing. Psychological Science, 26(5), 653-656.

Effektgroesse: Warum die Psychologieforschung so oft scheitert