Tests & Statistik
Inhalt
- Ein Elefant, der nicht im Raum ist
- Was sagt ein Test aus?
- Medizinische Statistik
- Covid-19 Tests
Ein Elefant, der nicht im Raum ist
Was sagt uns „eine 95%ige Wirksamkeit?“
„Impfstoffe gegen Covid-19 sind hochwirksam“ heißt es. Wenn es so ist: Was bedeutet eigentlich „Wirksamkeit“? Vor allem: in Bezug auf was?
Was wurde in den Studien genau gemessen? Welche Unterschiede sollten bei Geimpften und Nichtgeimpften mit gefunden werden: Schwere Krankheitsverläufe oder „Husten-Schnupfen-Heiserkeit“? Wie wurde Aussagekraft der genutzte PCR-Typ (hinsichtlich Genauigkeit und Empfindlichkeit) gemessen? Wie häufig konnte man bei einem positiven Covid-19-PCR-Test – je nach Durchseuchung der beobachteten Bevölkerungsgruppe – von einer Infektion mit einem lebendem Virus ausgehen?
Scheinbar Eindeutiges ist manchmal weniger eindeutig,
wenn man genauer hinsieht:
„Unkoordinierte Phase-3-Studien erfüllen nicht die Anforderungen des öffentlichen Gesundheitswesens. … Die Überlegungen zur Wirksamkeit und Effektivität basieren auf Studien, die die Vorbeugung von leichten bis mittelschweren COVID-19-Infektionen messen. Sie wurden nicht erdacht, um Aussagen zur Vorbeugung von Krankenhausaufenthalten, schweren Erkrankungen oder Todesfällen oder zur Vorbeugung von Infektionen und Übertragungspotenzialen zu treffen. Die Beurteilung der Eignung von Impfstoffen müsste alle Indikatoren berücksichtigen, und auch Sicherheit, Einsatzfähigkeit, Verfügbarkeit und Kosten einbeziehen.“ Olliario, Lancet 20. April 2021, Übersetzung: Jäger. Ein unterhaltsamer Versuch, diese mathematische Logik zu erklären Patrick Strobach 30.05.2021
Zu den Publikationen
- Olliario P et al.: Covid-19 vaccine efficacy & effectiveness – the elephant (not) in the room. The Lancet 20.04.2021 –
- Olliario P: What does 95% COVID-19 vaccine efficacy really mean? The Lancet 21.06.2021 –
- Gigerenzer G: „Unstatistik (RWI Essen) 02.12.2020“
- Jafaar R: Correlation Between 3790 Quantitative Polymerase Chain Reaction–Positives Samples and Positive Cell Cultures, Including 1941 Severe Acute Respiratory Syndrome Coronavirus 2 Isolates, Clinical Infectious Diseases (CID) 21.06.2021:72
Die Aussagen dieser Publikationen sind nicht neu. Sie erklären nur die Unterschiede zwischen,
- einem PCR-Test und einem virologischen Kulturverfahren.
- einem „Relativem Risiko“, das riesig erscheint, weil es auf kleine Teilgruppen bezogen wird.
- und einem „Absoluten Risiko“ (in einer Gesamtgruppe), das oft sehr klein ist.
Nur mit der einen Variante einer (sicher korrekten) Darstellung kann man Nicht-Statistiker:innen tief beeindrucken. Mit der anderen gelänge das weniger gut.
Was sagt ein Test?
Tests erzählen von einer Wahrscheinlichkeit, mit der ein Ereignis eintreffen werde. Sie liefern bestens falls Momentaufnahmen von Einzelereignissen. Und sagen nicht aus, „Wie es ist oder wie es nicht ist“.
Bevor Blut abgenommen wird, um einen Tumormarker zu bestimmen, es wäre günstig, das zu wissen.
Eigentlich ist es ganz einfach
Im 18. Jahrhundert hatte der Pfarrer und Hobbymathematiker Thomas Bayes etwas Geniales herausgefunden: Höre man in London Hufgetrappel, kündige das meistens ein Pferd an. Seltener vielleicht auch einen Esel. Aber:
„Wenn du Hufgetrappel hörst, glaube nicht, ein Zebra käme um die Ecke!“
Das klingt banal, ist es aber nicht.
Denn es bedeutete, dass man nicht nur mit dem rechnen sollte, was ein Sinneseindruck vermittelt (oder ein Test als Resultat bringt). Sondern ebenso mit dem, was (aus Erfahrung) wahrscheinlich zutreffen könnte.
Bayes hatte entdeckt, dass die Wahrscheinlichkeit des Eintritts eines konkreten Ereignisses u. a. von einem subjektiven Glauben abhängt. Für die Beurteilung einer Sinnesmeldung (oder eines Tests) ist Überzeugung notwendig, wie groß die Wahrscheinlichkeit sei, dass ein solches Ereignis in einem größeren Zusammenhang überhaupt vorkommen könne.
Der Glaube an die Wahrscheinlichkeit eines Ereignisses kann entweder auf Erfahrung beruhen („Ich habe noch nie ein Zebra in London gesehen“), oder auf Hörensagen: („Man sagt mir, es gäbe keine Zebras in London“).
Vor Bayes hatte nicht fassbare Subjektivität nichts in der Naturwissenschaft suchen.
Inzwischen wurde aber selbst die Physik von dem „subjektivistischen“ Gift des Pfarrers Bayes infiziert (Fuchs 2012, Fuchs 2010). In der Physik sind Entweder-oder-Ereignisse eher selten. Viel häufiger werden Wissenschaftler*innen mit unklaren Situationen konfrontiert, die zudem davon abhängen, wie sie betrachtet werden. Mit Bayes Erkenntnissen schlich sich erstmals Subjektivität in die nüchterne, scheinbar objektive Mathematik.
Die Annahme, dass etwas nicht sicher, sondern nur wahrscheinlich sein könnte, nährt sich aus Erlerntem, Gelesenem, Gehörtem und natürlich aus eigener Erfahrung. Eine Ansicht, dass etwas bei einer großen Zahl von Beobachtungen so sei, bleibt nützlich. Mehr nicht. In anderen Situationen, bei anderen Beobachtern und bei anderen Formen der Betrachtung könnte es ganz anders gesehen werden.
Tests werden durchgeführt, um eine Situation Welt sei berechenbar und verfügbarer zu machen. Die Bayes Test-Logik führt aber wieder in die Unsicherheit der Unverfügbarkeit zurück.
Viele Ärzt:innen mögen das nicht. Weil sie gelernt haben, „wie es wirklich ist“, und ihren Patient:innen Sicherheit vermitteln wollen. Deshalb vergessen sie rasch ihre Zweifel und die Grundlage der Statistikkurse, mit denen sie im Studium gequält wurden.
Stattdessen zapfen sie ihren Patient:innen viel Blut ab, um sie auf alles Mögliche zu testen. Denn das produziert (scheinbar) sichere und eindeutige Ergebnisse. Ist einer der vielen Tests dann positiv, scheint das Rätsel der Krankheit gelöst zu sein. So einfach ist das.
Würden sie sich dagegen an Bayes erinnern, würden sie wesentlich seltener testen.
„Lasse den Zuschauer nie im Ungewissen,
sondern versorge ihn ständig mit Informationen,
die ihn weiter verunsichern.“ Alfred Hitchcock.
Im Gesundheitsmarkt orientiert man sich gerne an Hitchcocks Empfehlung: Denn, je bedrohlicher eine Situation erscheint, desto mehr unklare Informationen strömen ein. Das erzeugt Angst, ein Gefühl, das nach Sicherheit verlangt. Also einen starken Bedarf erzeugt, nach einem Produkt oder einem Ritual, „das alles wiedergutmacht“.
Der nicht aufgeregte Umgang mit Risiken erscheint dann „unlogisch“. Denn es könnte sich herausstellen, dass ein Risiko, das sich eindeutig klein oder groß „anfühlt“, in der Realität erheblich andersgeartet ist.
Bayes Statistik und lebendige Bewegung
Nicht nur Statistiker rechnen mit der Logik des alten Pfarrers Bayes, sondern alle Lebewesen (Körding 2006):
Tiere gleichen bei allen Ereignissen, die ihnen begegnen, die Meldungen der Sinnesorgane mit ihrer Erfahrung ab. Die einströmende Information melden nur Teilaspekte und sind zudem durch Rauschen überlagerte. Sich auf solche ungenauen Daten zu verlassen, könnte tödlich enden. Deshalb trainieren Säugetiere ihre Vorhersage-Fähigkeiten, und werden mit anwachsender Erfahrung immer erfolgreicher.
Denn für effektive Bewegungen (z. B. Tennisspielen) reichen die Sinnes-Informationen nicht aus: Sie sind zu unscharf, täuschen und verbergen vielleicht das Wichtigste (den Spin des anfliegenden Balls). (Bain 2016, Wolpert 2016)
Bevor man gelöst und locker spielen kann, muss durch geduldiges Training ein Erfahrungsschatz aufgebaut werden. Daraus entsteht ein Sicherheitsgefühl. Nämlich zu wissen, wie Bälle, die in einer bestimmten Art anfliegen, sich wohl verhalten würden. Die Bewegung baut also nur zum Teil auf der unmittelbaren Information auf. Sie erfordert ebenso die Einschätzung der Gesamtsituation, aufgrund subjektiver Erfahrung.
Diese Erkenntnis verstörte viele Biologen und Hirnforscher, die Bewegungsroboter konstruieren wollten. Denn offenbar sind Nerven- und Bewegungszellen nur Teile lebender Schwingungskreise, die für sich allein nicht sinnvoll funktionieren können.
Bayes-Logik
- An Intuitive Explanation of Bayes‘ Theorem (Yudkovsky)
- Bain R: Are our brains Baysian? Significance 8/2016:14-19
- Bayes Calculator
- Bayes T (1763): Essay Towards Solving a Problem in the Doctrine of Chances. Rev. Mr. Bayes, communicated by Mr. Price, in a letter to John Canton, M. A. and F. R. S.
- Körding KP: Bayesian decision theory in sensorimotor control, Trends in Cognitive Sciences, Special Issue: Probabilistic models of cognition. 2006, 10(7)P319-326,
- Wolpert D: Why do we have brains? 2016
Intelligenter Umgang mit Statistik und Wahrscheinlichkeiten
- Beck Bernholdt HP, Dubben HH bei rororo: (1) Der Hund der Eier legt – Erkennen von Fehlinformationen durch Querdenken. (2) Der Schein der Weisen – Irrtümer und Fehlurteile im alltäglichen Denken. (3) Mit an Wahrscheinlichkeit grenzender Sicherheit – Logisches Denken und Zufall
- Bauer T et al.: Warum dick nicht doof macht und Genmais nicht tötet – Über Risiken und Nebenwirkungen der Statistik, Campus 2014
- Dobelli R: Die Kunst des klaren Denkens – 52 Denkfahler. Hanser 2011
- Dörner D: Die Logik des Mißlingens, Strategisches Denken in komplexen Situationen, rororo 2003
- Gigerenzer G.: Einfache Regeln für komplexe Entscheidungen. 2017 ; Das Einmaleins der Skepsis: Über den richtigen Umgang mit Risiken und Zahlen, Berliner Taschenbuch Verlag, 2002 ; Harding Center für Risiko-Kompetenz
- Mühlhauser I: Unsinn Vorsorgemedizin, Okt 2017, rororo, www.brustkrebs.info
Medizinische Statistik
Angesichts von Zahlenkolonnen reagieren viele hilflos und dann ziehen vorschnelle Schlüsse.
Beispiel Brustkrebs
Der Risikoforscher Gigerenzer fragte, wie groß die Wahrscheinlichkeit sei, dass eine Frau mit einem gerade festgestellten, verdächtigen Mammografie-Befund an Brustkrebs leide. Etwa 15 % befragter Ärzt:innen fanden die richtige Antwort.
Die meisten gaben an, die Brustkrebs-Wahrscheinlichkeit für Frauen mit positivem Mammografie-Befund liege bei etwa 70–80 %. Tatsächlich leiden aber nur etwa 10 % der Frauen mit einem verdächtigen Mammografie-Befund an Brustkrebs.
Wie kann das sein?
Bei etwa 1 % aller Frauen im Alter über 40 Jahren besteht ein Mammakarzinom. Im Rahmen einer Vorsorgeuntersuchung würde es mit einer Wahrscheinlichkeit von 80 bis 90 % erkannt werden. Bei mindestens 10 % würde der Test aber negativ ausfallen, obwohl eine Erkrankung vorliegt.
99 % der Frauen, die zu einer Vorsorgeuntersuchung gehen, leiden nicht an Brustkrebs. Aber bei 10 % dieser gesunden Frauen würden sich in einer Mammografie Hinweise auf eine mögliche Krebserkrankung finden.
Bei 10.000 untersuchten Frauen haben
- 80 Frauen Brustkrebs und eine auffällige Mammografie (Gruppe A)
- 20 Frauen Brustkrebs, und keine auffällige Mammografie (Gruppe B)
- 950 Frauen keinen Brustkrebs, aber eine auffällige Mammografie (Gruppe C)
- 8.950 Frauen keinen Brustkrebs und eine unauffällige Mammografie (Gruppe D)
In der Gruppe mit positivem Mammografie-Befund (A+C) liegt die Rate der erkrankten Frauen in diesem Beispiel bei 7,8 % (A × 100 / A+C).
Die Zahl 7,8 (der „positive Vorhersagewert“) vermittelt, wie viele positiv Getestete tatsächlich krank sind. Der „negative Vorhersagewert“ zeigt den Anteil der negativ Getesteten, die wirklich gesund sind (im Beispiel: 99,78 %), d. h. bei 22 von 10.000 negativ-getesteten Frauen würde trotz des Tests ein Brustkrebs vorliegen.
Würde die Zahl der „falsch-negativen“ Tests durch immer genauere Methoden drastisch gesenkt werden, müsste zwangsläufig die Zahl der „falsch-positiven“ Tests ansteigen.
Die Risiken und der Nutzen von Früherkennungsuntersuchungen sind nicht einfach zu verstehen.
Besonders, wenn die Ergebnisse der Statistik dem „gesunden Menschenverstand“ oder dem „Bauchgefühl“ widersprechen (als paradox oder kontraintuitiv empfunden werden).
Risikoforscher, die sich mit diesen Zusammenhängen beschäftigen, beklagen eine fehlende, ärztliche Statistik-Kompetenz.
Screening-Methoden würden zunehmend zur juristischen Absicherung eingesetzt, „um nichts zu übersehen“. Und oft würden Methoden, deren Risiken den Nutzen übersteigen, unkritisch (wider besseres Wissen) angewandt werden (Mühlhauser 2017).
Das, was Medizin-Statistiker (s. u.: Gigerenzer, Beck-Bornhold&Dubben, Mühlhauser) und auch mich zur Verzweiflung bringt, ist, dass nur extrem wenige im Medizin-Business die Test Logik verstehen. Mit Risiken und Test-Systemen wird nämlich meist nicht rational, sondern emotional-kommerziell umgegangen.
Die Statistiker wiederum glauben,
sie wüssten, wie es ist, und wenn man dieses Wissen nur einfach genug aufbereite, müsse es jede/er verstehen. Beides ist falsch.
Statistisch fassbare Daten beziehen sich immer nur auf wenige Faktoren eines Gesamtsystems. Damit Messungen exakt ausfallen, werden dafür alle anderen (oder die große Mehrzahl) der beteiligten Faktoren ausgeschlossen. Es werden Bedingungen geschaffen, die die „störenden“ Wechselwirkungen und Beziehungen der realen Welt bei der Beobachtung beseitigen.
Der direkte Rückschluss von Experimenten, die Messdaten liefern, auf die Realität einer Patienten-Situation wäre deshalb irreführend.
Die Erkenntnisse statistischer Daten sind nicht auf konkrete Situationen übertragbar.
Das Wissen, das wir überwiegend „nicht-wissen“ verunsichert. Und die Produktion vieler Daten ändert daran im Prinzip nichts. Denn alle Studien können nicht belegen, was gut und richtig „ist“, sondern nur anregen, auf der Basis der neu gesammelten Informationen klügere Fragen zu stellen, nach dem, wie sich etwas entwickeln könnte.
Menschen aber, die sich gerade durch Schmerzen bedroht fühlen, sehnen sich nach Rettung, und können daher nicht sorgfältig „Für und Wider“ abwägen. Auch bei Trauer, Sorge, Angst, Ekel, Ärger oder Wut ist die emotionslose Rationalität der Zahlen nicht nachvollziehbar.
Bevor also statistische Informationen auf einfache, verständliche Art bildhaft vermittelt und bewertet werden, müssen Patient:innen in der Lage sein, rationale Informationen auch verarbeiten zu können. Patient:innen können nur dann gut mit Zweifel umgehen, wenn ihnen zuvor in einer vertrauensvollen Arzt-Patient-Beziehung die Angst genommen wird. Wenn sie das Gefühl haben, in einem Vertrauensverhältnis gut aufgehoben zu sein.
Vor der Übersetzung statistischer Informationen muss sich also eine menschliche Beziehung entwickeln
Kompetente Expertensicht
- Methodenwissen (z. B. zu Möglichkeiten und Grenzen der Statistik)
- Kenntnis reiner Fakten (Daten: „nackte Zahlen“)
- Spielraum der Interpretation reiner Fakten: Hinweise für überprüfbare Evidenz und Wissen, was nicht bekannt ist
- Aktuelle Mehrheits-Interpretation (Leitlinien) und qualifizierte Minderheits-Interpretation (widersprechende Studien)
- Rationale Interpretation (logische und skeptische Sprachen)
Kompetente Betroffenensicht
- Persönliche Zusammenhänge: Lebenssituation, körperlich-psychisches Empfinden, Lebensweg
- Bedeutung des einzelnen (z. B. des Problems) für „das Ganze“, z. B. für den Beziehungszusammenhalt
- Bedürfnisse, Ressourcen, Selbstwert, Möglichkeiten, Ziele, Visionen
- Wertesystem und Schwerpunktsetzungen hinsichtlich Lebensqualität und Lebenszeit
- Emotionale Interpretation wortlos gefühlter Kommunikation
Expert:innen können sich mit Betroffenen verbinden
Sie könnten den Betroffenen helfen, sich zu Expert:innen entwickeln, die damit beginnen selbst zu denken. Das Denken auf der Basis statistischer Daten kann sehr wirksam sein, um den Unsinn in der Medizin zu erkennen. Rationaler Zweifel muss aber eingebettet sein in menschlich fühlende Beziehungen.
Zu viel Information, die nicht sinnvoll in einen persönlichen Zusammenhang eingeordnet werden kann, verstärkt Ängste, und führt zu Abwehr, Tunnelblick und irrationalem Handeln.
Frau Mühlhauser beklagt daher berechtigterweise, dass es Menschen, die leiden oder die Angst verspüren, an „risk literacy“ mangelt. Darunter versteht sie die Fähigkeit, Risiken zu verstehen und für sich selbst abwägend beurteilen zu können. Wenn diese Kompetenz nur schwach entwickelt ist, sind Patient:innen den Überangeboten der Gesundheitswirtschaft ziemlich hilflos ausgeliefert.
Bereits vor 2.500 Jahren soll ein griechischer Arzt empfohlen haben, dass der, der ein Bein
amputieren kann, nicht der sein darf, der entscheidet, dass das Bein abgeschnitten wird. In der modernen Gesundheitswirtschaft gewinnt dieses Prinzip erheblich an Bedeutung.
„Unabhängige Beratung muss möglich sein!“ (Ingrid Mühlhauser 2017). Damit es Patient:innen ermöglicht wird, eigene, rationale, selbstbewusste Entscheidungen zu treffen und weniger Blödsinn zu konsumieren. (Sirovich 2004, Smith 2004)
Video
Literatur
- Beck Bernholdt HP, Dubben HH bei rororo: (1) Der Hund der Eier legt – Erkennen von Fehlinformationen durch Querdenken. (2) Der Schein der Weisen – Irrtümer und Fehlurteile im alltäglichen Denken. (3) Mit an Wahrscheinlichkeit grenzender Sicherheit – Logisches Denken und Zufall
- Bauer T et al.: Warum dick nicht doof macht und Genmais nicht tötet – Über Risiken und Nebenwirkungen der Statistik, Campus 2014
- Dobelli R: Die Kunst des klaren Denkens – 52 Denkfahler. Hanser 2011
- Dörner D: Die Logik des Mißlingens, Strategisches Denken in komplexen Situationen, rororo 2003
- Gigerenzer G.: Vortrag: Einfache Regeln für komplexe Entscheidungen. 2017 ; Das Einmaleins der Skepsis: Über den richtigen Umgang mit Risiken und Zahlen, Berliner Taschenbuch Verlag, 2002 ; Harding Center für Risiko-Kompetenz
- Mühlhauser I: (1) Unsinn Vorsorgemedizin, Okt 2017, rororo (2) Mammograhie Screening für Frauen ab 70? https://arbeitskreis-frauengesundheit.de/2020/10/04/mammographie-screening-fuer-frauen-ab-70 (3) Screening auf Brustkrebs/Mamographie-Screening, Deutsche Zeitschrift für Onkologie 2013, 45:80-85
- Sirovich BE: Cervical Cancer Screening Among Women without a Cervix, JAMA, June 2004, 291, 24:2990-2993.
1992 wurde in den USA bei fast 68 % der Frauen nach vollständiger Gebärmutterentfernung eine Gebärmutterhalskrebs-Vorsorgeuntersuchung durchgeführt. 1996 empfahlen dann Fachleitlinien, das künftig zu unterlassen. 2002 erfolgte dann diese Vorsorgeuntersuchung bei 69 % von Frauen ohne Gebärmutterhals. - Smith R: Abusing patients by denying them choice BMJ 2004 Feb 14; 0. BMJ-Editorial 14.02.2004, 328(7436):
Bei Screening-Optionen bzgl. „Rektum-Krebs“ entschieden sich nach Aufklärung über Nutzen und Risiken 87 % aller Patient:innen gegen invasive Verfahren