Gerta Rücker, Freiburg
Überall in der Wissenschaft gibt es einen Wettstreit der Methoden und Diskussion darüber, welche Methode einer gegebenen Fragestellung am ehesten angemessen ist. Bisweilen existieren sogar unterschiedliche Philosophien nebeneinander. Es mag überraschen, dass die Statistik hier keine Ausnahme bildet (übrigens auch die Mathematik nicht). Die Rede ist von zwei grundlegend verschiedenen Ansätzen, dem (bekannteren) frequentistischen (häufigkeitsbasierten) und dem (zumindest in Deutschland) nicht so populären Bayesianischen Ansatz. Beide Ansätze sind in sich geschlossene Theorien und daher als solche weder „richtig“ noch „falsch“. Wohl aber stellt sich diese Frage in Bezug auf deren Anwendung.
Was verbirgt sich nun hinter diesen Begriffen?
Die Bayes‘sche Formel
Ausgangspunkt ist jene bekannte und völlig elementare Formel, die nach Bayes benannt ist, eben die Bayes‘sche Formel, die in Biometriekursen für Mediziner gelehrt wird und seit Langem auch Eingang in die Lehrpläne für den Mathematikunterricht an Gymnasien gefunden hat. Es geht dabei um bedingte Wahrscheinlichkeiten.
Die Bayes‘sche Formel selbst ist nicht umstritten. Sie ergibt sich unmittelbar aus den Axiomen der elementaren Wahrscheinlichkeitsrechnung und der Definition der bedingten Wahrscheinlichkeit, wofür wir hier auf Lehrbücher verweisen [1, 2]. Sie lautet in ihrer einfachsten Version:
P(B|A) = P(A|B) x P(B)
P(A)
(A, B Ereignisse; P Wahrscheinlichkeit)
In Worten: Die Wahrscheinlichkeit, dass B eintritt, wenn auch A eingetreten ist, ergibt sich aus der Wahrscheinlichkeit von A unter der Bedingung B, indem man diese mit der (bedingungslosen) Wahrscheinlichkeit von B multipliziert und dieses durch die Wahrscheinlichkeit von A dividiert.
Die bekannteste Anwendung dieser Formel in der Medizin betrifft diagnostische Tests. Wir bezeichnen mit A das Ereignis, dass bei einem Patienten der Test auf eine Krankheit K positiv ausfällt, und mit B das Ereignis, dass der Patient an K erkrankt ist. Mit P(B|A) ist nun die Wahrscheinlichkeit gemeint, dass jemand mit einem positiven Testergebnis tatsächlich an K erkrankt ist, der sogenannte prädiktive Wert des positiven Testergebnisses. Diesen kann man nach der Formel berechnen aus der Sensitivität P(A|B), der Wahrscheinlichkeit, mit der ein Erkrankter ein positives Testergebnis hat, sowie der Prävalenz, das heißt dem Anteil P(B) Erkrankter an der interessierenden Population. Dabei nimmt man die Prävalenz P(B) der Erkrankung (die a-priori-Wahrscheinlichkeit für die Erkrankung, bevor ein Testergebnis vorliegt) als bekannt an. Schließlich geht die generelle Wahrscheinlichkeit positiver Testergebnisse P(A) in der Population in die Formel ein. P(A) lässt sich berechnen, wenn man die Charakteristika des diagnostischen Tests kennt, die Sensitivität und die Spezifität (das ist die Wahrscheinlichkeit P(¬A|¬B) (in Worten: nicht A, nicht B), mit der eine nicht an K erkrankte Person ein negatives Ergebnis hat).
Analog dazu kann man den prädiktiven Wert eines negativen Testergebnisses berechnen. Die prädiktiven Werte interpretiert man als die a-posteriori-Wahrscheinlichkeiten dafür, dass ein Patient erkrankt ist oder nicht, nachdem die Information über das Testergebnis (positiv oder negativ) hinzukommt.
Der frequentistische Ansatz
Was in elementaren Statistik- und Biometriekursen gelehrt wird, beruht fast ausschließlich auf dem frequentistischen Ansatz. Die Basis dieses Ansatzes ist die bekannte Trias aus Parameterschätzung mit Konfidenzintervall und Hypothesentest. Nehmen wir als Beispiel das Problem des Therapievergleichs in einer klinischen Studie oder einer Metaanalyse, wie in dem Beitrag „Akutes Atemnotsyndrom: Behandlungserfolg mit Glucocorticoiden bei ARDS nicht überzeugend“ in diesem Heft der Arzneimitteltherapie (siehe Seiten 426 bis 427 [3]). Der unbekannte Parameter, zum Beispiel der Therapieeffekt D (im Vergleich zu Plazebo), wird dabei als fest angenommen und aus den Daten geschätzt. Das Konfidenzintervall ist umso kleiner, je genauer der Parameter geschätzt werden kann, je größer also die Stichprobe und je geringer die Variabilität ist. Ist man an einer Entscheidung interessiert, zum Beispiel, ob die Therapie wirksamer ist als Plazebo, so führt man einen statistischen Test durch oder stellt (gleichwertig damit) fest, ob das Konfidenzintervall den neutralen Wert (die Null oder – beim relativen Risiko oder Odds-Ratio – die Eins) enthält.
Der Bayesianische Ansatz
Hierbei handelt es sich um eine Alternative zu dem in der Statistik, wie gesagt, nach wie vor dominierenden sogenannten frequentistischen Ansatz. Der Bayes‘schen Formel kommt dabei eine zentrale Rolle zu.
Der Bayesianische Ansatz wird oft so interpretiert, dass der interessierende unbekannte Parameter nicht als fest, sondern selbst als zufällig angenommen wird. Er besitzt also eine Wahrscheinlichkeitsverteilung. Im diskreten Fall heißt dies, dass jeder möglichen Ausprägung dieses Parameters eine Wahrscheinlichkeit zukommt. Der amerikanische Statistiker Sander Greenland verwahrt sich gegen die Interpretation des Parameters als zufällig und betont stattdessen den anderen, „subjektiven“ Wahrscheinlichkeitsbegriff [4]: Die Wahrscheinlichkeit eines bestimmten Parameterwerts entspricht dabei dem Grad, in dem jemand (zum Beispiel der Studienleiter oder der Statistiker) an diesen Wert glaubt – etwa, wie wenn jemand sagt „Morgen wird es wahrscheinlich (90%) regnen“.
Das Bayesianische Vorgehen besteht aus vier Schritten:
1. Zuerst wird, wie auch beim herkömmlichen Ansatz, ein statistisches Modell für die Verteilung der Daten aufgestellt, das einen oder mehrere Parameter enthält.
2. Nun wird allen möglichen Parameterausprägungen (im Beispiel also allen möglichen Therapieeffekten D) eine Wahrscheinlichkeit zugeordnet. Diese Wahrscheinlichkeitsverteilung ist die sogenannte „Prior“, die Verteilung der Wahrscheinlichkeiten vor Kenntnis der Daten (a priori). In der Formel entspricht dies einer Festlegung von P(D) für alle D. Oft verteilt man dabei die Wahrscheinlichkeit möglichst gleichmäßig („nichtinformative Prior“).
3. Nun führt man eine Studie durch. Das Ergebnis sind Daten x, deren Wahrscheinlichkeit P(x|D) man aufgrund des Modells für jeden möglichen Parameterwert kennt. Ferner kann man P(x) durch Summierung (allgemeiner Integration) von P(x|D)⋅P(D) über alle D berechnen.
4. Über die Bayes‘sche Formel erhält man schließlich die sogenannte „Posterior“ P(D|x), das heißt, die Wahrscheinlichkeitsverteilung für die möglichen Parameterausprägungen nach Beobachtung der Daten (a posteriori). Man hat also sein a-priori-Vorwissen P(D) durch die Beobachtung der empirischen Daten x korrigiert.
Es würde zu weit führen, hier darzustellen, warum diese Methode, die als flexibel, aber auch rechenaufwendig gilt, umstritten ist, wie die Autorin des Beitrags „Akutes Atemnotsyndrom: Behandlungserfolg mit Glucocorticoiden bei ARDS nicht überzeugend“ in diesem Heft der Arzneimitteltherapie (siehe Seiten 426 bis 427[3]) richtig anmerkt. In seinem sehr lesenswerten Artikel [4] wirft Sander Greenland den „Frequentisten“ vor, fälschlicherweise zu glauben, bei der Bayesianischen Methode stecke man mit der Prior fragwürdige Annahmen in die Analyse hinein. Er betont, dass die Prior sorgfältig gewählt werden müsse und dass es oft möglich und wünschenswert sei, empirische Daten dafür zu nutzen. Die dem frequentistischen Ansatz zugrunde liegende Annahme, dass sich jedes Experiment theoretisch beliebig oft unter genau gleichen Umständen wiederholen lasse, kommt hingegen dem Bayesianer wirklichkeitsfremd vor, vor allem im Zusammenhang mit Beobachtungsstudien.
Obwohl dieser Artikel eine Debatte auslöste [5], so ist doch die Aufgeregtheit, mit der sich „Bayesianer“ und „Frequentisten“ anfänglich erbittert bekämpften, längst einer sachlich-nüchternen Diskussion gewichen. Es hat sich die Erkenntnis durchgesetzt, dass beide Ansätze nebeneinander existieren, sich ergänzen und gegenseitig befruchten können. Insbesondere im angelsächsischen Sprachraum vergleichen Statistiker oft beide Ansätze und nutzen für Anwendungen routinemäßig die dem jeweiligen Problem angemessene Methode. Dies gilt auch für die Autoren des BMJ-Artikels [6], die sich auf Arbeiten eines der Protagonisten der Bayes-Analyse (und Erfinder der Bayes-Software WinBUGS), David Spiegelhalter, berufen [7].
Der Unterschied in der „Philosophie“ beider Ansätze spiegelt sich in der Begriffsbildung. Während der Frequentist einen als fix angenommenen Effekt schätzt, gibt der Bayesianer seine Posterior an, zum Beispiel in Form von „Bayesian outcome probabilities“ P(D|x). So werden etwa in dem BMJ-Artikel Wahrscheinlichkeiten P [Odds-ratio ≥ 1] [%] tabelliert. Gemeint ist hierbei die Wahrscheinlichkeit, dass die jeweilige Therapie beispielsweise zu erhöhter Mortalität führt. Das gibt es beim frequentistischen Ansatz nicht: Der klassische Statistiker führt einen Test durch, bei dem herauskommt, die Wahrscheinlichkeit ist erhöht, oder eben nicht. Aber Vorsicht: Die Wahrscheinlichkeit, mit der dieses Ergebnis richtig ist, lässt sich aus prinzipiellen Gründen nicht angeben, allenfalls abschätzen [8]. Auch der p-Wert hilft hier nicht weiter. Er gibt die Wahrscheinlichkeit an, mit welcher das beobachtete Ergebnis unter der Nullhypothese (hier: Die Therapien unterscheiden sich nicht in ihrer Wirksamkeit/Verträglichkeit) zu erwarten ist. p-Werte sind keinesfalls direkt mit „Bayesian outcome probabilities“ zu vergleichen. Bei einem großen Wirkungsunterschied erwarten wir einen kleinen p-Wert, aber eine große bayesianische „Wirksamkeitswahrscheinlichkeit“. Andere Angaben entsprechen sich bedingt: So steht etwa dem Konfidenzintervall des Frequentisten das credible interval (Glaubwürdiger Parameterbereich) des Bayesianers gegenüber, und so fort. Für viele Situationen gibt es zu einer speziellen bayesianischen Methode eine entsprechende frequentistische und umgekehrt.
Zwar erlaubt es eine solche Gegenüberstellung, in Anwendungsbeispielen die Ergebnisse beider Methoden numerisch zu vergleichen. Man sollte aber bei der Interpretation nie die unterschiedliche Philosophie der beiden Ansätze aus den Augen verlieren.
Literatur
1. Trampisch HJ and Windeler J, Medizinische Statistik, Springer-Verlag, 2. Auflage, 2000.
2. Weiss C. Basiswissen Medizinische Statistik. Springer-Verlag, 3. Auflage, 2005.
3. Neubeck M. Akutes Atemnotsyndrom. Behandlungserfolg mit Glucocorticoiden bei ARDS nicht überzeugend. Arzneimitteltherapie 2008;26:426–7.
4. Greenland S. Bayesian perspectives for epidemiological research: I. Foundations and basic methods. Intern J of Epidemiol 2006;35:765–75.
5. Carpenter JR. Commentary: on Bayesian perspectives for epidemiological research. Intern J of Epidemiol 2006; 35:775–7; author 777–8.
6. Peter JV, John P, Graham PL, Moran JL, George IA, Bersten A. Corticosteroids in the prevention and treatment of acute respiratory distress syndrome (ARDS) in adults: meta-analysis. BMJ 2008;336:1006–9.
7. Warn DE, Thompson SG, Spiegelhalter DJ. Bayesian random effects meta-analysis of trials with binary outcomes: methods for the absolute risk difference and relative risk scales. Stat Med 2002;21:1601–23.
8. Ioannidis JP. Why most published research findings are false. PLoS Med 2005;2:e124, epub (30.08.2005).
Dipl.-Math. Gerta Rücker, Institut für Medizinische Biometrie und Statistik (IMBI), Universitätsklinikum Freiburg, Stefan-Meier-Str. 26, 79104 Freiburg, E-Mail: ruecker@imbi.uni-freiburg.de
Arzneimitteltherapie 2008; 26(12)