Im diesjährigen Jahresbericht¹ musste die BBC auch die Gehälter der Topverdiener ausweisen. Die in einzelnen Fällen recht üppigen Beträge stießen dabei durchaus auf Verwunderung; einzelne „Stars“² verdienen zwischen £500,000 und £2,500,000.

Die gelisteten Zahlungen verursachten einigen Unmut. Auch im Hinblick auf die augenscheinlich schlechtere Bezahlung von Frauen gegenüber Männern. Dieser Ungleichheit wollte ich mit statistischen Methoden nachspüren.

Für eine Untersuchung habe ich zunächst die Gehälter³ (in Millionen £), nach Geschlecht aufgeteilt, in Listen erfasst. Bei den Männern findet man folgende Zahlen ( $m=74$ Werte):

0.175, 0.175, 0.175, 0.175, 0.175, 0.175, 0.175, 0.175, 0.175, 0.175, 0.175, 0.175, 0.175, 0.175, 0.175, 0.175, 0.175, 0.175, 0.175, 0.175, 0.175, 0.175, 0.175, 0.175, 0.175, 0.175, 0.175, 0.175, 0.175, 0.175, 0.175, 0.175, 0.175, 0.225, 0.225, 0.225, 0.225, 0.225, 0.225, 0.225, 0.225, 0.225, 0.225, 0.225, 0.225, 0.225, 0.225, 0.225, 0.275, 0.275, 0.275, 0.275, 0.275, 0.275, 0.275, 0.275, 0.325, 0.325, 0.375, 0.375, 0.375, 0.425, 0.425, 0.425, 0.425, 0.425, 0.475, 0.525, 0.575, 0.625, 0.725, 0.875, 1.775, 2.225

Und nun bei den Frauen ( $n=34$ Werte):

0.175, 0.175, 0.175, 0.175, 0.175, 0.175, 0.175, 0.175, 0.175, 0.175, 0.175, 0.175, 0.175, 0.175, 0.175, 0.175, 0.175, 0.175, 0.225, 0.225, 0.225, 0.225, 0.225, 0.225, 0.225, 0.225, 0.275, 0.275, 0.325, 0.325, 0.375, 0.375, 0.375, 0.475

Wenn man sich die Zahlen ein wenig ansieht, kommt man möglicherweise zu der Vermutung: Frauen verdienen schlechter als Männer. Um eine solche Hypothese statistisch zu stützen, muss die zugehörige Nullhypothese „ $H_0$ : Frauen verdienen genauso viel wie Männer“ verworfen werden. Durch die zunächst formulierte Alternative $H_1$ ergibt sich damit ein linksseitiger Test. $H_0$ wird zugunsten von $H_1$ verworfen, wenn die Beobachtungen signifikant vom erwarteten Ergebnis abweichen.

Eine Stichprobe ist kein Schlüssel zur Wahrheit. Das Risiko, fälschlicherweise die Nullhypothese zu verwerfen, wird aber häufig auf $\alpha = 5\%$ (dem sogenannten Signifikanzniveau) festgelegt. Damit ergibt sich ein sogenanntes confidence level von 95%.

Auf die obigen Daten lassen sich zum Beispiel die beiden folgenden Tests anwenden:

1. Mediantest

Bei einem Mediantest betrachtet man zunächst den Median der Kontrollwerte. Beim Median handelt es sich um ein Lagemaß, ähnlich dem arithmetischen Mittel. Man betrachtet dazu eine Rangliste der Werte und wählt den in der Mitte stehenden Wert. Ist die Anzahl gerade, bildet man den Mittelwert der beiden in der Mitte stehenden Werte. Man kann den Median auch 50%-Quantil nennen: jeweils die Hälfte der übrigen Beobachtungen sind unterhalb dieses Wertes. In ähnlicher Weise kann man von z.B. ein 10%-Quantil definieren.

Beispiele für den Median

Die beiden Datenreihen haben den gleichen Median $x_\text{med}=5$ , ihr arithmetisches Mittel $\overline{x}$ unterscheidet sich aber deutlich:
1, 1, 3, 4, 5, 5, 5, 7, 14 $\overline{x} = 5$
1, 1, 3, 4, 5, 5, 5, 7, 41 $\overline{x} = 8$

Ist beispielsweise der Mittelwert für die zweite Reihe ein Wert, der die Daten wiedergibt? Vom letzten Wert abgesehen, sind ja alle Daten kleiner. Der Median gibt in vielen Fällen eine besseren Eindruck davon, wo die Beobachtungen liegen. Sogenannte „Ausreißer“ (also Werte, die stark aus den Beobachtungen herausfallen), haben quasi keinen Einfluss darauf.

Der Median bei den Gehältern der Männer beträgt 0.225 also £225,000. Nun prüft man, wieviele Werte in der zweiten Datenreihe über diesem Median liegen. Werte, die genau dem Median entsprechen, werden halb gezählt. Mit acht Werten über dem Median und acht mal dem Median selbst kommt man damit auf $8 + \frac{8}{2} = 12$ Werte.

Ausgehend davon, dass es rein vom Zufall abhängen könnte, ob ein Gehalt der zweiten Reihe über oder unter dem Median der ersten Reihe liegt, hat man eine einfache Binomialverteilung mit $n=34$ und $p=0{,}5$ . Die Wahrscheinlichkeit, dabei 12 oder weniger Treffer zu beobachten, beträgt:

$P(X\leq12) = \sum\limits_{k=0}^{12} {34 \choose k} \cdot 0{,}5^{34} \approx 0{,}0607 = 6{,}07\% > \alpha = 5\%$

Auf dem gewählten Signifikanzniveau kann die Nullhypothese also gerade nicht verworfen werden, sondern der Mediantest sieht die Nullhypothese bestätigt: Männer und Frauen verdienen gleich.

Dieser Test ist allerdings wegen der vielen gleichen Daten nur bedingt zu gebrauchen. Gerade die häufige Vorkommnis von $0.225$ in beiden Reihen sorgt hier für Bewertungsprobleme.

2. Wilcoxon-Rangsummenstatistik

Eine andere Möglichkeit, die Daten zu bewerten, bietet der Wilcoxon-Rangsummentest. Die Idee dahinter ist die folgende: wenn man die Werte aus der zweiten Reihe in die erste einsortiert, hat die Verteilung dann einen signifikanten „Schlag“, werden die Werte also eher gleichmäßig über die Reihe verteilt, oder deutlich mehr an einem der beiden Enden? Man kann sich vorstellen, dass man aus einem Kartenstapel einige Karten entfernt hat und diese nun wieder in den Stapel einfügt. Dies kann sich einigermaßen über den ganzen Stapel verteilen oder eine der Seiten bevorzugen.

Bei der Einsortierung zählt man dann für jeden Wert, wieviele sich aus der ersten Reihe darunter befinden.

Die Nullhypothese wird hier verworfen, wenn für die Statistik $W$ , die ich hier mit dem Statistik-Programm R⁴ berechnet habe gilt:

$W < w_{34;74;5\%} \approx \frac{mn}{2} - \sqrt{ \frac{mn(m+n+1)}{12} } \cdot z_{1-\alpha}$

Die verwendete Größe $z_{1-\alpha} \approx 1{,}64$ findet man in einer Tabelle zur Standardnormalverteilung. Damit erhält man:

$w_{34;74;5\%} \approx 1010$

Die R-Ausgabe ist:
> women <- c(0.375, 0.275, 0.175, 0.175, 0.325, 0.325, 0.225, 0.175, 0.175, 0.175, 0.175, 0.175, 0.175, 0.175, 0.175, 0.225, 0.175, 0.275, 0.225, 0.175, 0.175, 0.225, 0.375, 0.225, 0.225, 0.225, 0.175, 0.175, 0.475, 0.375, 0.225, 0.175, 0.175, 0.175)
> men <- c(2.225, 0.875, 0.725, 0.525, 0.375, 0.275, 0.225, 0.225, 0.425, 0.425, 0.375, 0.325, 0.275, 0.275, 0.175, 0.175, 0.175, 1.775, 0.425, 0.275, 0.225, 0.225, 0.175, 0.175, 0.175, 0.225, 0.225, 0.175, 0.625, 0.275, 0.175, 0.475, 0.425, 0.425, 0.275, 0.275, 0.225, 0.375, 0.175, 0.175, 0.225, 0.225, 0.175, 0.575, 0.275, 0.225, 0.225, 0.175, 0.175, 0.175, 0.175, 0.175, 0.175, 0.175, 0.175, 0.225, 0.225, 0.175, 0.175, 0.325, 0.225, 0.225, 0.175, 0.175, 0.175, 0.175, 0.175, 0.175, 0.175, 0.175, 0.175, 0.175, 0.175, 0.175)
> wilcox.test( women, men, alternative = "less" )

Wilcoxon rank sum test with continuity correction

data: women and men W = 1084, p-value = 0.2222 alternative hypothesis: true location shift is not equal to 0

Mit dem ausgegebenen $W=1084>1010$ kommt man auch bei diesem Test zu dem Schluss, dass die Nullhypothese anzunehmen ist, die Alternative $H_1$ wird verworfen. Der Test stützt also wiederum die Hypothese, dass Männer und Frauen gleich verdienen.

Schlussbemerkungen

Bei einem anderen Signifikanzniveau von z.B. $\alpha = 10\%$ führt der erste der beiden Tests genau zur gegenteiligen Aussage. Das mag willkürlich (und auch widersprüchlich) erscheinen, aber: kein statistischer Test ist ein Schlüssel zur Wahrheit. Die Steigerung des Signifikanzniveaus führt dann allerdings dazu, dass man ein höheres Risiko eingeht, die Nullhypothese fälschlicherweise zu verwerfen.

In jedem Fall lässt sich auf Grundlage der vorliegenden Daten in keiner Weise eine sichere Aussage darüber treffen, dass Frauen bei der BBC schlechter bezahlt werden als Männer. Auch man bei Anblick der Daten den naheliegenden Verdacht hat. Im Vergleich dazu: Wäre man mit einer Sicherheit von 95% (oder auch 99%) einverstanden, dass ein konsumiertes Lebensmittel keine Gesundheitsschäden verursacht?

BBC Annual Report and Accounts 2016/17 ↩
On a very personal note: Dear John Humphrys, in my humble opinion you are worth every penny ↩
Alle Gehälter sind in Klassen aufgeführt. War z.B. £150,000-£199,000 angegeben, so wurde als Wert dann £175,000 gewählt ↩
www.r-project.org ↩