Interquartilsabstand: Interpretation mit doppelten Werten im Datensatz?
Hallo,
ich habe in der Uni gelernt, die Quartile so zu beschreiben:
"p*100% der Werte sind größer als das p-Quantil
(1-p)*100% der Werte sind kleiner als das p-Quanti"
Jetzt lese ich überall und habe auch gelernt, dass 50 % der Werte im Interquartilsabstand stecken.
wenn ich jedoch einen Datensatz habe wie: "1,2,2,3,4,5,6,7,8"
Dann kann ich bei der Interpretation nicht sagen 50% der Daten sind im Interquartilsabstand."
sondern:
"Mindesten 50% der Daten sind innerhalb und an der Position der Quartile des Interquartilsabstand.
Mindestens 50% sind außerhalb des Interquartilsabstand und an der Position der Quartile."
Kann man dass irgendwie adäquater ausdrücken?
Oder wollen die MatheProfs. unter euch, dass man die Lageparameter so genau wie möglich interpretiert und bei den Streuparameter denkt ihr euch: "Naaaah passt schon?" =D
1 Antwort
Also ich bezeichne mal X als die Zufallsvariable, dessen Verteilung durch die empirische Verteilungsfunktion der Stichprobe gegeben ist.
Dann gilt für das erste Quartil q1:
P(X<= q1) >= 0.25
P(X>=q1) >= 0.75
Und für das dritte Quartil q3:
P(X <= q3) >= 0.75
P(X >= q3) >= 0.25
Daraus folgt:
P( q1 <= X <= q3) = P(X <= q3) - P(X < q1)
= P(X <= q3) - (1-P(X >= q1))
= P(X <= q3) + P(X >= q1) -1
>= 0.75 + 0.75 - 1 = 0.5
Ebenso gilt:
P( X <= q1 oder q3 <= X)
= P( X <= q1) + P(q3 <= X)
>= 0.25 + 0.25 = 0.5
Man sieht also, dass mindestens 50% der Daten zwischen q1 und q3 (inklusive der Grenzen) liegen, und dass mindestens 50% der Daten kleiner gleich q1 oder größer gleich q3 sind.
Im allgemeinen müssen es also nicht Exakt 50% sein, was der Fall ist, wenn es Daten gibt, die gleich q1 oder q3 sind.