Hypothesentests sind ein wichtiger Prozess in der Inferenzstatistik, bei dem anhand von Stichprobendaten Rückschlüsse auf eine gesamte Population gezogen werden sollen. Im Testprozess verwenden Sie Signifikanzstufen und p-Werte, um festzustellen, ob die Testergebnisse statistisch signifikant sind.
Sie hören, dass die Ergebnisse die ganze Zeit statistisch signifikant sind. Aber was stellen Signifikanzniveaus, P-Werte und statistische Signifikanz tatsächlich dar? Warum müssen wir überhaupt Hypothesentests in der Statistik verwenden?,
In diesem Beitrag beantworte ich alle diese Fragen. Ich verwende Diagramme und Konzepte, um zu erklären, wie Hypothesentests funktionieren, um eine intuitivere Erklärung zu liefern. Dies hilft Ihnen, Ihre statistischen Ergebnisse zu verstehen.
Hypothesentestbeispiel Szenario
Um zu beginnen, werde ich zeigen, warum wir Hypothesentests anhand eines Beispiels verwenden müssen.
Ein Forscher untersucht die Kraftstoffausgaben für Familien und möchte feststellen, ob sich die monatlichen Kosten seit dem letzten Jahr geändert haben, als der Durchschnitt 260 USD pro Monat betrug., Der Forscher zieht eine Zufallsstichprobe von 25 Familien und gibt ihre monatlichen Kosten für dieses Jahr in statistische Software ein. Sie können die CSV – Datendatei herunterladen: FuelsCosts. Nachfolgend finden Sie die beschreibenden Statistiken für dieses Jahr.
Wir bauen auf diesem Beispiel auf, um die Forschungsfrage zu beantworten und zu zeigen, wie Hypothesentests funktionieren.
Beschreibende Statistiken allein werden die Frage nicht beantworten
Der Forscher sammelte eine Zufallsstichprobe und stellte fest, dass der diesjährige Stichprobenmittelwert (330,6) größer ist als der Mittelwert des letzten Jahres (260). Warum überhaupt einen Hypothesentest durchführen?, Wir können sehen, dass der diesjährige Mittelwert um 70 US-Dollar höher ist! Ist das nicht anders?
Leider ist die Situation nicht so klar, wie Sie vielleicht denken, weil wir eine Stichprobe anstelle der gesamten Population analysieren. Bei der Arbeit mit Stichproben ergeben sich enorme Vorteile, da es normalerweise unmöglich ist, Daten aus einer gesamten Population zu sammeln. Der Kompromiss bei der Arbeit mit einem überschaubaren Beispiel besteht jedoch darin, dass wir Beispielfehler berücksichtigen müssen.
Der Stichprobenfehler ist die Lücke zwischen der Stichprobenstatistik und dem Parameter Population., Für unser Beispiel ist die Stichprobenstatistik der Stichprobenmittelwert, der 330.6 ist. Der Populationsparameter ist μ oder mu, der Durchschnitt der gesamten Population. Leider ist der Wert des Populationsparameters nicht nur unbekannt, sondern normalerweise unerkennbar.
Wir haben einen Stichprobenmittelwert von 330.6 erhalten. Es ist jedoch denkbar, dass aufgrund eines Stichprobenfehlers der Mittelwert der Population nur 260 beträgt. Wenn der Forscher eine weitere Zufallsstichprobe zog, könnte der nächste Stichprobenmittelwert näher bei 260 liegen. Es ist unmöglich, diese Möglichkeit zu beurteilen, indem man nur den Stichprobenmittelwert betrachtet., Hypothesentests sind eine Form von Inferenzstatistiken, die es uns ermöglicht, auf der Grundlage einer repräsentativen Stichprobe Rückschlüsse auf eine gesamte Population zu ziehen. Wir müssen einen Hypothesentest verwenden, um die Wahrscheinlichkeit zu bestimmen, unseren Stichprobenmittelwert zu erhalten, wenn der Populationsmittelwert 260 ist.,
Hintergrundinformationen: Der Unterschied zwischen beschreibenden und inferentiellen Statistiken und Populationen, Parametern und Stichproben in inferentiellen Statistiken
Eine Stichprobenverteilung bestimmt, ob unser Stichprobenmittelwert unwahrscheinlich ist
Es ist sehr unwahrscheinlich, dass ein Stichprobenmittelwert aufgrund eines Stichprobenfehlers dem Grundgesamtmittelwert entspricht. In unserem Fall entspricht der Stichprobenmittelwert von 330,6 fast definitiv nicht dem Bevölkerungsmittelwert für Kraftstoffausgaben.,
Wenn wir eine beträchtliche Anzahl von Zufallsstichproben erhalten und den Stichprobenmittelwert für jede Stichprobe berechnen könnten, würden wir ein breites Spektrum von Stichprobenmitteln beobachten. Wir könnten sogar die Verteilung der Stichprobenmittel aus diesem Prozess grafisch darstellen.
Diese Art der Verteilung wird als Stichprobenverteilung bezeichnet. Sie erhalten eine Stichprobenverteilung, indem Sie viele Zufallsstichproben derselben Größe aus derselben Population zeichnen. Warum zum Teufel sollten wir das tun?,
Weil mit Stichprobenverteilungen die Wahrscheinlichkeit ermittelt werden kann, dass Ihre Stichprobenstatistik erhalten wird, und sie für die Durchführung von Hypothesentests von entscheidender Bedeutung sind.
Zum Glück müssen wir uns nicht die Mühe machen, zahlreiche Zufallsproben zu sammeln! Wir können die Stichprobenverteilung anhand der T-Verteilung, unserer Stichprobengröße und der Variabilität in unserer Stichprobe abschätzen.
Wir wollen herausfinden, ob sich der durchschnittliche Kraftstoffverbrauch in diesem Jahr (330,6) vom Vorjahr (260) unterscheidet., Um diese Frage zu beantworten, werden wir die Stichprobenverteilung basierend auf der Annahme grafisch darstellen, dass sich die durchschnittlichen Kraftstoffkosten für die gesamte Bevölkerung nicht geändert haben und immer noch 260 betragen. In der Statistik nennen wir diesen Mangel an Wirkung oder keine Änderung die Nullhypothese. Wir verwenden den Nullhypothesenwert als Vergleichsbasis für unseren beobachteten Stichprobenwert.
Stichprobenverteilungen und t-Verteilungen sind Arten von Wahrscheinlichkeitsverteilungen. Erfahren Sie mehr über Wahrscheinlichkeitsverteilungen!,
Grafik unseres Stichprobenmittelwerts im Kontext der Stichprobenverteilung
Die folgende Grafik zeigt, welche Stichprobenmittel wahrscheinlicher und weniger wahrscheinlich sind, wenn der Grundgesamtmittelwert 260 beträgt. Wir können unsere Probe Mittel in dieser Verteilung platzieren. Dieser größere Kontext hilft uns zu sehen, wie unwahrscheinlich unser Stichprobenmittelwert ist, wenn die Nullhypothese wahr ist (μ = 260).
Das Diagramm zeigt die geschätzte Verteilung der Stichprobenmittel an. Die wahrscheinlichsten Werte liegen in der Nähe von 260, da der Plot davon ausgeht, dass dies der wahre Bevölkerungsmittelwert ist., Angesichts eines zufälligen Stichprobenfehlers wäre es jedoch nicht überraschend, Stichprobenmittelwerte im Bereich von 167 bis 352 zu beobachten. Wenn der Populationsmittelwert immer noch 260 beträgt, ist unser beobachteter Stichprobenmittelwert (330.6) nicht der wahrscheinlichste Wert, aber auch nicht vollständig unplausibel.
Die Rolle der Hypothese Tests
Die sampling-Verteilung zeigt uns, dass wir relativ unwahrscheinlich zu erhalten eine Probe von 330.6 wenn der Mittelwert der Grundgesamtheit ist 260. Ist unser Stichprobenmittelwert so unwahrscheinlich, dass wir die Vorstellung ablehnen können, dass der Bevölkerungsmittelwert 260 beträgt?
In der Statistik nennen wir dies die Ablehnung der Nullhypothese., Wenn wir die null für unser Beispiel ablehnen, ist die Differenz zwischen dem Stichprobenmittelwert (330.6) und 260 statistisch signifikant. Mit anderen Worten, die Stichprobendaten begünstigen die Hypothese, dass der Bevölkerungsdurchschnitt 260 nicht entspricht.
Schauen Sie sich jedoch das Sampling-Verteilungsdiagramm erneut an. Beachten Sie, dass es keinen speziellen Ort in der Kurve gibt, an dem Sie diese Schlussfolgerung endgültig ziehen können. Es gibt nur eine konsistente Abnahme der Wahrscheinlichkeit, Stichprobenmittel zu beobachten, die weiter vom Nullhypothesenwert entfernt sind. Wo entscheiden wir, ob ein Stichprobenmittel weit genug entfernt ist?,
Um diese Frage zu beantworten, benötigen wir weitere Tools-Hypothesentests! Das Hypothesentestverfahren quantifiziert die Ungewöhnlichkeit unserer Probe mit einer Wahrscheinlichkeit und vergleicht sie dann mit einem Beweisstandard. Dieser Prozess ermöglicht es Ihnen, eine objektive Entscheidung über die Stärke der Beweise zu treffen.
Wir werden die Werkzeuge hinzufügen, die wir brauchen, um diese Entscheidung zu den Graph—Signifikanzstufen und p-Werten zu treffen!
Mit diesen Tools können wir diese beiden Hypothesen testen:
- Nullhypothese: Der Populationsmittelwert entspricht dem Nullhypothesenmittelwert (260).,
- Alternative Hypothese: Der Populationsmittelwert entspricht nicht dem Nullhypothesenmittelwert (260).
Related post: Testen von Hypothesen im Überblick
Was sind signifikanzen (Alpha)?
Ein Signifikanzniveau, auch bekannt als Alpha oder α, ist ein Beweisstandard, den ein Forscher vor der Studie festlegt. Es definiert, wie stark der Stichprobenbeweis der Nullhypothese widersprechen muss, bevor Sie die Nullhypothese für die gesamte Population ablehnen können. Die Stärke der Beweise wird durch die Wahrscheinlichkeit definiert, eine Nullhypothese abzulehnen, die wahr ist., Mit anderen Worten, es ist die Wahrscheinlichkeit, dass Sie sagen, dass es einen Effekt gibt, wenn es keinen Effekt gibt.
Zum Beispiel bedeutet ein Signifikanzniveau von 0,05 ein 5% iges Risiko, zu entscheiden, dass ein Effekt existiert, wenn er nicht existiert.
Niedrigere Signifikanzniveaus erfordern stärkere Stichprobenbeweise, um die Nullhypothese abweisen zu können. Um beispielsweise auf der Signifikanzebene 0.01 statistisch signifikant zu sein, sind umfassendere Beweise als auf der Signifikanzebene 0.05 erforderlich. Es gibt jedoch einen Kompromiss bei Hypothesentests., Niedrigere Signifikanzniveaus reduzieren auch die Leistung eines Hypothesentests, um einen vorhandenen Unterschied zu erkennen.
Die technische Natur dieser Art von Fragen kann Ihren Kopf drehen lassen. Ein Bild kann diese Ideen zum Leben erwecken!
Um einen konzeptionelleren Ansatz für Signifikanzniveaus zu lernen, siehe meinen Beitrag über das Verständnis von Signifikanzniveaus.
Graphische Signifikanzniveaus als kritische Regionen
Auf dem Wahrscheinlichkeitsverteilungsdiagramm definiert das Signifikanzniveau, wie weit der Stichprobenwert vom Nullwert entfernt sein muss, bevor wir die Null ablehnen können., Der Prozentsatz der Fläche unter der Kurve, die schattiert ist, entspricht der Wahrscheinlichkeit, dass der Stichprobenwert in diesen Regionen abfällt, wenn die Nullhypothese korrekt ist.
Um ein Signifikanzniveau von 0,05 darzustellen, schattiere ich 5% der Verteilung, die am weitesten vom Nullwert entfernt ist.
Die beiden schattierten Bereiche im Diagramm sind gleich weit vom zentralen Wert der Nullhypothese entfernt. Jede Region hat eine Wahrscheinlichkeit von 0,025, was unserer gewünschten Summe von 0,05 entspricht. Diese schattierten Bereiche werden als kritischer Bereich für einen zweischwänzigen Hypothesentest bezeichnet.,
Der kritische Bereich definiert Stichprobenwerte, die unwahrscheinlich genug sind, um die Ablehnung der Nullhypothese zu rechtfertigen. Wenn die Nullhypothese korrekt ist und der Populationsmittelwert 260 ist, haben Zufallsstichproben (n=25) aus dieser Population Mittel, die in der kritischen Region 5% der Zeit fallen.
Unser Stichprobenmittelwert ist auf der 0,05-Ebene statistisch signifikant, da er in den kritischen Bereich fällt.
Related post: One-Tailed und Two-Tailed Tests Explained
Vergleich Signifikanzstufen
Lassen Sie uns diese Hypothese Test wiederholen die andere gemeinsame Signifikanzniveau von 0.,01 zu sehen, wie es vergleicht.
Diesmal entspricht die Summe der beiden schattierten Bereiche unserem neuen Signifikanzniveau von 0,01. Der Mittelwert unserer Probe fällt nicht in den kritischen Bereich. Folglich lehnen wir die Nullhypothese nicht ab. Wir haben die gleichen genauen Beispieldaten, den gleichen Unterschied zwischen dem Stichprobenmittelwert und dem Nullhypothesenwert, aber ein anderes Testergebnis.
Was ist passiert? Durch die Angabe eines niedrigeren Signifikanzniveaus legen wir einen höheren Balken für die Stichprobenbeweise fest., Wie die Grafik zeigt, bewegen niedrigere Signifikanzniveaus die kritischen Bereiche weiter vom Nullwert weg. Folglich erfordern niedrigere Signifikanzniveaus extremere Stichprobenmittel, um statistisch signifikant zu sein.
Vor der Durchführung einer Studie müssen Sie die Signifikanzstufe festlegen. Sie möchten nicht die Versuchung haben, nach der Studie ein Niveau auszuwählen, das signifikante Ergebnisse liefert. Der einzige Grund, warum ich im Vergleich der zwei signifikanzen wurde zur Veranschaulichung der Auswirkungen und erklären Sie die unterschiedlichen Ergebnisse.,
Die grafische Version des von uns erstellten 1-Sample-T-Tests ermöglicht es uns, die statistische Signifikanz zu bestimmen, ohne den P-Wert zu bewerten. In der Regel müssen Sie den P-Wert mit dem Signifikanzniveau vergleichen, um diese Bestimmung vorzunehmen.
Verwandter Beitrag: Schritt-für-Schritt-Anweisungen zum Durchführen von T-Tests in Excel
Was sind P-Werte?
P-Werte sind die Wahrscheinlichkeit, dass eine Stichprobe einen Effekt hat, der mindestens so extrem ist wie der in Ihrer Stichprobe beobachtete Effekt, wenn die Nullhypothese korrekt ist.
Diese gewundene, technische Definition für P-Werte kann Ihren Kopf drehen lassen., Lass es uns graphen!
Zuerst müssen wir den Effekt berechnen, der in unserer Probe vorhanden ist. Der Effekt ist der Abstand zwischen dem Abtastwert und dem Nullwert: 330.6-260 = 70.6. Als nächstes schattiere ich die Regionen auf beiden Seiten der Verteilung, die mindestens so weit wie 70.6 von der Null entfernt sind (260 +/- 70.6). Dieser Prozess zeigt die Wahrscheinlichkeit, einen Stichprobenmittelwert mindestens so extrem zu beobachten wie unser Stichprobenmittelwert.
Die Gesamtwahrscheinlichkeit der beiden schattierten Bereiche beträgt 0,03112., Wenn der Nullhypothesewert (260) wahr ist und Sie viele zufällige Stichproben gezogen haben, würden Sie erwarten, dass die Stichprobenmittelwerte in den schattierten Bereichen etwa 3,1% der Zeit fallen. Mit anderen Worten, Sie werden Stichprobeneffekte mindestens so groß wie 70.6 etwa 3.1% der Zeit beobachten, wenn die null wahr ist. Das ist der P-Wert!
Verwenden von P-Werten und Signifikanzniveaus zusammen
Wenn Ihr P-Wert kleiner oder gleich Ihrem Alpha-Wert ist, lehnen Sie die Nullhypothese ab.
Die P-Wert-Ergebnisse stimmen mit unserer grafischen Darstellung überein. Der P-Wert von 0,03112 ist auf dem Alpha-Niveau von 0,05 aber nicht 0 signifikant.,01. Auch in der Praxis wählen Sie vor dem Experiment ein neues Level aus und bleiben dabei!
Unter Verwendung des Signifikanzniveaus von 0,05 ist der Stichprobeneffekt statistisch signifikant. Unsere Daten stützen die alternative Hypothese, die besagt, dass die Bevölkerung nicht gleich 260 ist. Wir können daraus schließen, dass die durchschnittlichen Kraftstoffausgaben seit letztem Jahr gestiegen sind.
P-Werte werden sehr häufig falsch interpretiert als die Wahrscheinlichkeit, eine Nullhypothese abzulehnen, die tatsächlich wahr ist. Diese interpretation ist falsch! Um zu verstehen, warum, lesen Sie bitte meinen Beitrag: Wie man P-Werte richtig interpretiert.,
Diskussion über statistisch signifikante Ergebnisse
Hypothesentests bestimmen, ob Ihre Stichprobendaten ausreichende Beweise liefern, um die Nullhypothese für die gesamte Population abzulehnen. Um diesen Test durchzuführen, vergleicht die Prozedur Ihre Beispielstatistik mit dem Nullwert und bestimmt, ob sie ausreichend selten ist. „Ausreichend selten“ wird in einem Hypothesentest definiert durch:
- Unter der Annahme, dass die Nullhypothese wahr ist—die Graphen zentrieren sich auf den Nullwert.
- Die Signifikanz (Alpha) – Ebene—wie weit vom Nullwert entfernt ist der kritische Bereich?,
- Die Stichprobenstatistik-befindet sie sich im kritischen Bereich?
Es gibt kein besonderes Signifikanzniveau, das korrekt bestimmt, welche Studien 100% der Zeit echte Populationseffekte haben. Die traditionellen Signifikanzniveaus von 0,05 und 0,01 sind Versuche, den Kompromiss zwischen einer geringen Wahrscheinlichkeit, eine echte Nullhypothese abzulehnen, und einer ausreichenden Kraft, um einen Effekt zu erkennen, wenn er tatsächlich existiert, zu verwalten.
Das Signifikanzniveau ist die Rate, mit der Sie Nullhypothesen, die tatsächlich wahr sind, falsch ablehnen (Fehler vom Typ I)., Für alle Studien, die ein Signifikanzniveau von 0,05 verwenden und die Nullhypothese korrekt ist, können Sie beispielsweise erwarten, dass 5% von ihnen Stichprobenstatistiken haben, die in den kritischen Bereich fallen. Wenn dieser Fehler auftritt, wissen Sie nicht, dass die Nullhypothese korrekt ist, aber Sie lehnen sie ab, da der p-Wert kleiner als 0,05 ist.
Dieser Fehler zeigt nicht an, dass der Forscher einen Fehler gemacht hat. Wie die Grafiken zeigen, können Sie extreme Stichprobenstatistiken allein aufgrund von Stichprobenfehlern beobachten. Es ist das Glück der Auslosung!,
Related post: Arten von Fehlern in Hypothesentests
Hypothesentests sind entscheidend, wenn Sie Beispieldaten verwenden möchten, um Rückschlüsse auf eine Population zu ziehen, da diese Tests Stichprobenfehler berücksichtigen. Die Verwendung von Signifikanzniveaus und P-Werten, um zu bestimmen, wann die Nullhypothese abgelehnt werden soll, verbessert die Wahrscheinlichkeit, dass Sie die richtige Schlussfolgerung ziehen.
Denken Sie daran, dass statistische Signifikanz nicht unbedingt bedeutet, dass der Effekt in einem praktischen, realen Sinn wichtig ist. Für weitere Informationen, Lesen Sie meinen Beitrag über Praktische vs. Statistische Signifikanz.,
Wenn Ihnen dieser Beitrag gefällt, lesen Sie den begleitenden Beitrag: Wie Hypothesentests funktionieren: Konfidenzintervalle und Konfidenzniveaus.
Sie können auch meine anderen Beiträge lesen, die beschreiben, wie andere Tests funktionieren:
- Wie T-Tests funktionieren
- Wie der F-Test in ANOVA funktioniert
- Wie Chi-Quadrierte Unabhängigkeitstests funktionieren
Um einen alternativen Ansatz für traditionelle Hypothesentests zu sehen, die keine Wahrscheinlichkeitsverteilungen und Teststatistiken verwenden, erfahren Sie mehr über Bootstrapping in Statistiken!
Leave a Reply