Mit Inferenzstatistiken können Sie mithilfe kleiner Stichproben Rückschlüsse auf Populationen ziehen. Folglich bieten inferenzielle Statistiken enorme Vorteile, da Sie normalerweise nicht eine ganze Population messen können.
Um diese Vorteile zu nutzen, müssen Sie jedoch die Beziehung zwischen Populationen, Subpopulationen, Populationsparametern, Stichproben und Stichprobenstatistiken verstehen.
In diesem Blogbeitrag diskutiere ich diese Konzepte und wie man repräsentative Stichproben mithilfe von Zufallsstichproben erhält.,
Related post: Unterschied zwischen beschreibenden und inferentiellen Statistiken
Populationen
Populationen können Menschen umfassen, aber andere Beispiele sind Objekte, Veranstaltungen, Unternehmen, und so weiter. In der Statistik gibt es zwei Allgemeine Arten von Populationen.
Populationen können der komplette Satz aller ähnlichen Elemente sein, die existieren. Beispielsweise umfasst die Bevölkerung eines Landes alle Personen, die sich derzeit in diesem Land befinden. Es ist eine endliche, aber potenziell große Liste von Mitgliedern.
Eine Population kann jedoch ein theoretisches Konstrukt sein, das potenziell unendlich groß ist., Zum Beispiel betrachten Qualitätsverbesserungsanalysten häufig alle aktuellen und zukünftigen Ausgaben einer Fertigungslinie als Teil einer Bevölkerung.
Populationen teilen sich eine Reihe von Attributen, die Sie definieren. Zum Beispiel sind die folgenden Populationen:
- Sterne in der Milchstraße.
- Teile aus einer Produktionslinie.
- Bürger der Vereinigten Staaten.
Bevor Sie mit einer Studie beginnen, müssen Sie die Population, die Sie studieren, sorgfältig definieren. Diese Populationen können eng definiert werden, um die Anforderungen Ihrer Analyse zu erfüllen., Zum Beispiel erwachsene schwedische Frauen, die ansonsten gesund sind, aber Osteoporose haben.
Subpopulationen können Ihre Analyse verbessern
Subpopulationen teilen zusätzliche Attribute. Zum Beispiel enthält die Bevölkerung der Vereinigten Staaten die Unterbevölkerung von Männern und Frauen. Sie können es auch auf andere Weise unterteilen, z. B. Region, Alter, sozioökonomischer Status usw. Verschiedene Studien, an denen dieselbe Population beteiligt ist, können sie in verschiedene Unterpopulationen aufteilen, je nachdem, was für die Daten und Analysen sinnvoll ist.,
Das Verständnis der Subpopulationen in Ihrer Studie hilft Ihnen, das Thema gründlicher zu erfassen. Sie können Ihnen auch dabei helfen, statistische Modelle zu erstellen, die besser zu den Daten passen. Subpopulationen sind besonders wichtig, wenn sie Merkmale aufweisen, die sich systematisch von der Gesamtbevölkerung unterscheiden. Wenn Sie Ihre Daten analysieren, müssen Sie sich dieser tieferen Spaltungen bewusst sein. Tatsächlich können Sie die relevanten Subpopulationen in späteren Analysen als zusätzliche Faktoren behandeln.,
Wenn Sie beispielsweise die durchschnittliche Größe von Erwachsenen in den USA analysieren, verbessern Sie Ihre Ergebnisse, indem Sie männliche und weibliche Unterbevölkerung einbeziehen, da ihre Höhen systematisch unterschiedlich sind. Ich werde dieses Beispiel später in diesem Beitrag ausführlich behandeln!
Populationsparameter versus Stichprobenstatistik
Ein Parameter ist ein Wert, der ein Merkmal einer gesamten Population beschreibt, z. B. den Populationsmittelwert. Da Sie fast nie eine gesamte Population messen können, kennen Sie normalerweise nicht den tatsächlichen Wert eines Parameters., Tatsächlich sind Parameterwerte fast immer unerkennbar. Obwohl wir den Wert nicht kennen, existiert er definitiv.
Zum Beispiel ist die durchschnittliche Größe erwachsener Frauen in den USA ein Parameter, der einen genauen Wert hat—wir wissen einfach nicht, was es ist!
Der Grundgesamtsmittelwert und die Standardabweichung sind zwei gebräuchliche Parameter. In der Statistik repräsentieren griechische Symbole normalerweise Populationsparameter wie μ (mu) für den Mittelwert und σ (sigma) für die Standardabweichung.
Eine Statistik ist ein Merkmal einer Stichprobe., Wenn Sie eine Stichprobe sammeln und den Mittelwert und die Standardabweichung berechnen, handelt es sich um Stichprobenstatistiken. Mit Inferenzstatistiken können Sie anhand von Stichprobenstatistiken Rückschlüsse auf eine Population ziehen. Um jedoch gültige Schlussfolgerungen zu ziehen, müssen Sie bestimmte Stichprobentechniken verwenden. Diese Techniken tragen dazu bei, dass Stichproben unvoreingenommene Schätzungen liefern. Voreingenommene Schätzungen sind systematisch zu hoch oder zu niedrig. Sie wollen unvoreingenommene Schätzungen, weil sie im Durchschnitt korrekt sind.
In der Inferenzstatistik verwenden wir Stichprobenstatistiken, um Populationsparameter zu schätzen., Wenn wir beispielsweise eine Zufallsstichprobe erwachsener Frauen in den USA sammeln und ihre Höhe messen, können wir den Stichprobenmittelwert berechnen und ihn als unvoreingenommene Schätzung des Bevölkerungsmittelwerts verwenden. Wir können auch Hypothesentests für die Stichprobenschätzung durchführen und Konfidenzintervalle erstellen, um einen Bereich zu erstellen, in den der tatsächliche Populationswert wahrscheinlich fällt.,div id=“6aadacc401″>Mu (μ)
: Measures of Central Tendency and Measures of Variability
Representative Sampling and Simple Random Samples
In statistics, sampling refers to selecting a subset of a population., Nach dem Zeichnen der Probe messen Sie eine oder mehrere Eigenschaften aller Elemente in der Probe, z. B. Höhe, Einkommen, Temperatur, Meinung usw. Wenn Sie Rückschlüsse auf diese Merkmale in der gesamten Population ziehen möchten, ist die Erfassung der Stichprobe eingeschränkt. Wenn Sie eine falsche Methodik verwenden, stellt die Stichprobe möglicherweise nicht die Population dar, was zu falschen Schlussfolgerungen führen kann.
Die bekannteste Methode, um eine unvoreingenommene, repräsentative Stichprobe zu erhalten, ist die einfache Zufallsstichprobe., Bei dieser Methode haben alle Elemente in der Population die gleiche Wahrscheinlichkeit, ausgewählt zu werden. Dieser Prozess hilft sicherzustellen, dass die Stichprobe den gesamten Bereich der Population umfasst. Darüber hinaus sollten alle relevanten Subpopulationen in die Stichprobe einbezogen und im Durchschnitt genau dargestellt werden. Einfache Zufallsstichproben minimieren die Verzerrung und vereinfachen die Datenanalyse.
Ich werde die Stichprobenmethode in einem zukünftigen Blogbeitrag ausführlicher diskutieren, aber es gibt einige entscheidende Vorbehalte gegen einfache Zufallsstichproben., Dieser Ansatz minimiert zwar die Verzerrung, zeigt jedoch nicht an, dass Ihre Stichprobenstatistiken genau den Populationsparametern entsprechen. Stattdessen sind Schätzungen aus einer bestimmten Stichprobe wahrscheinlich etwas hoch oder niedrig, aber der Prozess erzeugt im Durchschnitt genaue Schätzungen. Darüber hinaus ist es möglich, ungewöhnliche Proben mit zufälliger Stichprobe zu erhalten—es ist einfach nicht das erwartete Ergebnis.
Related post: Muster Statistiken Sind Immer Falsch (zum Teil)!
Darüber hinaus könnte zufällige Probenahme ein wenig willkürlich und einfach zu tun klingen-von denen beide nicht wahr sind., Eine einfache Zufallsstichprobe setzt voraus, dass Sie systematisch eine vollständige Liste aller Personen oder Elemente in der Population erstellen. Sie wählen dann zufällig Themen aus dieser Liste aus und nehmen sie in die Stichprobe auf. Es kann ein sehr umständlicher Prozess sein.
Lassen Sie uns diese Konzepte zum Leben erwecken!
Beispiel einer Population mit wichtigen Subpopulationen
Angenommen, wir untersuchen die Größe amerikanischer Bürger und gehen weiter davon aus, dass wir nicht viel über das Thema wissen., Folglich sammeln wir eine Zufallsstichprobe, messen die Höhen in Zentimetern und berechnen den Stichprobenmittelwert und die Standardabweichung. Hier ist die CSV-Datendatei: Höhen.
Wir erhalten die folgenden Ergebnisse:
Da wir eine Zufallsstichprobe gesammelt haben, können wir davon ausgehen, dass diese Stichprobenstatistiken unvoreingenommene Schätzungen der Bevölkerungsparameter sind.
Nehmen wir nun an, wir erfahren mehr über das Studiengebiet und schließen Männer und Frauen als Subpopulationen ein. Wir erhalten die folgenden Ergebnisse.,
Beachten Sie, wie die einzelnen weiten Verbreitung wurde ersetzt durch zwei schmalere Verteilungen? Die Verteilung für jedes Geschlecht hat eine geringere Standardabweichung als die Einzelverteilung für alle Erwachsenen, was mit der engeren Verteilung um die Mittel sowohl für Männer als auch für Frauen in der Grafik übereinstimmt. Diese Ergebnisse zeigen, wie der Mittelwert genauere Schätzungen liefert, wenn wir Höhen nach Geschlecht beurteilen. In der Tat entspricht der Mittelwert für die gesamte Bevölkerung nicht dem Mittelwert für beide Subpopulation. Es ist irreführend!,
Während dieses Prozesses erfahren wir, dass Geschlecht eine entscheidende Subpopulation ist, die sich auf die Größe bezieht und unser Verständnis des Themas erhöht. In zukünftigen Studien über die Größe können wir das Geschlecht als Prädiktorvariable einbeziehen.
Dieses Beispiel verwendet eine kategoriale Gruppierungsvariable (Geschlecht) und eine kontinuierliche Ergebnisvariable (Höhe). Wenn Sie Verteilungen kontinuierlicher Werte zwischen Gruppen wie diesem Beispiel vergleichen möchten, sollten Sie Boxplots und einzelne Wertdiagramme verwenden. Diese Diagramme werden nützlicher, wenn die Anzahl der Gruppen zunimmt.,
Dieses Beispiel ist absichtlich leicht zu verstehen, aber stellen Sie sich eine Studie über ein weniger offensichtliches Thema vor. Dieser Prozess hilft Ihnen, neue Erkenntnisse zu gewinnen und bessere statistische Modelle zu erstellen.
Mit Ihrem Wissen über Populationen, Subpopulationen, Parameter, Stichproben und Stichprobenstatistiken können Sie mit kleinen Stichproben wertvolle Rückschlüsse auf große Populationen ziehen. Weitere Informationen darüber, wie Sie Hypothesen über Populationen testen können, finden Sie in meiner Übersicht über Hypothesentests.
Leave a Reply