推論統計では、小さな標本を使用して母集団についての結論を導き出すことができます。 したがって、通常は母集団全体を測定できないため、推測統計は大きな利点を提供します。
ただし、これらの利点を得るためには、母集団、部分母集団、母集団パラメータ、標本、および標本統計量の関係を理解する必要があります。
このブログ記事では、これらの概念と、ランダムサンプリングを使用して代表的なサンプルを取得する方法について説明します。,
関連記事:記述統計と推測統計の違い
人口
人口には人が含まれますが、他の例にはオブジェクト、イベント、企業などが含まれます。 統計では、人口の二つの一般的なタイプがあります。
母集団は、存在するすべての同様の項目の完全なセットにすることができます。 たとえば、ある国の人口には、現在その国に住んでいるすべての人々が含まれます。 それは有限ですが潜在的に大きなメンバーのリストです。
しかし、母集団は潜在的に無限のサイズの理論的な構成になる可能性があります。, たとえば、品質向上アナリストは、製造ラインからの現在および将来のすべての出力を人口の一部とみなすことがよくあります。
集団は、定義する属性のセットを共有します。 たとえば、以下の集団があります:
- 天の川銀河の星。
- 生産ラインからの部品。li>
- アメリカ合衆国の市民。
研究を始める前に、勉強している母集団を慎重に定義する必要があります。 これらの母集団は、分析のニーズを満たすために狭く定義することができます。, 例えば、大人のスウェーデンの女性のその他の健康な骨粗しょう症
サブポピュレーションは分析を改善できます
サブポピュレーションは追加の属性を共有します。 例えば、米国の人口には男性と女性の亜集団が含まれています。 また、地域、年齢、社会経済的地位などの他の方法で細分化することもできます。 同じ母集団を含む異なる研究では、データと分析に意味があるものに応じて、それを異なる部分母集団に分割することができます。,
あなたの研究のサブポピュレーションを理解することは、主題をより徹底的に把握するのに役立ちます。 また、データにより適合する統計モデルを作成するのにも役立ちます。 亜集団は、全体的な集団と体系的に異なる特性を有する場合に特に重要である。 データを分析するときは、これらのより深い部門を認識する必要があります。 実際、後の分析では、関連する部分母集団を追加の要因として扱うことができます。,
たとえば、米国の成人の平均身長を分析している場合、身長が体系的に異なるため、男性と女性の亜集団を含めることで結果が改善されます。 私はこの記事の後半でその例について詳しく説明します!
母集団パラメーターと標本統計量
パラメーターとは、母集団の平均など、母集団全体の特性を記述する値です。 母集団全体を測定することはほとんどできないため、通常はパラメータの実際の値がわかりません。, 実際、パラメーター値はほとんど常に不明です。 私たちは価値を知らないが、それは間違いなく存在する。
たとえば、米国の成人女性の平均身長は、正確な値を持つパラメータです—私たちはそれが何であるかわかりません!
母集団の平均と標準偏差は、二つの共通パラメータです。 統計では、ギリシャの記号は通常、平均の場合はσ(mu)、標準偏差の場合はσ(sigma)などの母集団パラメータを表します。
統計量はサンプルの特性です。, サンプルを収集して平均と標準偏差を計算する場合、これらはサンプル統計です。 推論統計を使用すると、標本統計を使用して母集団について結論を出すことができます。 しかし、引を有効な結論を用いる必要は特にサンプリングです。 これらの技術により、安定試料を偏りのない推計値。 偏りのある推定値は体系的に高すぎるか低すぎます。 彼らは平均して正しいので、公平な見積もりが必要です。
推論統計では、母集団パラメータを推定するために標本統計を使用します。, たとえば、米国の成人女性の無作為標本を収集し、その身長を測定する場合、標本平均を計算し、それを母集団平均の不偏推定値として使用できます。 また、標本推定値に対して仮説検定を実行し、信頼区間を作成して、実際の母集団の値が範囲内に収まる可能性のある範囲を構築することもできます。,div id=”6aadacc401″>
Mu (μ)
: Measures of Central Tendency and Measures of Variability
Representative Sampling and Simple Random Samples
In statistics, sampling refers to selecting a subset of a population., サンプルを描画した後、身長、収入、温度、意見など、サンプル内のすべての項目の一つ以上の特性を測定します。 母集団全体におけるこれらの特性についての結論を導きたい場合は、サンプルの収集方法に制限があります。 誤った方法論を使用すると、標本が母集団を表していない可能性があり、誤った結論につながる可能性があります。
偏りのない代表的なサンプルを得るための最もよく知られた方法は、単純な無作為抽出である。, この方法では、母集団内のすべての項目が選択される確率が等しくなります。 このプロセスは、標本が母集団の全範囲を確実に含むようにするのに役立ちます。 さらに、すべての関連する亜集団は、サンプルに組み込まれ、平均して正確に表現されるべきである。 簡単なランダムサンプリングバイアスを最小限に抑え、簡単にデータを解析する
私は将来のブログ記事でより詳細にサンプリング方法について説明しますが、単純な無作為抽出についていくつかの重要な注意点があります。, このアプローチバイアスを最小限になることを示す例を元にご自身で作成統計を正確に等しい人口のパラメータ。 代わりに、特定のサンプルからの推定値は少し高いまたは低い可能性が高いですが、プロセスは平均して正確な推定値を生成します。 さらに、ランダムサンプリングで異常なサンプルを得ることは可能です。
関連記事:サンプル統計は常に間違っています(ある程度)!
さらに、無作為抽出は少し行き当たりばったりで簡単に聞こえるかもしれません—どちらも真実ではありません。, 簡単なランダムサンプリングを想定する系統的にコンパイルのリストは、すべての人は、その項目が存在します。 次に、そのリストから被験者をランダムに選択し、サンプルに含めます。 それは非常に面倒なプロセスになります。
これらの概念を生き生きとさせましょう!
重要な亜集団を持つ人口の例
アメリカ市民の身長を研究しているとし、さらにその主題についてあまり知らないと仮定しましょう。, その結果、ランダムサンプルを収集し、高さをセンチメートル単位で測定し、サンプルの平均と標準偏差を計算します。 ここにCSVデータファイルがあります:Heights。
次の結果が得られます。
ランダムサンプルを収集したため、これらのサンプル統計は母集団パラメータの不偏推定値であると仮定できます。
ここで、研究領域についてもっと学び、男性と女性を亜集団として含めるとします。 我々は、以下の結果を得た。,
単一の広い分布がどのように二つの狭い分布に置き換えられているかに注意してください? 各性別の分布は、すべての成人の単一分布よりも標準偏差が小さく、これはグラフの男性と女性の両方の平均の周りの広がりがより厳しいことと これらの結果からどのように平均より正確な推定値まで評価の高さによります。 実際、母集団全体の平均は、どちらの部分集団の平均とも等しくありません。 それは誤解を招くです!,
このプロセスの間、私たちは性別が身長に関連し、主題の理解を高める重要な亜集団であることを学びます。 身長に関する将来の研究では、予測子変数として性別を含めることができます。
この例では、カテゴリカルグループ化変数(性別)と連続結果変数(高さ)を使用します。 この例のように、グループ間の連続値の分布を比較する場合は、箱ひげ図と個別値プロットの使用を検討してください。 これらのプロット図がより有している団体が増えます。,
この例は意図的に理解しやすいですが、あまり明らかではない主題についての研究を想像してみてください。 このプロセスできる新たなヒントを得るだけでなく、このように、統計的なモデルです。
集団、部分集団、パラメーター、サンプリング、およびサンプル統計に関する知識を使用すると、小さなサンプルを使用することにより、大きな集団について 母集団についての仮説を検定する方法の詳細については、”仮説検定の概要”をご覧ください。
Leave a Reply