仮説検定は、推論統計において重要なプロセスであり、目標は標本データを使用して母集団全体についての結論を引き出すことです。 検定プロセスでは、有意水準とp値を使用して、検定結果が統計的に有意であるかどうかを判断します。
あなたは、結果が統計的に有意であることについて常に聞きます。 しかし、有意水準、P値、および統計的有意性は実際には何を表していますか? 統計で仮説検定を使用する必要があるのはなぜですか?,
この記事では、これらすべての質問に答えます。 使っていグラフや概念について説明仮説試験機能を提供するためにより直感的な説明をします。 これにより、統計結果の理解に進むのに役立ちます。
仮説検定の例シナリオ
まず、例を使用して仮説検定を使用する必要がある理由を説明します。
研究者は家族のための燃料費を研究しており、平均が月額260ドルだった昨年から毎月の費用が変わったかどうかを判断したいと考えています。, 研究者は25家族のランダムサンプルを描画し、統計ソフトウェアに今年の毎月のコストを入力します。 CsvデータファイルFuelsCostsをダウンロードできます。 以下は、今年の記述統計量です。
研究の質問に答え、仮説検定がどのように機能するかを示すために、この例に基づいて構築します。
記述統計量だけでは質問に答えられません
研究者は無作為標本を収集し、今年の標本平均(330.6)が昨年の平均(260)よりも大きいことを発見し 仮説検定をすべて実行するのはなぜですか?, 今年の平均は$70より高いことがわかります! それは違うんじゃないの?
残念ながら、完全な母集団ではなくサンプルを分析しているため、状況はあなたが考えるほど明確ではありません。 が大きな特典がサンプルですので、通常の収集データからの全体ます。 しかし、管理可能なサンプルを扱うためのトレードオフは、サンプルエラーを考慮する必要があるということです。
サンプリング誤差は、標本統計量と母集団パラメーターの間のギャップです。, この例では、標本統計量は標本平均であり、330.6です。 母集団パラメーターは、母集団全体の平均であるμまたはmuです。 残念ながら、母集団パラメーターの値は未知であるだけでなく、通常は未知です。
我々は330.6の標本平均を得た。 しかし、サンプリング誤差のために、母集団の平均はわずか260である可能性があると考えられます。 研究者が別の無作為標本を引いた場合、次の標本平均は260に近くなる可能性があります。 サンプル平均だけを見てこの可能性を評価することは不可能です。, 仮説検定は、代表的なサンプルに基づいて母集団全体についての結論を引き出すことを可能にする推論統計の一形態です。 母集団の平均が260である場合、標本平均を得る尤度を決定するために仮説検定を使用する必要があります。,
背景情報:記述統計量と推測統計量と母集団、パラメーター、および推測統計量の違い
標本平均がありそうもないかどうかを標本分布が決定します
標本誤差のために標本平均が母平均と等しくなることは非常にありません。 私たちの場合、330.6の標本平均は、燃料費の母集団の平均とほぼ間違いなく等しくありません。,
かなりの数のランダムサンプルを取得し、各サンプルのサンプル平均を計算することができれば、サンプル平均の広いスペクトルを観察します。 このプロセスからサンプル平均の分布をグラフ化することさえできます。
このタイプの分布はサンプリング分布と呼ばれます。 標本分布は、同じ母集団から同じサイズの多くの無作為標本を描画することによって取得します。 なぜ我々はこれを行うだろうか?,
サンプリング分布を使用すると、サンプル統計量を取得する尤度を決定でき、仮説検定を実行するために重要であるためです。
幸いなことに、我々は多数のランダムサンプルを収集するのトラブルに行く必要はありません! T分布、サンプルサイズ、およびサンプルの変動性を使用して、サンプリング分布を推定することができます。
今年の平均燃料消費量(330.6)が昨年(260)と異なるかどうかを調べたいと思います。, この質問に答えるために、人口全体の平均燃料コストが変化しておらず、まだ260であるという仮定に基づいて、サンプリング分布をグラフ化します。 統計では、この効果の欠如、または変化のないことを帰無仮説と呼びます。 観測されたサンプル値の比較の基礎として帰無仮説値を使用します。
サンプリング分布とt分布は確率分布のタイプです。 確率分布についてもっと知りたい!,
標本平均を標本分布の文脈でグラフ化
以下のグラフは、母平均が260の場合にどの標本平均が確率が高く、確率が低いかを示しています。 この分布に標本平均を配置することができます。 このより大きな文脈は、帰無仮説が真である場合(λ=260)、標本平均がどれほど低いかを確認するのに役立ちます。
グラフには、標本平均の推定分布が表示されます。 プロットではこれが真の母平均であると仮定しているため、最も可能性の高い値は260に近いです。, しかし、ランダムサンプリング誤差を考えると、167から352までのサンプル平均を観察することは驚くべきことではあり 母集団の平均がまだ260である場合、観測された標本平均(330.6)は最も可能性の高い値ではありませんが、完全に信じられないわけではありません。
仮説検定の役割
サンプリング分布は、母集団の平均が330.6の場合、260のサンプルを得ることは比較的低いことを示しています。 私たちの標本平均は、母集団の平均が260であるという概念を拒否することはありそうもありませんか?
統計学では、これを帰無仮説の棄却と呼びます。, この例でnullを棄却すると、標本平均(330.6)と260の差は統計的に有意です。 言い換えれば、標本データは母集団平均が260と等しくないという仮説を支持します。
ただし、サンプリング分布図をもう一度見てください。 この結論を決定的に引き出すことができる曲線上の特別な場所はないことに注意してください。 帰無仮説値から遠い標本平均を観測する尤度の一貫性のある減少のみがあります。 サンプル平均が十分に遠いとどこで判断するのですか?,
この質問に答えるには、より多くのツールが必要です—仮説検定! 仮説検定手順では、サンプルの異常性を確率で定量化し、それを証拠標準と比較します。 このプロセスにより、証拠の強さについて客観的な決定を下すことができます。
この決定を行うために必要なツールをグラフに追加します—有意水準とp値!
これらのツールは、私たちはこれら二つの仮説をテストすることができます:
- 帰無仮説:母集団の平均は帰無仮説平均(260)に等しい。,
- 対立仮説:母集団の平均は帰無仮説の平均(260)と等しくありません。
関連記事:仮説検定の概要
有意水準(アルファ)とは何ですか?
有意水準は、アルファまたはαとも呼ばれ、研究者が研究の前に設定する証拠基準です。 これは、母集団全体の帰無仮説を棄却する前に、標本証拠が帰無仮説とどの程度矛盾するかを定義します。 証拠の強さは、真である帰無仮説を棄却する確率によって定義されます。, つまり、効果がないときに効果があると言う確率です。
たとえば、有意水準0.05は、効果が存在しないときに効果が存在すると判断するリスク5%を意味します。
有意水準を低くするには、帰無仮説を棄却できるように、より強力な標本証拠が必要です。 たとえば、0.01の有意水準で統計的に有意であるためには、0.05の有意水準よりも実質的な証拠が必要です。 しかし、仮説検定にはトレードオフがあります。, 有意水準を低くすると、存在する差を検出するための仮説検定の検出力も低下します。
これらのタイプの質問の技術的性質は、あなたの頭を回転させることができます。 写真ではこれらのアイデアです。
有意水準に対するより概念的なアプローチを学ぶには、有意水準の理解に関する私の投稿を参照してください。
有意水準を臨界領域としてグラフ化
確率分布プロットでは、有意水準は、nullを棄却する前に、サンプル値がnull値からどれくらい離れている必要があるかを定義します。, 影付きの曲線の下の面積の割合は、帰無仮説が正しい場合、サンプル値がそれらの領域に入る確率に等しくなります。
0.05の有意水準を表すために、null値から最も遠い分布の5%を陰にします。
グラフ内の二つの影付き領域は、帰無仮説の中心値から等距離にあります。 各領域は0.025の確率を持ち、これは所望の合計0.05に合計されます。 これらの影付き領域は、両側仮説検定の臨界領域と呼ばれます。,
臨界領域は、帰無仮説を棄却することを保証するのに十分ではないサンプル値を定義します。 帰無仮説が正しく、母集団の平均が260である場合、この母集団からの無作為標本(n=25)は、時間の5%の臨界領域にある平均を持ちます。
サンプル平均は、臨界領域にあるため、0.05レベルで統計的に有意です。
関連記事:片側検定と両側検定の説明
有意水準の比較
0の他の一般的な有意水準を使用して、この仮説検定をやり直しましょう。,01比較する方法を確認します。
今回は、二つの影付き領域の合計が0.01の新しい有意水準に等しくなります。 サンプルの平均は臨界領域には入らない。 その結果、帰無仮説を棄却することができません。 正確なサンプルデータは同じで、サンプル平均と帰無仮説値の差は同じですが、テスト結果は異なります。
何が起こったの? 有意水準を低く指定することにより、標本証拠に対してより高いバーを設定します。, グラフが示すように、有意水準を低くすると、臨界領域がnull値からさらに遠ざかります。 その結果、低レベルの意義を必要とする極度のサンプルを意味する統計的に有意でなかったが
研究を行う前に有意水準を設定する必要があります。 あなたは、重要な結果をもたらす研究の後にレベルを選択する誘惑を望んでいません。 私が二つの有意水準を比較した唯一の理由は、効果を説明し、異なる結果を説明することでした。,
私たちが作成した1サンプルt検定のグラフィカルバージョンにより、P値を評価することなく統計的有意性を決定することができます。 通常、この決定を行うには、p値と有意水準を比較する必要があります。
関連記事:Excelでtテストを行う方法のステップバイステップの手順
P値とは何ですか?
P値は、帰無仮説が正しい場合、サンプルで観測された効果と少なくとも同じ極端な効果を持つ確率です。
P値のこの曲がりくねった技術的な定義は、あなたの頭を回転させることができます。, それをグラフ化しましょう!
まず、サンプルに存在する効果を計算する必要があります。 効果は、サンプル値とnull値の間の距離です:330.6-260=70.6。 次に、nullから少なくとも70.6まで離れている分布の両側の領域を陰にします(260 +/- 70.6)である。 このプロセスのグラフの確率で観測するサンプルあることを意味するものでは少なくとも極限として、サンプルのセットを作ります。
二つの影付き領域の合計確率は0.0312です。, 帰無仮説値(260)が真であり、多くのランダムサンプルを描画した場合、サンプル平均は、時間の約3.1%の影付き領域に落ちると予想されます。 言い換えれば、nullがtrueの場合、少なくとも70.6時間の約3.1%のサンプル効果が観察されます。 それがP値です!
P値と有意水準を一緒に使用する
P値がアルファ水準より小さいか等しい場合は、帰無仮説を棄却します。
P値の結果は、我々のグラフィカル表現と一致しています。 0.03112のP値は、0.05のアルファレベルでは有意ですが、0では有意ではありません。,01. 繰り返しますが、実際には、実験の前に一つの有意水準を選択し、それに固執します!
有意水準0.05を使用すると、サンプル効果は統計的に有意です。 私たちのデータは、母集団の平均が260と等しくないという対立仮説を支持しています。 我々は、平均燃費が昨年以来増加していると結論づけることができます。
P値は、実際に真である帰無仮説を棄却する確率として非常に頻繁に誤解されます。 この解釈は間違っています! 理由を理解するには、私の投稿をお読みください:P値を正しく解釈する方法。,
統計的に有意な結果についての議論
仮説検定は、標本データが母集団全体の帰無仮説を棄却するのに十分な証拠を提供するかどうかを この検定を実行するために、この手順では、サンプル統計量をnull値と比較し、それが十分にまれであるかどうかを判断します。 “十分にまれ”は、仮説検定で次のように定義されます。
- 帰無仮説が真であると仮定すると、グラフはnull値を中心とします。li>
- 有意性(アルファ)レベル—null値からどのくらい離れているかは重要な領域ですか?,li>
- サンプル統計—それは重要な領域内にありますか?
どの研究が実際の母集団効果を100%持っているかを正しく決定する特別な有意水準はありません。 従来の有意水準0.05と0.01は、真の帰無仮説を棄却する確率が低いことと、実際に存在する場合に効果を検出するのに十分な検出力を持つこととの間のトレードオフを管理しようとする試みです。
有意水準は、実際に真である帰無仮説を誤って棄却する率です(タイプIエラー)。, たとえば、有意水準0.05を使用し、帰無仮説が正しいすべての研究について、それらの5%が臨界領域に該当する標本統計量を持つと予想できます。 このエラーが発生すると、帰無仮説が正しいことに気づいていませんが、p値が0.05未満であるため、それを拒否します。
このエラーは、研究者が間違いを犯したことを示すものではありません。 グラフが示すように、サンプル誤差のみによる極端なサンプル統計を観察できます。 それは引き分けの運です!,
関連記事:仮説検定におけるエラーの種類
仮説検定は、標本データを使用して母集団について結論を出す場合に非常に重要です。 帰無仮説を棄却するタイミングを決定するために有意水準とP値を使用すると、正しい結論が導き出される確率が向上します。
統計的有意性は、必ずしもその効果が実用的で現実世界の意味で重要であることを意味するとは限らないことに注意してください。 詳しくは、読み取って実践的な対統計的有意性が見られた。,
この投稿が好きなら、コンパニオンの投稿を読んでください:仮説検定の仕組み:信頼区間と信頼水準。
あなたはまた、他のテストがどのように動作するかを説明する私の他の記事を読むことができます:
- T検定がどのように動作するか
- F検定がANOVAでどのように動作するか
- 独立のカイ二乗検定がどのように動作するか
確率分布と検定統計量を使用しない伝統的な仮説検定の代替アプローチを見るには、統計でブートストラップについて学びましょう!
Leave a Reply