Les tests D’hypothèses sont un processus essentiel dans les statistiques inférentielles où l’objectif est d’utiliser des données d’échantillon pour tirer des conclusions sur une population entière. Dans le processus de test, vous utilisez des niveaux de signification et des valeurs p pour déterminer si les résultats du test sont statistiquement significatifs.
vous entendez dire que les résultats sont statistiquement significatifs tout le temps. Mais, que représentent réellement les niveaux de Signification, les valeurs P et la signification statistique? Pourquoi avons-nous même besoin d’utiliser des tests d’hypothèses en statistiques?,
Dans ce post, je réponds à toutes ces questions. J’utilise des graphiques et des concepts pour expliquer le fonctionnement des tests d’hypothèses afin de fournir une explication plus intuitive. Cela vous aide à passer à la compréhension de vos résultats statistiques.
scénario D’exemple de test D’hypothèse
pour commencer, je vais démontrer pourquoi nous devons utiliser des tests d’hypothèse en utilisant un exemple.
un chercheur étudie les dépenses de carburant pour les familles et veut déterminer si le coût mensuel a changé depuis l’an dernier, alors que la moyenne était de 260 $par mois., Le chercheur tire un échantillon aléatoire de 25 familles et entre leurs coûts mensuels pour cette année dans un logiciel statistique. Vous pouvez télécharger le fichier de données CSV: FuelsCosts. Voici les statistiques descriptives pour cette année.
Nous allons nous appuyer sur cet exemple pour répondre à la question de recherche et montrer comment fonctionnent les tests d’hypothèse.
les statistiques descriptives seules ne répondront pas à la Question
Le chercheur a recueilli un échantillon aléatoire et a constaté que la moyenne de l’échantillon de cette année (330,6) est supérieure à la moyenne de l’année dernière (260). Pourquoi effectuer un test d’hypothèse du tout?, Nous pouvons voir que la moyenne de cette année est plus élevée de 70!! N’est-ce pas différent?
malheureusement, la situation n’est pas aussi claire que vous pourriez le penser parce que nous analysons un échantillon au lieu de la population complète. Il y a d’énormes avantages à travailler avec des échantillons, car il est généralement impossible de collecter des données auprès d’une population entière. Cependant, le compromis pour travailler avec un échantillon gérable est que nous devons tenir compte de l’erreur de l’échantillon.
L’erreur d’échantillonnage est l’écart entre l’échantillon statistique et le paramètre de la population., Pour notre exemple, l’échantillon statistique est la moyenne de l’échantillon, qui est 330.6. Le paramètre population est μ, ou mu, qui est la moyenne de la population entière. Malheureusement, la valeur du paramètre population est non seulement inconnue, mais généralement inconnaissable.
nous avons obtenu une moyenne d’échantillon de 330,6. Cependant, il est concevable que, en raison d’une erreur d’échantillonnage, la moyenne de la population ne soit que de 260. Si le chercheur a tiré un autre échantillon aléatoire, la moyenne de l’échantillon suivant pourrait être plus proche de 260. Il est impossible d’évaluer cette possibilité en ne regardant que la moyenne de l’échantillon., Le test d’hypothèse est une forme de statistique inférentielle qui nous permet de tirer des conclusions sur une population entière basée sur un échantillon représentatif. Nous devons utiliser un test d’hypothèse pour déterminer la probabilité d’obtenir la moyenne de notre échantillon si la moyenne de la population est de 260.,
renseignements généraux: la différence entre les statistiques descriptives et inférentielles et les Populations, les paramètres et les échantillons dans les statistiques inférentielles
une Distribution D’échantillonnage détermine si notre moyenne D’échantillon est peu probable
Il est très peu probable qu’une moyenne d’échantillon égale la moyenne de la population en raison Dans notre cas, la moyenne de l’échantillon de 330,6 n’est presque certainement pas égale à la moyenne de la population pour les dépenses de carburant.,
Si nous pouvions obtenir un nombre substantiel d’échantillons aléatoires et calculer la moyenne de chaque échantillon, nous observerions un large spectre de moyennes d’échantillons. Nous serions même en mesure de représenter graphiquement la distribution des moyennes d’échantillons à partir de ce processus.
ce type de distribution est appelé distribution d’échantillonnage. Vous obtenez une distribution d’échantillonnage en prélevant plusieurs échantillons aléatoires de même taille dans la même population. Pourquoi diable devrions-nous faire cela?,
parce que les distributions d’échantillonnage vous permettent de déterminer la probabilité d’obtenir votre statistique d’échantillon et qu’elles sont cruciales pour effectuer des tests d’hypothèses.
Heureusement, nous n’avons pas besoin d’aller à la peine de recueillir de nombreux échantillons aléatoires! Nous pouvons estimer la distribution d’échantillonnage en utilisant la distribution t, la taille de notre échantillon et la variabilité de notre échantillon.
nous voulons savoir si la dépense moyenne de carburant Cette année (330,6) est différente de l’année dernière (260)., Pour répondre à cette question, nous allons représenter graphiquement la distribution d’échantillonnage en partant de l’hypothèse que le coût moyen du carburant pour l’ensemble de la population n’a pas changé et est toujours de 260. Dans les statistiques, nous appelons cette absence d’effet, ou pas de changement, l’hypothèse nulle. Nous utilisons la valeur de l’hypothèse nulle comme base de comparaison pour notre valeur d’échantillon observée.
Les distributions D’échantillonnage et les distributions t sont des types de distributions de probabilité. En savoir plus sur les distributions de probabilité!,
Représentation graphique de la moyenne de notre échantillon dans le contexte de la Distribution d’échantillonnage
le graphique ci-dessous montre quelles moyennes de l’échantillon sont les plus probables et les moins probables si la moyenne de la population est de 260. Nous pouvons placer notre moyenne d’échantillon dans cette distribution. Ce contexte plus large nous aide à voir à quel point notre moyenne d’échantillon est improbable si l’hypothèse nulle est vraie (μ = 260).
Le graphique affiche une estimation de la distribution de l’échantillon moyen. Les valeurs les plus probables sont proches de 260 car le graphique suppose qu’il s’agit de la vraie moyenne de la population., Cependant, compte tenu de l’erreur d’échantillonnage aléatoire, il ne serait pas surprenant d’observer des moyennes d’échantillon allant de 167 à 352. Si la moyenne de la population est toujours de 260, la moyenne de notre échantillon observé (330,6) n’est pas la valeur la plus probable, mais ce n’est pas complètement invraisemblable non plus.
le rôle des Tests D’hypothèses
la distribution d’échantillonnage nous montre qu’il est relativement peu probable d’obtenir un échantillon de 330,6 si la moyenne de la population est de 260. Est notre échantillon signifie donc peu probable que nous pouvons rejeter l’idée que la moyenne de population est de 260?
en statistique, on appelle cela le rejet de l’hypothèse nulle., Si nous rejetons la valeur nulle pour notre exemple, la différence entre la moyenne de l’échantillon (330,6) et 260 est statistiquement significative. En d’autres termes, les données de l’échantillon favorisent l’hypothèse que la moyenne de la population n’est pas égale à 260.
cependant, regardez à nouveau le diagramme de distribution d’échantillonnage. Notez qu’il n’y a pas d’emplacement spécial sur la courbe où vous pouvez tirer définitivement cette conclusion. Il n’y a qu’une diminution constante de la probabilité d’observer des moyennes d’échantillon qui sont plus éloignées de la valeur de l’hypothèse nulle. Où décidons-nous qu’une moyenne d’échantillon est assez éloignée?,
pour répondre à cette question, nous aurons besoin de plus d’outils—des tests d’hypothèses! La procédure de test d’hypothèse quantifie le caractère inhabituel de notre échantillon avec une probabilité, puis le compare à une norme de preuve. Ce processus vous permet de prendre une décision objective sur la force de la preuve.
nous allons ajouter les outils dont nous avons besoin pour prendre cette décision aux niveaux de signification du graphique et aux valeurs p!
Ces outils nous permettent de tester ces deux hypothèses:
- l’hypothèse Nulle: La moyenne de population est égale à l’hypothèse nulle moyenne (260).,
- hypothèse Alternative: la moyenne de la population n’est pas égale à la moyenne de l’hypothèse nulle (260).
article connexe: aperçu des tests D’hypothèses
que sont les niveaux de Signification (Alpha)?
un niveau de signification, également appelé alpha ou α, est une norme de preuve qu’un chercheur établit avant l’étude. Il définit la force de l’exemple de la preuve doit contredire l’hypothèse nulle avant de pouvoir rejeter l’hypothèse nulle pour l’ensemble de la population. La force de la preuve est définie par la probabilité de rejeter une hypothèse nulle qui est vraie., En d’autres termes, c’est la probabilité que vous dites il y a un effet quand il n’y a pas d’effet.
Par exemple, un niveau de signification de 0,05 signifie un risque de 5% de décider que l’effet existe lorsqu’il n’existe pas.
des niveaux de signification plus faibles nécessitent des preuves d’échantillon plus solides pour pouvoir rejeter l’hypothèse nulle. Par exemple, pour être statistiquement significatif au niveau de Signification de 0,01, il faut des preuves plus substantielles que le niveau de Signification de 0,05. Cependant, il y a un compromis dans les tests d’hypothèse., Des niveaux de signification plus faibles réduisent également la puissance d’un test d’hypothèse pour détecter une différence qui existe.
la nature technique de ce type de questions peut vous faire tourner la tête. Une image peut donner vie à ces idées!
pour apprendre une approche plus conceptuelle des niveaux de signification, voir mon article sur la compréhension des niveaux de Signification.
Représentation graphique des niveaux de signification en tant que régions critiques
Sur le diagramme de distribution de probabilité, le niveau de signification définit la distance entre la valeur de l’échantillon et la valeur nulle avant de pouvoir rejeter la valeur nulle., Le pourcentage de l’aire sous la courbe qui est ombrée est égal à la probabilité que la valeur de l’échantillon tombe dans ces régions si l’hypothèse nulle est correcte.
pour représenter un niveau de Signification de 0,05, je vais ombrer 5% de la distribution la plus éloignée de la valeur null.
Les deux ombragée régions dans le graphique sont à égale distance de la valeur centrale de l’hypothèse nulle. Chaque région a une probabilité de 0,025, ce qui équivaut à notre total souhaité de 0,05. Ces zones ombrées sont appelées la région critique pour un test d’hypothèse à deux queues.,
la région critique définit des valeurs d’échantillon suffisamment improbables pour justifier le rejet de l’hypothèse nulle. Si l’hypothèse nulle est correcte et que la moyenne de la population est de 260, Les échantillons aléatoires (n=25) de cette population ont des moyennes qui tombent dans la région critique 5% du temps.
la moyenne de notre échantillon est statistiquement significative au niveau de 0,05 parce qu’elle se situe dans la région critique.
Article connexe: Les Tests à une queue et à deux queues expliqués
comparaison des niveaux de Signification
refaisons ce test d’hypothèse en utilisant l’autre niveau de signification commun de 0.,01 pour voir comment il se compare.
Cette fois, la somme des deux ombragée régions est égal à notre nouveau niveau de signification de 0,01. La moyenne de notre échantillon ne correspond pas à la région critique. Par conséquent, nous ne parvenons pas à rejeter l’hypothèse nulle. Nous avons les mêmes données d’échantillon exactes, la même différence entre la moyenne de l’échantillon et la valeur de l’hypothèse nulle, mais un résultat de test différent.
Ce qui s’est passé? En spécifiant un niveau de signification inférieur, nous fixons une barre plus élevée pour les preuves de l’échantillon., Comme le montre le graphique, les niveaux de signification inférieurs éloignent les régions critiques de la valeur nulle. Par conséquent, des niveaux de signification plus faibles nécessitent des moyens d’échantillonnage plus extrêmes pour être statistiquement significatifs.
Vous devez définir le niveau de signification, avant de mener une étude. Vous ne voulez pas la tentation de choisir un niveau après l’étude qui donne des résultats significatifs. La seule raison pour laquelle j’ai comparé les deux niveaux de signification était d’illustrer les effets et d’expliquer les résultats divergents.,
la version graphique du test t à 1 échantillon que nous avons créé nous permet de déterminer la signification statistique sans évaluer la valeur P. En règle générale, vous devez comparer la valeur P au niveau de signification pour effectuer cette détermination.
Article connexe: Instructions étape par étape pour faire des Tests t dans Excel
que sont les valeurs P?
les valeurs de P sont la probabilité qu’un échantillon aura un effet au moins aussi extrême que l’effet observé dans l’échantillon si l’hypothèse nulle est correct.
cette définition tortueuse et technique des valeurs P peut vous faire tourner la tête., Nous allons graphique!
tout d’abord, nous devons calculer l’effet présent dans notre échantillon. L’effet est la distance entre la valeur de l’échantillon et la valeur nulle: 330,6 – 260 = 70,6. Ensuite, je vais ombrer les régions des deux côtés de la distribution qui sont au moins aussi loin que 70.6 du null (260 +/- 70.6). Ce processus représente la probabilité d’observer une moyenne d’échantillon au moins aussi extrême que la moyenne de notre échantillon.
la probabilité totale des deux régions ombrées est de 0,03112., Si la valeur de l’hypothèse nulle (260) est vraie et que vous avez tiré de nombreux échantillons aléatoires, vous vous attendez à ce que les moyens de l’échantillon tombent dans les régions ombrées environ 3,1% du temps. En d’autres termes, vous observerez des effets d’échantillon au moins aussi grands que 70.6 environ 3.1% du temps si le null est vrai. C’est la valeur de P!
utiliser ensemble les valeurs P et les niveaux de Signification
Si votre valeur P est inférieure ou égale à votre niveau alpha, rejetez l’hypothèse nulle.
les résultats de la valeur P sont cohérents avec notre représentation graphique. La valeur P de 0,03112 est significative au niveau alpha de 0,05 mais pas 0.,01. Encore une fois, dans la pratique, vous choisissez un niveau de signification avant l’expérience et vous y tenez!
en Utilisant le niveau de signification de 0,05, l’exemple de l’effet est statistiquement significatif. Nos données soutiennent l’hypothèse alternative, qui stipule que la moyenne de la population n’est pas égale à 260. Nous pouvons conclure que les dépenses moyennes en carburant ont augmenté depuis l’année dernière.
Les valeurs p sont très souvent mal interprétées comme la probabilité de rejeter une hypothèse nulle qui est réellement vraie. Cette interprétation est fausse! Pour comprendre pourquoi, veuillez lire mon article: Comment interpréter correctement les valeurs P.,
Discussion sur les résultats statistiquement significatifs
Les tests D’hypothèses déterminent si les données de votre échantillon fournissent suffisamment de preuves pour rejeter l’hypothèse nulle pour l’ensemble de la population. Pour effectuer ce test, la procédure compare votre statistique d’échantillon à la valeur null et détermine si elle est suffisamment rare. « Suffisamment rare » est défini dans un test d’hypothèse par:
- En supposant que l’hypothèse nulle est vraie—les graphes sont centrés sur la valeur nulle.
- Le niveau de signification (alpha) – à quelle distance de la valeur nulle est la région critique?,
- L’échantillon statistique—est-il dans la région critique?
Il n’y a pas de niveau de signification particulier qui détermine correctement quelles études ont des effets réels sur la population 100% du temps. Les niveaux de signification traditionnels de 0,05 et 0,01 sont des tentatives pour gérer le compromis entre avoir une faible probabilité de rejeter une véritable hypothèse nulle et avoir un pouvoir suffisant pour détecter un effet s’il existe réellement.
le niveau de signification est la vitesse à laquelle vous rejetez incorrectement les hypothèses nulles qui sont réellement vraies (erreur de type I)., Par exemple, pour toutes les études qui utilisent un niveau de Signification de 0,05 et l’hypothèse nulle est correcte, vous pouvez vous attendre à ce que 5% d’entre elles aient des statistiques d’échantillon qui tombent dans la région critique. Lorsque cette erreur se produit, vous ne savez pas que l’hypothèse nulle est correcte, mais vous la rejetterez car la valeur p est inférieure à 0,05.
Cette erreur n’indique pas que le chercheur fait une erreur. Comme le montrent les graphiques, vous pouvez observer des statistiques d’échantillon extrêmes en raison d’une erreur d’échantillon seule. C’est la chance du tirage au sort!,
Article connexe: types d’erreurs dans les tests D’hypothèses
Les tests D’hypothèses sont cruciaux lorsque vous souhaitez utiliser des données d’échantillon pour tirer des conclusions sur une population, car ces tests tiennent compte des erreurs d’échantillon. L’utilisation des niveaux de signification et des valeurs P pour déterminer quand rejeter l’hypothèse nulle améliore la probabilité que vous tiriez la conclusion correcte.
gardez à l’esprit que la signification statistique ne signifie pas nécessairement que l’effet est important dans un sens pratique et réel. Pour plus d’informations, lisez mon article sur la signification pratique par rapport à la signification statistique.,
Si vous aimez ce post, lisez le post d’accompagnement: comment fonctionnent les Tests D’hypothèse: intervalles de confiance et niveaux de confiance.
Vous pouvez également lire mes autres articles qui décrivent le fonctionnement des autres tests:
- Comment fonctionnent les Tests t
- Comment fonctionne le test F dans ANOVA
- Comment fonctionnent les Tests D’indépendance Chi-Squared
pour voir une approche alternative aux tests d’hypothèses traditionnels qui n’utilisent pas de distributions de
Leave a Reply