les statistiques inférentielles vous permettent de tirer des conclusions sur les populations à l’aide de petits échantillons. Par conséquent, les statistiques inférentielles offrent d’énormes avantages, car vous ne pouvez généralement pas mesurer toute une population.
Cependant, pour obtenir ces avantages, vous devez comprendre la relation entre les populations, les sous-populations, les paramètres de population, les échantillons et les statistiques des échantillons.
dans ce billet de blog, je discute de ces concepts, et comment obtenir des échantillons représentatifs en utilisant l’échantillonnage aléatoire.,
Article connexe: différence entre les statistiques descriptives et inférentielles
Populations
Les Populations peuvent inclure des personnes, mais d’autres exemples incluent des objets, des événements, des entreprises, etc. En statistiques, il existe deux types généraux de populations.
les Populations peuvent être l’ensemble complet de tous les éléments similaires qui existent. Par exemple, la population d’un pays Comprend toutes les personnes se trouvant actuellement dans ce pays. C’est une liste finie mais potentiellement grande de membres.
cependant, une population peut être une construction théorique dont la taille est potentiellement infinie., Par exemple, les analystes de l’amélioration de la qualité considèrent souvent que toute la production actuelle et future d’une chaîne de fabrication fait partie d’une population.
les Populations partagent un ensemble d’attributs que vous définissez. Par exemple, les populations suivantes sont:
- étoiles de la Voie Lactée.
- pièces provenant d’une ligne de production.
- les Citoyens des États-unis.
avant de commencer une étude, vous devez définir soigneusement la population que vous étudiez. Ces populations peuvent être étroitement définies pour répondre aux besoins de votre analyse., Par exemple, les femmes suédoises adultes qui sont par ailleurs en bonne santé mais souffrent d’ostéoporose.
les sous-populations peuvent améliorer votre analyse
Les sous-populations partagent des attributs supplémentaires. Par exemple, la population des États-Unis contient les sous-populations d’hommes et de femmes. Vous pouvez également le subdiviser d’autres manières telles que la région, l’âge, le statut socio-économique, etc. Différentes études qui impliquent la même population peuvent la diviser en différentes sous-populations en fonction de ce qui est logique pour les données et les analyses.,
comprendre les sous-populations de votre étude vous aide à mieux saisir le sujet. Ils peuvent également vous aider à produire des modèles statistiques qui correspondent mieux aux données. Les sous-populations sont particulièrement importantes lorsqu’elles présentent des caractéristiques systématiquement différentes de la population globale. Lorsque vous analysez vos données, vous devez être conscient de ces profondes divisions. En fait, vous pouvez traiter les sous-populations pertinentes comme des facteurs supplémentaires dans des analyses ultérieures.,
par exemple, si vous analysez la taille moyenne des adultes aux États-Unis, vous améliorerez vos résultats en incluant les sous-populations masculines et féminines car leurs hauteurs sont systématiquement différentes. Je couvrirai cet exemple en profondeur plus tard dans ce post!
paramètres de Population versus statistiques D’échantillon
un paramètre est une valeur qui décrit une caractéristique d’une population entière, telle que la moyenne de la population. Parce que vous ne pouvez presque jamais mesurer une population entière, vous ne connaissez généralement pas la valeur réelle d’un paramètre., En fait, les valeurs des paramètres sont presque toujours inconnaissables. Bien que nous ne connaissions pas la valeur, elle existe définitivement.
Par exemple, la hauteur moyenne des femmes adultes aux États-unis est un paramètre qui a une valeur exacte—nous ne savons pas ce que c’est!
la moyenne de la population et l’écart type sont deux paramètres communs. En statistique, les symboles grecs représentent généralement des paramètres de population, tels que μ (mu) pour la moyenne et σ (sigma) pour l’écart type.
Une statistique est une des caractéristiques d’un échantillon., Si vous collectez un échantillon et calculez la moyenne et l’écart type, ce sont des statistiques d’échantillon. Les statistiques inférentielles vous permettent d’utiliser des exemples de statistiques pour tirer des conclusions sur une population. Toutefois, pour en tirer des conclusions valables, vous devez utiliser des techniques d’échantillonnage. Ces techniques permettent de s’assurer que les échantillons produisent des estimations impartiales. Des estimations biaisées sont systématiquement trop élevées ou trop basses. Vous voulez des estimations impartiales car elles sont correctes en moyenne.
dans les statistiques inférentielles, nous utilisons des statistiques d’échantillon pour estimer les paramètres de la population., Par exemple, si nous recueillons un échantillon aléatoire de femmes adultes aux États-Unis et mesurons leur taille, nous pouvons calculer la moyenne de l’échantillon et l’utiliser comme une estimation impartiale de la moyenne de la population. Nous pouvons également effectuer des tests d’hypothèses sur l’estimation de l’échantillon et créer des intervalles de confiance pour construire une plage dans laquelle la valeur réelle de la population se situe probablement.,div id= »6aadacc401″>Mu (μ)
: Measures of Central Tendency and Measures of Variability
Representative Sampling and Simple Random Samples
In statistics, sampling refers to selecting a subset of a population., Après avoir dessiné l’échantillon, vous mesurez une ou plusieurs caractéristiques de tous les éléments de l’échantillon, telles que la taille, le revenu, la température, l’opinion, etc. Si vous souhaitez tirer des conclusions sur ces caractéristiques dans l’ensemble de la population, il impose des restrictions sur la façon dont vous collectez l’échantillon. Si vous utilisez une méthodologie incorrecte, l’échantillon peut ne pas représenter la population, ce qui peut vous conduire à des conclusions erronées.
la méthode la plus connue pour obtenir un échantillon représentatif et impartial est un simple échantillonnage aléatoire., Avec cette méthode, tous les éléments de la population ont une probabilité égale d’être sélectionné. Ce processus permet de s’assurer que l’échantillon comprend l’ensemble de la population. De plus, toutes les sous-populations pertinentes devraient être incorporées à l’échantillon et représentées avec précision en moyenne. L’échantillonnage aléatoire Simple minimise le biais et simplifie l’analyse des données.
je vais discuter de la méthodologie d’échantillonnage plus en détail dans un prochain article de blog, mais il y a plusieurs mises en garde cruciales sur l’échantillonnage aléatoire simple., Bien que cette approche minimise les biais, elle n’indique pas que les statistiques de votre échantillon correspondent exactement aux paramètres de la population. Au lieu de cela, les estimations d’un échantillon spécifique sont susceptibles d’être un peu élevées ou faibles, mais le processus produit des estimations précises en moyenne. De plus, il est possible d’obtenir des échantillons inhabituels avec un échantillonnage aléatoire—ce n’est tout simplement pas le résultat attendu.
Article connexe: Les exemples de statistiques sont toujours erronés (dans une certaine mesure)!
de plus, l’échantillonnage aléatoire peut sembler un peu aléatoire et facile à faire—ce qui n’est pas vrai., L’échantillonnage aléatoire simple suppose que vous compilez systématiquement une liste complète de toutes les personnes ou éléments qui existent dans la population. Vous sélectionnez ensuite au hasard des sujets de cette liste et les incluez dans l’échantillon. Cela peut être un processus très lourd.
donnons vie à ces concepts!
exemple d’une Population avec des sous-populations importantes
supposons que nous étudions la taille des citoyens américains et supposons en outre que nous ne savons pas grand-chose sur le sujet., Par conséquent, nous collectons un échantillon aléatoire, mesurons les hauteurs en centimètres et calculons la moyenne et l’écart type de l’échantillon. Voici le fichier de données CSV: Heights.
Nous obtenons les résultats suivants:
Parce que nous avons recueilli un échantillon aléatoire, on peut supposer que ces statistiques de l’échantillon sont des estimations non biaisées des paramètres de la population.
maintenant, supposons que nous en apprenions plus sur la zone d’étude et incluions les hommes et les femmes en tant que sous-populations. Nous obtenons les résultats suivants.,
Notez comment le large unique de distribution a été remplacé par deux plus étroite des distributions? La distribution pour chaque sexe a un écart-type plus faible que la distribution unique pour tous les adultes, ce qui est cohérent avec l’écart plus serré autour des moyennes pour les hommes et les femmes dans le graphique. Ces résultats montrent comment la moyenne fournit des estimations plus précises lorsque nous évaluons les hauteurs par sexe. En fait, la moyenne pour l’ensemble de la population n’est pas égale à la moyenne, soit la sous-population. C’est trompeur!,
Au cours de ce processus, nous apprenons que le genre est une sous-population cruciale qui se rapporte à la taille et augmente notre compréhension du sujet. Dans de futures études sur la taille, nous pouvons inclure le sexe comme variable prédictive.
cet exemple utilise une variable de regroupement catégorique (genre) et une variable de résultat continue (hauteurs). Lorsque vous souhaitez comparer des distributions de valeurs continues entre des groupes comme cet exemple, envisagez d’utiliser des boxplots et des tracés de valeurs individuelles. Ces parcelles deviennent plus utiles à mesure que le nombre de groupes augmente.,
cet exemple est intentionnellement facile à comprendre mais imaginez une étude sur un sujet moins évident. Ce processus vous aide à acquérir de nouvelles connaissances et à produire de meilleurs modèles statistiques.
en utilisant vos connaissances des populations, des sous-populations, des paramètres, de l’échantillonnage et des statistiques sur les échantillons, vous pouvez tirer des conclusions précieuses sur les grandes populations en utilisant de petits échantillons. Pour plus d’informations sur la façon dont vous pouvez tester des hypothèses sur des populations, lisez mon aperçu des Tests D’hypothèses.
Leave a Reply