inferentiële statistieken kunt u conclusies trekken over populaties met behulp van kleine monsters. Bijgevolg bieden inferentiële statistieken enorme voordelen omdat je doorgaans geen hele populatie kunt meten.
echter, om deze voordelen te behalen, moet u de relatie begrijpen tussen populaties, subpopulaties, populatieparameters, steekproeven en steekproefstatistieken.
In deze blogpost bespreek ik deze concepten en hoe representatieve steekproeven te verkrijgen met behulp van willekeurige steekproeven.,
gerelateerd bericht: verschil tussen beschrijvende en inferentiële statistieken
populaties
populaties kunnen mensen omvatten, maar andere voorbeelden zijn objecten, gebeurtenissen, bedrijven, enzovoort. In de statistieken zijn er twee algemene soorten populaties.
populaties kunnen de volledige verzameling zijn van alle vergelijkbare items die bestaan. Bijvoorbeeld, de bevolking van een land omvat alle mensen die momenteel in dat land. Het is een eindige maar potentieel grote lijst van leden.
een populatie kan echter een theoretische constructie zijn die potentieel oneindig groot is., Analisten voor kwaliteitsverbetering beschouwen bijvoorbeeld vaak alle huidige en toekomstige productie van een productielijn als deel van een populatie.
populaties delen een set attributen die u definieert. De volgende populaties zijn bijvoorbeeld:
- sterren in de Melkweg.
- onderdelen van een productielijn.
- burgers van de Verenigde Staten.
voordat u met een studie begint, moet u de populatie die u bestudeert zorgvuldig definiëren. Deze populaties kunnen nauw worden gedefinieerd om te voldoen aan de behoeften van uw analyse., Bijvoorbeeld volwassen Zweedse vrouwen die verder gezond zijn, maar osteoporose hebben.
subpopulaties kunnen uw analyse verbeteren
subpopulaties delen extra attributen. Zo bevat de bevolking van de Verenigde Staten de subpopulaties van mannen en vrouwen. Je kunt het ook op andere manieren onderverdelen, zoals Regio, leeftijd, sociaaleconomische status, enzovoort. De verschillende studies die de zelfde bevolking impliceren kunnen het in verschillende subpopulaties verdelen afhankelijk van wat voor de gegevens en de analyses zinvol is.,
inzicht in de subpopulaties in uw studie helpt u het onderwerp grondiger te begrijpen. Ze kunnen u ook helpen bij het produceren van statistische modellen die beter bij de gegevens passen. Subpopulaties zijn vooral belangrijk wanneer ze kenmerken hebben die systematisch verschillen van de totale populatie. Wanneer u uw gegevens analyseert, moet u zich bewust zijn van deze diepere divisies. In feite, kunt u de relevante subpopulaties behandelen als extra factoren in latere analyses.,
bijvoorbeeld, als u de gemiddelde lengte van volwassenen in de Verenigde Staten analyseert, zult u uw resultaten verbeteren door mannelijke en vrouwelijke subpopulaties op te nemen omdat hun hoogte systematisch verschillend is. Ik zal dat voorbeeld in de diepte later in deze post behandelen!
Populatieparameters versus Steekproefstatistieken
een parameter is een waarde die een kenmerk van een gehele populatie beschrijft, zoals het populatiegemiddelde. Omdat je bijna nooit een hele populatie kunt meten, Weet je meestal niet de echte waarde van een parameter., In feite zijn parameterwaarden bijna altijd onkenbaar. Hoewel we de waarde niet kennen, bestaat het zeker.
bijvoorbeeld, de gemiddelde lengte van volwassen vrouwen in de Verenigde Staten is een parameter die een exacte waarde heeft—we weten gewoon niet wat het is!
het populatiegemiddelde en de standaardafwijking zijn twee gemeenschappelijke parameters. In de statistiek vertegenwoordigen Griekse symbolen gewoonlijk bevolkingsparameters, zoals μ (mu) voor het gemiddelde en σ (sigma) voor de standaardafwijking.
een statistiek is een kenmerk van een steekproef., Als u een steekproef verzamelt en het gemiddelde en de standaardafwijking berekent, zijn dit steekproefstatistieken. Met inferentiële statistieken kunt u steekproefstatistieken gebruiken om conclusies te trekken over een populatie. Echter, om geldige conclusies te trekken, moet u bepaalde bemonsteringstechnieken gebruiken. Deze technieken helpen ervoor te zorgen dat monsters onbevooroordeelde schattingen produceren. Partijdige schattingen zijn systematisch te hoog of te laag. Je wilt onbevooroordeelde schattingen omdat ze gemiddeld correct zijn.
in inferentiële statistieken gebruiken we steekproefstatistieken om populatieparameters te schatten., Als we bijvoorbeeld een willekeurige steekproef van volwassen vrouwen in de Verenigde Staten verzamelen en hun hoogte meten, kunnen we het steekproefgemiddelde berekenen en gebruiken als een onbevooroordeelde schatting van het bevolkingsgemiddelde. We kunnen ook hypothesen testen op de steekproefschatting en betrouwbaarheidsintervallen creëren om een bereik te construeren dat de werkelijke populatiewaarde waarschijnlijk binnen valt.,div id=”6aadacc401″>Mu (μ)
: Measures of Central Tendency and Measures of Variability
Representative Sampling and Simple Random Samples
In statistics, sampling refers to selecting a subset of a population., Na het trekken van het monster meet u een of meer kenmerken van alle items in het monster, zoals hoogte, inkomen, temperatuur, mening, enz. Als je conclusies wilt trekken over deze kenmerken in de hele populatie, legt het beperkingen op aan hoe je het monster verzamelt. Als u een onjuiste methodologie gebruikt, is het mogelijk dat de steekproef niet de populatie vertegenwoordigt, wat u tot onjuiste conclusies kan leiden.
de meest bekende methode om een onbevooroordeelde, representatieve steekproef te verkrijgen is eenvoudige aselecte bemonstering., Met deze methode hebben alle items in de populatie een gelijke kans om te worden geselecteerd. Dit proces helpt ervoor te zorgen dat de steekproef de volledige waaier van de bevolking omvat. Bovendien moeten alle relevante subpopulaties in het monster worden opgenomen en gemiddeld nauwkeurig worden weergegeven. Eenvoudige willekeurige bemonstering minimaliseert de bias en vereenvoudigt gegevensanalyse.
Ik zal de bemonsteringsmethodologie in meer detail bespreken in een toekomstige blogpost, maar er zijn verschillende cruciale kanttekeningen over eenvoudige willekeurige bemonstering., Hoewel deze aanpak vertekening minimaliseert, geeft het niet aan dat uw steekproef statistieken precies gelijk zijn aan de populatie parameters. In plaats daarvan zijn schattingen van een specifieke steekproef waarschijnlijk een beetje hoog of laag, maar het proces produceert nauwkeurige schattingen gemiddeld. Bovendien is het mogelijk om ongewone monsters te verkrijgen met willekeurige bemonstering-het is gewoon niet het verwachte resultaat.
gerelateerd bericht: voorbeeld statistieken zijn altijd verkeerd (tot op zekere hoogte)!
bovendien kan willekeurige sampling een beetje lukraak en gemakkelijk te doen klinken-die beide niet waar zijn., Eenvoudige willekeurige bemonstering gaat ervan uit dat u systematisch een volledige lijst van alle mensen of items die bestaan in de populatie samen te stellen. Vervolgens selecteert u willekeurig onderwerpen uit die lijst en neemt u ze op in de steekproef. Het kan een zeer omslachtig proces zijn.
laten we deze concepten tot leven brengen!
voorbeeld van een populatie met belangrijke subpopulaties
stel dat we de hoogte van Amerikaanse burgers bestuderen en laten we verder aannemen dat we niet veel over het onderwerp weten., Daarom verzamelen we een willekeurige steekproef, meten we de hoogtes in centimeters en berekenen we het steekproefgemiddelde en de standaardafwijking. Hier is het CSV-gegevensbestand: Heights.
we verkrijgen de volgende resultaten:
omdat we een willekeurige steekproef hebben verzameld, kunnen we aannemen dat deze steekproefstatistieken onbevooroordeelde schattingen van de populatie parameters zijn.
stel nu dat we meer leren over het studiegebied en mannen en vrouwen als subpopulaties opnemen. We behalen de volgende resultaten.,
merk op hoe de enkele brede distributie is vervangen door twee smallere distributies? De verdeling voor elk geslacht heeft een kleinere standaarddeviatie dan de afzonderlijke verdeling voor alle volwassenen, wat overeenkomt met de strakkere spreiding rond de middelen voor zowel mannen als vrouwen in de grafiek. Deze resultaten laten zien hoe het gemiddelde preciezere schattingen oplevert wanneer we hoogtes per geslacht beoordelen. In feite is het gemiddelde voor de gehele bevolking niet gelijk aan het gemiddelde voor beide subpopulaties. Het is misleidend!,
tijdens dit proces leren we dat geslacht een cruciale subpopulatie is die betrekking heeft op lengte en ons begrip van het onderwerp vergroot. In toekomstige studies over lengte kunnen we geslacht als voorspellende variabele opnemen.
dit voorbeeld maakt gebruik van een categorisch groeperen variabele (geslacht) en een continuous outcome variabele (hoogtes). Als u distributies van continue waarden tussen groepen zoals dit voorbeeld wilt vergelijken, overweeg dan om boxplots en individuele waarde plots te gebruiken. Deze percelen worden nuttiger naarmate het aantal groepen toeneemt.,
dit voorbeeld is opzettelijk gemakkelijk te begrijpen, maar stel je een studie voor over een minder voor de hand liggend onderwerp. Dit proces helpt u nieuwe inzichten te verwerven en betere statistische modellen te produceren.
met behulp van uw kennis van populaties, subpopulaties, parameters, bemonstering en steekproefstatistieken kunt u waardevolle conclusies trekken over grote populaties met behulp van kleine monsters. Lees voor meer informatie over hoe je hypothesen over populaties kunt testen Mijn Overzicht van hypothesen.
Leave a Reply