estatísticas inferenciais permite que você tire conclusões sobre as populações usando pequenas amostras. Consequentemente, as estatísticas inferenciais proporcionam enormes benefícios porque normalmente não se pode medir uma população inteira.
No entanto, para ganhar estes benefícios, você deve entender a relação entre as populações, subpopulações, parâmetros populacionais, amostras e estatísticas de amostras.
neste post, eu discuto estes conceitos, e como obter amostras representativas usando amostragem aleatória.,
ost relacionado: diferença entre estatísticas descritivas e inferenciais
populações
populações podem incluir pessoas, mas outros exemplos incluem objetos, eventos, negócios, e assim por diante. Nas estatísticas, existem dois tipos gerais de populações.
populações podem ser o conjunto completo de todos os itens similares que existem. Por exemplo, a população de um país inclui todas as pessoas que actualmente se encontram nesse país. É uma lista finita, mas potencialmente grande de membros.
no entanto, uma população pode ser uma construção teórica que é potencialmente infinita em tamanho., Por exemplo, os analistas de melhoria da qualidade muitas vezes consideram que toda a produção atual e futura de uma linha de fabricação faz parte de uma população.
As populações partilham um conjunto de atributos que define. Por exemplo, as seguintes populações são:
- estrelas na Galáxia Via Láctea.partes de uma linha de produção.cidadãos dos Estados Unidos.antes de iniciar um estudo, deve definir cuidadosamente a população que está a estudar. Essas populações podem ser definidas de forma estreita para atender às necessidades de sua análise., Por exemplo, mulheres adultas suecas que são saudáveis mas têm osteoporose.
as subpopulações podem melhorar a sua análise
as subpopulações partilham atributos adicionais. Por exemplo, a população dos Estados Unidos contém as subpopulações de homens e mulheres. Você também pode subdividi-lo de outras formas, como região, idade, status socioeconômico, e assim por diante. Diferentes estudos que envolvem a mesma população podem dividi-la em diferentes subpopulações dependendo do que faz sentido para os dados e as análises.,compreender as subpopulações do seu estudo ajuda-o a compreender melhor o assunto. Eles também podem ajudá-lo a produzir modelos estatísticos que se encaixem melhor nos dados. As subpopulações são particularmente importantes quando têm características que são sistematicamente diferentes da população em geral. Quando você analisa seus dados, você precisa estar ciente dessas divisões mais profundas. Na verdade, você pode tratar as subpopulações relevantes como fatores adicionais em análises posteriores.,por exemplo, se você está analisando a altura média dos adultos nos Estados Unidos, você vai melhorar seus resultados, incluindo subpopulações masculinas e femininas, porque suas alturas são sistematicamente diferentes. Eu vou cobrir esse exemplo em profundidade mais tarde neste post!um parâmetro é um valor que descreve uma característica de uma população inteira, como a média da população. Porque você quase nunca pode medir uma população inteira, você geralmente não sabe o valor real de um parâmetro., Na verdade, os valores dos parâmetros são quase sempre incognoscíveis. Embora não saibamos o valor, ele definitivamente existe.
Por exemplo, a altura média das mulheres adultas nos Estados Unidos é um parâmetro que tem um valor exato—nós simplesmente não sabemos o que é!a média da população e o desvio padrão são dois parâmetros comuns. Em estatística, símbolos gregos geralmente representam parâmetros populacionais, tais como μ (mu) para a média e σ (sigma) para o desvio padrão.uma estatística é uma característica de uma amostra., Se você recolher uma amostra e calcular a média e o desvio padrão, estas são estatísticas de amostra. Estatísticas inferenciais permitem que você use estatísticas de amostra para fazer conclusões sobre uma população. No entanto, para tirar conclusões válidas, deve utilizar técnicas de amostragem específicas. Estas técnicas ajudam a garantir que as amostras produzem estimativas imparciais. As estimativas tendenciosas são sistematicamente demasiado elevadas ou demasiado baixas. Você quer estimativas imparciais porque elas estão corretas em média.
em estatísticas inferenciais, nós usamos estatísticas de amostra para estimar os parâmetros da população., Por exemplo, se coletarmos uma amostra aleatória de mulheres adultas nos Estados Unidos e medirmos suas alturas, podemos calcular a média da amostra e usá-la como uma estimativa imparcial da média populacional. Nós também podemos realizar testes de hipótese na estimativa da amostra e criar intervalos de confiança para construir um intervalo que o valor real da população provavelmente cai dentro.,div id=”6aadacc401″>
Mu (μ)
: Measures of Central Tendency and Measures of Variability
Representative Sampling and Simple Random Samples
In statistics, sampling refers to selecting a subset of a population., Depois de desenhar a amostra, você mede uma ou mais características de todos os itens da amostra, tais como altura, renda, temperatura, opinião, etc. Se você quiser tirar conclusões sobre essas características em toda a população, isso impõe restrições sobre como você coletar a amostra. Se você usar uma metodologia incorreta, a amostra pode não representar a população, o que pode levá-lo a conclusões errôneas.
O método mais conhecido para obter uma amostra representativa e imparcial é a amostragem aleatória simples., Com este método, todos os itens da população têm igual probabilidade de serem selecionados. Este processo ajuda a garantir que a amostra inclui toda a gama da população. Além disso, todas as subpopulações relevantes devem ser incorporadas na amostra e representadas com precisão em média. Amostragem aleatória simples minimiza o viés e simplifica a análise de dados.
vou discutir a metodologia de amostragem em mais detalhes em um futuro post no blog, mas há várias advertências cruciais sobre amostragem aleatória simples., Enquanto esta abordagem minimiza o viés, ele não indica que suas estatísticas de amostra igualam exatamente os parâmetros da população. Em vez disso, as estimativas de uma amostra específica são susceptíveis de ser um pouco altas ou baixas, mas o processo produz estimativas precisas em média. Além disso, é possível obter amostras incomuns com amostragem aleatória—simplesmente não é o resultado esperado.post relacionado com
: as Estatísticas da amostra estão sempre erradas (até certo ponto)!
adicionalmente, a amostragem aleatória pode parecer um pouco aleatória e fácil de fazer—ambas as coisas não são verdadeiras., Amostragem aleatória simples assume que você sistematicamente compila uma lista completa de todas as pessoas ou itens que existem na população. Você então seleciona aleatoriamente os assuntos dessa lista e os Inclui na amostra. Pode ser um processo muito complicado.vamos dar vida a estes conceitos!
exemplo de uma população com subpopulações importantes
suponha que estamos estudando a altura dos cidadãos americanos e vamos assumir ainda que não sabemos muito sobre o assunto., Consequentemente, recolhemos uma amostra aleatória, medimos as alturas em centímetros, e calculamos a média da amostra e o desvio-padrão. Aqui está o arquivo de dados CSV: Heights.
obtemos os seguintes resultados:
Porque reuniu uma amostra aleatória, pode-se assumir que estas amostras estatísticas são imparciais estimativas dos parâmetros populacionais.
agora, suponha que nós aprendamos mais sobre a área de estudo e incluamos macho e fêmea como subpopulações. Obtemos os seguintes resultados.,
Repare como o único ampla distribuição foi substituída por duas distribuições mais estreito? A distribuição para cada sexo tem um desvio padrão menor do que a distribuição única para todos os adultos, o que é consistente com a distribuição mais apertada em torno dos meios para homens e mulheres no gráfico. Estes resultados mostram como a média fornece estimativas mais precisas quando avaliamos as alturas por sexo. Na verdade, a média para toda a população não é igual à média para qualquer uma das subpopulações. É enganador!,
durante este processo, aprendemos que o gênero é uma subpopulação crucial que se relaciona com a altura e aumenta a nossa compreensão do assunto. Em estudos futuros sobre Altura, podemos incluir o sexo como uma variável predictor.
Este exemplo usa uma variável de agrupamento categórico (sexo) e uma variável de resultado contínuo (alturas). Quando você quiser comparar distribuições de valores contínuos entre grupos como este exemplo, considere usar boxplots e gráficos de valores individuais. Estas parcelas tornam-se mais úteis à medida que o número de grupos aumenta.,este exemplo é intencionalmente fácil de entender, mas imagine um estudo sobre um assunto menos óbvio. Este processo ajuda você a obter novos insights e a produzir melhores modelos estatísticos.usando o seu conhecimento de populações, subpopulações, parâmetros, amostragem e estatísticas de amostras, você pode tirar conclusões valiosas sobre grandes populações usando pequenas amostras. Para mais informações sobre como você pode testar hipóteses sobre populações, leia minha visão geral dos testes de hipóteses.
Leave a Reply