o teste de hipótese é um processo vital em estatísticas inferenciais onde o objetivo é usar dados de amostra para tirar conclusões sobre uma população inteira. No processo de teste, você usa níveis de significância e valores p para determinar se os resultados do teste são estatisticamente significantes.ouve – se dizer que os resultados são estatisticamente significativos a toda a hora. Mas, o que os níveis de significância, valores P e significância estatística realmente representam? Por que razão precisamos sequer de utilizar os testes de hipótese nas estatísticas?,neste post, eu respondo a todas estas perguntas. Eu uso gráficos e conceitos para explicar como os testes de hipótese funcionam, a fim de fornecer uma explicação mais intuitiva. Isto ajuda – o a passar à compreensão dos seus resultados estatísticos.
cenário de exemplo de teste de hipótese
para começar, vou demonstrar por que precisamos usar testes de hipótese usando um exemplo.um pesquisador está estudando as despesas de combustível para as famílias e quer determinar se o custo mensal mudou desde o ano passado, quando a média era de US $260 por mês., O pesquisador desenha uma amostra aleatória de 25 famílias e entra em seus custos mensais para este ano em software estatístico. Você pode baixar o arquivo de dados CSV: FuelsCosts. Abaixo estão as estatísticas descritivas para este ano.
we’ll build on this example to answer the research question and show how hypothesis tests work.
estatísticas descritivas por si só não respondem à pergunta
o pesquisador coletou uma amostra aleatória e descobriu que a média da amostra deste ano (330.6) é maior do que a média do ano passado (260). Porquê fazer um teste de hipótese?, Podemos ver que a média deste ano é mais alta em $70! Não é diferente?infelizmente, a situação não é tão clara como pensa, porque estamos a analisar uma amostra em vez de toda a população. Há enormes benefícios quando se trabalha com amostras porque é geralmente impossível coletar dados de uma população inteira. No entanto, o tradeoff para trabalhar com uma amostra manejável é que precisamos contabilizar o erro da amostra.
o erro de amostragem é o intervalo entre a estatística da amostra e o parâmetro da população., Por exemplo, a estatística da amostra é a média da amostra, que é 330.6. O parâmetro populacional é μ, Ou mu, que é a média de toda a população. Infelizmente, o valor do parâmetro populacional não é apenas desconhecido, mas geralmente incognoscível.obtivemos uma média de 330.6. No entanto, é concebível que, devido a erro de amostragem, a média da população pode ser de apenas 260. Se o pesquisador desenhou outra amostra aleatória, a próxima média da amostra pode estar mais perto de 260. É impossível avaliar esta possibilidade olhando apenas para a média da amostra., O teste de hipóteses é uma forma de estatística inferencial que nos permite tirar conclusões sobre uma população inteira com base numa amostra representativa. Precisamos usar um teste de hipótese para determinar a probabilidade de obter nossa média de amostra se a média da população for 260.,
informação de base: a diferença entre estatísticas descritivas e inferenciais e populações, parâmetros e amostras em estatísticas inferenciais
uma distribuição de amostragem determina se a nossa média da amostra é improvável
é muito improvável que qualquer média da amostra iguale a média da população devido a erro da amostra. No nosso caso, a média da amostra de 330.6 não é quase definitivamente igual à média da população para as despesas de combustível.,se conseguíssemos obter um número substancial de amostras aleatórias e calcular a média da amostra para cada amostra, observaríamos um amplo espectro de meios de amostra. Até seríamos capazes de graficar a distribuição dos meios de amostra deste processo.este tipo de distribuição é chamado de distribuição por amostragem. Obtém-se uma distribuição por amostragem ao desenhar muitas amostras aleatórias do mesmo tamanho da mesma população. Porque raio faríamos isto?,
porque as distribuições de amostragem permitem determinar a probabilidade de obter a sua estatística de amostra e são cruciais para a realização de testes de hipótese.Por sorte, não precisamos nos dar ao trabalho de coletar inúmeras amostras aleatórias! Podemos estimar a distribuição de amostras usando a distribuição de t, Nosso tamanho de amostra, e a variabilidade em nossa amostra.queremos saber se a despesa média de combustível deste ano (330.6) é diferente da do ano passado (260)., Para responder a esta pergunta, vamos graficar a distribuição de amostragem com base na suposição de que o custo médio de combustível para toda a população não mudou e ainda é 260. Em estatística, chamamos a esta falta de efeito, ou nenhuma mudança, a hipótese nula. Usamos o valor da hipótese nula como base de comparação para o nosso valor de amostra observado.
as distribuições de amostragem e as distribuições-t são tipos de distribuições de probabilidade. Saiba mais sobre as distribuições de probabilidade!,
Graficando a média da nossa amostra no contexto da distribuição de amostragem
o gráfico abaixo mostra quais os meios da amostra são mais prováveis e menos prováveis se a média da população for 260. Podemos colocar a nossa amostra média nesta distribuição. Este contexto maior nos ajuda a ver quão improvável a nossa média de amostra é se a hipótese nula é verdadeira (μ = 260).
o gráfico mostra a distribuição estimada das médias da amostra. Os valores mais prováveis são perto de 260, porque a parcela assume que esta é a verdadeira média populacional., No entanto, dado o erro de amostragem Aleatório, não seria de surpreender que se observassem meios de amostragem que variavam entre 167 e 352. Se a média da população ainda é de 260, a média da amostra observada (330.6) não é o valor mais provável, mas também não é completamente implausível.
o papel dos testes de hipótese
a distribuição de amostragem mostra-nos que é relativamente improvável obter uma amostra de 330.6 se a média da população for de 260. Será a nossa amostra tão pouco provável que possamos rejeitar a noção de que a média populacional é de 260?
em estatística, chamamos isso de rejeitar a hipótese nula., Se rejeitarmos o nulo para o nosso exemplo, a diferença entre a média da amostra (330.6) e 260 é estatisticamente significativa. Em outras palavras, os dados da amostra favorecem a hipótese de que a média da população não é igual a 260.no entanto, veja Novamente o gráfico de distribuição da amostra. Observe que não há nenhuma localização especial na curva onde você pode definitivamente tirar esta conclusão. Há apenas uma diminuição consistente na probabilidade de observação da amostra significa que estão mais longe do valor da hipótese nula. Onde decidimos que um meio de amostra está longe o suficiente?,para responder a esta pergunta, precisaremos de mais ferramentas—testes de hipótese! O procedimento de teste de hipóteses quantifica a inutilidade da nossa amostra com uma probabilidade e depois compara-a com um padrão de prova. Este processo permite-lhe tomar uma decisão objectiva sobre a força das provas.
vamos adicionar as ferramentas que precisamos para tomar esta decisão aos níveis de significância do gráfico e valores p!
estas ferramentas permitem-nos testar estas duas hipóteses:
- hipótese nula: a média da população é igual à média da hipótese nula (260).,hipótese alternativa: a média da população não é igual à média da hipótese nula (260).
post relacionado: Análise de hipóteses
quais são os níveis de significância (Alfa)?
um nível de significância, também conhecido como alfa ou α, é um padrão de prova que um pesquisador coloca antes do estudo. Ela define quão fortemente a evidência da amostra deve contradizer a hipótese nula antes que você possa rejeitar a hipótese nula para toda a população. A força da evidência é definida pela probabilidade de rejeitar uma hipótese nula que é verdadeira., Em outras palavras, é a probabilidade de que você diga que há um efeito quando não há efeito.
por exemplo, um nível de significância de 0,05 significa um risco de 5% de decidir que um efeito existe quando ele não existe.os níveis mais baixos de significância requerem evidência de amostra mais forte para poder rejeitar a hipótese nula. Por exemplo, para ser estatisticamente significante no nível de significância de 0,01 requer evidência mais substancial do que o nível de significância de 0,05. No entanto, há uma troca em testes de hipótese., Níveis menores de significância também reduzem o poder de um teste de hipótese para detectar uma diferença que existe.
a natureza técnica destes tipos de perguntas pode fazer a sua cabeça girar. Uma imagem pode dar vida a estas ideias!para aprender uma abordagem mais conceitual aos níveis de significância, veja meu post sobre a compreensão dos níveis de significância.
Graphing Significance Levels as Critical Regions
On the probability distribution plot, the significance level defines how far the sample value must be from the null value before we can reject the null., A percentagem da área sob a curva sombreada é igual à probabilidade de o valor da amostra cair nessas regiões se a hipótese nula estiver correta.
para representar um nível de significância de 0,05, vou escurecer 5% da distribuição mais distante do valor nulo.
as duas regiões sombreadas do grafo são equidistantes do valor central da hipótese nula. Cada região tem uma probabilidade de 0,025, o que corresponde ao nosso total desejado de 0,05. Estas áreas sombreadas são chamadas de região crítica para um teste de hipótese de duas caudas.,
a região crítica define valores de amostra que são improváveis o suficiente para justificar a rejeição da hipótese nula. Se a hipótese nula é correta e a média da população é de 260, amostras aleatórias (n=25) desta população têm significa que caem na região crítica 5% do tempo.
nossa média de amostra é estatisticamente significante no nível de 0,05 porque cai na região crítica.post relacionado com
: testes com uma cauda e duas caudas explicaram
comparando níveis de significância
vamos refazer este teste de hipótese usando o outro nível de significância comum de 0.,01 para ver como se compara.
desta vez a soma das duas regiões sombreadas é igual ao nosso novo nível de significância de 0,01. A média da nossa amostra não se enquadra na região crítica. Consequentemente, não rejeitamos a hipótese nula. Temos os mesmos dados exatos da amostra, a mesma diferença entre a média da amostra e o valor da hipótese nula, mas um resultado de teste diferente.o que aconteceu? Ao especificar um nível de menor significância, definimos uma barra mais elevada para a evidência da amostra., Como o gráfico mostra, níveis de significância mais baixos movem as regiões críticas mais longe do valor nulo. Consequentemente, níveis mais baixos de significância requerem amostras mais extremas significa serem estatisticamente significantes.deve definir o nível de significância antes de realizar um estudo. Você não quer a tentação de escolher um nível após o estudo que produz resultados significativos. A única razão pela qual comparei os dois níveis de significância foi para ilustrar os efeitos e explicar os diferentes resultados.,
a versão gráfica do teste T-1-amostra que criamos permite-nos determinar a significância estatística sem avaliar o valor P. Normalmente, você precisa comparar o valor P com o nível de significância para fazer esta determinação.post relacionado com
: instruções passo-a-passo para Como fazer testes em T no Excel
quais são os valores de P?os valores de
P são a probabilidade de uma amostra ter um efeito pelo menos tão extremo quanto o efeito observado na sua amostra se a hipótese nula estiver correta.esta definição técnica tortuosa para os valores de P pode fazer girar a cabeça., Vamos fazer um gráfico!
primeiro, precisamos calcular o efeito que está presente em nossa amostra. O efeito é a distância entre o valor da amostra e o valor nulo: 330.6 – 260 = 70.6. Em seguida, vou sombrear as regiões de ambos os lados da distribuição que estão pelo menos tão longe como 70.6 do null (260 +/- 70.6). Este processo grafo a probabilidade de observar uma amostra média pelo menos tão extrema quanto a nossa média de amostra.
A probabilidade total das duas regiões sombreadas é 0.03112., Se o valor da hipótese nula (260) é verdadeiro e você desenhou muitas amostras aleatórias, você esperaria que a amostra significasse cair nas regiões sombreadas cerca de 3,1% do tempo. Em outras palavras, você vai observar efeitos de amostra pelo menos tão grande como 70.6 cerca de 3,1% do tempo se o null é verdadeiro. Esse é o valor P!
usando valores P e níveis de significância juntos
Se o seu valor P for menor ou igual ao seu nível alfa, rejeite a hipótese nula.os resultados do valor de P são consistentes com a nossa representação gráfica. O valor P de 0,03112 é significativo no nível alfa de 0,05 mas não 0.,01. Mais uma vez, na prática, você escolhe um nível de significância antes da experiência e ficar com ele!usando o nível de significância de 0, 05, O efeito da amostra é estatisticamente significativo. Nossos dados suportam a hipótese alternativa, que afirma que a média da população não é igual a 260. Podemos concluir que as despesas com combustível aumentaram desde o ano passado.os valores de
P são muitas vezes mal interpretados como a probabilidade de rejeitar uma hipótese nula que é realmente verdadeira. Esta interpretação está errada! Para entender por que, por favor leia meu post: Como interpretar os valores P corretamente.,
a discussão sobre resultados estatisticamente significativos
Os testes de hipótese determinam se os seus dados de amostra fornecem provas suficientes para rejeitar a hipótese nula para toda a população. Para realizar este teste, o procedimento compara a sua estatística de amostra com o valor nulo e determina se é suficientemente rara. “Suficientemente raro” é definido em um teste de hipótese por:
- assumindo que a hipótese nula é verdadeira—os grafos centram-se no valor nulo.
- o nível de significância (alfa) – a que distância do valor nulo Está da região crítica?,a estatística da amostra está dentro da região crítica?
não existe um nível de significância especial que determine correctamente quais os estudos que têm efeitos reais sobre a população 100% do tempo. Os níveis de significância tradicionais de 0,05 e 0,01 são tentativas de gerenciar o tradeoff entre ter uma baixa probabilidade de rejeitar uma verdadeira hipótese nula e ter poder adequado para detectar um efeito se realmente existe.
o nível de significância é a taxa na qual você incorretamente rejeita hipóteses nulas que são realmente verdadeiras (erro tipo I)., Por exemplo, para todos os estudos que usam um nível de significância de 0,05 e a hipótese nula é correta, você pode esperar que 5% deles tenham estatísticas de amostra que caem na região crítica. Quando este erro ocorre, você não está ciente de que a hipótese nula está correta, mas você vai rejeitá-lo porque o valor p é inferior a 0,05.este erro não indica que o pesquisador cometeu um erro. Como os gráficos mostram, você pode observar estatísticas de amostra extrema devido ao erro de amostra sozinho. É a sorte do sorteio!,
post relacionado: tipos de erros em testes de hipótese
testes de hipótese são cruciais quando você quer usar dados de amostra para fazer conclusões sobre uma população, porque estes testes são responsáveis por erros de amostra. Usar níveis de significância e valores P para determinar quando rejeitar a hipótese nula melhora a probabilidade de que você vai tirar a conclusão correta.
tenha em mente que significância estatística não significa necessariamente que o efeito é importante em um sentido prático, real-world. Para mais informações, leia meu post sobre significância prática vs. estatística.,se gostar deste post, leia o seguinte: como os testes de hipótese funcionam: intervalos de confiança e níveis de confiança.
Você também pode ler meus outros posts que descrevem como outros testes de trabalho:
- Como t-Testes de Trabalho
- Como o F-teste funciona no ANOVA
- Como Chi-Quadrado, Testes de Independência Trabalho
Para ver uma abordagem alternativa aos tradicionais testes de hipóteses que não usam distribuições de probabilidade e teste de estatísticas, aprender sobre bootstrapping em estatísticas!
Leave a Reply