Você sabe o que é o Valor-p?

Na estatística clássica, o valor-pp-value ou nível descritivo, é a probabilidade de se obter uma estatística de teste igual ou mais extrema que aquela observada em uma amostra, sob a hipótese nula. Por exemplo, em testes de hipótese, pode-se rejeitar a hipótese nula a 5% caso o valor-p seja menor que 5%. Assim, uma outra interpretação para o valor-p, é que este é menor nível de significância com que não se rejeitaria a hipótese nula. Em termos gerais, um valor-p pequeno significa que a probabilidade de obter um valor da estatística de teste como o observado é muito improvável, levando assim à rejeição da hipótese nula.
Em um teste clássico de hipóteses, são definidas duas hipóteses, a nula (H0) e a alternativa (HA). Em muitas aplicações da estatística, convenciona-se definir a hipótese alternativa como a hipótese formulada pelo pesquisador, enquanto a hipótese nula é o seu complemento. A princípio, a hipótese nula é considerada a verdadeira. Ao confrontarmos a hipótese nula com os achados de uma amostra aleatória tomada de uma população de interesse, verifica-se a sua plausibilidade em termos probabilísticos, o que nos leva a rejeitarmos ou não H0. Se não rejeitamos H0, tomamo-la como verdadeira; caso contrário, tomamos HA como verdadeira.
No entanto, por utilizarmos nesta tomada de decisão uma amostra (uma parte da população) e não a população inteira, podemos cometer dois tipos de erro. Cometemos um erro tipo I quando rejeitamos H0 e H0 é verdadeira, e cometemos um erro tipo II quando não rejeitamos H0 e H0 é falsa. A tabela abaixo descreve estas situações.
A hipótese H0 é verdadeiraA hipótese H0 é falsa
Rejeita-se H0Erro do tipo Isem erro
Não se rejeita H0sem erroErro do tipo II
A probabilidade de cometermos um erro tipo I é chamada de nível de significância, denotado pela letra grega \alpha. O nível de significância é geralmente determinado pelo pesquisador antes da coleta dos dados. Em muitas aplicações da estatística, o nível de significância é tradicionalmente fixado em 0,05.1
Com base nestes conceitos, podemos definir o valor-p como a menor escolha que teríamos feito para o nível de significância, de forma que rejeitaríamos H0. Por exemplo, vamos supor que o nível de significância foi fixado em \alpha = 0,05. Um valor-p igual a 0,20 indica que nós teríamos rejeitado H0 se tivéssemos escolhido um nível de significância de 0,20, ao menos. Como escolhemos \alpha = 0,05, não rejeitamos H0. Isto leva a uma regra simplista, mas usual, onde rejeitamos H0 se o valor-p é menor que \alpha e não rejeitamos H0 caso contrário.
É preciso muita cautela na interpretação de um valor-p, dado que esta medida é bastante influenciada pelo tamanho da amostra. Amostras grandes tendem a produzir valores-ppequenos, ainda que o efeito observado não tenha grande importância prática, enquanto amostras pequenas tendem a produzir valores-p grandes, ainda que exista um importante efeito em um ponto de vista prático.2 Por isso, o uso dos valores-p nas pesquisas médicas tem sido bastante criticado por vários autores.
Fonte: http://pt.wikipedia.org/wiki/Valor-p

O que é "significância estatística" (nível-p)

A significância estatística de um resultado é uma medida estimada do grau em que este resultado é "verdadeiro" (no sentido de que seja realmente o que ocorre na população, ou seja no sentido de "representatividade da população"). Mais tecnicamente, o valor do nível-p representa um índice decrescente da confiabilidade de um resultado. Quanto mais alto o nível-p, menos se pode acreditar que a relação observada entre as variáveis na amostra é um indicador confiável da relação entre as respectivas variáveis na população. Especificamente, o nível-p representa a probabilidade de erro envolvida em aceitar o resultado observado como válido, isto é, como "representativo da população". Por exemplo, um nível-p de 0,05 (1/20) indica que há 5% de probabilidade de que a relação entre as variáveis, encontrada na amostra, seja um "acaso feliz". Em outras palavras, assumindo que não haja relação entre aquelas variáveis na população, e o experimento de interesse seja repetido várias vezes, poderia-se esperar que em aproximadamente 20 realizações do experimento haveria apenas uma em que a relação entre as variáveis em questão seria igual ou mais forte do que a que foi observada naquela amostra anterior. Em muitas áreas de pesquisa, o nível-p de 0,05 é costumeiramente tratado como um "limite aceitável" de erro.



Como determinar que um resultado é "realmente" significante?


Não há meio de evitar arbitrariedade na decisão final de qual nível de significância será tratado como realmente "significante". Ou seja, a seleção de um nível de significância acima do qual os resultados serão rejeitados como inválidos é arbitrária. Na prática, a decisão final depende usualmente de: se o resultado foi previsto a priori ou apenas a posteriori no curso de muitas análises e comparações efetuadas no conjunto de dados; no total de evidências consistentes do conjunto de dados; e nas "tradições" existentes na área particular de pesquisa. Tipicamente, em muitas ciências resultados que atingem nível-p 0,05 são considerados estatisticamente significantes, mas este nível ainda envolve uma probabilidade de erro razoável (5%). Resultados com um nível-p 0,01 são comumente considerados estatisticamente significantes, e com nível-p 0,005 ou nível-p 0,001 são freqüentemente chamados "altamente" significantes. Estas classificações, porém, são convenções arbitrárias e apenas informalmente baseadas em experiência geral de pesquisa. Uma conseqüência óbvia é que um resultado considerado significante a 0,05, por exemplo, pode não sê-lo a 0,01. 
  

Significância estatística e o número de análises realizadas

Desnecessário dizer quanto mais análises sejam realizadas em um conjunto de dados, mais os resultados atingirão "por acaso" o nível de significância convencionado. Por exemplo, ao calcular correlações entre dez variáveis (45 diferentes coeficientes de correlação), seria razoável esperar encontrar por acaso que cerca de dois (um em cada 20) coeficientes de correlação são significantes ao nível-p 0,05, mesmo que os valores das variáveis sejam totalmente aleatórios, e aquelas variáveis não se correlacionem na população. Alguns métodos estatísticos que envolvem muitas comparações, e portanto uma boa chance para tais erros, incluem alguma "correção" ou ajuste para o número total de comparações. Entretanto, muitos métodos estatísticos (especialmente análises exploratórias simples de dados) não oferecem nenhum remédio direto para este problema. Cabe então ao pesquisador avaliar cuidadosamente a confiabilidade de descobertas não esperadas. 
  
 

Força X Confiabilidade de uma relação entre variáveis

Foi dito anteriormente que força (magnitude) e confiabilidade são dois aspectos diferentes dos relacionamentos entre variáveis. Contudo, eles não são totalmente independentes. Em geral, em uma amostra de um certo tamanho quanto maior a magnitude da relação entre variáveis, mais confiável a relação.

Assumindo que não há relação entre as variáveis na população, o resultado mais provável deveria ser também não encontrar relação entre as mesmas variáveis na amostra da pesquisa. Assim, quanto mais forte a relação encontrada na amostra menos provável é a não existência da relação correspondente na população. Então a magnitude e a significância de uma relação aparentam estar fortemente relacionadas, e seria possível calcular a significância a partir da magnitude e vice-versa. Entretanto, isso é válido apenas se o tamanho da amostra é mantido constante, porque uma relação de certa força poderia ser tanto altamente significante ou não significante de todo dependendo do tamanho da amostra. 
 

Por que a significância de uma relação entre variáveis depende do tamanho da amostra?

Se há muito poucas observações então há também poucas possibilidades de combinação dos valores das variáveis, e então a probabilidade de obter por acaso uma combinação desses valores que indique uma forte relação é relativamente alta. Considere-se o seguinte exemplo:
Há interesse em duas variáveis (sexo: homem, mulher; WCC: alta, baixa) e há apenas quatro sujeitos na amostra (2 homens e 2 mulheres). A probabilidade de se encontrar, puramente por acaso, uma relação de 100% entre as duas variáveis pode ser tão alta quanto 1/8. Explicando, há uma chance em oito de que os dois homens tenham alta WCC e que as duas mulheres tenham baixa WCC, ou vice-versa, mesmo que tal relação não exista na população. Agora considere-se a probabilidade de obter tal resultado por acaso se a amostra consistisse de 100 sujeitos: a probabilidade de obter aquele resultado por acaso seria praticamente zero.
Observando um exemplo mais geral. Imagine-se uma população teórica em que a média de WCC em homens e mulheres é exatamente a mesma. Supondo um experimento em que se retiram pares de amostras (homens e mulheres) de um certo tamanho da população e calcula-se a diferença entre a média de WCC em cada par de amostras (supor ainda que o experimento será repetido várias vezes). Na maioria dos experimento os resultados das diferenças serão próximos de zero. Contudo, de vez em quando, um par de amostra apresentará uma diferença entre homens e mulheres consideravelmente diferente de zero. Com que freqüência isso acontece? Quanto menor a amostra em cada experimento maior a probabilidade de obter esses resultados errôneos, que, neste caso, indicariam a existência de uma relação entre sexo e WCC obtida de uma população em que tal relação não existe. Observe-se mais um exemplo ("razão meninos para meninas", Nisbett et al., 1987):

Há dois hospitais: no primeiro nascem 120 bebês a cada dia e no outro apenas 12. Em média a razão de meninos para meninas nascidos a cada dia em cada hospital é de 50/50. Contudo, certo dia, em um dos hospitais nasceram duas vezes mais meninas do que meninos. Em que hospital isso provavelmente aconteceu? A resposta é óbvia para um estatístico, mas não tão óbvia para os leigos: é muito mais provável que tal fato tenha ocorrido no hospital menor. A razão para isso é que a probabilidade de um desvio aleatório da média da população aumenta com a diminuição do tamanho da amostra (e diminui com o aumento do tamanho da amostra). 
  
 

Por que pequenas relações podem ser provadas como significantes apenas por grandes amostras?

Os exemplos dos parágrafos anteriores indicam que se um relacionamento entre as
variáveis em questão (na população) é pequeno, então não há meio de identificar tal relação em um estudo a não ser que a amostra seja correspondentemente grande. Mesmo que a amostra seja de fato "perfeitamente representativa" da população o efeito não será estatisticamente significante se a amostra for pequena. Analogamente, se a relação em questão é muito grande na população então poderá ser constatada como altamente significante mesmo em um estudo baseado em uma pequena amostra. Mais um exemplo:
Se uma moeda é ligeiramente viciada, de tal forma que quando lançada é ligeiramente mais provável que ocorram caras do que coroas (por exemplo uma proporção 60% para 40%). Então dez lançamentos não seriam suficientes para convencer alguém de que a moeda é viciada, mesmo que o resultado obtido (6 caras e 4 coroas) seja perfeitamente representativo do viesamento da moeda. Entretanto, dez lançamentos não são suficientes para provar nada? Não, se o efeito em questão for grande o bastante, os dez lançamentos serão suficientes. Por exemplo, imagine-se que a moeda seja tão viciada que não importe como venha a ser lançada o resultado será cara. Se tal moeda fosse lançada dez vezes, e cada lançamento produzisse caras, muitas pessoas considerariam isso prova suficiente de que há "algo errado" com a moeda. Em outras palavras, seria considerada prova convincente de que a população teórica de um número infinito de lançamentos desta moeda teria mais caras do que coroas. Assim, se a relação é grande, então poderá ser considerada significante mesmo em uma pequena amostra. 
 Fonte: http://www.inf.ufsc.br/~marcelo/intro.html

Comentários

Postagens mais visitadas deste blog

Você lembra os tipos de estudos epidemiológicos?

Níveis de Prevenção em Saúde