Introdução à Estatística não paramétrica

EST212 - Bioestatística

Helgem de Souza

Introdução

Até o momento, todas as técnicas de análise apresentada dependem de algum(ns) dos requisitos abaixo:

  • os dados são numéricos,

  • a distribuição dos dados (ou de seus subprodutos) é normal,

  • a variância entre os grupos é constante.

Entretanto, nem sempre é possível garantir que tais requisitos ocorrem. Nesse caso, o que devemos fazer? Não realizar as análises?

Obviamente, essa não é uma opção. Para esses casos, utilizamos um arcabouço de técnicas denominada Estatística não paramétrica.

Estatística não Paramétrica

Definição: Estatística não paramétrica é um arcabouço de técnicas de análise estatística utilizadas quando não é possível identificar a distribuição dos dados.

Consequentemente, elas são aplicáveis a uma maior gama de dados, pois se tratam de técnicas menos restritivas.

Mas então, por que não usamos apenas técnicas não paramétricas no lugar das paramétricas?

Nos casos em que é possível identificar a distribuição dos dados, se comparados com os métodos não paramétricos, obtém-se resultados mais robustos com amostras menores.

Entretanto, mesmo quando a distribuição dos dados é conhecida, os métodos não paramétricos funcionam. Mas a recíproca não é verdadeira.

Além disso, os métodos não paramétricos conseguem analisar dados não numéricos e de escala apenas orrdinal, como características, classes, etc.

Variáveis e escalas de medida

Conforme mencionado, métodos paramétricos usualmente funcionam em variáveis numéricas, sobretudo naquelas em escala intervalar.

Já os métodos não paramétricos são aplicáveis a quaisquer tipos de variáveis.

Vejamos os tipos de variáves nas quais os dados podem ser classificados.

Variável nominal

Variável utilizada apenas para categorizar resultados, sem ordem definida. Exemplos:

  • Sexo: masculino e feminino.

  • Grupo: mamíferos, répteis, anfíbios.

  • Categorias: medicamento em teste, medicamento genérico, medicamento de referência, placebo.

Em todos os casos relatados acima, não há um ordenamento definido.

Por muitas vezes, números são utilizados para representar categorias, mas não representam um ordenamento. Por exemplo, utilizar 0 para registrar cara e 1 para registrar coroa em um lançamento de moeda.

Nesse caso, dizemos que a variável está em escala nominal.

Variável Ordinal

Variável em que se consegue ordenar os elementos. Exemplos:

  • Avaliação: péssimo, ruim, regular, bom, excelente,

  • classificação: pequeno, médio grande,

  • fase: imaturo, intermediário, maduro

  • Faixa etária: 0-18 anos, 19-24 anos, 25-34 anos, 35-44 anos, 45-59 anos, 60+ anos

Note que, mesmo que exista um ordenamento lógico, não é possível a mensuração de distância. É possível dizer que a distância entre uma avaliação péssima e uma ruim é a mesma que existe entre uma avaliação boa e excelente?

Nesses casos, dizemos que a variável está em escala ordinal.

Variável Contínua

Variável na qual é possível determinar tanto a ordem quanto a distância entre valores. Exemplo:

  • Idade de dois animais,

  • ganho de massa pós suplementação,

  • pressão arterial,

  • número de tumores após tratamento.

Em todas essas variáveis, é possível determinar tanto a ordem quanto a distãncia entre duas observações. Por exemplo, a distância entre os pesos de duas pessoas com 60kg e 70kg é a mesma que a de duas pessoas com 80kg e 90kg.

Nesse caso, dizemos que se trata de uma variável em escala contínua ou intervalar.

Variáveis e escalas de medida

Os métodos paramétricos podem ser utilizados apenas em escala intervalar. Já os métodos não paramétricos podem ser utilizados em todas as escalas.

Para isso, ao invés de se basear em distâncias, os métodos não paramétricos utilizam o ranqueamento, para medidas em escala no mínimo ordinal.

Para dados em escala nominal, geralmente se utiliza a contagem de ocorrências dos eventos. Essas contagens podem ser modeladas por variáveis aleatórias discretas, como a distribuição binomial.

Além disso, para testes de tendência central, utiliza-se a mediana em substituição à média, pois ela é menos influenciada por valores extremos e por assimetria.

Vantagens dos métodos não paramétricos

  • Menos exigentes que os teste paramétricos.

  • Independem da forma da população.

  • Aplicação mais fácil.

  • Úteis quando os dados não estão em uma escala quantitativa.

  • Mais eficientes que os testes paramétricos quando a população não segue distribuição Normal.

Desvantagens dos testes não paramétricos

  • Não consideram a magnitude dos dados; desperdício de informação.

  • Quando as suposições do teste paramétrico são satisfeitas, o teste paramétrico tem mais poder.

  • Baseados em distribuições complexas.

Entretanto, como executaremos todos os testes no R, essa terceira desvantagem não será um problema para nossas aplicações.

Principais testes não paramétricos

Nessa disciplina apresentaremos os principais métodos não paramétricos, como alternativas aos testes paramétricos, bem como para problemas em que eles não se aplicam:

  • Teste de Wilcoxon.

  • Teste de Mann Whitney.

  • Teste de Kruskall-Wallis.

  • Análise de tabelas de contingência.

  • Testes qui-quadrado de independência, aderência e associação.