PROGRAMA

OBJECTIVOS

No final desta Unidade Curricular, espera-se que o estudante seja capaz de:

Identificar e formular o objectivo de uma experiência, bem como reconhecer a variável resposta, os factores, as covariáveis e as restrições inerentes ao estudo;
Compreender os princípios de recolha de dados e conceber um delineamento experimental adequado aos objectivos da investigação;
Aplicar métodos apropriados de análise estatística e interpretar criticamente os resultados obtidos;
Reconhecer o delineamento experimental subjacente a um conjunto de dados e proceder à sua análise de forma adequada;
Elaborar relatórios técnicos ou científicos com rigor metodológico e clareza na apresentação dos resultados;
Utilizar de forma adequada ferramentas computacionais e software estatístico para o tratamento e análise de dados.

CONTEÚDOS

CAPÍTULO I – Experimentação
1. Introdução à experimentação
2. Planeamento de experiências
3. Medição de variáveis
4. Precisão das medições
5. Escalas de medição
CAPÍTULO II – ANOVA para um fator
1. Pressupostos básicos da ANOVA
2. Procedimentos para a realização da ANOVA para um fator
3. Fundamentos da ANOVA para um fator com amostras de igual dimensão
4. Estimação dos parâmetros do modelo de análise de variância
5. Métodos de comparações múltiplas
6. Verificação da adequação do modelo – análise de resíduos
7. ANOVA com amostras de tamanhos diferentes
8. Determinação do tamanho da amostra
CAPÍTULO III – ANOVA para Dois Fatores
1. Definições e princípios fundamentais
2. Procedimentos para a realização da ANOVA a dois fatores
3. Análise dos efeitos dos fatores e das interações
4. Verificação da adequação do modelo
5. Análise de resíduos e determinação do tamanho da amostra
6. ANOVA para dois fatores sem repetições
CAPÍTULO IV – Planeamentos Factoriais do Tipo \(2^k\)
1. Planeamentos factoriais \(2^k\)
2. Planeamentos factoriais \(2^k\) sem repetições
3. Algoritmo de Yates
CAPÍTULO V – Planeamentos em Blocos e Quadrados Latinos
1. Planeamentos completamente aleatorizados
2. Planeamentos em blocos aleatorizados
3. Planeamento utilizando o quadrado latino
4. Planeamento utilizando o quadrado greco-latino
CAPÍTULO VI – Experimentos Factoriais Confundidos em Blocos
1. Experimentos completamente confundidos
2. Experimentos parcialmente confundidos
3. Planeamentos factoriais fraccionados

MÉTODOS DE ENSINO

A disciplina será leccionada através de aulas teóricas e práticas. Nas aulas teóricas serão apresentados os conceitos, definições e fundamentos necessários à compreensão dos conteúdos programáticos, recorrendo à exposição da matéria e à resolução de exemplos ilustrativos.

As aulas práticas destinam-se à consolidação dos conhecimentos, através da revisão de conceitos, resolução de exercícios e discussão dos resultados obtidos, utilizando R (RStudio), IBM SPSS e, quando necessário, Microsoft Excel como ferramentas de análise.

A avaliação será realizada por meio de provas escritas e trabalhos individuais, visando avaliar a compreensão dos conteúdos e a capacidade de aplicação dos métodos estudados.

A classificação final será obtida com base nos seguintes elementos de avaliação:

Primeira avaliação: 35% (Trinta e Cinco Porcentos)
Segunda avaliação: 50% (Cinquenta Porcentos)
Trabalho (individual ou em grupo): 15% (Quinze Porcentos)

Para serem admitidos à segunda avaliação, os estudantes deverão cumprir um mínimo de 75% de assiduidade nas aulas, de acordo com as normas de funcionamento da disciplina.

REFERÊNCIA BIBLIOGRÁFICA

Marôco, J. (2018). Análise Estatística com o SPSS Statistics, 7ª edição. ReportNumber, Lda. (Disponível na Biblioteca da FCT/USTP)

Reis, E., Melo, P., Andrade, R., & Calapez, T. (2019). Estatística aplicada - Vol. 2. Lisboa: Edições Sílabo.

Fontelles, M. J. (2012). Bioestatística aplicada à pesquisa experimental. São Paulo: Livraria da Física, 1.

Fontelles, M. J. (2012). Bioestatística aplicada à pesquisa experimental. São Paulo: Livraria da Física, 2.

CAPÍTULO I

Experimentação

Column

Introdução

O Planejamento de Experimentos (DOE - Design Of Experiments), segue o princípio da circularidade do método científico.

Pesquisa científica: um processo de investigação sistemático, controlado, empírico e crítico de ideias relativas a supostas relações entre fenômenos, com o objetivo de descobrir fatos científicos e desenvolver teorias científicas.

Todo experimento deve começar com uma hipótese, ou seja, é preciso ter os objectivos do experimento bem definidos. Normalmente quando isso não acontece, não raro, os experimentos não são conclusivos e não fornecem informações de utilidade. Dada uma hipótese, ela pode ser avaliada por meio de um experimento. Essa fase é o principal foco deste curso.

É no planejamento que são definidas a(s) variável(eis) resposta(s), as unidades de medida etc. Um experimento planejado incorrectamente pode resultar na invalidade das informações obtidas e consequentemente invalidar as conclusões, além da perda de recursos. Após a obtenção dos dados, um Teste de Hipótese pode ser utilizado. Nessa fase entra a análise estatística propriamente dita. Neste curso, juntamente com o planejamento, estaremos também estudando a análise estatística de experimentos planejados.

Testada a hipótese, o pesquisador interpreta o resultado, fazendo inferências sobre os resultados. A partir daí, pode-se decidir pela elaboração de uma teoria (conclusões) ou por um novo experimento, completando o ciclo. Por outro lado, a circularidade do método científico pode ser vista como o Ciclo PDCA (Plan, Do, Check and Action). De fato, o ciclo ou método PDCA, é uma adaptação do princípio da circularidade do método científico. Tanto em um como em outro, busca-se uma resposta para um problema. Na indústria, isso pode ser visto como o desenvolvimento de um novo processo (produto) ou a melhoria de um processo já existente.

Planeamento de Experiências

Planeamento

Organizar a forma como as experiências serão realizadas. Estabelecer a priori a série completa de ações e decisões que devem ser tomadas na execução da experiência, de forma a garantir a obtenção de dados adequados e de qualidade, permitindo uma análise objetiva e conduzindo a conclusões válidas em relação ao problema proposto.

Uma hipótese é uma afirmação sobre um parâmetro ou a natureza da sua distribuição de probabilidade. O estabelecimento do problema e a formulação da hipótese definem os objetivos da experiência.

A impossibilidade de controlo absoluto sobre a manifestação de características em qualquer investigação científica implica que uma experiência nunca pode provar a hipótese que a origina, mas apenas verificá-la.

Experiências

Um experimento ou ensaio é um procedimento planeado para obter novos fatos, negar ou confirmar hipóteses ou resultados obtidos anteriormente. Um procedimento planeeado, originado de uma ideia ou hipótese, que visa provocar, observar e analisar fenômenos sob condições controladas.

Em geral, os experimentos são conduzidos de forma que se possa ter um alto grau de controle sobre as variáveis experimentais. Em muitas situações, em função da natureza das variáveis e da forma de instalação e condução do experimento, não existe a possibilidade de um controle efetivo de tais variações. Neste caso, existem procedimentos experimentais a situações específicas, que serão objeto de estudo neste texto.

Objetivos: identificar e quantificar fatores que alteram a resposta, estabelecer faixas de referencia, reduzir custo e variabilidade, aumentar produtividade, etc.

Tratamento

Um tratamento é uma condição imposta ou objeto que se deseja medir ou avaliar em um experimento. Normalmente, em um experimento é utilizado mais de um tratamento. Como exemplo de um tratamento, pode-se citar: equipamentos de diferentes marcas, diferentes tamanhos de peças, dose de um nutriente em um meio de cultura, quantidade de lubrificante em uma máquina, temperatura de armazenamento de um alimento.

Os tratamentos que podem ser postos em uma ordem, como por exemplo, doses de nutrientes, quantidade de lubrificante, níveis de temperatura, são ditos tratamentos quantitativos. Já, os tratamentos que não podem ser agrupados numa ordem, são ditos tratamentos qualitativos, por exemplo, variedades de plantas, método de preparação de alimento, marcas de equipamentos e outros.

Cada tipo de tratamento também pode ser chamado de um fator. O tipo de tratamento tem importância na forma como os dados serão analisados. Quando os tratamentos são quantitativos, pode-se usar, por exemplo, técnicas de análise de regressão.

Os tratamentos são chamados de variáveis independentes. Quando em um experimento estamos interessados em estudar apenas um tipo de variável independente dizemos que possuímos apenas um fator. Em um experimento, um fator pode ter várias divisões que são chamadas de níveis.

Exemplo: Um laboratório deseja estudar o efeito da composição de peças de metal sobre a dilatação num esforço de carga máxima.

Neste exemplo, a composição das peças é o fator (variável independente). Os diferentes tipos de composição são os níveis ou subdivisões do fator. À dilatação das peças, medida em milímetros, por exemplo, é a variável resposta (variável dependente).

Em um experimento podem existir mais de um fator e mais de uma variável resposta.

Toda e qualquer variável que possa interferir na variável resposta ou dependente deve ser mantida constante. Quando isso não é possível, existem técnicas (estratégias) que podem ser utilizadas para reduzir ou eliminar essa interferência.

Unidade Experimental ou Parcela

Unidade experimental ou parcela é onde é feita a aplicação do tratamento. E a unidade experimental que fornece os dados para serem avaliados. Como exemplo de unidade experimental ou parcela pode-se citar: uma motor, uma peça do motor, uma placa de Petri com meio de cultura, uma porção de algum alimento.

As unidades experimentais podem ser formadas por grupos ou indivíduos. Por exemplo, quando trabalha-se com cobaias, pode-se ter apenas uma cobaia como unidade experimental, ou seja, apenas um animal fornecerá a resposta do tratamento ou ainda, pode-se ter um grupo de cobaias em uma gaiola fornecendo as informações.

O uso de grupos ou indivíduos como unidades experimentais depende do fenómeno que se está estudando, da forma como o experimento é conduzido e dos recursos disponíveis. De modo geral, a escolha da unidade experimental deve ser feita de forma a minimizar o erro experimental.

Erro Experimental ou Variação ao Acaso

Em todo experimento, ocorre sempre uma variação ao acaso entre observações de um mesmo tratamento. Essa variação ao acaso é denominada erro experimental. À variação ao acaso pode ocorrer devido a variabilidade do material utilizado no experimento e/ou pelo modo como o experimento foi conduzido ou executado.

A forma de condução do experimento implica na forma como o erro experimental será tratado na análise estatística.

O erro experimental sempre está presente nos experimentos probabilísticos. O erro experimental ocorre devido as causas não controláveis e/ou não controladas.

Repetição

Repetição é o número de vezes que um tratamento aparece no experimento. O número de repetições em um experimento vai depender também dos recursos disponíveis, do tipo de experimento (delineamento) e também da variabilidade do experimento ou da variável resposta.

Existem várias metodologias para estimar o número satisfatório de repetições em um experimento. Mas, em função das possíveis limitações acima, a definição do número de repetições muitas vezes torna-se uma tarefa difícil. À experiência do pesquisador sobre o fenômeno em estudo deve ser levada em consideração. Além disso, as metodologias empregadas para esse cálculo, pressupõem que uma estimativa do erro experimental é conhecida. Nem sempe essa informação está disponível antes da realização de um experimento e, como cada experimento é uma nova história, em função de características intrínsecas de cada fenômeno, esse cálculo pode ser em vão.

Variável Resposta ou Dependente

Uma variável é qualquer característica que apresenta variação, por exemplo, a altura de pessoas, o peso de animais, o comprimento de uma peça, o número de microrganismos em um litro de leite etc. O que será medido ou observado na unidade experimental.

Quando o valor de uma variável não pode ser determinado antes da realização de um experimento, tem-se então uma variável aleatória.

Às variáveis que assumem valores enumeráveis, são denominadas variáveis aleatórias discretas. Por exemplo, o número de sementes germinadas, o número de microrganismos em um litro de leite.

Às variáveis que assumem valores em um intervalo, são denominadas variáveis aleatórias contínuas. Por exemplo, o peso de animais, o teor de umidade em um alimento, o conteúdo de óleo em uma semente.

Em um experimento, podem ser medidas muitas variáveis. Mas deve-se considerar somente aquelas que possam contribuir para a explicação da hipótese formulada.

É o pesquisador, em geral, quem sabe quais serão as variáveis medidas em um experimento. Ele deve ser alertado sempre sobre as condições para realização de tais medições no sentido de evitar gastar recursos com variáveis que não fornecerão as informações para se testar a(s) hipótese(s). Quando o volume de dados de um experimento torna-se grande, aumentam os riscos de se cometerem erros grosseiros como de registro, inversão de variáveis etc.

Delineamento Experimental

Com a finalidade de reduzir o erro experimental existem os chamados Delineamentos experimentais. Um delineamento experimental é a forma como os tratamentos são designados às unidades experimentais ou parcelas. A análise de variância (que será vista mais adiante) é baseada no delineamento experimental utilizado.

Por isso, saber como o experimento foi instalado e conduzido é de fundamental importância. Pequenas modificações podem acarretar em grandes mudanças na forma da análise estatística. Não raro, acontecem situações onde as hipóteses formuladas a priori não podem ser testadas, ou ainda, ser impossível de se realizar uma análise estatística. Por isso, deve-se dar muita importância ao planejamento experimental.

Um delineamento experimental é planejado de tal forma que a variação ao acaso seja reduzida o máximo possível. Os principais delineamentos experimentais são: delineamento completamente casualizado (DCC), delineamento em blocos casualizados (DBC) e quadrado latino.

O controle do erro experimental pode ser feito também, utilizando-se de outros recursos como:

uso de variáveis concomitantes: em alguns experimentos é possível medir-se mais de uma variável de interesse. O uso de mais de uma variável simultaneamente na análise estatística de um experimento, é chamada de análise de covariância, e permite que se aumente a precisão de um experimento. Essa análise é realizada quando a variação entre unidades experimentais é, em parte, devido a variação em alguma outra característica mensurável mas não totalmente controlada. Por exemplo, idade de animais, peso inicial, comprimento de peças diferentes.
tamanho e forma de unidades experimentais ou parcelas: normalmente, grandes unidades experimentais têm menor variação. À forma quadrada, também, normalmente apresenta menor variabilidade. Obviamente, isso depende, em muito, da definição da unidade experimental, dos recursos disponíveis e da maneira de instalação e condução do experimento.

Efeito de Borda

Em alguns experimentos, ocorre que as observações realizadas em uma unidade experimental podem não ser independentes de outras em função do efeito de uma ou mais unidades experimentais “vizinhas”. Isso pode ocorrer devido ao fato de que as unidades não estão distantes o suficiente para evitar o efeito da unidade vizinha ou não houve o cuidado de se eliminar esse efeito durante o planejamento do experimento. Esse efeito residual pode ser eliminado, por exemplo, se o indivíduo tomar um copo de água entre uma prova e outra. Este procedimento evita que o efeito de uma unidade experimental ocorra sobre outra, vizinha, influenciando na variável resposta.

Em outro caso, podemos ter uma unidade experimental onde uma planta pode crescer mais do que outras sob diferentes tratamentos. Unidades experimentais próximas dessa, podem sofrer o efeito de sombreamento e ter sua resposta influenciada. Para contornar esse problema, pode-se delimitar uma faixa de segurança entre essas unidades experimentais para evitar o efeito de sombreamento.

À essa faixa de segurança é que é chamada de bordadura.

Croqui

O croqui de um experimento é um desenho esquemático, indicando a alocação dos tratamentos às unidades experimentais e o resultado do sorteio. O tamanho, localização e forma das parcelas. Quando for o caso, a bordadura e área útil da parcela.

Princípeos Básicos da Análise de Experiência

Casualização:

O princípio da casualização consiste em distribuir aleatoriamente os tratamentos nas unidades experimentais de modo que cada um tenha a mesma chance de ocupar qualquer unidade experimental. A casualização permite uma distribuição independente do erro experimental.

Em todo experimento deve-se evitar toda e qualquer possibilidade de vícios tanto na implantação como na condução e análise dos dados experimentais.

Mesmo os mais experientes tendem a formar uma opinião durante o experimento e inconscientemente causar algum tipo de viés. Devido a isso, recomenda-se que a execução e a condução de um experimento sejam realizadas seguindo pelo menos um dos critérios abaixo:

Experimento cego: é o experimento em que somente o pesquisador conhece quais os tratamentos foram alocados às unidades experimentais ou parcelas. O avaliador desconhece essa informação.
Experimento duplo-cego: é o experimento em que o pesquisador e o avaliador desconhecem quais os tratamentos foram alocados às unidades experimentais ou parcelas.

Repetição:

A repetição corresponde ao número de vezes que o tratamento aparece no experimento. Por meio da repetição pode-se ter uma estimativa do erro experimental, aumentar a precisão do experimento e ainda aumentar o poder dos testes estatísticos.

Controle local (blocos):

Esse princípio é utilizado quando as unidades experimentais apresentam alguma variação conhecida. Por exemplo, gradiente de temperatura dentro de um forno ou estufa, gradiente de fertilidade, gradiente de umidade, diferentes avaliadores de um experimento, diferentes fornecedores. Dessa maneira, as unidades homogêneas são agrupadas em blocos, com a finalidade de diminuir o erro experimental.

A finalidade do controle local é dispor as unidades experimentais heterogéneas em sub-unidades homogêneas, reduzindo assim, o erro experimental.

Obs.: Quando se tratar de unidades experimentais distribuídas espacialmente, deve existir uma perpendicularidade entre o gradiente e os blocos.

Em resumo, pode-se afirmar que:

À aleatorização torna os testes estatísticos válidos.
À repetição faz os testes estatísticos possíveis.
O controle local faz o experimento mais eficiente.

Guia para Planeamento de Experiências

No momento do planejamento, devemos ter em mente, algumas recomendações simples, que evitam surpresas desagradáveis e também facilitam o trabalho do estatístico e do pesquisador.

Conhecimento do problema: Embora possa parecer óbvio, saber exatamente qual é o problema que deve ser resolvido através de um experimento é um ponto crucial na experimentação. É sempre interessante que todas as pessoas que possam contribuir com informações sobre o problema participem do planejamento do experimento. Quando se sabe exatamente o alvo da investigação as soluções aparecem mais consistentes e rapidamente.
Escolha de fatores e níveis: O experimentador deve escolher quais são os fatores e seus níveis que farão parte do experimento. Em geral, essa escolha é uma combinação de conhecimentos práticos sobre o fenômeno e conhecimentos teóricos. É importante investigar todos os fatores que possam ser de importância para a resolução do problema.
Escolha da variável resposta: Deve-se escolher uma ou mais variáveis que possam realmente fornecer alguma informação e comprovar as hipóteses a respeito do problema. E importante avaliar a facilidade de obtenção dos dados. Em alguns experimentos, variáveis de difícil mensuração devem ser evitadas.
Escolha do delineamento experimental: À escolha do delineamento experimental depende basicamente do número de repetições, da necessidade ou não do uso de blocos e também da disponibilidade de recursos. Existem vários delineamentos (estratégias) possíveis para planejar um experimento. Em casos extremos, um delineamento próprio pode ser desenvolvido para a execução de uma pesquisa.
Execução e condução do experimento: muitas vezes o experimento é corretamente planejado mas, durante a implantação e condução do experimento são cometidos erros grosseiros que invalidam todo o processo experimental. Nessa fase, recomenda-se uma atitude perfeccionista. Anotar todas as informações durante o experimento ajuda a compreender os resultados estatísticos. Por exemplo, variações bruscas de temperatura, falta de energia elétrica etc. Sempre que possível, faça um experimento piloto, gastando o mínimo de recursos para testar os procedimentos. Isso é altamente recomendado quando não se tem experiência sobre o fenômeno, desconhecimento das possíveis respostas ou falta de prática na coleta de dados.
Análise de dados: Mesmo que se tenham resultados muito óbvios, deve-se procurar realizar a análise estatística de acordo com o delineamento. A estatística fornece informações sobre o grau de certeza que podemos ter sobre uma conclusão ou afirmação. Às técnicas estatísticas Juntamente com o conhecimento do fenômeno e bom senso são extremamente poderosas.
Conclusões e recomendações: Após os dados serem analisados estatisticamente, é necessário obter conclusões práticas e se necessário fazer recomendações sobre o que fazer ou não fazer.

Normalmente é um grande erro planear um único, grande e abrangente experimento para iniciar um estudo (Montgomery, 1991).

Algumas Considerações

Para uma boa utilização das técnicas estatísticas em experimentação, o pesquisador deve ter em mente os seguintes pontos:

Usar todo o conhecimento não estatístico do problema;
Fazer o planeamento e a análise da forma mais simples possível;
Reconhecer a diferença entre significância prática e diferença estatisticamente significativa;
Experimentos são normalmente iterativos.

Medição das Variáveis

A mensuração de uma característica pode ser simples e direta quando existem escalas quantitativas conhecidas e instrumentos de medição facilmente disponíveis, como ocorre na determinação do peso ou do comprimento. Entretanto, em determinadas áreas de investigação, o processo de mensuração pode tornar-se mais complexo, exigindo o desenvolvimento de metodologias específicas e a utilização de instrumentos sofisticados e dispendiosos. Um exemplo disso é a determinação de características do vinho por meio de processos laboratoriais como a microvinificação.

De modo geral, os processos de mensuração devem ser confiáveis, garantindo níveis adequados de precisão e exatidão para produzir valores consistentes da variável resposta. Todavia, não é necessário que esses processos apresentem níveis de precisão superiores aos exigidos pelo experimento. Por exemplo, a utilização de uma balança com precisão de um miligrama torna-se desnecessária quando o objetivo do experimento é detectar apenas diferenças da ordem de um grama.

Por outro lado, instrumentos imprecisos ou inexatos podem comprometer seriamente experimentos que envolvem elevados investimentos financeiros e infraestrutura científica sofisticada. Por essa razão, os instrumentos de medição devem ser verificados e calibrados periodicamente. Além disso, mudanças de instrumentos durante a execução de um experimento devem ser evitadas e, quando inevitáveis, realizadas com cautela.

Em algumas circunstâncias, pode ser conveniente que o avaliador não conheça a origem do material que está a avaliar. Nesses casos, utiliza-se um experimento cego. Em estudos clínicos, pode ainda ser necessário que os participantes não saibam qual tratamento estão a receber; quando tanto os avaliadores quanto os participantes desconhecem essa informação, o estudo é denominado experimento duplamente cego.

Precisão das Medições

A precisão refere-se à proximidade entre medidas repetidas de uma mesma característica ou unidade da amostra. Quanto menor a variação entre as medições sucessivas, maior será a precisão do processo de mensuração.

Assim, alta precisão indica que as medidas obtidas são muito próximas entre si, enquanto baixa precisão indica grande variabilidade entre as medições realizadas. A precisão está, portanto, associada à consistência ou repetibilidade dos resultados obtidos em um processo de medição.

O viés, também denominado erro sistemático, corresponde à tendência de um processo de mensuração produzir resultados que se afastam consistentemente do valor verdadeiro da grandeza observada.

Esse fenómeno ocorre quando as medidas obtidas, embora possam ser muito próximas entre si, apresentam um desvio em relação ao valor real. O viés é definido como a diferença entre o valor médio das medidas obtidas e o verdadeiro valor da característica que está a ser mensurada.

Quando um processo apresenta viés, diz-se que as medições são tendenciosas ou viciadas, pois refletem uma distorção sistemática nos resultados.

A exatidão refere-se ao grau de proximidade entre as medidas obtidas e o verdadeiro valor da grandeza que está a ser mensurada.

Um processo de mensuração é considerado altamente exato quando apresenta elevada precisão e viés pequeno ou inexistente. Em outras palavras, as medidas são simultaneamente consistentes e próximas do valor real.

Por outro lado, baixa exatidão pode ocorrer quando existe grande viés, baixa precisão, ou a combinação de ambos os fatores. Assim, a exatidão de um processo de mensuração depende diretamente da relação entre precisão e viés.

Escalas de Medição

Em termos gerais, a mensuração de uma característica ou propriedade de uma unidade é a representação dessa característica por números que apresentem entre eles as mesmas relações relevantes referentes à característica que representam.

Assim, medir uma característica significa assinalar números às unidades como um meio de representar essa característica.

A mensuração de uma característica é uma tentativa de encontrar uma correspondência um a um entre as alternativas da característica e números de um determinado conjunto que leve em conta as relações entre essas alternativas e as operações que podem ser efetuadas sobre elas.

O termo “escala de medida” é usualmente relacionado com instrumentos como régua, balança, copos de medida, utilizados para determinar comprimento, peso, volume, etc. Ou seja, comumente tende-se a associar a mensuração com um processo de medida física com escala bem definida que possui uma origem ou ponto zero natural e uma unidade de medida constante.

As escalas de medida podem ser classificadas nas seguintes principais categorias:

Escala Nominal

Cada uma dessas escalas possui seu próprio conjunto de pressuposições referentes à correspondência de números com entidades do mundo real e ao significado da realização das várias operações matemáticas sobre esses números. A escala nominal é a menos restritiva.

Neste tipo de escala os números servem apenas como rótulos para identificar ou classificar as unidades quanto à característica. Operações aritméticas sobre esses números não têm qualquer significado com respeito aos objetos do mundo real que eles identificam.

Entretanto, como uma escala nominal apenas classifica unidades, mas não infere grau ou quantidade, as várias classes não podem ser manipuladas matematicamente (por exemplo, por adição ou subtracção de equivalentes numéricos daquelas classes). Consequentemente, a maioria das estatísticas usuais, como média e desvio padrão não têm sentido, pois as operações para sua determinação não são permissíveis.

Escala Ordinal

A escala ordinal é uma escala de ordenação. Esta escala designa a posição relativa das classes (ou das unidades classificadas) segundo uma direção.

Por exemplo, os animais de um rebanho podem ser ordenados segundo o grau de infestação de carrapato, pela assinalação do número zero para indicar a ausência de infestação e dos números 1, 2 e 3 para indicar níveis crescentes de infestação, ou seja, infestação baixa, média e elevada.

Observe-se, entretanto, que a ordenação dos animais não permite a comparação de “diferenças” entre animais com respeito ao grau de infestação; por exemplo, não se pode saber se a diferença entre os níveis de infestação de dois animais com os graus de infestação 1 e 2 é menor, igual ou maior que a diferença entre os níveis de infestação de dois animais com graus de infestação 2 e 3.

Isso significa que qualquer conjunto de quatro números que preserve a relação de ordem é igualmente apropriado para essa mesma mensuração do grau de infestação dos animais.

Dessa forma a escala ordinal é invariante sob transformações que preservem a ordem. Ou seja, uma escala ordinal pode ser transformada em outra escala ordinal.

Escala Intervalar

A escala de intervalo (ou escala intervalar) aproxima-se da concepção comum de medida, já que possui uma unidade de medida constante. Entretanto, a origem ou ponto zero desta escala é arbitrário. Os exemplos mais comuns de escala de intervalo são as escalas Celsius e Fahrenheit usadas para medir a temperatura. Cada uma dessas escalas assinala um zero arbitrário e diferenças de temperatura iguais são determinadas pela identificação de volumes iguais de expansão no líquido usado no termómetro.

Dessa forma, a escala de intervalo permite inferências referentes a diferenças entre unidades a serem medidas; por exemplo, a mensuração da temperatura dos animais de um rebanho permite determinar quanto um animal é mais quente do que outro. Entretanto, não se pode dizer que um valor em um intervalo específico da escala seja um múltiplo de outro. Por exemplo, não é correcto dizer que um objecto com 30°C é duas vezes mais quente que um com temperatura de 15°C.

A escala de intervalo é invariante sob transformações lineares positivas (ou seja, transformações da forma \(y = a+bx, \quad b>0\)). Isso significa que uma escala de intervalo pode ser transformada em outra por meio de uma transformação linear positiva. A maioria das medidas estatísticas descritivas, tais como média, desvio padrão, coeficiente de correlação requerem apenas escala de intervalo. Por exemplo, se a temperatura média de uma cidade em um mês é determinada em graus Celsius ou em graus Fahrenheit, os dias do mês de temperatura superior à média são os mesmos sob cada uma destas duas escalas. Entretanto, algumas medidas estatísticas, como o coeficiente de variação, podem ser enganosas quando aplicadas a dados de variável de escala intervalar.

Escala de Razão

A escala de razão, ou escala racional, é a mais elaborada das escalas de medida, no sentido de que permite todas as operações aritméticas. Essa escala possui um ponto zero único, além de unidade de medida constante. É a escala de medida mais comum nas ciências físicas, tais como as escalas para a medida de comprimento, peso, etc.

Como a designação sugere razões iguais entre valores da escala racional correspondem a razões iguais entre as unidades mensuradas. Dessa forma, escalas de razão são invariantes sob transformações de proporção positivas, ou seja, transformações da forma y= cx, c>0. Por exemplo, se uma planta tem 3m e a outra 1m, pode-se dizer que a primeira planta tem altura três vezes superior a da segunda. Isso porque, se as alturas das duas plantas forem transformadas em centímetros, suas medidas serão, respectivamente, 30 cm e 10 cm, que estão na mesma razão 3:1.

Pode-se efetuar a transformação das medidas de uma escala racional para outra escala racional meramente pela multiplicação por uma constante apropriada.

Todas as estatísticas descritivas podem ser determinadas para dados de uma variável expressa em escala racional.

Variáveis com escala de medida nominal ou ordinal são usualmente designadas variáveis categóricas, já que seus valores designam categorias, ou classes. Essas variáveis são, por definição, discretas e finitas, ou seja, assumem valores numéricos isolados e em número finito.

Variáveis com escala de medida intervalar ou racional podem ser discretas, com número de distintos valores finito ou infinito, ou contínuas. Por exemplo, a variável que exprime a quantidade de frutos em uma árvore ou a quantidade de leitões nascidos de uma porca é uma variável discreta finita; a variável que exprime o peso ou a altura de um animal ou de planta é uma variável contínua.

CAPÍTULO II

ANOVA para um Factor

Column

Introdução

Até aqui vimos como é possível comparar médias de até dois grupos usando o teste t, por exemplo. Entretanto, em muitas situações estamos interessados em examinar se 3 ou mais grupos (ou condições) difererem entre si. Por exemplo, suponha que três turmas de Bioestatística estão sendo ofertadas neste quadrimestre e estamos interessados em saber se o desempenho dos alunos destas turmas foi diferente? Alguém poderia sugerir o seguinte “por que não usar vários testes t para investigar isto?”. Em outras palavras, se comparararmos as turmas A e B; depois as turmas A e C e, finalmente, as turmas B e C não levaria ao que estamos interessados? Embora estes testes consigam cumprir estes objetivos e testar as diferenças, esta abordagem não é adequada por algumas razões:

As médias dos grupos que não estão sendo comparados são ignoradas
Aumenta a chance de erro Tipo I e, portanto, aumenta a probabilidade de observar diferenças significativas por acaso.
Quanto mais médias (grupos) existem para comparar, maior é o número de testes estatíticos (e.g. testes \(t\))

Portanto, uma outra abordagem é necessária para responder se estas diferenças existem. Este é um problema frequente em estudos clínicos uma vez que necessitamos entender os efeitos de intervenções (e.g. intervenções terapêuticas ou preventivas) quando mais de 2 grupos ou mais de uma fator são envolvidos. Portanto, a análise de variância (ANOVA) é uma das ferramentas mais utilizadas neste tipo de estudo pois é uma abordagem estatística capaz de examinar diferenças observadas nas médias dos grupos (baseado em suas variâncias esperadas) e as variâncias não explicadas devido a chance por exemplo. Então, ao invés de usarmos a distribuição \(z\) ou \(t\) usaremos uma outra família de distribuição conhecida como \(F\) também conhecida como distribuição de Fisher-Snedecor devido a contribuição de Ronald Fisher.

Pressupostos Básicos da ANOVA

A análise de variância (ANOVA - ANalysis Of VAriance) é um processo de análise baseado na decomposição da variação total, existente entre uma série de observações, em partes que podem ser atribuídas a causas conhecidas (por exemplo, tratamentos e blocos) e uma parte devida a causas desconhecidas (erro experimental ou resíduo).

Para que uma análise de variância seja considerada válida, certas premissas devem ser atendidas:

Os efeitos principais devem ser aditivos: Em experimentos, cada observação segue um modelo matemático chamado modelo linear aditivo,

\[ y_{ij} = \mu + \tau_i + \epsilon_{ij} \]

ou seja, cada um dos efeitos que compõem o modelo deve ser somado.

Na maioria das situações, esse requisito é atendido. Quando não é, as principais consequências dizem respeito ao nível de significância que se pensa estar sendo testado. Esse inconveniente pode ser superado transformando a variável resposta, por exemplo, usando logaritmos.
Os erros de observação devem ser independentes: Cada observação tem um erro que deve ser independente dos demais, sejam eles de observações relacionadas ao mesmo tratamento ou de observações relacionadas a outros tratamentos. Isso implica que os efeitos do tratamento devem ser independentes, isto é, que não há correlação entre eles ou ainda, que a

\[ \mathrm{cov}(\epsilon_{ij},\, \epsilon_{ij}^´) = 0 \]
Os erros devem ter distribuição normal: Os erros devem ter uma distribuição de probabilidade normal. Para que a análise de variância seja considerada válida, os erros devem originar-se da mesma população. Isso implica que todos os erros relacionados às observações têm a mesma distribuição de probabilidade. Aqui também, a transformação de dados pode ser usada para corrigir esse inconveniente.
Os erros devem ter variância comum (homocedasticidade). Os componentes de erro devem ser estimados a partir da mesma população. Isso implica que cada tratamento deve ter aproximadamente a mesma variância para que os testes de análise de variância sejam válidos.

Essa suposição pode ser testada usando o teste F máximo ou o teste F de Hartley quando o número de repetições é o mesmo para todos os tratamentos. Quando o número de repetições não é o mesmo para todos os tratamentos, o teste de Bartlett pode ser usado.

Quando as variâncias não são homogêneas, diz-se que existe heterocedasticidade. As suposições relativas aos erros podem ser resumidas na seguinte expressão:

\[ \epsilon_{ij} \overset{\text{i i d}}{\sim} N(0, \sigma^2) \]

Todas essas suposições podem ser verificadas na prática realizando-se uma análise de resíduos. As metodologias serão apresentadas posteriormente.

Estimação dos Parâmetros do Modelo de ANOVA

A Análise de Variância (ANOVA) é um teste utilizado para comparar médias de três ou mais populações, por meio da análise de variâncias amostrais.

O teste se baseia em uma amostra extraída de cada população, com o intuito de determinar se as diferenças entre as médias amostrais sugerem diferenças significativas entre as médias populacionais, ou se tais diferenças são decorrentes apenas da variabilidade implícita da amostra.

AANOVA de um fator, conhecida em inglês como One-Way ANOVA, é a extensão do teste t de Student para duas médias populacionais, o que permite ao pesquisador a comparação de três ou mais médias populacionais.

A hipótese nula do teste afirma que as médias populacionais são iguais; se existir pelo menos um grupo com média diferente dos demais, a hipótese nula é rejeitada.

Para Fávero et al. (2009), a ANOVA de um fator permite verificar o efeito de uma variável explicativa de natureza qualitativa (fator) em uma variável dependente de natureza quantitativa. Cada grupo inclui as observações da variável dependente em uma categoria do fator.

Supondo que amostras independentes de tamanho n sejam extraídas de k populações (k ~ 3) e que as médias dessas populações possam ser representadas por µ1, IL2,, … , µk> a análise de variância testa as seguintes hipóteses:

\[ \begin{aligned} H_0: &\ \quad \mu_1 = \mu_2 = \cdots = \mu_k \\ \\ H_1: &\ \quad \mu_i \neq \mu_{j} \ \text{para pelo menos um par } (i,j) \ \text{com } i \neq j \\[10pt] \\ &\ \quad \mu_i = \mu + \tau_i \quad i,\,j = 1,2,\ldots,n \end{aligned} \]

Mas, se a hipótese nula for verdadeira, todos os tratamentos têm uma média comum \(\mu\). Equivalentemente, podemos escrever a hipótese acima da seguinte forma:

\[ H_0: \quad \tau_1 = \tau_2 = \cdots = \tau_I \qquad \qquad \mid \qquad \qquad H_1: \quad \tau_i \neq 0 \qquad \text{para pelo menos um } i \]

ou seja que os efeitos do tratamento (níveis do fator) são iguais e nulos entre todas as amostras (\(H_0\)), ou que existem pelo menos dois efeitos que são diferentes. É claro que se os efeitos dos tratamentos são iguais então as médias populacionais também serão iguais.

Baseado no modelo teórico da ANOVA na população é possível escrever o modelo da ANOVA mas agora a partir das observações amostrais:

\[ y_{ij} = \bar{y} + (\bar{y}_i - \bar{y}) + (y_{ij} - \bar{y}_i) \]

\(ij\): Observação \(j\) no grupo \(i\)
\(\overline{Y}\): Média geral amostral (estimativa de \(\mu\))
\((\overline{Y}_i - \overline{Y})\): Efeito do tratamento (estimativa de \(\alpha_i\))
\((Y_{ij} - \overline{Y}_i)\): Resíduos (estimativa de \(\varepsilon_{ij}\))

Segundo Maroco (2014), de forma genérica, as observações para este tipo de problema podem ser representadas de acordo com o Quadro

Amostras ou Grupos
Amostras ou Grupos
1	2	3	4	…	k
\(Y_{11}\)	\(Y_{12}\)	\(Y_{13}\)	\(Y_{14}\)	\(\cdots\)	\(Y_{1k}\)
\(Y_{21}\)	\(Y_{22}\)	\(Y_{23}\)	\(Y_{24}\)	\(\cdots\)	\(Y_{2k}\)
\(\vdots\)	\(\vdots\)	\(\vdots\)	\(\vdots\)	\(\ddots\)	\(\vdots\)
\(Y_{n_1 1}\)	\(Y_{n_2 2}\)	\(Y_{n_3 3}\)	\(Y_{n_4 4}\)	\(\cdots\)	\(Y_{n_k k}\)

em que \(Y{ij}\) representa a observação \(i\) da amostra ou grupo \(j \, \,(i = 1,\, 2,\, 3,\, \cdots,\, n_j\,; \quad j = 1,\, 2,\, 3,\, \cdots,\, k)\) e \(n_j\) é a dimensão da amostra \(k\) ou grupo \(j\). A dimensão da amostra global é \(N=\sum_{i=1}^k n_i\).

As hipóteses da técnica são testadas a partir do cálculo das variâncias dos grupos, daí o no ANOVA. A técnica envolve o cálculo das variações entre os grupos \((\overline Y_i; - \overline Y)\) e dentro de cada grupo \((Y_{ij} - \overline Y_i)\).

A Soma dos Quadrados dos Erros ou dos Resíduos (SQE) dentro dos grupos é calculada por:

\[ SQE = \sum_{i=1}^k \sum_{j=1}^{n_i} \left( Y_{ij} - \overline Y_i \right)^2 = \sum_{i=1}^k \left( n_i-1 \right) \cdot S^2_i \]

onde \(S^2_i\) é o estimador da variância da amostra \(i\).

Já a soma dos quadrados dos erros entre os grupos, ou soma dos quadrados do fator (SQF), é dada por:

\[ SQF = \sum_{i=1}^k n_i \cdot \left( \overline Y_i - \overline Y \right)^2 \]

Logo, a Soma dos Quadrados Totais (SQT) é a soma dos quadrados dos desvios de todas as observações em torno da média geral, isto é:

\[ SQT = SQF + SQE = \sum_{i=1}^k \sum_{j=1}^{n_i} \left( Y_{ij} - \overline Y \right)^2 = \sum_{i=1}^k \left( N-1 \right) \cdot S^2 \]

onde \(S^2\) é o estimador da variância total.

Segundo Fávero et ai. (2009) e Maroco (2014), a estatística da ANOVA é dada pela razão entre a variância do fator (SQF dividido por \(k - 1\) graus de liberdade) e a variância dos erros (SQE dividido por \(N - k\) graus de liberdade), de modo que:

\[ F = \frac{\frac{SQF}{k-1}}{\frac{SQE}{N-k}} = \frac{SQF}{k-1} \cdot \frac{N-k}{SQE} = \frac{QMF}{QME} \sim F_{(k-1,\,\, N-k)} \]

em que:

QMF representa o quadrado médio do fator (estimativa da variância do fator);
QME representa o quadrado médio dos erros (estimativa da variância do modelo).

O valor de F pode ser nulo ou positivo, mas nunca negativo. A ANOVA requer, portanto, uma distribuição F assimétrica à direita.

O valor calculado \(F_{cal}\) deve ser comparado com o valor tabelado (Tabela Distribuição F de Snedecor) (Reis et al., 1999).

Essa tabela fornece os valores críticos de \(F_{cal}=F_{(1-\alpha,\,\, k-1,\,\, N-k)}\) tal que \(P(F_{cal}>F_{tab})=\alpha\) (para um teste unilateral à direita). Portanto, a hipótese nula (\(H_0\)) da ANOVA de um fator é rejeitada se \(F_{cal}>F_{tab}\).

A maioria dos softwares resume estes cálculos num quadro do tipo:

\[ \begin{array}{|c|c|} \hline \text{Fonte de variação} & \text{Soma dos quadrados} & \text{Graus de liberdade} & \text{Quadrados médios} & F & \text{Signif.} \\ \hline \text{Entre os grupos} & SQF & k - 1 & QMF & \frac{QMF}{QME} & \text{valor-p}\\ \hline \text{Dentro dos grupos} & SQE & N - k & QME & -- & -- \\ \hline \text{Total} & SQT & N - 1 & --- & -- & -- \\ \hline \end{array} \]

Brown & Forsythe (1974a, 1974b) deduziram duas estatísticas de teste alternativas. A estatística \(F\) de Welch é

\[ F_W = \frac{ \frac{1}{k-1} \sum_{i=1}^{k} w_i (\bar{Y}_i - \bar{Y}^*)^2 }{ 1 + \left[ \frac{2(k-2)}{k^2 - 1} \right] \sum_{i=1}^{k} \frac{\left[1 - (w_i/u)\right]^2}{n_i - 1} } \]

Onde \[ w_i = \frac{n_i}{S_i^2}, \quad u = \sum_{i=1}^{k} w_i, \quad \bar{Y}^* = \frac{1}{u} \sum_{i=1}^{k} w_i \bar{Y}_i. \]

A estatística \(F_W\) tem distribuição assintótica \(F(k-1, f)\) onde

\[ f = \left[ \frac{3}{k^2 - 1} \sum_{i=1}^{k} \frac{\left[1 - (w_i/u)\right]^2}{n_i - 1} \right]^{-1}. \]

A estatística \(F\) de Brown-Forsythe é

\[ F_{BF} = \frac{ \sum_{i=1}^{k} n_i (\bar{Y}_i - \bar{Y})^2 }{ \sum_{i=1}^{k} \left(1 - \frac{n_i}{N}\right) S_i^2 }. \]

Esta estatística tem distribuição assintótica \(F(k-1, l)\) onde

\[ l = \left[\sum_{i=1}^{k} \frac{c_i^2}{n_i - 1} \right]^{-1} \qquad \qquad \text{e} \qquad \qquad c_i^2 = \frac{(1 - n_i/N)^2}{\sum_{i=1}^{k} (1 - n_i/N) S_i^2} \]

Lix et al. (1996) estudaram a aplicação destas duas estatísticas em condições de heterocedasticidade concluindo que o teste \(F_W\) de Welch é o que apresenta melhor performance.

Intervalo de Confiança

O estimador pontual da média \(\mu_i\) é \(\overline{Y}_i\). Para construir o intervalo de confiança, usamos QME como estimador da variância \(\sigma^2\) e a distribuição amostral será a \(t\)-Student com \(n - k\) graus de liberdade, que é o número de graus de liberdade da SQE. Assim, o intervalo de confiança de nível \(1 - \alpha\) para \(\mu_i\) é

\[ \left[ \overline{Y}_i - t_{(n-k;\alpha/2)}\sqrt{\frac{\text{QME}}{n_i}} \; ; \; \overline{Y}_i + t_{(n-k;\alpha/2)}\sqrt{\frac{\text{QME}}{n_i}} \right] \]

Exemplo 1: Para averiguar o tempo de aprendizagem de 3 listas de palavras: Lista A com palavras curtas; Lista B com palavras de tamanho médio; Lista C com palavras compridas, foi realizada uma experiência com alunos de uma dada escola. A tabela mostra, os tempos observados, em segundos, que demoraram cada grupo de 8 alunos (escolhidos aleatoriamente entre os alunos da escola) a aprender a sua lista de palavras dada.

Com base nos resultados da experiência, poderá afirmar que existem diferenças significativas no desempenho?


Lista A	30	40	35	45	38	42	36	25
Lista B	54	58	45	60	52	56	65	52
Lista C	68	75	80	75	85	90	75	88

Obs.: Quando temos poucos dados, como neste caso é conveniente usar um teste não paramétrico. Vamos a usar uma ANOVA paramétrica apenas para poder exemplificar como são feitos todos os cálculos da estatística do teste.

\[ \overline Y_i = \frac{\sum_{i=1}^{k} Y_{ij}}{n_i} \qquad \mid \qquad \overline Y_1 = 36,375 \qquad \mid \qquad \overline Y_2 = 55,25 \qquad \mid \qquad \overline Y_3 = 79,50 \]

\[ \overline Y = \frac{\sum_{i=1}^{k} \sum_{j=1}^{n_i} Y_{ij}}{N} = 57,04 \quad \mid \quad SQF = 7477,583 \quad \mid \quad SQE = 953,375 \quad \mid \quad SQT = 8430,958 \\[15pt] \]

\[ QMF = 3738,792 \qquad \mid \qquad QME = 45,399 \qquad \mid \qquad F_{obs} = 82,354 \\[12pt] \]

O resultado do \(F_{obs}\) permite concluir que a variabilidade entre os grupos é \(82,354\) vezes maior que a variabilidade dentro dos grupo.

\[ \begin{aligned} p\text{-value} &= P(F > F_{obs} \mid H_0) = 1 - P(F < F_{obs} \mid H_0) = 1 - F_{(k-1,\, N-k)} (F_{obs}) \\ &= 1 - \text{CDF.F} (F_{obs},\, k-1,\, N-k) \\[10pt] &= 1 - \text{CDF.F} (82,354;\, 2;\, 21) < 0,0001 \end{aligned} \]

\[ \begin{array}{|c|c|} \hline \text{Fonte de variação} & \text{Soma dos quadrados} & \text{Graus de liberdade} & \text{Quadrados médios} & F & \text{Signif.} \\ \hline \text{Entre os grupos} & 7477,583 & 2 & 3738,792& 82,354 & <0,0001\\ \hline \text{Dentro dos grupos} & 953,375 & 21 & 45,399 & -- & -- \\ \hline \text{Total} & 8430,958 & 23 & --- & -- & -- \\ \hline \end{array} \]

Recorrendo ao software R (RStudio), temos:

ListA = c(30, 40, 35, 45, 38, 42, 36, 25)
ListB = c(54, 58, 45, 60, 52, 56, 65, 52)
ListC = c(68, 75, 80, 75, 85, 90, 75, 88)

Desemp = c(ListA, ListB, ListC); Equipas = factor(rep(c("A", "B", "C"), 
                                                      each = 8))

BaseDados = data.frame(Desemp, Equipas); BaseDados.av <- aov(Desemp~ Equipas, 
                                                             data = BaseDados)

#summary(BaseDados.av) # Apresenta a Tabela

anova(BaseDados.av)  # Melhor Formato para Análise

Analysis of Variance Table

Response: Desemp
          Df Sum Sq Mean Sq F value   Pr(>F)    
Equipas    2 7477.6  3738.8  82.354 1.15e-10 ***
Residuals 21  953.4    45.4                     
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Uma vez que o p-value é aproximadamente zero ⇒ rejeitamos a hipótese nula de igualdade de médias para qualquer nível de significância.

Assim, a ANOVA permite concluir: para qualquer nível de significância, as médias dos vários grupos não são todas iguais, o que quer dizer que existem diferenças significativas no desempenho da aprendizagem das três listas de palavras.

Métodos de Comparações Múltiplas

Comparação de médias - Teste\(t-Student\)

O processo mais simples para responder à questão — quais as médias significativamente diferentes entre si? — consiste em utilizar o teste \(t\) de Student para a igualdade de cada par de médias.

\[ H_0: \quad \mu_i = \mu_j \qquad \qquad \mid \qquad \qquad H_1: \quad \mu_i \neq \mu_j \]

Para além do inconveniente gerado pelo elevado número de testes a realizar, acresce a dificuldade adicional de não se conhecer com exatidão o nível de significância simultâneo, devido à não independência entre os vários testes. Estas são as principais razões para a definição de ensaios de hipóteses simultâneos, que permitem investigar onde se encontram as possíveis diferenças entre \(k\) médias populacionais, controlando simultaneamente o nível de significância.

Necessidade de Comparações Múltiplas

Quando o teste \(F\) acusa diferença significativa entre as médias dos \(k\) tratamentos, não há informação de qual, ou quais, são diferentes. Sendo assim, é necessária uma análise de acompanhamento (follow up) para identificar onde está a diferença. Note que essa análise só faz sentido se o teste \(F\) foi significante.

Como estamos comparando várias médias, tal análise envolve múltiplas comparações de pares de médias. Uma possível solução seria analisar individualmente cada par possível de médias através de um teste \(t\) com nível de significância \(\alpha\). Lembre-se que o nível de significância é a probabilidade do erro tipo I, ou seja, rejeitar \(H_0\) (declarar que o teste é significante) quando \(H_0\) é verdadeira (nenhuma diferença entre as médias, ou seja, as observações vêm de uma única população).

Problema do Erro Tipo I

Num teste de igualdade de várias médias, ainda queremos manter pequena a probabilidade do erro tipo I (teste significante quando \(H_0\) é verdadeira). Suponhamos que haja 4 grupos; então, existem \((4 \cdot 3)/2 = 6\) pares de médias a comparar. Se fizermos as 6 comparações através de testes \(t\) independentes com \(\alpha = 0{,}05\), a probabilidade de obtermos pelo menos um teste significante (dentre os 6) quando \(H_0\) é verdadeira será \(1 - 0{,}95^6 = 0{,}265\).

Se cada teste individual tem tamanho \(\alpha\), então a probabilidade de se obter pelo menos um resultado significante entre \(m\) testes quando todas as hipóteses nulas são verdadeiras é \(1 - (1 - \alpha)^m\).

Há várias propostas para tratar a comparação simultânea de várias médias, de forma a controlar o tamanho do erro tipo I do experimento, que é a probabilidade de se obter pelo menos um resultado significante (rejeitar \(H_0\)) quando todas as hipóteses nulas são verdadeiras.

Testes de Comparação Múltiplas

Muitos testes de comparação múltipla já foram desenvolvidos, destacando-se como mais conhecidos os seguintes:

teste de comparação múltipla de Dunn;
teste LSD (least significant difference) de Fisher;
teste HSD (honestly significant difference) de Tukey;
teste de Scheffé;
teste de Newman-Keuls;
teste de Duncan.

Estes testes diferem no modo como analisam as diferenças de médias e ainda no método de controlo do nível de significância. Os mais utilizados são o teste HSD de Tukey e o teste de Scheffé.

As preferências pelo último justificam-se por várias razões: a sua maior simplicidade de cálculo, o facto de permitir a utilização de amostras com diferentes dimensões e ainda por ser um método robusto no que respeita aos pressupostos de normalidade e igualdade de variâncias das populações. Um teste estatístico diz-se robusto quando a sua validade não é alterada pela violação dos pressupostos que lhe estão subjacentes.

No entanto, quando os grupos amostrais têm idêntica dimensão, o método HSD de Tukey é mais preciso, pois gera intervalos de confiança com menor amplitude. Por sua vez, o método de Scheffé tende a ser mais conservativo, ou seja, nas mesmas condições, tem uma maior probabilidade de não rejeitar a hipótese nula quando ela é verdadeira.

Teste HSD de Tukey

Sejam \(n_1, n_2, \ldots, n_k\) as dimensões das amostras retiradas de \(K\) populações normais com iguais variâncias, com \(n = \sum_{j=1}^{k} n_j\) e seja \(S^2\) a variância amostral total, calculada a partir das variâncias amostrais \(S_j^2\):

\[ S^2 = \frac{1}{n - k} \sum_{j=1}^{k} (n_j - 1)\, S_j^2. \]

A estatística do teste HSD de Tukey é a seguinte:

\[ W = \frac{g\, S}{\sqrt{a}} \]

sendo \(g\) o valor do quantil de probabilidade \((1 - \alpha)\) para a distribuição da Studentized Range (ver tabela) com \((k, n - k)\) graus de liberdade e \(a\) a média harmónica das dimensões das amostras:

\[ a = \frac{2}{\frac{1}{n_i} + \frac{1}{n_j}}. \]

Quando as amostras têm igual dimensão (\(n_1 = n_2 = \cdots = n_k\)), situação em que é aconselhada a aplicação do teste de Tukey, o valor de \(a\) é igual à dimensão de cada amostra (\(n_j\)).

Se a diferença, em valor absoluto, entre cada par de médias for superior a \(W\), a hipótese nula de igualdade das duas médias populacionais deverá ser rejeitada, isto é, cada hipótese nula

\[ H_0: \mu_i = \mu_j \]

é rejeitada quando

\[ \left| \bar{X}_i - \bar{X}_j \right| \geq W \]

ou ainda

\[ \left| \bar{X}_i - \bar{X}_j \right| \geq \frac{g\, S}{\sqrt{a}}. \]

Teste de Scheffé

O teste de Scheffé utiliza uma transformação da distribuição \(F\) de Snedecor para medir o nível de significância das comparações múltiplas.

É a seguinte a estatística do teste de Scheffé:

\[ T_S = \frac{\left| \bar{X}_i - \bar{X}_j \right|}{\sqrt{S^2 \left( \frac{1}{n_i} + \frac{1}{n_j} \right)}}. \]

sendo \(S^2\) a variância total amostral e \(F_{(1-\alpha,\, k-1,\, n-k)}\) o quantil de probabilidade \((1 - \alpha)\) da distribuição \(F\) com \((k - 1, n - k)\) graus de liberdade.

As hipóteses nulas

\[ H_0: \mu_i = \mu_j \]

são rejeitadas quando

\[ T_S \geq \sqrt{(k - 1)\, F_{(1-\alpha,\, k-1,\, n-k)}} \]

ou ainda quando

\[ \left| \bar{X}_i - \bar{X}_j \right| \geq \sqrt{(k - 1)\, F_{(1-\alpha,\, k-1,\, n-k)} \cdot S^2 \left( \frac{1}{n_i} + \frac{1}{n_j} \right)}. \]

Teste de Bonferroni

Suponha que temos \(k\) grupos e, portanto, \(c = \binom{k}{2} = \frac{k(k-1)}{2}\) pares de médias a comparar. Cada par de médias será comparado através de um teste \(t\), com a variância sendo estimada pela MQE. O nível de significância de cada teste individual será o nível de significância global dividido por \(c\). Dessa forma, para comparação das médias das populações \(i_1\) e \(i_2\), os limites dos intervalos de confiança de Bonferroni de nível de confiança \(100(1 - \alpha)\%\) são dados por

\[ (\overline{x}_{i_1} - \overline{x}_{i_2}) \pm t_{n-k;\alpha/(2c)} \sqrt{\text{MQE} \left( \frac{1}{n_{i_1}} + \frac{1}{n_{i_2}} \right)} \]

Os graus de liberdade da \(t\)-Student vêm da média quadrática dos erros. O nível de significância de cada intervalo individual é ajustado para o número de comparações: note que \(\alpha/(2c) = (\alpha/2)/c\).

Com cada um desses intervalos testa-se a hipótese

\[ H_0 : \overline{x}_{i_1} = \overline{x}_{i_2}. \]

e rejeita-se \(H_0\) se o 0 não estiver contido no intervalo de confiança.

Verificação da Adequação do Modelo - Análise de Resíduos

ANOVA com Amostras de Dimenões Diferentes

Determinação do Tamanho da Amostra

CAPÍTULO III

ANOVA para Dois Fatores

Column

Introdução

CAPÍTULO IV

Planeamento Factoriais do Tipo\(2^k\)

Column

Introdução

CAPÍTULO V

Planeamento em Blocos e Quadrados Latinos

Column

Introdução

CAPÍTULO VI

Experimentos Factoriais Confundidos em Blocos

Column

Introdução

EXERCÍCIOS

Column

De um estudo do mercado, cujo objectivo principal era detectar as diferencas de comportamento dos leitores de três semanários (Expresso, Independente e Semanário), retiraram-se as seguintes resultados relativos ao tempo de leitura (em minutos) de cada leitor:


Expresso	100	110	85	60	95	96	78	120
Independente	80	70	65	75	69	91
Semanário	62	65	68	75	80	70

Uma amostra de 32 produtos é coletada para analisar a qualidade do mel de três fornecedores. Uma das me didas de qualidade do mel é a porcentagem de sacarose, que normalmente varia de 0,25 a 6,5%. A Tabela seguinte apresenta a percentagem de sacarose para a amostra recolhida de cada fornecedor. Verifique se há diferenças desse indicador de qualidade entre os três fornecedores, considerando o nível de significância de 5%.


Fornecedor_1	0.33	0.79	1.24	1.75	0.94	2.42	1.97	0.87	0.33	0.79	1.24	3.12
Fornecedor_2	1.54	1.11	0.97	2.57	2.94	3.44	3.02	3.55	2.04	1.67
Fornecedor_3	1.47	1.69	1.55	2.04	2.67	3.07	3.33	4.01	1.52	2.03

Uma amostra com 24 passageiros que viajam no percurso São Paulo-Campinas em determinada semana é co letada. São analisadas as seguintes variáveis: (1) Tempo de viagem em minutos, (2) Companhia de ônibus escolhida e (3) Dia da semana. O objetivo é verificar se existe relação entre tempo de viagem e a companhia de ônibus, entre tempo de viagem e o dia da semana, e entre a companhia de ônibus e o dia da semana.

Os níveis conside rados na variável companhia de ônibus são: empresa A (1), empresa B (2) e empresa C (3).Já os níveis referentes ao dia da semana são: segunda-feira (1), terça-feira (2), quarta-feira (3), quinta-feira (4), sexta-feira (5), sábado (6) e domingo (7). Os resultados da amostra são apresentados na tabela seguinte. Teste as hipóteses em questão, considerando o nível de significância de 5%.

Variável
Tempo	90	100	72	76	85	95	79	100	70	80	85	90
Tempo	77	80	85	74	72	92	84	80	79	70	88	84
Companhia	2	1	1	3	2	1	3	2	1	3	2	1
Companhia	2	1	3	2	3	1	2	1	2	3	3	2
Dia	4	5	6	1	2	5	1	4	7	1	3	5
Dia	7	2	4	7	6	5	4	3	1	6	5	4