Uma senhora toma chá

Imagem

Era uma tarde de verão em Cambridge, Inglaterra, no final dos anos 1920. Um grupo de professores universitários, suas esposas e alguns convidados tomaram lugar a uma mesa no jardim para o chá da tarde. Uma das mulheres insistia em afirmar que o chá servido sobre o leite parecia ficar com gosto diferente do que apresentava ao receber o leite sobre ele. As cabeças científicas dos homens zombaram do disparate. Qual seria a diferença? Não podiam conceber diferença alguma na química da mistura. Um homem de estatura baixa, magro, de óculos grossos e cavanhaque começando a ficar grisalho interessou-se pelo problema. “Vamos testar a proposição”, animou-se. Começou a esboçar um experimento no qual a senhora que insistira haver diferença seria servida com uma sequência de xícaras, algumas com o leite servido sobre o chá, e outras com o chá servido sobre o leite.

Imagem

Quase posso ouvir alguns leitores menosprezando esse esforço como momento menor de uma conversa em tarde de verão. “Que diferença faz se a senhora consegue distinguir uma infusão da outra?”, perguntarão. “Nada existe de importante ou de grande mérito científico nesse problema”, argumentarão com desprezo. “Essas cabeças privilegiadas deveriam usar sua poderosa capacidade cerebral para algo que beneficiasse a humanidade.”

Lamento, mas, apesar do que os não cientistas possam pensar sobre a ciência e sua importância, minha experiência leva-me a acreditar que a maioria dos cientistas se empenha em suas pesquisas porque está interessada nos resultados e porque obtém estímulo intelectual com suas tarefas. Raras vezes os bons cientistas pensam a respeito da importância de seu trabalho. Assim foi naquela ensolarada tarde em Cambridge. A senhora poderia ou não estar certa sobre o paladar do chá. A graça estava em encontrar um modo de afirmar se estava certa, e, sob a direção do homem de cavanhaque, começaram a discutir como poderiam fazer isso.
Imagem

Entusiasmados, vários deles se envolveram no experimento e em poucos minutos estavam servindo diferentes padrões de infusão sem que a senhora os pudesse ver. Então, com ar de objetividade, o homem de cavanhaque ofereceu-lhe a primeira xícara. Ela tomou um pequeno gole e declarou que, naquela, o leite fora colocado sobre o chá. Ele anotou a resposta sem comentários e lhe passou a segunda xícara…

Usando este experimento simples, Fisher estabeleceu a maioria dos princípios fundamentais para testes de hipóteses, o que contribuiu para grandes avanços nas ciências biológicas e físicas.

A natureza cooperativa da ciência

Ouvi essa história no final dos anos 1960, contada por um homem que lá estivera naquela tarde, Hugh Smith, cujos trabalhos científicos eram publicados sob o nome de H. Fairfield Smith. Quando o conheci, era professor de estatística na Universidade de Connecticut, na cidade de Storrs, onde eu completara meu doutorado em estatística dois anos antes. Depois de lecionar na Universidade da Pensilvânia, eu ingressara no Departamento de Pesquisa Clínica da Pfizer, Inc., uma grande empresa farmacêutica, cujo campus de pesquisa em Groton, Connecticut, estava a uma hora de carro de Storrs. Na Pfizer, eu lidava com muitos problemas matemáticos difíceis; na época, era o único estatístico, e precisava discutir esses problemas e minhas “soluções” para eles.
Trabalhando na Pfizer, eu me dera conta de que poucas pesquisas científicas podem ser desenvolvidas por uma só pessoa; habitualmente elas exigem a combinação de algumas cabeças pensantes, porque é muito fácil cometer erros. Quando eu propunha uma fórmula matemática como meio de resolver um problema, o modelo podia ser inadequado, ou talvez eu tivesse introduzido uma premissa incorreta sobre a situação, ou a “solução” que eu encontrara poderia ter sido derivada do ramo errado de uma equação, ou eu poderia ter cometido um mero erro de cálculo.

Sempre que visitava a universidade em Storrs, para falar com o professor Smith, ou quando discutia problemas com os cientistas e farmacologistas da Pfizer, as questões que eu trazia em geral eram bem recebidas. Eles participavam dessas discussões com entusiasmo e interesse. O que faz a maioria dos cientistas se interessar por seu trabalho é, quase sempre, o desafio do problema: a expectativa da interação com outros os alimenta enquanto examinam uma questão e tentam entendê-la.

O desenho experimental

Imagem

E assim foi naquela tarde de verão em Cambridge. O homem de cavanhaque era Ronald Aylmer Fisher, na época com 30 e tantos anos, que posteriormente receberia o título de sir Ronald Fisher. Em 1935, publicou The Design of Experiments, em cujo segundo capítulo descreveu o experimento da senhora provando chá.

Nesse livro, Fisher analisa a senhora e sua crença como um problema hipotético e considera os vários experimentos que podem ser planejados para determinar se era possível a ela notar a diferença. O problema do desenho experimental é que, se lhe for dada uma única xícara de chá, ela tem 50% de chance de acertar a ordem da mistura, ainda que não possa apontar a diferença. Se lhe forem dadas duas xícaras, ela ainda pode acertar de fato, se ela souber que as duas xícaras de chá foram servidas com ordens de mistura diferentes, sua resposta poderia ser completamente certa (ou completamente errada).

Imagem

De modo similar, ainda que ela pudesse notar a diferença, haveria a chance de ela ter se enganado, de uma xícara não estar bem misturada, ou de a mistura ter sido feita com o chá não suficientemente quente. Ela poderia ter sido apresentada a uma série de dez xícaras e identificado corretamente apenas nove delas, mesmo que fosse capaz de acusar a diferença.
Imagem

No livro, Fisher discute os vários resultados possíveis de tal experimento. Descreve como decidir quantas xícaras devem ser apresentadas e em que ordem, e o quanto revelar à senhora sobre a ordem da apresentação. Formula as probabilidades de diferentes resultados, dependendo de a senhora estar certa ou não. Em nenhum ponto dessa discussão ele indica se o experimento de fato ocorreu nem descreve o resultado de um experimento real.

O livro sobre desenho experimental de Fisher foi um elemento importante na revolução que atravessou todos os campos da ciência na primeira metade do século XX. Bem antes de Fisher entrar em cena, experimentos científicos já vinham sendo realizados havia centenas de anos. Na última parte do século XVI, o médico inglês William Harvey fez experiências com animais, bloqueando o fluxo de sangue em diferentes veias e artérias, tentando traçar o caminho da circulação do sangue enquanto fluía do coração para os pulmões, de volta ao coração, para o corpo e de novo para o coração.

Fisher não descobriu a experimentação como meio de aumentar o conhecimento. Até então, os experimentos eram idiossincráticos a cada cientista. Bons cientistas seriam capazes de elaborar experimentos que produzissem novos conhecimentos. Cientistas menores com frequência se empenhariam em “experimentações” que, embora acumulassem muitos dados, não contribuíam para aumentar o conhecimento, como, por exemplo, as muitas tentativas inconclusivas feitas durante o final do século XIX para medir a velocidade da luz. Só depois que o físico norte-americano Albert Michelson construiu uma série altamente sofisticada de experimentos com luz e espelhos é que foram feitas as primeiras boas estimativas.

Imagem

No século XIX, os cientistas raramente publicavam o resultado de seus experimentos. Em vez disso, descreviam suas conclusões, cuja veracidade “demonstravam” com os dados obtidos. Gregor Mendel não apresentou os resultados de todas as suas experiências a respeito do cultivo de ervilhas. Descreveu a sequência de experimentos e acrescentou: “Os primeiros dez membros de ambas as séries de experiências podem servir de ilustração…” (Nos anos 1940, Ronald Fisher examinou as “ilustrações” de dados de Mendel e descobriu que os dados eram bons demais para ser verdade. Eles não apresentavam o grau de aleatoriedade que teria ocorrido de fato.) Apesar de a ciência ter sido desenvolvida com base em pensamentos, observações e experimentos cuidadosos, nunca ficara completamente esclarecido como os experimentos deveriam ser desenvolvidos, nem os resultados completos das experiências eram habitualmente apresentados ao leitor.

Imagem

Isso era particularmente verdadeiro para a pesquisa agrícola no final do século XIX e começo do XX. A Estação Agrícola Experimental Rothamsted vinha fazendo experiências com diferentes compostos de fertilizantes (chamados de “estrumes artificiais”) havia quase 90 anos quando contratou Fisher, nos primeiros anos do século XX. Em um experimento típico, os trabalhadores espalhavam uma mistura de sais de fosfato e nitrogênio sobre um determinado campo, plantavam grãos e mediam o tamanho da colheita, com a quantidade de chuva durante aquele verão. Havia fórmulas elaboradas para “ajustar” a produção de um ano ou de um campo, para compará-la com a produção de outro campo ou do mesmo campo em outro ano eram chamadas de “índices de fertilidade”, e cada estação agrícola experimental tinha seu próprio índice de fertilidade, que acreditava ser mais exato que qualquer outro.

O resultado desses noventa anos de experiências consistia em ampla confusão e grandes pilhas de dados não publicados e inúteis. Aparentemente, algumas linhagens de trigo respondiam melhor que outras a um fertilizante, mas só nos anos de chuvas excessivas. Outras experiências pareciam mostrar que o uso de sulfato de potássio em um ano, seguido de sulfato de sódio no próximo, produzia aumento em algumas variedades de batatas, mas não em outras. O máximo que se podia afirmar a respeito esses adubos artificiais é que alguns às vezes funcionavam, ou não.
Imagem

Fisher, um matemático perfeito, examinou o índice de fertilidade que os cientistas agrícolas de Rothamsted usavam para corrigir os resultados das experiências levando em conta as diferenças atribuíveis ao clima, de ano para ano. Examinou também os índices concorrentes empregados por outras estações agrícolas experimentais reduzidos à álgebra elementar, eram, todos eles, versões da mesma fórmula. Em outras palavras, dois índices, cujos proponentes defendiam com vigor, na verdade faziam exatamente a mesma correção. Em 1921, ele publicou um artigo na principal revista agrícola, Annals of Applied Biology, no qual demonstra não fazer qualquer diferença se um índice ou outro fosse utilizado. O artigo também mostrava que os dois eram inadequados para compensar as disparidades de fertilidade em campos diferentes. Esse notável artigo encerrou mais de 20 anos de disputa científica.

Fisher examinou então os dados pluviométricos e de produção de grãos nos 90 anos anteriores e concluiu que os efeitos das diferenças de clima, de ano a ano, eram muito maiores que qualquer efeito dos diferentes fertilizantes. Para usar uma palavra que Fisher desenvolveu mais tarde, em sua teoria de desenho experimental, as diferenças ano a ano de clima e as diferenças ano a ano de adubos artificiais estavam “confundidas”. Isso significava que não havia forma de separá-las usando dados dessas experiências. O esforço de 90 anos de experimentação e mais de 20 anos de disputa científica representava um desperdício quase completo!
Imagem

Isso levou Fisher a pensar sobre experimentos e desenho experimental. Ele concluiu que o cientista precisa começar com um modelo matemático do resultado do experimento potencial. Modelo matemático é um conjunto de equações nas quais alguns símbolos substituem os números que serão coletados como dados dos experimentos, e outros símbolos substituem os resultados gerais do experimento. O cientista começa com os dados do experimento e avalia os resultados apropriados para a questão científica com que está lidando.

Considere o exemplo simples do experimento que envolve um professor e um aluno específico. Interessado em encontrar alguma medida de quanto o aluno aprendeu, o professor “experimenta”, dando à criança um conjunto de testes que valem de 0 a 100. Cada um desses testes fornece uma estimativa fraca de quanto a criança sabe. Ela pode não ter estudado os poucos itens que constavam de um teste, mas saber muito sobre outras partes da matéria que ali não foram contempladas; pode ter sentido dor de cabeça no dia de algum desses testes; ou ter discutido com os pais na manhã de outro. Por muitas razões, um teste não permite boa estimativa do conhecimento. Assim, o professor aplica uma série de testes; a pontuação média de todos esses testes é tomada como a melhor estimativa do conhecimento do aluno. Quanto a criança sabe é o resultado. Os pontos em cada teste são os dados.

Imagem

Como o professor deveria estruturar esses testes? Numa sequência que cobrisse apenas a matéria ensinada nos últimos dois dias? Cada um deles contendo aspectos de toda a matéria ensinada até então? Aplicados semanalmente? Diariamente? Ou ao final de cada unidade ensinada? Todas essas questões dizem respeito ao desenho experimental.
Quando o cientista agrícola quer conhecer o efeito de um fertilizante artificial particular sobre o crescimento do trigo, deve elaborar um experimento que lhe forneça os dados para estimar tal efeito. Fisher mostrou que o primeiro passo no planejamento desse experimento é estabelecer uma série de equações matemáticas que descreva a relação entre os dados que serão coletados e os resultados que estão sendo estimados. O experimento será útil se permitir a estimativa desses resultados. Para tanto, deve ser específico e permitir ao cientista determinar a diferença no resultado atribuível ao clima versus a diferença resultante do uso de diferentes fertilizantes. Em particular, é necessário incluir todos os tratamentos que estão sendo comparados no mesmo experimento, algo que veio a ser denominado “controles”.
Em Design of Experiments, Fisher forneceu alguns exemplos de bom desenho experimental, e deduziu regras gerais para eles. No entanto, a matemática dos métodos de Fisher era muito sofisticada, e a maioria dos cientistas não era capaz de gerar seus próprios planejamentos a não ser que seguisse o padrão de algum dos que Fisher apresentara em seu livro.

Os cientistas agrícolas reconheceram o grande valor do trabalho de Fisher sobre o planejamento de experimentos, e os métodos fisherianos logo dominaram as escolas de agricultura na maior parte do mundo de língua inglesa. A partir do trabalho inicial de Fisher, um bloco de bibliografia científica se desenvolveu para descrever diferentes desenhos experimentais que foram aplicados a outros campos além da agricultura, incluindo medicina, química e controle de qualidade industrial. Em muitos casos, a matemática utilizada é requintadíssima. Por enquanto, porém, fiquemos com a ideia de que ao cientista não basta lançar-se em experimentos é preciso também reflexão cuidadosa e, frequentemente, uma dose generosa de matemática complexa.

Imagem

E quanto à senhora provando o chá? O que lhe aconteceu? Fisher não descreve o resultado do experimento naquela ensolarada tarde de verão em Cambridge; o professor Smith, entretanto, contou-me que ela identificou com precisão cada uma das xícaras.

Explicando o experimento de Fisher e seus colegas

Os cientistas prepararam 8 xícaras de chá, 4 delas com o leite primeiro e as demais com o leite sendo acrescentado depois. Então, eles apresentaram as xícaras à senhora em ordem aleatória e ela tentou adivinhar como havia sido o preparo em cada uma delas. Ela sabia que seriam dois tipos de chá. Vamos supor que ela tenha acertado 6 de 8 xícaras. Os resultados foram organizados em uma tabela de contingência:

Tabela 01 - Tentativas de adivinhação do preparo
Chá Primeiro (Verdade) Leite Primeiro (Verdade) Total
Chá Primeiro (Palpite) 3 1 4
Leite Primeiro (Palpite) 1 3 4
Total 4 4 8
Fisher calculou a probabilidade de a senhora acertar a ordem com que foi feita a infusão usando o Método Exato de Fisher, cuja fórmula é:
\[ P_{\text{Fisher}} = \dfrac{(a+b)!(c+d)!(a+c)!(b+d)!}{n!a!b!c!d!} \]
Onde: - \(a\) é o número de acertos quando o leite foi colocado primeiro - \(b\) é o número de erros quando o leite foi colocado primeiro - \(c\) é o número de acertos quando o chá foi colocado primeiro - \(d\) é o número de erros quando o chá foi colocado primeiro - \(n\) é o total de xícaras. Para a situação específica temos: - \(a = 3\) - \(b = 1\) - \(c = 1\) - \(d = 3\) - \(n = 8\).
Aplicando esses valores a fórmula fica:
\[ P_{\text{Fisher}} = \dfrac{(3+1)!(1+3)!(3+1)!(1+3)!}{8!3!1!1!3!} \]
Calculando os valores:
\[ P_{\text{Fisher}} = \dfrac{4! \times 4! \times 4! \times 4!}{8! \times 3! \times 1! \times 1! \times 3!} = \dfrac{24 \times 24 \times 24 \times 24}{40320 \times 6 \times 1 \times 1 \times 6} = \dfrac{331776}{2903040} = \dfrac{16}{70} \approx 0,22857 \]

Portanto, a probabilidade calculada pelo Método Exato de Fisher é aproximadamente 0,22857, ou 22,86%. Esse valor indica a chance de obter um resultado tão favorável quanto o observado, assumindo que não há uma habilidade especial envolvida. Em outras palavras, há cerca de 23% de chance de a senhora ter acertado 6 ou mais xícaras por acaso. A hipótese nula que os cientistas da história estavam testando era de que a senhora não possuía a habilidade de discriminar a ordem de preparo do chá. A hipótese alternativa era de que ela conseguia distinguir corretamente. Um valor de probabilidade de 0,22857 sugere que há aproximadamente 23% de chance de observar um resultado tão bom quanto o da senhora, mesmo que ela esteja apenas adivinhando.

Com esse resultado você acreditaria na senhora?

Fisher criou um método - um teste estatístico - que indicava que se o valor da probabilidade, conhecido como p-valor, fosse menor que 5%, rejeitaria-se a hipótese de que ela não conseguia distinguir os preparos. Nesse sentido o valor de 23% é muito alto, sendo possível que o desempenho na escolha, tenha sido apenas acaso.
Para calcular a probabilidade de a senhora acertar todas as 8 xícaras a abordagem pode ser mais direta.
Número total de arranjos possíveis - O número total de maneiras de distribuir 4 xícaras com leite primeiro e 4 xícaras com chá primeiro é dado pela combinação:
\[ \text{Número total de arranjos} = \binom{8}{4} = 70 \]
Número de arranjos favoráveis (acertar todas as 8 xícaras): há apenas uma configuração favorável.
\[ \text{Número de arranjos favoráveis} = 1 \]
Probabilidade de acertar todas as 8 xícaras é dada pela fórmula:
\[ P(\text{acertar todas as 8}) = \dfrac{\text{Número de arranjos favoráveis}}{\text{Número total de arranjos}} \]
Substituindo os valores:

\[ P(\text{acertar todas as 8}) = \dfrac{1}{70} \approx 0,01429 \]

Portanto, a probabilidade de a senhora acertar todas as 8 xícaras, se ela estivesse apenas adivinhando, é aproximadamente 0,01429, ou 1,429%. Reza a lenda que ela acertou todas as xícaras!

Referências

FISHER, R. A. The Design of Experiments. Oliver and Boyd, Edinburgh, 1935.

SALSBURG, D. Uma senhora toma chá. Jorge Zahar: Rio de Janeiro, RJ, 2009.

Notas