Era uma tarde de verão em Cambridge, Inglaterra, no final dos anos 1920. Um grupo de professores universitários, suas esposas e alguns convidados tomaram lugar a uma mesa no jardim para o chá da tarde. Uma das mulheres insistia em afirmar que o chá servido sobre o leite parecia ficar com gosto diferente do que apresentava ao receber o leite sobre ele. As cabeças científicas dos homens zombaram do disparate. Qual seria a diferença? Não podiam conceber diferença alguma na química da mistura. Um homem de estatura baixa, magro, de óculos grossos e cavanhaque começando a ficar grisalho interessou-se pelo problema. “Vamos testar a proposição”, animou-se. Começou a esboçar um experimento no qual a senhora que insistira haver diferença seria servida com uma sequência de xícaras, algumas com o leite servido sobre o chá, e outras com o chá servido sobre o leite.
Quase posso ouvir alguns leitores menosprezando esse esforço como momento menor de uma conversa em tarde de verão. “Que diferença faz se a senhora consegue distinguir uma infusão da outra?”, perguntarão. “Nada existe de importante ou de grande mérito científico nesse problema”, argumentarão com desprezo. “Essas cabeças privilegiadas deveriam usar sua poderosa capacidade cerebral para algo que beneficiasse a humanidade.”
Entusiasmados, vários deles se envolveram no experimento e em poucos minutos estavam servindo diferentes padrões de infusão sem que a senhora os pudesse ver. Então, com ar de objetividade, o homem de cavanhaque ofereceu-lhe a primeira xícara. Ela tomou um pequeno gole e declarou que, naquela, o leite fora colocado sobre o chá. Ele anotou a resposta sem comentários e lhe passou a segunda xícara…
Usando este experimento simples, Fisher estabeleceu a maioria dos princípios fundamentais para testes de hipóteses, o que contribuiu para grandes avanços nas ciências biológicas e físicas.
Sempre que visitava a universidade em Storrs, para falar com o professor Smith, ou quando discutia problemas com os cientistas e farmacologistas da Pfizer, as questões que eu trazia em geral eram bem recebidas. Eles participavam dessas discussões com entusiasmo e interesse. O que faz a maioria dos cientistas se interessar por seu trabalho é, quase sempre, o desafio do problema: a expectativa da interação com outros os alimenta enquanto examinam uma questão e tentam entendê-la.
E assim foi naquela tarde de verão em Cambridge. O homem de cavanhaque era Ronald Aylmer Fisher, na época com 30 e tantos anos, que posteriormente receberia o título de sir Ronald Fisher. Em 1935, publicou The Design of Experiments, em cujo segundo capítulo descreveu o experimento da senhora provando chá.
Nesse livro, Fisher analisa a senhora e sua crença como um problema hipotético e considera os vários experimentos que podem ser planejados para determinar se era possível a ela notar a diferença. O problema do desenho experimental é que, se lhe for dada uma única xícara de chá, ela tem 50% de chance de acertar a ordem da mistura, ainda que não possa apontar a diferença. Se lhe forem dadas duas xícaras, ela ainda pode acertar de fato, se ela souber que as duas xícaras de chá foram servidas com ordens de mistura diferentes, sua resposta poderia ser completamente certa (ou completamente errada).
No livro, Fisher discute os vários resultados possíveis de tal experimento. Descreve como decidir quantas xícaras devem ser apresentadas e em que ordem, e o quanto revelar à senhora sobre a ordem da apresentação. Formula as probabilidades de diferentes resultados, dependendo de a senhora estar certa ou não. Em nenhum ponto dessa discussão ele indica se o experimento de fato ocorreu nem descreve o resultado de um experimento real.
Fisher não descobriu a experimentação como meio de aumentar o conhecimento. Até então, os experimentos eram idiossincráticos a cada cientista. Bons cientistas seriam capazes de elaborar experimentos que produzissem novos conhecimentos. Cientistas menores com frequência se empenhariam em “experimentações” que, embora acumulassem muitos dados, não contribuíam para aumentar o conhecimento, como, por exemplo, as muitas tentativas inconclusivas feitas durante o final do século XIX para medir a velocidade da luz. Só depois que o físico norte-americano Albert Michelson construiu uma série altamente sofisticada de experimentos com luz e espelhos é que foram feitas as primeiras boas estimativas.
No século XIX, os cientistas raramente publicavam o resultado de seus experimentos. Em vez disso, descreviam suas conclusões, cuja veracidade “demonstravam” com os dados obtidos. Gregor Mendel não apresentou os resultados de todas as suas experiências a respeito do cultivo de ervilhas. Descreveu a sequência de experimentos e acrescentou: “Os primeiros dez membros de ambas as séries de experiências podem servir de ilustração…” (Nos anos 1940, Ronald Fisher examinou as “ilustrações” de dados de Mendel e descobriu que os dados eram bons demais para ser verdade. Eles não apresentavam o grau de aleatoriedade que teria ocorrido de fato.) Apesar de a ciência ter sido desenvolvida com base em pensamentos, observações e experimentos cuidadosos, nunca ficara completamente esclarecido como os experimentos deveriam ser desenvolvidos, nem os resultados completos das experiências eram habitualmente apresentados ao leitor.
Isso era particularmente verdadeiro para a pesquisa agrícola no final do século XIX e começo do XX. A Estação Agrícola Experimental Rothamsted vinha fazendo experiências com diferentes compostos de fertilizantes (chamados de “estrumes artificiais”) havia quase 90 anos quando contratou Fisher, nos primeiros anos do século XX. Em um experimento típico, os trabalhadores espalhavam uma mistura de sais de fosfato e nitrogênio sobre um determinado campo, plantavam grãos e mediam o tamanho da colheita, com a quantidade de chuva durante aquele verão. Havia fórmulas elaboradas para “ajustar” a produção de um ano ou de um campo, para compará-la com a produção de outro campo ou do mesmo campo em outro ano eram chamadas de “índices de fertilidade”, e cada estação agrícola experimental tinha seu próprio índice de fertilidade, que acreditava ser mais exato que qualquer outro.
Fisher, um matemático perfeito, examinou o índice de fertilidade que os cientistas agrícolas de Rothamsted usavam para corrigir os resultados das experiências levando em conta as diferenças atribuíveis ao clima, de ano para ano. Examinou também os índices concorrentes empregados por outras estações agrícolas experimentais reduzidos à álgebra elementar, eram, todos eles, versões da mesma fórmula. Em outras palavras, dois índices, cujos proponentes defendiam com vigor, na verdade faziam exatamente a mesma correção. Em 1921, ele publicou um artigo na principal revista agrícola, Annals of Applied Biology, no qual demonstra não fazer qualquer diferença se um índice ou outro fosse utilizado. O artigo também mostrava que os dois eram inadequados para compensar as disparidades de fertilidade em campos diferentes. Esse notável artigo encerrou mais de 20 anos de disputa científica.
Isso levou Fisher a pensar sobre experimentos e desenho experimental. Ele concluiu que o cientista precisa começar com um modelo matemático do resultado do experimento potencial. Modelo matemático é um conjunto de equações nas quais alguns símbolos substituem os números que serão coletados como dados dos experimentos, e outros símbolos substituem os resultados gerais do experimento. O cientista começa com os dados do experimento e avalia os resultados apropriados para a questão científica com que está lidando.
Considere o exemplo simples do experimento que envolve um professor e um aluno específico. Interessado em encontrar alguma medida de quanto o aluno aprendeu, o professor “experimenta”, dando à criança um conjunto de testes que valem de 0 a 100. Cada um desses testes fornece uma estimativa fraca de quanto a criança sabe. Ela pode não ter estudado os poucos itens que constavam de um teste, mas saber muito sobre outras partes da matéria que ali não foram contempladas; pode ter sentido dor de cabeça no dia de algum desses testes; ou ter discutido com os pais na manhã de outro. Por muitas razões, um teste não permite boa estimativa do conhecimento. Assim, o professor aplica uma série de testes; a pontuação média de todos esses testes é tomada como a melhor estimativa do conhecimento do aluno. Quanto a criança sabe é o resultado. Os pontos em cada teste são os dados.
Os cientistas agrícolas reconheceram o grande valor do trabalho de Fisher sobre o planejamento de experimentos, e os métodos fisherianos logo dominaram as escolas de agricultura na maior parte do mundo de língua inglesa. A partir do trabalho inicial de Fisher, um bloco de bibliografia científica se desenvolveu para descrever diferentes desenhos experimentais que foram aplicados a outros campos além da agricultura, incluindo medicina, química e controle de qualidade industrial. Em muitos casos, a matemática utilizada é requintadíssima. Por enquanto, porém, fiquemos com a ideia de que ao cientista não basta lançar-se em experimentos é preciso também reflexão cuidadosa e, frequentemente, uma dose generosa de matemática complexa.
E quanto à senhora provando o chá? O que lhe aconteceu? Fisher não descreve o resultado do experimento naquela ensolarada tarde de verão em Cambridge; o professor Smith, entretanto, contou-me que ela identificou com precisão cada uma das xícaras.
Os cientistas prepararam 8 xícaras de chá, 4 delas com o leite primeiro e as demais com o leite sendo acrescentado depois. Então, eles apresentaram as xícaras à senhora em ordem aleatória e ela tentou adivinhar como havia sido o preparo em cada uma delas. Ela sabia que seriam dois tipos de chá. Vamos supor que ela tenha acertado 6 de 8 xícaras. Os resultados foram organizados em uma tabela de contingência:
| Chá Primeiro (Verdade) | Leite Primeiro (Verdade) | Total | |
|---|---|---|---|
| Chá Primeiro (Palpite) | 3 | 1 | 4 |
| Leite Primeiro (Palpite) | 1 | 3 | 4 |
| Total | 4 | 4 | 8 |
Portanto, a probabilidade calculada pelo Método Exato de Fisher é aproximadamente 0,22857, ou 22,86%. Esse valor indica a chance de obter um resultado tão favorável quanto o observado, assumindo que não há uma habilidade especial envolvida. Em outras palavras, há cerca de 23% de chance de a senhora ter acertado 6 ou mais xícaras por acaso. A hipótese nula que os cientistas da história estavam testando era de que a senhora não possuía a habilidade de discriminar a ordem de preparo do chá. A hipótese alternativa era de que ela conseguia distinguir corretamente. Um valor de probabilidade de 0,22857 sugere que há aproximadamente 23% de chance de observar um resultado tão bom quanto o da senhora, mesmo que ela esteja apenas adivinhando.
Com esse resultado você acreditaria na senhora?
\[ P(\text{acertar todas as 8}) = \dfrac{1}{70} \approx 0,01429 \]
Portanto, a probabilidade de a senhora acertar todas as 8 xícaras, se ela estivesse apenas adivinhando, é aproximadamente 0,01429, ou 1,429%. Reza a lenda que ela acertou todas as xícaras!
SALSBURG, D. Uma senhora toma chá. Jorge Zahar: Rio de Janeiro, RJ, 2009.
As imagens estão disponíveis em: https://br.freepik.com/
A caricatura de Ronald Fisher está disponível em: https://www.sciencephoto.com/keyword/sir-ronald-fisher
A imagem da capa do livro “The Design of Experiments” de Ronald Fisher está disponível em: https://acesse.one/98OhY