Bastão de Asclépio & Distribuição Normal

Bastão de Asclépio & Distribuição Normal

1 Material

2 Estatística descritiva

  • Tipos de variáveis e apresentação dos dados.
  • Estatística descritiva e apresentação dos resultados por meio de gráficos e tabelas.
  • Medidas de tendência central e de dispersão.

2.1 APEx 13302: Gráficos de gonorreia

Você está preparando um relatório sobre a evolução da prevalência anual de gonorreia no município de São Paulo, SP, para homens e mulheres na última década e quer evidenciar a comparação entre os anos. Qual tipo de gráfico melhor ilustra os dados?

A. Histograma
B. Gráfico de setores
C. Gráfico de densidade
D. Gráfico de linhas

Explicações e comentários:

Alternativa correta: D.

  • Ratelle, S (2001) Preventive Medicine and Public Health: PreTest® Self-Assessment and Review. 9th ed. New York: McGraw-Hill. Questão 45.

O objetivo é comparar a evolução de uma medida ao longo do tempo. Para esse tipo de dado, em que a variável independente é o tempo (anos) e há interesse em comparar tendências entre grupos (homens e mulheres), o gráfico de linhas é o mais adequado. Ele permite visualizar variações temporais e comparar trajetórias entre populações.

Histogramas e gráficos de densidade são apropriados para distribuições de frequência, não para séries temporais. Gráficos de setores servem para proporções em um único momento, não para evolução temporal.

2.2 APEx 3042: Média e outlier

Qual das medidas de tendência central apresentadas abaixo é a mais sensível a valores extremos?

A. moda
B. média
C. desvio-padrão
D. mediana
E. intervalo interquartil

Explicações e justificativas:

Alternativa correta: B.

Valores extremos (outliers) afetam mais as medidas ligadas à média aritmética do que aquelas ligadas à mediana. Nesta questão, moda, média e mediana são medidas de localização. Desvio-padrão e intervalo interquartílico são medidas de dispersão. Destas, somente o desvio-padrão depende da média e, portanto, é a mais afetada.

set.seed(123)

# dados originais
colesterol <- round(rgamma(n = 20, shape = 3, rate = 0.014), 0)
print(summary(colesterol))
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   37.0   121.0   181.5   195.1   246.5   425.0 
# estatisticas sem outlier
estat_sem <- c(
  media   = mean(colesterol),
  dp      = sd(colesterol),
  mediana = median(colesterol),
  iqr     = IQR(colesterol),
  max     = max(colesterol)
)

# substitui o maior valor pelo outlier
colesterol_out <- colesterol
colesterol_out[which.max(colesterol_out)] <- 500
print(summary(colesterol_out))
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   37.0   121.0   181.5   198.8   246.5   500.0 
# estatisticas com outlier
estat_com <- c(
  media   = mean(colesterol_out),
  dp      = sd(colesterol_out),
  mediana = median(colesterol_out),
  iqr     = IQR(colesterol_out),
  max     = max(colesterol_out)
)

# variacao percentual
variacao_pct <- 100 * (estat_com - estat_sem) / estat_sem

print(round(cbind(sem_outlier = estat_sem,
            com_outlier = estat_com,
            variacao_pct = variacao_pct), 2))
        sem_outlier com_outlier variacao_pct
media        195.05      198.80         1.92
dp           110.01      119.16         8.32
mediana      181.50      181.50         0.00
iqr          125.50      125.50         0.00
max          425.00      500.00        17.65
# boxplots lado a lado
par(mfrow = c(1, 2))

boxplot(colesterol,
        ylim=c(50,510),
        main = "Sem outlier",
        ylab = "Colesterol")

boxplot(colesterol_out,
        ylim=c(50,510),
        main = "Com outlier",
        ylab = "Colesterol")

par(mfrow = c(1, 1))

plot(density(colesterol),
     xlim=c(0,650),
     main = "Density",
     xlab = "Colesterol",
     col="blue",
     type = "l")

lines(density(colesterol_out),
      type = "l")

2.3 APEx 3043: Medidas e outliers

Qual das medidas de dispersão apresentadas abaixo é a mais sensível a valores extremos?

A. moda
B. média
C. desvio-padrão
D. mediana
E. intervalo interquartil

Explicações e justificativas:

Alternativa correta: C.

set.seed(123)

# dados originais
colesterol <- round(rgamma(n = 20, shape = 3, rate = 0.014), 0)
print(summary(colesterol))
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   37.0   121.0   181.5   195.1   246.5   425.0 
# estatisticas sem outlier
estat_sem <- c(
  media   = mean(colesterol),
  dp      = sd(colesterol),
  mediana = median(colesterol),
  iqr     = IQR(colesterol),
  max     = max(colesterol)
)

# substitui o maior valor pelo outlier
colesterol_out <- colesterol
colesterol_out[which.max(colesterol_out)] <- 500
print(summary(colesterol_out))
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   37.0   121.0   181.5   198.8   246.5   500.0 
# estatisticas com outlier
estat_com <- c(
  media   = mean(colesterol_out),
  dp      = sd(colesterol_out),
  mediana = median(colesterol_out),
  iqr     = IQR(colesterol_out),
  max     = max(colesterol_out)
)

# variacao percentual
variacao_pct <- 100 * (estat_com - estat_sem) / estat_sem

print(round(cbind(sem_outlier = estat_sem,
            com_outlier = estat_com,
            variacao_pct = variacao_pct), 2))
        sem_outlier com_outlier variacao_pct
media        195.05      198.80         1.92
dp           110.01      119.16         8.32
mediana      181.50      181.50         0.00
iqr          125.50      125.50         0.00
max          425.00      500.00        17.65
# boxplots lado a lado
par(mfrow = c(1, 2))

boxplot(colesterol,
        ylim=c(50,510),
        main = "Sem outlier",
        ylab = "Colesterol")

boxplot(colesterol_out,
        ylim=c(50,510),
        main = "Com outlier",
        ylab = "Colesterol")

par(mfrow = c(1, 1))

plot(density(colesterol),
     xlim=c(0,650),
     main = "Density",
     xlab = "Colesterol",
     col="blue",
     type = "l")

lines(density(colesterol_out),
      type = "l")

2.4 APEx 3045: Média e desvio-padrão – quedas em geriatria

No ambulatório de geriatria verificou-se o número de quedas entre pacientes dos dois sexos. Obtendo-se:

Mulheres = (1, 5, 5, 5, 7, 7, 7, 11)

Homens = (3, 3, 3, 5, 7, 9, 9, 9)

Quais são, aproximadamente, as médias aritméticas e os desvios-padrão do número de quedas de mulheres e homens?

A. média de 2.83 quedas e desvio-padrão de 6 quedas para ambos os grupos.
B. média de 8 quedas e desvio-padrão de 6 quedas para ambos os grupos.
C. média de 6 quedas e desvio-padrão de 8 quedas para ambos os grupos.
D. média de 6 quedas e desvio-padrão de 2.83 quedas para ambos os grupos.
E. média de 8 quedas e desvio-padrão de 2.83 quedas para ambos os grupos.
F. média de 2.83 quedas e desvio-padrão de 8 quedas para ambos os grupos.

Explicações e justificativas:

Alternativa correta: D.

As duas amostras apresentam a mesma soma total de quedas e o mesmo padrão de dispersão. Assim, as médias aritméticas são iguais a 6 quedas em ambos os grupos. O desvio-padrão amostral é aproximadamente 2.83 quedas tanto para mulheres quanto para homens.

Mulheres <- c(1, 5, 5, 5, 7, 7, 7, 11)

avg_M <- mean(Mulheres)
dp_M <- sd(Mulheres)

print(paste("avg_M =", avg_M))
[1] "avg_M = 6"
print(paste("dp_M =", round(dp_M, 2)))
[1] "dp_M = 2.83"
Homens <- c(3, 3, 3, 5, 7, 9, 9, 9)

avg_H <- mean(Homens)
dp_H <- sd(Homens)

print(paste("avg_H =", avg_H))
[1] "avg_H = 6"
print(paste("dp_H =", round(dp_H, 2)))
[1] "dp_H = 2.83"

2.5 APEx 7581: Escore-z

A temperatura observada em cem pacientes, sendo que seus valores são distintos, teve seus valores transformados em escores-z. Pode-se afirmar sobre a variável transformada que tem:

A. Apenas valores negativos
B. Distribuição normal
C. Apenas valores positivos
D. Valores negativos e positivos

Explicações e justificativas:

Alternativa correta: D.

A padronização por escores-z é dada por

\[ z_i = \dfrac{x_i - \bar{x}}{s} \] Essa transformação centra a variável na média zero e ajusta a escala para desvio-padrão igual a um. Assim, observações abaixo da média geram valores negativos e observações acima da média geram valores positivos. A padronização não altera o formato da distribuição original e não garante normalidade.

set.seed(123)

# valores originais com distribuicao assimetrica (gama)
temperatura <- rgamma(n = 100, shape = 5, rate = 0.15)

# padronizacao (escore-z)
z <- scale(temperatura)

# contagem de valores
sum(z < 0)
[1] 54
sum(z > 0)
[1] 46
sum(z == 0)
[1] 0
# boxplots lado a lado
par(mfrow = c(1, 2))

boxplot(temperatura,
        main = "Variável original",
        ylab = "Temperatura")

boxplot(z,
        main = "Variável padronizada (z)",
        ylab = "z")

par(mfrow = c(1, 1))

2.6 APEx 3173: Padronização e forma da distribuição

A distribuição do nível de colesterol total (TLC) na população estado-unidense é assimétrica.

Nível de colesterol total na população dos EUA

Nível de colesterol total na população dos EUA

A variável TLC padronizada tem distribuição:

A. Normal
B. Mesocúrtica
C. Platicúrtica
D. Leptocúrtica
E. Igual à da TLC original

Explicações e justificativas:

Alternativa correta: E.

É um erro comum, até mesmo em livros, confundir padronização com normalização porque a distribuição normal padronizada, com média igual a zero e desvio-padrão igual a 1 é, como diz o nome, resultado da padronização de uma distribuição normal.

Padronizar é, meramente, centrar a média em zero (subtrair a média de todos os valores) e tornar o desvio padrão em valor unitário (dividir todos os valores pelo desvio-padrão). O número resultante é um escore z. A forma da distribuição não muda. Qualquer distribuição padronizada está convertida em escore z; escore z não é sinônimo de normal.

Uma transformação linear tem a seguinte forma:

\[ Z = a + bX \] sendo \(X\) a variável bruta, \(a\) e \(b\) constantes, com \(b \neq 0\). A padronização da variável bruta \(X\) é uma transformação linear: \[ Z = \dfrac{X - M}{S} = -\dfrac{M}{S} + \dfrac{1}{S}X \] sendo \(M\) a média e \(S\) o desvio-padrão. Note que \(a = -M/S\) e \(b = 1/S\). A distribuição da variável \(X\) é invariante relativamente à transformação linear. Portanto, \(X\) e \(Z\) têm a mesma distribuição, porém \(Z\) tem média sempre nula e desvio-padrão unitário, adimensionais.

Normalização, converter uma distribuição qualquer em uma distribuição aproximadamente simétrica (condição necessária da normal), é uma transformação não linear. Pode ter qualquer média e desvio-padrão. Só vai se tornar uma normal padronizada se for feito o procedimento de subtrair a média e dividir pelo desvio-padrão.

O seguinte código em R demonstra. Variando a semente deste código, poderá obter outras distribuições para experimentar. Leia o código, os comentários, e execute uma parte de cada vez. Verá que a padronização mantém o formato da distribuição inalterado.

# normal padrao (grafico separado)
z <- seq(-3, 3, 0.01)
dz <- dnorm(z, mean = 0, sd = 1)

plot(z, dz,
     main = "Normal padrao\nmedia = 0, dp = 1",
     xlab = "z", ylab = "densidade",
     type = "l")

# distribuicao qualquer vs. distribuicao padronizada (lado a lado)
set.seed(5456)
qualquer <- runif(1000, 10, 200)

par(mfrow = c(1, 2))

dqualquer <- density(qualquer)
plot(dqualquer,
     main = "Distribuicao qualquer",
     xlab = "valor", ylab = "densidade",
     type = "l")

padronizada <- (qualquer - mean(qualquer)) / sd(qualquer)
dpadronizada <- density(padronizada)
plot(dpadronizada,
     main = "Distribuicao padronizada",
     xlab = "z", ylab = "densidade",
     type = "l")

par(mfrow = c(1, 1))

2.7 APEx 3208: Valor que minimiza o desvio-padrão

O número de malformações de cinco pacientes são 4, 1, 8, 7 e \(X\).

Qual o valor de \(X\) que minimiza o desvio-padrão dos cinco valores?

A. 0
B. 1
C. 2
D. 3
E. 4
F. 5
G. 6

Explicações e justificativas:

Alternativa correta: F.

A média dos quatro valores é: \[ \bar{x}_4 = \dfrac{20}{4} = 5 \]

O desvio-padrão amostral é dado por \[ s = \sqrt{\dfrac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2} \] Como a raiz quadrada e o fator \(\frac{1}{n-1}\) não alteram o ponto de mínimo, minimizar \(s\) é equivalente a minimizar \[ \sum_{i=1}^{5}(x_i-\bar{x})^2 \]

A média dos cinco valores é \[ \bar{x}_5 = \dfrac{4 + 1 + 8 + 7 + X}{5} = \dfrac{20 + X}{5} \]

A soma de quadrados é minimizada quando o valor variável coincide com a média, isto é, \[ X = \bar{x}_4 \]

Substituindo: \[ \begin{align} X &= \dfrac{20 + X}{5} \\ 5X &= 20 + X \\ 4X &= 20 \\ X &= 5 \end{align} \]

Com \(X = 5\), a média dos cinco valores é \[ \bar{x}_5 = \dfrac{20 + \bar{x}_4}{5} = \dfrac{20 + 5}{5} =5 \] ## APEx 3293: Média conjunta de colesterol

Num relatório de um hospital constam apenas as médias e desvios-padrão dos níveis de colesterol total de 10 mulheres e 20 homens pacientes adultos. As médias são 210 e 230 mg/dL, respectivamente. Os desvios-padrão são 28 e 32 mg/dL, respectivamente.

A média do nível de colesterol total dos 30 pacientes adultos é:

A. 216.67
B. 220.00
C. 223.33

Explicações e justificativas:

Alternativa correta: C.

  • OLIVEIRA, FEM (1995) Probabilidade e Estatística: exercícios resolvidos e propostos. São Paulo: Atlas, p. 24.

A média conjunta é obtida por média ponderada pelos tamanhos amostrais. Seja \(\bar{x}_M\) a média das mulheres e \(\bar{x}_H\) a média dos homens. Então, \[ \bar{x} = \dfrac{n_M \bar{x}_M + n_H \bar{x}_H}{n_M + n_H} \] Substituindo os valores: \[ \bar{x} = \dfrac{10 \cdot 210 + 20 \cdot 230}{30} = \dfrac{2100 + 4600}{30} = \dfrac{6700}{30} = 223.33 \]

medias <- c(210, 230)
pesos <- c(10, 20)
media_total <- weighted.mean(medias, 
                             w = pesos)
print(media_total, digits=5)
[1] 223.33

2.8 APEx 3294: Desvio-padrão conjunto de colesterol

Num relatório de um hospital constam apenas as médias e desvios-padrão dos níveis de colesterol total de 10 mulheres e 20 homens pacientes adultos. As médias são 210 e 230 mg/dL, respectivamente. Os desvios-padrão são 28 e 32 mg/dL, respectivamente.

O desvio-padrão do nível de colesterol total dos 30 pacientes adultos é:

A. 30.00
B. 30.72
C. 32.14

Explicações e justificativas:

Alternativa correta: C.

  • OLIVEIRA, FEM (1995) Probabilidade e Estatística: exercícios resolvidos e propostos. São Paulo: Atlas, p. 24.

Sejam \(n_A, \bar{x}_A, s_A\) para mulheres e \(n_B, \bar{x}_B, s_B\) para homens. A média global é \[ \bar{x} = \dfrac{n_A \bar{x}_A + n_B \bar{x}_B}{n_A + n_B} \]

A variância total (com denominador \(n_A+n_B\)) pode ser decomposta em componente dentro dos grupos e entre grupos: \[ s^2 = \dfrac{n_A s_A^2 + n_B s_B^2}{n_A+n_B} + \dfrac{n_A(\bar{x}_A-\bar{x})^2 + n_B(\bar{x}_B-\bar{x})^2}{n_A+n_B} \] Logo, o desvio-padrão é \(s = \sqrt{s^2}\).

O resultado é 32.14 mg/dL.

nA <- 10; mA <- 210; sA <- 28
nB <- 20; mB <- 230; sB <- 32

M <- (nA*mA + nB*mB) / (nA + nB)
DP <- sqrt((nA*(sA^2) + nB*(sB^2)) / (nA + nB) +
           (nA*(mA - M)^2 + nB*(mB - M)^2) / (nA + nB))

print(M, digits=5)
[1] 223.33
print(DP, digits=4)
[1] 32.14

2.9 APEx 3295: Efeito da inclusão de um valor igual à média

Num grupo de cem pacientes de um hospital a média do nível de colesterol total é 220 mg/dL. Um novo paciente tem nível de colesterol total 220 mg/dL.

Então, a média e o desvio-padrão, respectivamente:

A. Diminui e permanece o mesmo
B. Permanece a mesma e diminui
C. Aumentam
D. Diminuem
E. Permanecem os mesmos

Explicações e justificativas:

Alternativa correta: B.

Seja \(\bar{x}\) a média do grupo inicial. Ao incluir um novo valor exatamente igual à média, a nova média permanece inalterada: \[ \bar{x}_{\text{novo}} = \dfrac{n\bar{x} + \bar{x}}{n+1} = \bar{x} \] Já o desvio-padrão diminui, pois o novo valor não adiciona dispersão em torno da média, reduzindo a variabilidade média dos desvios quadráticos.

set.seed(123)

nivcolest <- rnorm(n = 100, mean = 218.28, sd = 20)

print(mean(nivcolest), digits=3)
[1] 220
print(sd(nivcolest), digits=5)
[1] 18.256
nivcolest.novo <- 200
nivcolest <- c(nivcolest.novo, nivcolest)

print(mean(nivcolest), digits=3)
[1] 220
print(sd(nivcolest), digits=5)
[1] 18.274

2.10 APEx 7546: Gráfico de variável padronizada

Uma variável quantitativa medida nos pacientes de um hospital tem cem valores distintos. A variável foi padronizada. Seus _________ construídos pelo mesmo programa estatístico NÃO têm o mesmo formato de distribuição.

A. dotplots
B. gráficos de densidade
C. boxplots
D. histogramas

Explicações e justificativas:

Alternativa correta: D.

A padronização é uma transformação linear \(Z = (X-\bar{X})/S\), que preserva a forma da distribuição. Portanto, gráficos que representam a forma de modo invariante a transformações lineares (dotplot, densidade e boxplot) mantêm o mesmo formato quando comparados entre \(X\) e \(Z\).

O histograma, porém, depende da escolha de classes (bins) e seus limites são definidos na escala da variável. Ao padronizar, a escala muda e, usando o mesmo algoritmo de escolha de classes, os bins podem ser diferentes, alterando o formato visual do histograma. Assim, é o histograma que pode não manter o mesmo formato.

set.seed(123)
colesterol <- round(rgamma(n = 100, 
                           shape = 2, 
                           rate = 0.014), 
                    0)

# Dados originais
media <- mean(colesterol)
dp <- sd(colesterol)
mediana <- median(colesterol)
iqr <- IQR(colesterol)

cat("\nValores originais:\n")

Valores originais:
cat("media=", round(media, 3), ", dp=", round(dp, 3), "\n", sep = "")
media=122.97, dp=79.828
cat("mediana=", round(mediana, 3), ", iqr=", round(iqr, 3), "\n", sep = "")
mediana=109, iqr=84.75
# Dados padronizados
colesterol.pd <- as.numeric(scale(colesterol))

media.pd <- mean(colesterol.pd)
dp.pd <- sd(colesterol.pd)
mediana.pd <- median(colesterol.pd)
iqr.pd <- IQR(colesterol.pd)

cat("\nValores padronizados:\n")

Valores padronizados:
cat("media=", round(media.pd, 3), ", dp=", round(dp.pd, 3), "\n", sep = "")
media=0, dp=1
cat("mediana=", round(mediana.pd, 3), ", iqr=", round(iqr.pd, 3), "\n", sep = "")
mediana=-0.175, iqr=1.062
# Graficos: original vs padronizado (2x4)
par(mfrow = c(1, 2))

# density
plot(density(colesterol),
     xlab = "Colesterol (mg/dl)", ylab = "Densidade",
     main = "Density (original)", type = "l")
plot(density(colesterol.pd),
     xlab = "Colesterol (z)", ylab = "Densidade",
     main = "Density (padronizado)", type = "l")

par(mfrow = c(1, 1))

par(mfrow = c(1, 2))
# boxplot
boxplot(colesterol, main = "Boxplot (original)", ylab = "Colesterol (mg/dl)")
boxplot(colesterol.pd, main = "Boxplot (padronizado)", ylab = "Colesterol (z)")

par(mfrow = c(1, 1))

par(mfrow = c(1, 2))
# dotplot (stripchart)
stripchart(colesterol, method = "stack", offset = 0.5, pch = 19,
           xlab = "Colesterol (mg/dl)", main = "Dotplot (original)")
stripchart(colesterol.pd, method = "stack", offset = 0.5, pch = 19,
           xlab = "Colesterol (z)", main = "Dotplot (padronizado)")

par(mfrow = c(1, 1))

par(mfrow = c(1, 2))
# histogram
hist(colesterol, main = "Histograma (original)",
     xlab = "Colesterol (mg/dl)", ylab = "Frequencia absoluta")
hist(colesterol.pd, main = "Histograma (padronizado)",
     xlab = "Colesterol (z)", ylab = "Frequencia absoluta")

par(mfrow = c(1, 1))

2.11 APEx 7548: Outlier e variável padronizada

Um determinado valor de uma variável quantitativa observado num paciente é um outlier.

Se essa variável for padronizada, então o outlier:

A. Torna-se outlier menos extremo
B. Imprevisível
C. Permanece
D. Torna-se outlier mais extremo
E. Desaparece

Explicações e comentários:

Alternativa correta: C.

A padronização é uma transformação linear do tipo \[ Z = \dfrac{X - \bar{X}}{S} \] Transformações lineares preservam a ordem, a assimetria e a posição relativa dos valores na distribuição. Portanto, um valor que é outlier na escala original continua sendo outlier após a padronização. Ele não desaparece nem muda qualitativamente de status; apenas muda de escala.

O código a seguir mostra que os valores 20 e 100 são outliers tanto para \(X\) quanto para o escore-z.

X <- c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 100)

Z <- scale(X)

par(mfrow = c(1, 2))

boxplot(X,
        main = "Variável original (X)",
        ylab = "X")

boxplot(Z,
        main = "Variável padronizada (Z)",
        ylab = "Z")

par(mfrow = c(1, 1))

2.12 APEx 7550: Distribuição simétrica

Se a distribuição de uma variável quantitativa é simétrica, então moda, média e mediana são iguais. No entanto, se moda, média e mediana são iguais, não necessariamente a distribuição é simétrica.

Qual das distribuições abaixo está de acordo com esta afirmação?

A. Discreta (10 valores 6, 28 valores 7, 3 valores 8, 2 valores 9, 1 valor 10)
B. Discreta (14 valores 6, 39 valores 7, 3 valores 8, 2 valores 9, 1 valor 10, 1 valor 11)
C. Binomial (\(p = 0.1\), \(n = 10\))
D. Todas as outras alternativas são verdadeiras

Explicações e comentários:

Alternativa correta: D.

  • Eisenhauer, J (2002) Symmetric or Skewed? The College Mathematics Journal 33(1): 48-51.

A afirmação é correta: simetria implica coincidência entre média, mediana e moda, mas a recíproca não é verdadeira. Existem distribuições assimétricas nas quais essas três medidas coincidem.

Nas alternativas A e B, as distribuições são discretas e claramente assimétricas, mas média, mediana e moda assumem o mesmo valor. Na alternativa C, a distribuição binomial com \(p=0.1\) e \(n=10\) também é assimétrica, mas apresenta média, mediana e moda coincidentes em torno de 1.

Logo, todas as alternativas A, B e C satisfazem a condição descrita.

# Alternativa A
a <- c(rep(6, times = 10),
       rep(7, times = 28),
       rep(8, times = 3),
       rep(9, times = 2),
       rep(10, times = 1))

tabela_a <- table(a) / length(a)
barplot(tabela_a,
        main = "Distribuicao A",
        xlab = "Valor",
        ylab = "Probabilidade")

cat("A:\n")
A:
cat("media=", mean(a), "\n")
media= 7 
cat("mediana=", median(a), "\n")
mediana= 7 
ta <- table(a)
cat("moda=", as.numeric(names(ta)[which.max(ta)]), "\n")
moda= 7 
# Alternativa B
b <- c(rep(6, times = 14),
       rep(7, times = 39),
       rep(8, times = 3),
       rep(9, times = 2),
       rep(10, times = 1),
       rep(11, times = 1))

tabela_b <- table(b) / length(b)
barplot(tabela_b,
        main = "Distribuicao B",
        xlab = "Valor",
        ylab = "Probabilidade")

cat("\nB:\n")

B:
cat("media=", mean(b), "\n")
media= 7 
cat("mediana=", median(b), "\n")
mediana= 7 
tb <- table(b)
cat("moda=", as.numeric(names(tb)[which.max(tb)]), "\n")
moda= 7 
# Alternativa C – simulada
set.seed(123)
c_sim <- rbinom(n = 1e6, size = 10, prob = 0.1)

dens_c <- table(c_sim)
dens_c <- dens_c / sum(dens_c)

plot(as.numeric(names(dens_c)), as.numeric(dens_c),
     main = "C (simulado)",
     xlab = "Valor",
     ylab = "Probabilidade",
     ylim = c(0, 0.5),
     type = "h")

cat("\nC (versao simulada):\n")

C (versao simulada):
cat("media=", mean(c_sim), "\n")
media= 0.998918 
cat("mediana=", median(c_sim), "\n")
mediana= 1 
cat("moda=", as.numeric(names(dens_c)[which.max(dens_c)]), "\n")
moda= 1 
# Alternativa C – analitica
x <- 0:7
c_anal <- dbinom(x = x, size = 10, prob = 0.1)

plot(x, c_anal,
     main = "C (analitico)",
     xlab = "Valor",
     ylab = "Probabilidade",
     ylim = c(0, 0.5),
     type = "h")

cat("\nC (versao formula):\n")

C (versao formula):
cat("media=", 10 * 0.1, "\n")
media= 1 
for (i in x) {
  if (sum(dbinom(0:i, size = 10, prob = 0.1)) >= 0.5) break
}
cat("mediana=", i, "\n")
mediana= 1 
cat("moda=", which.max(c_anal) - 1, "\n")
moda= 1 

2.13 APEx 9082: Distribuição assimétrica

Nos livros de Estatística afirma-se que:

“Se a distribuição de frequência é assimétrica, a média e a mediana situam-se do mesmo lado em relação à moda. Para uma distribuição assimétrica positiva, a média está à direita da moda e a mediana está entre a média e a moda, isto é, moda < mediana < média. Para uma distribuição assimétrica negativa, moda > mediana > média.”

No entanto, isso nem sempre é verdadeiro. A seguinte distribuição discreta é uma exceção à regra:

0 (1 ocorrência)
1 (2 ocorrências)
2 (10 ocorrências)
3 (9 ocorrências)
4 (8 ocorrências)

Os valores da média, mediana e moda são, respectivamente:

A. 2, 3 e 2.7
B. 2.7, 2 e 3
C. 3, 2.7 e 2
D. 2.7, 3 e 2
E. 2, 2.7 e 3
F. 3, 2 e 2.7

Explicações e comentários:

Alternativa correta: D.

  • Shun Wei & Yaun Mingshu (1993) Mean > Median > Mode for Positively Skewed Distribution? Teaching Statistics 15(3).
# valores da distribuicao
dados <- c(
  0,
  1, 1,
  rep(2, 10),
  rep(3, 9),
  rep(4, 8)
)

# media e mediana
media <- mean(dados)
mediana <- median(dados)

# moda via tabela de frequencias
t <- table(dados)
moda <- as.numeric(names(t)[t == max(t)])

cat("media:", media, "\n")
media: 2.7 
cat("mediana:", mediana, "\n")
mediana: 3 
cat("moda:", moda, "\n")
moda: 2 
# alternativamente, achar a moda graficamente
# stacked dotplot para observar a moda (melhor escolha)
stripchart(dados, method="stack",  xlab="x",
           offset=0.5, at=0.15, pch=19)

# ou density plot (mais adequado para quantitativas continuas)
plot(density(dados), main="", xlab="x")
abline(v=media,lty=2)
abline(v=mediana,lty=3)
abline(v=moda,lty=4)
legend("topleft",
       c("media","mediana","moda"),
       lty=c(2,3,4),
       bg="transparent", bty="n")

2.14 APEx 7586: Variabilidade relativa

No ambulatório de geriatria verificou-se o número de quedas entre pacientes dos dois sexos, obtendo-se:

Mulheres = (1, 5, 5, 5, 7, 7, 7, 11)
Homens = (3, 3, 3, 5, 7, 9, 9, 9)

Qual a melhor interpretação sobre a variabilidade do número de quedas de pacientes dos dois sexos?

A. É igual para ambos os sexos
B. É maior para as mulheres
C. É maior para os homens

Explicações e comentários:

Alternativa correta: C.

  • Silveira, PSP & Siqueira, JO (2022) Histogram lies about distribution shape and Pearson’s coefficient of variation lies about relative variability. The Quantitative Methods for Psychology 18(1): 91–105. DOI: 10.20982/tqmp.18.1.p091.

A interpretação da variabilidade depende da medida utilizada.

A amplitude, que é uma medida de variabilidade absoluta, é maior entre as mulheres. O desvio-padrão, também medida absoluta, é igual nos dois grupos. O coeficiente de variação, frequentemente interpretado como medida relativa, também é igual, pois as médias coincidem. No entanto, o coeficiente de dispersão relativa de Eisenhauer (CDR), que mede a quantidade de desvio-padrão por unidade de amplitude, indica maior variabilidade relativa entre os homens.

Assim, considerando variabilidade relativa de forma adequada, a variabilidade é maior para os homens.

Fem <- c(1, 5, 5, 5, 7, 7, 7, 11)
Masc <- c(3, 3, 3, 5, 7, 9, 9, 9)

n <- length(Fem)

amp_F <- diff(range(Fem))
amp_M <- diff(range(Masc))

cvr_F <- (sd(Fem)/(amp_F/2) - sqrt(2/(n-1))) /
  (sqrt(n/(n-1)) - sqrt(2/(n-1)))

cvr_M <- (sd(Masc)/(amp_M/2) - sqrt(2/(n-1))) /
  (sqrt(n/(n-1)) - sqrt(2/(n-1)))

tabela <- data.frame(
  Grupo = c("Mulher", "Homem"),
  n = c(length(Fem), length(Masc)),
  Media = c(mean(Fem), mean(Masc)),
  "Desvio-padrao" = c(sd(Fem), sd(Masc)),
  Amplitude = c(amp_F, amp_M),
  CV = c(sd(Fem)/mean(Fem), sd(Masc)/mean(Masc)),
  "CDR Eisenhauer" = c(cvr_F, cvr_M),
  check.names = FALSE
)

tabela[ , -1] <- round(tabela[ , -1], 3) 
print(tabela, row.names = FALSE)
  Grupo n Media Desvio-padrao Amplitude    CV CDR Eisenhauer
 Mulher 8     6         2.828        10 0.471          0.058
  Homem 8     6         2.828         6 0.471          0.764
par(mfrow = c(1, 3))

stripchart(Fem, method = "stack", offset = 0.5, pch = 4,
           main = "Mulher (dotplot)", xlab = "Quedas")
stripchart(Masc, method = "stack", offset = 0.5, pch = 1,
           main = "Homem (dotplot)", xlab = "Quedas")
par(mfrow = c(1, 1))

boxplot(Fem, Masc,
        names = c("Mulher", "Homem"),
        main = "Boxplot (comparação)",
        ylab = "Quedas")

dF <- density(Fem)
dM <- density(Masc)
plot(dF, main = "Densidade (comparação)", xlab = "Quedas", type = "l")
lines(dM, lty = 2)
legend("topleft", legend = c("Mulher", "Homem"), lty = c(1, 2),
       bty="n")

2.15 APEx 7592: Ensaio clínico: média e desvio-padrão

Os resultados de um ensaio clínico para testar a efetividade de uma droga hipnótica no qual a duração do sono em horas de dez pacientes foi observada durante uma noite com o uso da droga e uma noite com o placebo.

Grupo Observações (horas de sono)
Sonífero 6.1, 7.0, 8.2, 7.6, 6.5, 8.4, 6.9, 6.7, 7.4, 5.8
Placebo 5.2, 7.9, 3.9, 4.7, 5.3, 5.4, 4.2, 6.1, 3.8, 6.3

As medianas de horas de sono dos grupos placebo e sonífero são, respectivamente:

A. 6.95 e 5.25
B. 6.95 e 6.95
C. 5.25 e 5.25
D. 5.25 e 6.95

Explicações e comentários:

Alternativa correta: D.

O problema é resolvido calculando diretamente as medianas de cada grupo. Atenção à ordem solicitada na pergunta: primeiro placebo, depois sonífero.

sonifero <- c(6.1, 7, 8.2, 7.6, 6.5, 8.4, 6.9, 6.7, 7.4, 5.8)
placebo <- c(5.2, 7.9, 3.9, 4.7, 5.3, 5.4, 4.2, 6.1, 3.8, 6.3)

median(placebo)
[1] 5.25
median(sonifero)
[1] 6.95
quantile(placebo,  probs = 0.5)
 50% 
5.25 
quantile(sonifero, probs = 0.5)
 50% 
6.95 

2.16 APEx 7593: Ensaio clínico: média e desvio-padrão das diferenças

Os resultados de um ensaio clínico para testar a efetividade de uma droga hipnótica no qual a duração do sono em horas de dez pacientes foi observada durante uma noite com o uso da droga e uma noite com o placebo.

Grupo Observações (horas de sono)
Sonífero 6.1, 7.0, 8.2, 7.6, 6.5, 8.4, 6.9, 6.7, 7.4, 5.8
Placebo 5.2, 7.9, 3.9, 4.7, 5.3, 5.4, 4.2, 6.1, 3.8, 6.3

A média e o desvio-padrão da diferença de horas de sono entre os grupos droga e placebo, nessa ordem, são, respectivamente:

A. -1.78 e 1.77
B. 1.78 e -1.77
C. 1.78 e 1.78
D. 1.78 e 1.77

Explicações e comentários:

Alternativa correta: D.

A pergunta refere-se à média e ao desvio-padrão das diferenças individuais entre as condições droga e placebo, caracterizando um estudo intra-participantes. Seja

\[ D_i = X_{i,\text{sonífero}} - X_{i,\text{placebo}} \] A média das diferenças é \(\bar{D}=1.78\) e o desvio-padrão é \(S_D=1.77\).

sonifero <- c(6.1, 7, 8.2, 7.6, 6.5, 8.4, 6.9, 6.7, 7.4, 5.8)
placebo  <- c(5.2, 7.9, 3.9, 4.7, 5.3, 5.4, 4.2, 6.1, 3.8, 6.3)

diferenca <- sonifero - placebo

mean(diferenca)
[1] 1.78
print(sd(diferenca), digits=3)
[1] 1.77

2.17 APEx 14043: Normal do histograma

O histograma de uma variável quantitativa no SPSS pode ser acompanhado por uma distribuição contínua.

SPSS Statistics: Histograma com normal da estatura de 51 estudantes de graduação da USP do sexo masculino.

SPSS Statistics: Histograma com normal da estatura de 51 estudantes de graduação da USP do sexo masculino.

A normal desse gráfico é:

A. Densidade de probabilidades derivada da parametrização do histograma. B. Distribuição normal baseada na média e desvio-padrão amostrais. C. Histograma alisado corrigindo distorções dos intervalos de classe.
D. Polígono de frequência unificador dos intervalos de classe.
E. Polígono de frequência alisado pela parametrização do histograma. F. Distribuição da média e desvio-padrão populacionais.

Explicações e comentários:

Alternativa correta: B.

A curva normal sobreposta ao histograma no SPSS não é um gráfico de densidade empírica nem um histograma alisado. Trata-se da função densidade da distribuição normal, construída a partir da média e do desvio-padrão amostrais, isto é, \[ f(x)=\dfrac{1}{s\sqrt{2\pi}}\exp\left(-\dfrac{1}{2}\left(\dfrac{x-m}{s}\right)^2\right) \] em que \(m\) é a média amostral e \(s\) o desvio-padrão amostral.

Portanto, a normal exibida é um gráfico da distribuição normal paramétrica ajustada aos dados.

set.seed(123)

estaturas <- rnorm(51, 1.76, 0.081)
m <- mean(estaturas)
s <- sd(estaturas)

# histograma
h1 <- hist(estaturas,
           freq = FALSE,
           col = "#dddddd",
           border = "white",
           main = "",
           xlab = "Estatura (m)",
           ylab = "Densidade")

# normal ajustada
x <- seq(m - 4*s, m + 4*s, length.out = 300)
lines(x, dnorm(x, m, s), lwd = 2)

# densidade empírica
lines(density(estaturas), lwd = 2, lty = 2)

# polígono de frequência
agricolae::polygon.freq(h1, frequency = 3, lwd = 2, lty = 3)

# legenda (sempre por último)
legend("topright",
       legend = c("Normal ajustada", "Densidade empírica", "Polígono de frequência"),
       lty = c(1, 2, 3),
       lwd = 2,
       bty = "n",
       cex = 0.8)

2.18 APEx 7656: Gráfico

O aluno C está sendo acusado pelo professor de colar do aluno A numa prova. Oitenta e oito estudantes participaram da prova com 40 questões de múltipla escolha com 5 alternativas. Os estudantes A e C erraram, cada um, 16 questões. Treze das 16 questões têm erros coincidentes. A variável \(K\) representa o número de questões com respostas certas e erradas coincidentes com as do estudante A.

Tabela: Número de acertos e erros dos estudantes relativamente ao estudante A: \(K\).

K Frequência Absoluta
11 2
12 0
13 1
14 1
15 3
16 5
17 4
18 11
19 7
20 17
21 15
22 7
23 7
24 2
25 0
26 3
27 1
28 0
29 0
30 0
31 0
32 C

O gráfico mais adequado para representar os dados apresentados no problema é:

A. Histogramas
B. Gráfico de linhas
C. Gráfico de setores
D. Gráfico de barras
E. Gráfico de pontos

Explicações e comentários:

Alternativa correta: E.

A variável \(K\) é quantitativa discreta, pois representa uma contagem do número de coincidências. Para esse tipo de variável, o gráfico de pontos (dotplot) é o mais adequado, pois preserva todos os valores possíveis, inclusive aqueles com frequência zero, e permite identificar facilmente valores discrepantes. Nesse contexto, o valor observado para o estudante C pode se destacar como um possível outlier. O gráfico de barras, por outro lado, omite escores com frequência nula e pode mascarar essa informação.

# tabela do enunciado (K e frequencia absoluta)
K <- 11:32
freq <- c(2, 0, 1, 1, 3, 5, 4, 11, 7, 17, 15, 7, 7, 
          2, 0, 3, 1, 0, 0, 0, 0, 1) # 32: estudante C

tabela <- data.frame(K = K, freq = freq)

# dotplot (via repeticao)
dados <- rep(tabela$K, times = tabela$freq)

stripchart(dados, method = "stack", offset = 0.5, pch = 19,
           xlab = "K (coincidencias com o estudante A)",
           main = "Dotplot de K")

# (opcional) destacar o valor do aluno C
abline(v = 32, lty = 2)
text(x = 32, y = 1, labels = "C", pos = 3)

2.19 APEx 7695: Celsius e Fahrenheit: histograma

Os dados estão disponíveis na Google Planilha Cap03_Dados compartilhada.

A primeira linha tem os nomes das variáveis. As demais linhas contêm temperaturas em grau Celsius e a correspondente em Fahrenheit, calculada por \[ F = 1.8\,C + 32 \]

Sendo \(C\) correspondente à temperatura em graus Celsius e \(F\) à Fahrenheit, produza os histogramas de \(C\) e \(F\) usando o mesmo software estatístico com suas opções pré-definidas (default).

Os dois gráficos:

A. Têm formatos bem distintos
B. Têm formatos parecidos, mas não o mesmo formato
C. Têm o mesmo formato
D. Não é possível comparar seus formatos

Explicações e comentários:

Alternativa correta: C.

A transformação de Celsius para Fahrenheit é linear do tipo \[ F = a + bC,\quad b>0 \] Transformações lineares preservam a forma da distribuição. Assim, quando os histogramas são construídos pelo mesmo software, usando as opções pré-definidas, os formatos são os mesmos, diferindo apenas na escala do eixo horizontal.

googlesheets4::gs4_deauth()
dados <- googlesheets4::read_sheet(
  "https://docs.google.com/spreadsheets/d/1InKOOTso7TnXNGVOhn6VofHbBhTkqj7zIW5AUn0X1gs"
)
✔ Reading from "Cap03_Dados".
✔ Range 'CF'.
print(head(dados))
# A tibble: 6 × 3
  `Unidade Experimental` Celsius Fahrenheit
                   <dbl>   <dbl>      <dbl>
1                      1   114.        237.
2                      2   113.        235.
3                      3   105.        220.
4                      4    94.9       203.
5                      5    91.2       196.
6                      6   109.        229.
print(tail(dados))
# A tibble: 6 × 3
  `Unidade Experimental` Celsius Fahrenheit
                   <dbl>   <dbl>      <dbl>
1                   1995   103.        218.
2                   1996   103.        217.
3                   1997    95.2       203.
4                   1998   100.        213.
5                   1999    94.3       202.
6                   2000    99.0       210.
print(summary(dados))
 Unidade Experimental    Celsius         Fahrenheit   
 Min.   :   1.0       Min.   : 71.65   Min.   :161.0  
 1st Qu.: 500.8       1st Qu.: 93.96   1st Qu.:201.1  
 Median :1000.5       Median :100.09   Median :212.2  
 Mean   :1000.5       Mean   :100.22   Mean   :212.4  
 3rd Qu.:1500.2       3rd Qu.:106.38   3rd Qu.:223.5  
 Max.   :2000.0       Max.   :131.60   Max.   :268.9  
C <- dados$Celsius
F <- dados$Fahrenheit

par(mfrow = c(1, 2))
# histogramas com opcoes default
hist(C, main = "C", xlab = "Celsius")
hist(F, main = "F", xlab = "Fahrenheit")

par(mfrow = c(1, 1))

2.20 APEx 7835: Celsius, Fahrenheit e Kelvin: tipo de transformação

Considere os seguintes dados, disponíveis em CFK.xls.

Mês Celsius Fahrenheit Kelvin
Jan 6.70 44.06 280.20
Fev 6.40 43.52 279.90
Mar 7.80 46.04 281.30
Abr 6.90 44.42 280.40
Mai 13.20 55.76 286.70
Jun 14.70 58.46 288.20
Jul 18.30 64.94 291.80
Ago 17.00 62.60 290.50
Set 15.10 59.18 288.60
Out 12.30 54.14 285.80
Nov 7.20 44.96 280.70
Dez 5.50 41.90 279.00
Média 10.90 51.40 282.80

Qual é o tipo de transformação feita entre graus Celsius, Fahrenheit e Kelvin?

A. não linear porque há uma divisão e uma soma para encontrar-se os valores em Fahrenheit
B. não linear, porque as escalas nos eixos gráficos não se iniciam em zero nas escalas transformadas (Fahrenheit e Kelvin)
C. linear, porque a comparação das medidas segue uma reta
D. redução, porque os valores são reduzidos (K > F > C)
E. ampliação, porque os valores são aumentados (C < F < K)
F. fatoração, porque a transformação envolve a multiplicação dos valores
G. decomposição, porque os valores em Kelvin correspondem aos valores absolutos, Celsius é um deslocamento dos valores Kelvin, e Fahrenheit é uma escala deteriorada
H. logarítmica, motivo pelo qual os valores em Celsius, na ordem de unidades, correspondem a Fahrenheit na ordem de dezenas e a Kelvin na ordem de centenas
Explicações e comentários:

Alternativa correta: C.

As transformações entre as escalas de temperatura são dadas por funções do tipo \[ F = a + bC \quad \text{e} \quad K = C + 273.15 \] com \(b \neq 0\). Essas são transformações lineares (afins), pois envolvem apenas soma, subtração, multiplicação e divisão por constantes. Transformações lineares preservam proporções e distâncias relativas entre os pontos da escala, o que se reflete no alinhamento dos valores quando comparados graficamente.

Logo, o tipo de transformação entre Celsius, Fahrenheit e Kelvin é linear.

file_id <- "10RQDeb0JVGJImT5W22TEI2Wfcwq5fHm-"
url_dl  <- paste0("https://drive.google.com/uc?export=download&id=", file_id)
dest <- "CFK.xls"
download.file(url_dl, destfile = dest, mode = "wb")
dados <- readxl::read_excel(dest)
dados <- dados[dados$Mes != "Media", ]
print(dados)
# A tibble: 12 × 4
   Mes   Celsius Fahrenheit Kelvin
   <chr>   <dbl>      <dbl>  <dbl>
 1 Jan       6.7       44.1   280.
 2 Fev       6.7       44.1   280.
 3 Mar       7.8       46.0   281.
 4 Abr       6.9       44.4   280.
 5 Mai      13.2       55.8   286.
 6 Jun      14.7       58.5   288.
 7 Jul      18.3       64.9   291.
 8 Ago      17         62.6   290.
 9 Set      15.1       59.2   288.
10 Out      12.3       54.1   285.
11 Nov       7.2       45.0   280.
12 Dez       5.5       41.9   279.
# supondo colunas: Celsius, Fahrenheit, Kelvin
C <- dados$Celsius
F <- dados$Fahrenheit
K <- dados$Kelvin

# conferência das relações lineares
summary(F - (1.8*C + 32))
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
      0       0       0       0       0       0 
summary(K - (C + 273.15))
     Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
0.000e+00 0.000e+00 2.842e-14 2.842e-14 5.684e-14 5.684e-14 
# gráficos das transformações lineares
par(mfrow = c(1, 3))

plot(C, F,
     xlab = "Celsius",
     ylab = "Fahrenheit",
     main = "F = 1.8 C + 32",
     pch = 19)
abline(lm(F ~ C), lwd = 1, lty=2)

plot(C, K,
     xlab = "Celsius",
     ylab = "Kelvin",
     main = "K = C + 273.15",
     pch = 19)
abline(lm(K ~ C), lwd = 1, lty=2)

plot(F, K,
     xlab = "Fahrenheit",
     ylab = "Kelvin",
     main = "K em função de F",
     pch = 19)
abline(lm(K ~ F), lwd = 1, lty=2)

par(mfrow = c(1, 1))

2.21 APEx 10422: Histogramas em Celsius, Fahrenheit e Kelvin

Considere os dados encontrados no arquivo CFK.xls, contendo as mesmas temperaturas nas três escalas de temperatura, e produza os histogramas para cada escala.

Mês Celsius Fahrenheit Kelvin
Jan 6.70 44.06 280.20
Fev 6.40 43.52 279.90
Mar 7.80 46.04 281.30
Abr 6.90 44.42 280.40
Mai 13.20 55.76 286.70
Jun 14.70 58.46 288.20
Jul 18.30 64.94 291.80
Ago 17.00 62.60 290.50
Set 15.10 59.18 288.60
Out 12.30 54.14 285.80
Nov 7.20 44.96 280.70
Dez 5.50 41.90 279.00
Média 10.90 51.40 282.80

Qual é sua conclusão?

A. A distribuição das temperaturas em graus Kelvin é mais detalhada.
B. A distribuição das temperaturas em graus Celsius é menos precisa.
C. A distribuição das temperaturas em graus Fahrenheit é mais contínua.
D. Todas as três alternativas que mencionam os atributos das escalas (mais detalhada, precisa ou contínua) estão corretas.
E. Não é possível comparar as distribuições através de histogramas.

Explicações e comentários:

Alternativa correta: E.

As três variáveis representam exatamente os mesmos dados, apenas expressos em escalas diferentes, ligadas por transformações lineares do tipo \[ F = 1.8C + 32, \qquad K = C + 273.15 \] Histogramas dependem fortemente da escolha das classes (bins) e da escala do eixo horizontal. Assim, diferenças aparentes entre histogramas de Celsius, Fahrenheit e Kelvin são artefatos gráficos e não refletem diferenças reais na forma das distribuições.

Portanto, histogramas não são adequados para comparar a forma das distribuições quando há apenas mudança de escala.

# ler CFK.xls diretamente do Google Drive

file_id <- "10RQDeb0JVGJImT5W22TEI2Wfcwq5fHm-"
url_dl <- paste0("https://drive.google.com/uc?export=download&id=", file_id)
dest <- "CFK.xls"
download.file(url_dl, destfile = dest, mode = "wb")
CFK <- readxl::read_excel(dest)
CFK <- CFK[CFK$Mes != "Media", ]

CFK
# A tibble: 12 × 4
   Mes   Celsius Fahrenheit Kelvin
   <chr>   <dbl>      <dbl>  <dbl>
 1 Jan       6.7       44.1   280.
 2 Fev       6.7       44.1   280.
 3 Mar       7.8       46.0   281.
 4 Abr       6.9       44.4   280.
 5 Mai      13.2       55.8   286.
 6 Jun      14.7       58.5   288.
 7 Jul      18.3       64.9   291.
 8 Ago      17         62.6   290.
 9 Set      15.1       59.2   288.
10 Out      12.3       54.1   285.
11 Nov       7.2       45.0   280.
12 Dez       5.5       41.9   279.
par(mfrow = c(1, 3))

hist(CFK$Celsius,
     main = "Celsius",
     xlab = "Temperatura",
     ylab = "Frequência")

hist(CFK$Fahrenheit,
     main = "Fahrenheit",
     xlab = "Temperatura",
     ylab = "Frequência")

hist(CFK$Kelvin,
     main = "Kelvin",
     xlab = "Temperatura",
     ylab = "Frequência")

par(mfrow = c(1, 1))

2.22 APEx 10423: Density plots em Celsius, Fahrenheit e Kelvin

Considere os seguintes dados, disponíveis em CFK.xls, que mostram as mesmas temperaturas nas três escalas de temperatura, e produza density plots para cada escala.

Mês Celsius Fahrenheit Kelvin
Jan 6.70 44.06 280.20
Fev 6.40 43.52 279.90
Mar 7.80 46.04 281.30
Abr 6.90 44.42 280.40
Mai 13.20 55.76 286.70
Jun 14.70 58.46 288.20
Jul 18.30 64.94 291.80
Ago 17.00 62.60 290.50
Set 15.10 59.18 288.60
Out 12.30 54.14 285.80
Nov 7.20 44.96 280.70
Dez 5.50 41.90 279.00
Média 10.90 51.40 282.80

Qual é sua conclusão?

A. A distribuição das temperaturas em graus Kelvin é mais detalhada.
B. A distribuição das temperaturas em graus Celsius é menos precisa.
C. A distribuição das temperaturas em graus Fahrenheit é mais contínua.
D. As distribuições são iguais, somente com alteração de escala.
E. Não é possível comparar as distribuições através de density plots.

Explicações e comentários:

Alternativa correta: D.

Diferentemente dos histogramas, density plots representam diretamente a forma da distribuição. As transformações entre Celsius, Fahrenheit e Kelvin são lineares (afins). Transformações lineares preservam o formato da distribuição; apenas a escala do eixo é alterada. Portanto, as três distribuições têm o mesmo formato.

# leitura dos dados do Google Drive (CFK.xls)

file_id <- "10RQDeb0JVGJImT5W22TEI2Wfcwq5fHm-"
url_dl  <- paste0("https://drive.google.com/uc?export=download&id=", file_id)
dest <- "CFK.xls"

download.file(url_dl, destfile = dest, mode = "wb")
dados <- readxl::read_excel(dest)
dados <- dados[dados$Mes != "Media", ]

C <- dados$Celsius
F <- dados$Fahrenheit
K <- dados$Kelvin

par(mfrow = c(1, 3))

plot(density(C),
     main = "Celsius",
     xlab = "Temperatura",
     ylab = "Densidade")

plot(density(F),
     main = "Fahrenheit",
     xlab = "Temperatura",
     ylab = "Densidade")

plot(density(K),
     main = "Kelvin",
     xlab = "Temperatura",
     ylab = "Densidade")

par(mfrow = c(1, 1))

2.23 APEx 12176: Temperaturas e coeficiente de dispersão relativa (CDR)

Considere os dados encontrados no arquivo CFK.xls, contendo as mesmas temperaturas nas três escalas de temperatura (Celsius, Fahrenheit e Kelvin).

Mês Celsius Fahrenheit Kelvin
Jan 6.70 44.06 280.20
Fev 6.40 43.52 279.90
Mar 7.80 46.04 281.30
Abr 6.90 44.42 280.40
Mai 13.20 55.76 286.70
Jun 14.70 58.46 288.20
Jul 18.30 64.94 291.80
Ago 17.00 62.60 290.50
Set 15.10 59.18 288.60
Out 12.30 54.14 285.80
Nov 7.20 44.96 280.70
Dez 5.50 41.90 279.00
Média 10.90 51.40 282.80

Uma medida de dispersão muito usada em artigos é o coeficiente de variação (CV), dado por \[ \text{CV} = \dfrac{s}{\bar{x}} \]

Outra medida, menos conhecida, é o coeficiente de dispersão relativa (CDR), dado por \[ \text{CDR} = \dfrac{\dfrac{s}{\text{amplitude}/2}-\sqrt{\dfrac{2}{n-1}}} {\sqrt{\dfrac{n}{n-1}}-\sqrt{\dfrac{2}{n-1}}} \]

Calculando-se o CDR para os três tipos de temperaturas, quais são seus valores aproximados e a melhor explicação para o que se observa?

A. Evidencia diferenças reais de precisão entre as escalas.
B. Evidencia que Kelvin é menos precisa que Fahrenheit e Celsius.
C. É invariante à transformação linear; não há diferença com a mudança da unidade de medida.
D. Mostra maior variabilidade em Kelvin devido à magnitude dos valores.
E. Mostra menor variabilidade em Kelvin devido à magnitude dos valores.
F. Não é uma boa medida porque não é afetada pela unidade de medida.

Explicações e comentários:

Alternativa correta: C.

  • Silveira, PSP & Siqueira, JO (2022) Histogram lies about distribution shape and Pearson’s coefficient of variation lies about relative variability. The Quantitative Methods for Psychology 18(1): 91–105. DOI: 10.20982/tqmp.18.1.p091.

As três escalas estão relacionadas por transformações lineares do tipo \[ F = 1.8C + 32, \qquad K = C + 273.15 \] Para variáveis com o mesmo tamanho amostral, uma medida de dispersão relativa adequada deve ser invariante à mudança de unidade. O CDR corrigido de Eisenhauer satisfaz essa propriedade, ao contrário do CV.

# leitura do arquivo CFK.xls diretamente do Google Drive
file_id <- "10RQDeb0JVGJImT5W22TEI2Wfcwq5fHm-"
url_dl  <- paste0("https://drive.google.com/uc?export=download&id=", file_id)
dest <- "CFK.xls"

utils::download.file(url_dl, destfile = dest, mode = "wb")
CFK <- readxl::read_excel(dest)

# remover a linha da média
CFK <- CFK[CFK$Mes != "Media", ]

# tamanhos amostrais
n <- nrow(CFK)

# médias
avg_C <- mean(CFK$Celsius)
avg_F <- mean(CFK$Fahrenheit)
avg_K <- mean(CFK$Kelvin)

# desvios-padrão
dp_C <- sd(CFK$Celsius)
dp_F <- sd(CFK$Fahrenheit)
dp_K <- sd(CFK$Kelvin)

# semi-amplitudes
sa_C <- diff(range(CFK$Celsius)) / 2
sa_F <- diff(range(CFK$Fahrenheit)) / 2
sa_K <- diff(range(CFK$Kelvin)) / 2

# coeficiente de variação
cv_C <- dp_C / avg_C
cv_F <- dp_F / avg_F
cv_K <- dp_K / avg_K

# coeficiente de variação corrigido
cvc_C <- cv_C / sqrt(n - 1)
cvc_F <- cv_F / sqrt(n - 1)
cvc_K <- cv_K / sqrt(n - 1)

# coeficiente de dispersão relativa (CDR)
cdr_C <- dp_C / sa_C
cdr_F <- dp_F / sa_F
cdr_K <- dp_K / sa_K

# coeficiente de dispersão relativa corrigido (Eisenhauer)
cdrc_C <- (cdr_C - sqrt(2/(n-1))) / (sqrt(n/(n-1)) - sqrt(2/(n-1)))
cdrc_F <- (cdr_F - sqrt(2/(n-1))) / (sqrt(n/(n-1)) - sqrt(2/(n-1)))
cdrc_K <- (cdr_K - sqrt(2/(n-1))) / (sqrt(n/(n-1)) - sqrt(2/(n-1)))

# tabela comparativa
tabela_comp <- data.frame(
  Escala = c("Celsius", "Fahrenheit", "Kelvin"),
  CV   = c(cv_C, cv_F, cv_K),
  CVc  = c(cvc_C, cvc_F, cvc_K),
  CDR  = c(cdr_C, cdr_F, cdr_K),
  CDRc = c(cdrc_C, cdrc_F, cdrc_K)
)

# arredondar colunas numericas
num_cols <- sapply(tabela_comp, is.numeric)
tabela_comp[num_cols] <- lapply(tabela_comp[num_cols], round, 2)

print(tabela_comp, row.names=FALSE)
     Escala   CV  CVc  CDR CDRc
    Celsius 0.42 0.13 0.72 0.48
 Fahrenheit 0.16 0.05 0.72 0.48
     Kelvin 0.02 0.00 0.72 0.48

2.24 APEx 9086: Coeficiente de variação

No ambulatório de geriatria verificou-se o número de quedas entre pacientes dos dois sexos. Obtendo-se:

Mulheres = (1, 5, 5, 5, 7, 7, 7, 11)
Homens = (3, 3, 3, 5, 7, 9, 9, 9)

Quais são, aproximadamente, os coeficientes de variação, dados por \[ \text{CV} = \dfrac{\text{desvio-padrão}}{\text{média}} \] do número de quedas de pacientes (mulheres e homens), respectivamente?

A. 0,47 para ambos os grupos, adimensionais.
B. 2,83 para ambos os grupos, adimensionais.
C. 0,47 quedas para ambos os grupos.
D. 2,83 quedas para ambos os grupos.
E. 0,47 por queda para ambos os grupos.
F. 2,83 por queda para ambos os grupos.

Explicações e comentários:

Alternativa correta: A.

  • Silveira, PSP & Siqueira, JO (2022) Histogram lies about distribution shape and Pearson’s coefficient of variation lies about relative variability. The Quantitative Methods for Psychology 18(1): 91–105. DOI: 10.20982/tqmp.18.1.p091.

O coeficiente de variação é uma razão entre duas grandezas com a mesma unidade, logo é adimensional. Como as médias e os desvios-padrão dos dois grupos coincidem, seus coeficientes de variação também coincidem.

Fem <- c(1, 5, 5, 5, 7, 7, 7, 11)
Masc <- c(3, 3, 3, 5, 7, 9, 9, 9)

mean(Fem)
[1] 6
sd(Fem)
[1] 2.828427
sd(Fem) / mean(Fem)
[1] 0.4714045
mean(Masc)
[1] 6
sd(Masc)
[1] 2.828427
sd(Masc) / mean(Masc)
[1] 0.4714045

2.25 APEx 11574: Coeficiente de dispersão relativa (CDR)

No ambulatório de geriatria verificou-se o número de quedas entre pacientes dos dois sexos. Obtendo-se:

Mulheres = (1, 5, 5, 5, 7, 7, 7, 11)
Homens = (3, 3, 3, 5, 7, 9, 9, 9)

O coeficiente de dispersão relativa é definido por \[ \text{CDR} = \dfrac{s}{\text{amplitude}/2} \]

Quais são, aproximadamente, os coeficientes de dispersão relativa do número de quedas de pacientes, homens e mulheres, respectivamente?

A. 0.57 para ambos os grupos, adimensionais.
B. 0.94 para ambos os grupos, adimensionais.
C. 0.94 e 0.57, adimensionais.
D. 0.57 quedas para ambos os grupos.
E. 0.94 quedas para ambos os grupos.
F. 0.94 e 0.57 quedas.
G. 0.57 e 0.94 quedas.
H. 1.89 e 1.31, adimensionais.
I. 1.31 e 1.89, adimensionais.
J. 1.89 e 1.31 quedas.
K. 1.31 e 1.89 quedas.
L. 1.89 para ambos os grupos, adimensionais.
M. 1.89 quedas para ambos os grupos.
N. 1.31 para ambos os grupos, adimensionais.
O. 1.31 quedas para ambos os grupos.

Explicações e comentários:

Alternativa correta: C.

  • Silveira, PSP & Siqueira, JO (2022) Histogram lies about distribution shape and Pearson’s coefficient of variation lies about relative variability. The Quantitative Methods for Psychology 18(1): 91–105. DOI: 10.20982/tqmp.18.1.p091.
Mulheres <- c(1, 5, 5, 5, 7, 7, 7, 11)
Homens   <- c(3, 3, 3, 5, 7, 9, 9, 9)

# Mulheres
dp_M <- sd(Mulheres)
amp_M <- diff(range(Mulheres))
cdr_M <- dp_M / (amp_M / 2)

# Homens
dp_H <- sd(Homens)
amp_H <- diff(range(Homens))
cdr_H <- dp_H / (amp_H / 2)

cdr_H
[1] 0.942809
cdr_M
[1] 0.5656854

2.26 APEx 12169: Coeficiente de dispersão relativa de Eisenhauer

No ambulatório de geriatria foi registrado o número de quedas entre pacientes femininos e masculinos:

Mulheres = (1, 5, 5, 5, 7, 7, 7, 11)
Homens = (3, 3, 3, 5, 7, 9, 9, 9)

O coeficiente de dispersão relativa de Eisenhauer (1993) é dado por \[ \text{CDR} = \dfrac{\dfrac{s}{r/2} - \sqrt{\dfrac{2}{n-1}}} {\sqrt{\dfrac{n}{n-1}} - \sqrt{\dfrac{2}{n-1}}} \] em que \(s\) é o desvio-padrão, \(r\) é a amplitude e \(n\) é o tamanho da amostra.

Quais são os valores do CDR do número de quedas de pacientes (mulheres e homens), respectivamente?

A. 0.76 e 0.06, adimensionais.
B. 0.06 e 0.76, adimensionais.
C. 0.76 e 0.06 quedas.
D. 0.06 e 0.76 quedas.
E. 0.76 e 0.06 / queda.
F. 0.06 e 0.76 / queda.

Explicações e comentários:

Alternativa correta: B.

  • Silveira, PSP & Siqueira, JO (2022) Histogram lies about distribution shape and Pearson’s coefficient of variation lies about relative variability. The Quantitative Methods for Psychology 18(1): 91–105. DOI: 10.20982/tqmp.18.1.p091.
Fem  <- c(1, 5, 5, 5, 7, 7, 7, 11)
Masc <- c(3, 3, 3, 5, 7, 9, 9, 9)

n <- length(Fem)

# amplitudes
amp_F <- diff(range(Fem))
amp_M <- diff(range(Masc))

# desvios-padrao
dp_F <- sd(Fem)
dp_M <- sd(Masc)

# CDR de Eisenhauer
cdr_F <- (dp_F/(amp_F/2) - sqrt(2/(n-1))) /
         (sqrt(n/(n-1)) - sqrt(2/(n-1)))

cdr_M <- (dp_M/(amp_M/2) - sqrt(2/(n-1))) /
         (sqrt(n/(n-1)) - sqrt(2/(n-1)))

cdr_F
[1] 0.05830052
cdr_M
[1] 0.7638342

2.27 APEx 12177: CV × CDR × versões corrigidas

Suponha que medimos a estatura (cm) de 30 mulheres e 10 homens:

Mulheres = (166, 174, 166, 169, 173, 171, 174, 180, 175, 168, 168, 171, 169, 170, 172, 170, 162, 168, 172, 171, 169, 175, 163, 179, 163, 177, 173, 175, 171, 166)

Homens = (154, 171, 175, 172, 179, 186, 185, 180, 179, 197)

Estamos interessados em uma medida de variabilidade relativa para decidir qual grupo apresenta maior dispersão relativa.

As medidas consideradas são: \[ \text{CV} = \dfrac{s}{\bar{x}} \qquad \text{CV}_c = \dfrac{s/\bar{x}}{\sqrt{n-1}} \] \[ \text{CDR} = \dfrac{s}{r/2} \qquad \text{CDR}_c = \dfrac{\dfrac{s}{r/2}-\sqrt{\dfrac{2}{n-1}}} {\sqrt{\dfrac{n}{n-1}}-\sqrt{\dfrac{2}{n-1}}} \] onde \(s\) é o desvio-padrão, \(\bar{x}\) a média, \(r\) a amplitude e \(n\) o tamanho da amostra.

Qual é o coeficiente que permite concluir sobre qual grupo (mulheres ou homens) tem maior variabilidade relativa?

A. CV, mulheres
B. CVc, mulheres
C. CDR, mulheres
D. CDRc, mulheres
E. CV, homens
F. CVc, homens
G. CDR, homens
H. CDRc, homens

Explicações e comentários:

Alternativa correta: D.

  • Silveira, PSP & Siqueira, JO (2022) Histogram lies about distribution shape and Pearson’s coefficient of variation lies about relative variability. The Quantitative Methods for Psychology 18(1): 91–105. DOI: 10.20982/tqmp.18.1.p091.

Os resultados obtidos para as medidas de variabilidade relativa são:

Grupo \(\bar{x}\) \(s\) \(r\) \(n\) \(CV\) \(CV_c\) \(CDR\) \(CDR_c\)
Mulheres 170.667 4.467 18 30 0.026 0.005 0.496 0.310
Homens 177.800 11.302 43 10 0.064 0.021 0.526 0.093

A única medida que permite concluir de forma consistente sobre a variabilidade relativa entre os grupos é o coeficiente de dispersão relativa corrigido de Eisenhauer (\(CDR_c\)). Com base nele,

\[ \text{CDR}_{c}^{\text{Mulher}} > \text{CDR}_{c}^{\text{Homem}} \]

Logo, as mulheres apresentam maior variabilidade relativa.

Male <- c(154,171,175,172,179,186,185,180,179,197)

Female <- c(166,174,166,169,173,171,174,180,175,168,
            168,171,169,170,172,170,162,168,172,171,
            169,175,163,179,163,177,173,175,171,166)

calc_disp <- function(x){
  n <- length(x)
  m <- mean(x)
  s <- sd(x)
  r <- diff(range(x))
  c(
    mean = m,
    s = s,
    r = r,
    n = n,
    CV = s/m,
    CVc = (s/m)/sqrt(n-1),
    CDR = s/(r/2),
    CDRc = ((s/(r/2)) - sqrt(2/(n-1))) /
           (sqrt(n/(n-1)) - sqrt(2/(n-1)))
  )
}

tab <- rbind(
  Female = calc_disp(Female),
  Male   = calc_disp(Male)
)

print(round(tab, 3), row.names=FALSE)
          mean      s  r  n    CV   CVc   CDR  CDRc
Female 170.667  4.467 18 30 0.026 0.005 0.496 0.310
Male   177.800 11.302 43 10 0.064 0.021 0.526 0.093

2.28 APEx 13188: Histograma

Considere o seguinte conjunto de valores quantitativos: \[ x = (1,1,2,2,3,3,4,4,5,5,5,5,6,6,6,6,6,6,\\ 7,7,7,7,8,8,9,9,10,10,11,11) \]

Qual(is) histograma(s) exibe(m) a distribuição de \(x\)?

A. A
B. B
C. C
D. D
E. E
F. F
G. Nenhum deles
H. Todos eles

Explicações e comentários:

Alternativa correta: H.

  • Silveira, PSP & Siqueira, JO (2022) Histogram lies about distribution shape and Pearson’s coefficient of variation lies about relative variability. The Quantitative Methods for Psychology 18(1): 91–105. DOI: 10.20982/tqmp.18.1.p091.

Todos os histogramas apresentados foram construídos a partir do mesmo conjunto de dados \(x\). O que muda entre eles é apenas a escolha do ponto inicial das classes e da largura dos intervalos (breaks). Essas escolhas alteram substancialmente a aparência do histograma, podendo sugerir formatos distintos para a mesma distribuição subjacente.

Isso ilustra um fato fundamental: histogramas não representam unicamente a distribuição dos dados, pois dependem fortemente de decisões arbitrárias de construção (início e largura das classes). Assim, histogramas diferentes podem ser todos compatíveis com os mesmos dados.

# histogramas lado a lado (base R)

x <- c(1,1,2,2,3,3,4,4,5,5,5,5,
       6,6,6,6,6,6,7,7,7,7,
       8,8,9,9,10,10,11,11)

par(mfrow = c(2, 3))

hist(x, breaks = seq(-1,12,1),
     freq = FALSE, col = "white",
     main = "A",
     ylab = "Frequência relativa")

hist(x, breaks = seq(1,12,1.5),
     freq = FALSE, col = "white",
     main = "B",
     ylab = "Frequência relativa")

hist(x, breaks = seq(-1.5,12,1.5),
     freq = FALSE, col = "white",
     main = "C",
     ylab = "Frequência relativa")

hist(x, breaks = seq(-0.5,12,1.5),
     freq = FALSE, col = "white",
     main = "D",
     ylab = "Frequência relativa")

hist(x, breaks = seq(-2,12,2),
     freq = FALSE, col = "white",
     main = "E (default)",
     ylab = "Frequência relativa")

hist(x, breaks = seq(-1.9,12,1.9),
     freq = FALSE, col = "white",
     main = "F",
     ylab = "Frequência relativa")

par(mfrow = c(1,1))

plot(density(x),
     main = "Density plot de x",
     xlab = "x")

3 Probabilidade

  • Descrição dos princípios básicos de probabilidade e as formas mais comuns de distribuição de probabilidade.
  • Conceitos de distribuição normal, [Poisson e] binomial.

3.1 APEx 9394: Sequências de caras e coroas

O número de sequências distintas de caras e coroas que pode ocorrer em dez lançamentos independentes de uma moeda honesta é:

A. \(10!\)
B. \(10^2\)
C. \(2 \times 10\)
D. \(2^{10}\)
E. \(10\)

Explicações e comentários:

Alternativa correta: D.

Cada lançamento de moeda tem dois resultados possíveis: cara ou coroa. Logo, cada lançamento duplica o número de sequências possíveis.

Para poucos lançamentos: - 1 lançamento: \(2\) sequências
- 2 lançamentos: \(2^2 = 4\) sequências
- 3 lançamentos: \(2^3 = 8\) sequências

Generalizando, para \(n\) lançamentos, o número total de sequências distintas é: \[ \begin{align} N(n) &= 2^n \end{align} \]

Para dez lançamentos: \[ \begin{align} N(10) &= 2^{10} \\ N(10) &= 1024 \end{align} \]

Portanto, existem 1024 sequências distintas possíveis de caras e coroas em dez lançamentos de uma moeda.

Representando cara como 0 e coroa como 1,

para 1 jogada há 2 possibilidades:

  • 0 (cara)
  • 1 (coroa)

Para 2 jogadas, 4 possibilidades:

  • 00
  • 01
  • 10
  • 11

Para 3 jogadas, 8 possibilidades:

  • 000
  • 001
  • 010
  • 011
  • 100
  • 101
  • 110
  • 111

e assim por diante.

É possível construir a sequência manualmente, numerando-se em binário para não esquecer nenhuma. Para 10 jogadas:

  • 0000000000
  • 0000000001
  • 0000000010
  • 0000000011
  • 0000000100
  • 0000000101
  • 0000000110
  • 0000000111 …
  • 1111111111

Tedioso… então podemos generalizar e perceber que o número de sequências possíveis é 2^(número de jogadas).

Para 10 jogadas, portanto, são 210=1024.

Quer conferir?

library(R.utils)

jogadas <- 10
sequencias <- 2^jogadas
cat("Todas as sequencias possiveis em ",
    jogadas," jogadas: ",sep="")
Todas as sequencias possiveis em 10 jogadas: 
# de 0 a 1023 temos 1024 sequencias
virgula <- ""
i <- 0
while (i < sequencias)
{
  bin <- R.utils::intToBin(i)
  bin <- sprintf("%s",bin)
  while(nchar(bin) < jogadas)
  {
    bin <- paste("0",bin,sep="")
  }
  cat(virgula,bin,"(",i+1,")",sep="")
  i <- i+1
  virgula <- ", "
}
0000000000(1), 0000000001(2), 0000000010(3), 0000000011(4), 0000000100(5), 0000000101(6), 0000000110(7), 0000000111(8), 0000001000(9), 0000001001(10), 0000001010(11), 0000001011(12), 0000001100(13), 0000001101(14), 0000001110(15), 0000001111(16), 0000010000(17), 0000010001(18), 0000010010(19), 0000010011(20), 0000010100(21), 0000010101(22), 0000010110(23), 0000010111(24), 0000011000(25), 0000011001(26), 0000011010(27), 0000011011(28), 0000011100(29), 0000011101(30), 0000011110(31), 0000011111(32), 0000100000(33), 0000100001(34), 0000100010(35), 0000100011(36), 0000100100(37), 0000100101(38), 0000100110(39), 0000100111(40), 0000101000(41), 0000101001(42), 0000101010(43), 0000101011(44), 0000101100(45), 0000101101(46), 0000101110(47), 0000101111(48), 0000110000(49), 0000110001(50), 0000110010(51), 0000110011(52), 0000110100(53), 0000110101(54), 0000110110(55), 0000110111(56), 0000111000(57), 0000111001(58), 0000111010(59), 0000111011(60), 0000111100(61), 0000111101(62), 0000111110(63), 0000111111(64), 0001000000(65), 0001000001(66), 0001000010(67), 0001000011(68), 0001000100(69), 0001000101(70), 0001000110(71), 0001000111(72), 0001001000(73), 0001001001(74), 0001001010(75), 0001001011(76), 0001001100(77), 0001001101(78), 0001001110(79), 0001001111(80), 0001010000(81), 0001010001(82), 0001010010(83), 0001010011(84), 0001010100(85), 0001010101(86), 0001010110(87), 0001010111(88), 0001011000(89), 0001011001(90), 0001011010(91), 0001011011(92), 0001011100(93), 0001011101(94), 0001011110(95), 0001011111(96), 0001100000(97), 0001100001(98), 0001100010(99), 0001100011(100), 0001100100(101), 0001100101(102), 0001100110(103), 0001100111(104), 0001101000(105), 0001101001(106), 0001101010(107), 0001101011(108), 0001101100(109), 0001101101(110), 0001101110(111), 0001101111(112), 0001110000(113), 0001110001(114), 0001110010(115), 0001110011(116), 0001110100(117), 0001110101(118), 0001110110(119), 0001110111(120), 0001111000(121), 0001111001(122), 0001111010(123), 0001111011(124), 0001111100(125), 0001111101(126), 0001111110(127), 0001111111(128), 0010000000(129), 0010000001(130), 0010000010(131), 0010000011(132), 0010000100(133), 0010000101(134), 0010000110(135), 0010000111(136), 0010001000(137), 0010001001(138), 0010001010(139), 0010001011(140), 0010001100(141), 0010001101(142), 0010001110(143), 0010001111(144), 0010010000(145), 0010010001(146), 0010010010(147), 0010010011(148), 0010010100(149), 0010010101(150), 0010010110(151), 0010010111(152), 0010011000(153), 0010011001(154), 0010011010(155), 0010011011(156), 0010011100(157), 0010011101(158), 0010011110(159), 0010011111(160), 0010100000(161), 0010100001(162), 0010100010(163), 0010100011(164), 0010100100(165), 0010100101(166), 0010100110(167), 0010100111(168), 0010101000(169), 0010101001(170), 0010101010(171), 0010101011(172), 0010101100(173), 0010101101(174), 0010101110(175), 0010101111(176), 0010110000(177), 0010110001(178), 0010110010(179), 0010110011(180), 0010110100(181), 0010110101(182), 0010110110(183), 0010110111(184), 0010111000(185), 0010111001(186), 0010111010(187), 0010111011(188), 0010111100(189), 0010111101(190), 0010111110(191), 0010111111(192), 0011000000(193), 0011000001(194), 0011000010(195), 0011000011(196), 0011000100(197), 0011000101(198), 0011000110(199), 0011000111(200), 0011001000(201), 0011001001(202), 0011001010(203), 0011001011(204), 0011001100(205), 0011001101(206), 0011001110(207), 0011001111(208), 0011010000(209), 0011010001(210), 0011010010(211), 0011010011(212), 0011010100(213), 0011010101(214), 0011010110(215), 0011010111(216), 0011011000(217), 0011011001(218), 0011011010(219), 0011011011(220), 0011011100(221), 0011011101(222), 0011011110(223), 0011011111(224), 0011100000(225), 0011100001(226), 0011100010(227), 0011100011(228), 0011100100(229), 0011100101(230), 0011100110(231), 0011100111(232), 0011101000(233), 0011101001(234), 0011101010(235), 0011101011(236), 0011101100(237), 0011101101(238), 0011101110(239), 0011101111(240), 0011110000(241), 0011110001(242), 0011110010(243), 0011110011(244), 0011110100(245), 0011110101(246), 0011110110(247), 0011110111(248), 0011111000(249), 0011111001(250), 0011111010(251), 0011111011(252), 0011111100(253), 0011111101(254), 0011111110(255), 0011111111(256), 0100000000(257), 0100000001(258), 0100000010(259), 0100000011(260), 0100000100(261), 0100000101(262), 0100000110(263), 0100000111(264), 0100001000(265), 0100001001(266), 0100001010(267), 0100001011(268), 0100001100(269), 0100001101(270), 0100001110(271), 0100001111(272), 0100010000(273), 0100010001(274), 0100010010(275), 0100010011(276), 0100010100(277), 0100010101(278), 0100010110(279), 0100010111(280), 0100011000(281), 0100011001(282), 0100011010(283), 0100011011(284), 0100011100(285), 0100011101(286), 0100011110(287), 0100011111(288), 0100100000(289), 0100100001(290), 0100100010(291), 0100100011(292), 0100100100(293), 0100100101(294), 0100100110(295), 0100100111(296), 0100101000(297), 0100101001(298), 0100101010(299), 0100101011(300), 0100101100(301), 0100101101(302), 0100101110(303), 0100101111(304), 0100110000(305), 0100110001(306), 0100110010(307), 0100110011(308), 0100110100(309), 0100110101(310), 0100110110(311), 0100110111(312), 0100111000(313), 0100111001(314), 0100111010(315), 0100111011(316), 0100111100(317), 0100111101(318), 0100111110(319), 0100111111(320), 0101000000(321), 0101000001(322), 0101000010(323), 0101000011(324), 0101000100(325), 0101000101(326), 0101000110(327), 0101000111(328), 0101001000(329), 0101001001(330), 0101001010(331), 0101001011(332), 0101001100(333), 0101001101(334), 0101001110(335), 0101001111(336), 0101010000(337), 0101010001(338), 0101010010(339), 0101010011(340), 0101010100(341), 0101010101(342), 0101010110(343), 0101010111(344), 0101011000(345), 0101011001(346), 0101011010(347), 0101011011(348), 0101011100(349), 0101011101(350), 0101011110(351), 0101011111(352), 0101100000(353), 0101100001(354), 0101100010(355), 0101100011(356), 0101100100(357), 0101100101(358), 0101100110(359), 0101100111(360), 0101101000(361), 0101101001(362), 0101101010(363), 0101101011(364), 0101101100(365), 0101101101(366), 0101101110(367), 0101101111(368), 0101110000(369), 0101110001(370), 0101110010(371), 0101110011(372), 0101110100(373), 0101110101(374), 0101110110(375), 0101110111(376), 0101111000(377), 0101111001(378), 0101111010(379), 0101111011(380), 0101111100(381), 0101111101(382), 0101111110(383), 0101111111(384), 0110000000(385), 0110000001(386), 0110000010(387), 0110000011(388), 0110000100(389), 0110000101(390), 0110000110(391), 0110000111(392), 0110001000(393), 0110001001(394), 0110001010(395), 0110001011(396), 0110001100(397), 0110001101(398), 0110001110(399), 0110001111(400), 0110010000(401), 0110010001(402), 0110010010(403), 0110010011(404), 0110010100(405), 0110010101(406), 0110010110(407), 0110010111(408), 0110011000(409), 0110011001(410), 0110011010(411), 0110011011(412), 0110011100(413), 0110011101(414), 0110011110(415), 0110011111(416), 0110100000(417), 0110100001(418), 0110100010(419), 0110100011(420), 0110100100(421), 0110100101(422), 0110100110(423), 0110100111(424), 0110101000(425), 0110101001(426), 0110101010(427), 0110101011(428), 0110101100(429), 0110101101(430), 0110101110(431), 0110101111(432), 0110110000(433), 0110110001(434), 0110110010(435), 0110110011(436), 0110110100(437), 0110110101(438), 0110110110(439), 0110110111(440), 0110111000(441), 0110111001(442), 0110111010(443), 0110111011(444), 0110111100(445), 0110111101(446), 0110111110(447), 0110111111(448), 0111000000(449), 0111000001(450), 0111000010(451), 0111000011(452), 0111000100(453), 0111000101(454), 0111000110(455), 0111000111(456), 0111001000(457), 0111001001(458), 0111001010(459), 0111001011(460), 0111001100(461), 0111001101(462), 0111001110(463), 0111001111(464), 0111010000(465), 0111010001(466), 0111010010(467), 0111010011(468), 0111010100(469), 0111010101(470), 0111010110(471), 0111010111(472), 0111011000(473), 0111011001(474), 0111011010(475), 0111011011(476), 0111011100(477), 0111011101(478), 0111011110(479), 0111011111(480), 0111100000(481), 0111100001(482), 0111100010(483), 0111100011(484), 0111100100(485), 0111100101(486), 0111100110(487), 0111100111(488), 0111101000(489), 0111101001(490), 0111101010(491), 0111101011(492), 0111101100(493), 0111101101(494), 0111101110(495), 0111101111(496), 0111110000(497), 0111110001(498), 0111110010(499), 0111110011(500), 0111110100(501), 0111110101(502), 0111110110(503), 0111110111(504), 0111111000(505), 0111111001(506), 0111111010(507), 0111111011(508), 0111111100(509), 0111111101(510), 0111111110(511), 0111111111(512), 1000000000(513), 1000000001(514), 1000000010(515), 1000000011(516), 1000000100(517), 1000000101(518), 1000000110(519), 1000000111(520), 1000001000(521), 1000001001(522), 1000001010(523), 1000001011(524), 1000001100(525), 1000001101(526), 1000001110(527), 1000001111(528), 1000010000(529), 1000010001(530), 1000010010(531), 1000010011(532), 1000010100(533), 1000010101(534), 1000010110(535), 1000010111(536), 1000011000(537), 1000011001(538), 1000011010(539), 1000011011(540), 1000011100(541), 1000011101(542), 1000011110(543), 1000011111(544), 1000100000(545), 1000100001(546), 1000100010(547), 1000100011(548), 1000100100(549), 1000100101(550), 1000100110(551), 1000100111(552), 1000101000(553), 1000101001(554), 1000101010(555), 1000101011(556), 1000101100(557), 1000101101(558), 1000101110(559), 1000101111(560), 1000110000(561), 1000110001(562), 1000110010(563), 1000110011(564), 1000110100(565), 1000110101(566), 1000110110(567), 1000110111(568), 1000111000(569), 1000111001(570), 1000111010(571), 1000111011(572), 1000111100(573), 1000111101(574), 1000111110(575), 1000111111(576), 1001000000(577), 1001000001(578), 1001000010(579), 1001000011(580), 1001000100(581), 1001000101(582), 1001000110(583), 1001000111(584), 1001001000(585), 1001001001(586), 1001001010(587), 1001001011(588), 1001001100(589), 1001001101(590), 1001001110(591), 1001001111(592), 1001010000(593), 1001010001(594), 1001010010(595), 1001010011(596), 1001010100(597), 1001010101(598), 1001010110(599), 1001010111(600), 1001011000(601), 1001011001(602), 1001011010(603), 1001011011(604), 1001011100(605), 1001011101(606), 1001011110(607), 1001011111(608), 1001100000(609), 1001100001(610), 1001100010(611), 1001100011(612), 1001100100(613), 1001100101(614), 1001100110(615), 1001100111(616), 1001101000(617), 1001101001(618), 1001101010(619), 1001101011(620), 1001101100(621), 1001101101(622), 1001101110(623), 1001101111(624), 1001110000(625), 1001110001(626), 1001110010(627), 1001110011(628), 1001110100(629), 1001110101(630), 1001110110(631), 1001110111(632), 1001111000(633), 1001111001(634), 1001111010(635), 1001111011(636), 1001111100(637), 1001111101(638), 1001111110(639), 1001111111(640), 1010000000(641), 1010000001(642), 1010000010(643), 1010000011(644), 1010000100(645), 1010000101(646), 1010000110(647), 1010000111(648), 1010001000(649), 1010001001(650), 1010001010(651), 1010001011(652), 1010001100(653), 1010001101(654), 1010001110(655), 1010001111(656), 1010010000(657), 1010010001(658), 1010010010(659), 1010010011(660), 1010010100(661), 1010010101(662), 1010010110(663), 1010010111(664), 1010011000(665), 1010011001(666), 1010011010(667), 1010011011(668), 1010011100(669), 1010011101(670), 1010011110(671), 1010011111(672), 1010100000(673), 1010100001(674), 1010100010(675), 1010100011(676), 1010100100(677), 1010100101(678), 1010100110(679), 1010100111(680), 1010101000(681), 1010101001(682), 1010101010(683), 1010101011(684), 1010101100(685), 1010101101(686), 1010101110(687), 1010101111(688), 1010110000(689), 1010110001(690), 1010110010(691), 1010110011(692), 1010110100(693), 1010110101(694), 1010110110(695), 1010110111(696), 1010111000(697), 1010111001(698), 1010111010(699), 1010111011(700), 1010111100(701), 1010111101(702), 1010111110(703), 1010111111(704), 1011000000(705), 1011000001(706), 1011000010(707), 1011000011(708), 1011000100(709), 1011000101(710), 1011000110(711), 1011000111(712), 1011001000(713), 1011001001(714), 1011001010(715), 1011001011(716), 1011001100(717), 1011001101(718), 1011001110(719), 1011001111(720), 1011010000(721), 1011010001(722), 1011010010(723), 1011010011(724), 1011010100(725), 1011010101(726), 1011010110(727), 1011010111(728), 1011011000(729), 1011011001(730), 1011011010(731), 1011011011(732), 1011011100(733), 1011011101(734), 1011011110(735), 1011011111(736), 1011100000(737), 1011100001(738), 1011100010(739), 1011100011(740), 1011100100(741), 1011100101(742), 1011100110(743), 1011100111(744), 1011101000(745), 1011101001(746), 1011101010(747), 1011101011(748), 1011101100(749), 1011101101(750), 1011101110(751), 1011101111(752), 1011110000(753), 1011110001(754), 1011110010(755), 1011110011(756), 1011110100(757), 1011110101(758), 1011110110(759), 1011110111(760), 1011111000(761), 1011111001(762), 1011111010(763), 1011111011(764), 1011111100(765), 1011111101(766), 1011111110(767), 1011111111(768), 1100000000(769), 1100000001(770), 1100000010(771), 1100000011(772), 1100000100(773), 1100000101(774), 1100000110(775), 1100000111(776), 1100001000(777), 1100001001(778), 1100001010(779), 1100001011(780), 1100001100(781), 1100001101(782), 1100001110(783), 1100001111(784), 1100010000(785), 1100010001(786), 1100010010(787), 1100010011(788), 1100010100(789), 1100010101(790), 1100010110(791), 1100010111(792), 1100011000(793), 1100011001(794), 1100011010(795), 1100011011(796), 1100011100(797), 1100011101(798), 1100011110(799), 1100011111(800), 1100100000(801), 1100100001(802), 1100100010(803), 1100100011(804), 1100100100(805), 1100100101(806), 1100100110(807), 1100100111(808), 1100101000(809), 1100101001(810), 1100101010(811), 1100101011(812), 1100101100(813), 1100101101(814), 1100101110(815), 1100101111(816), 1100110000(817), 1100110001(818), 1100110010(819), 1100110011(820), 1100110100(821), 1100110101(822), 1100110110(823), 1100110111(824), 1100111000(825), 1100111001(826), 1100111010(827), 1100111011(828), 1100111100(829), 1100111101(830), 1100111110(831), 1100111111(832), 1101000000(833), 1101000001(834), 1101000010(835), 1101000011(836), 1101000100(837), 1101000101(838), 1101000110(839), 1101000111(840), 1101001000(841), 1101001001(842), 1101001010(843), 1101001011(844), 1101001100(845), 1101001101(846), 1101001110(847), 1101001111(848), 1101010000(849), 1101010001(850), 1101010010(851), 1101010011(852), 1101010100(853), 1101010101(854), 1101010110(855), 1101010111(856), 1101011000(857), 1101011001(858), 1101011010(859), 1101011011(860), 1101011100(861), 1101011101(862), 1101011110(863), 1101011111(864), 1101100000(865), 1101100001(866), 1101100010(867), 1101100011(868), 1101100100(869), 1101100101(870), 1101100110(871), 1101100111(872), 1101101000(873), 1101101001(874), 1101101010(875), 1101101011(876), 1101101100(877), 1101101101(878), 1101101110(879), 1101101111(880), 1101110000(881), 1101110001(882), 1101110010(883), 1101110011(884), 1101110100(885), 1101110101(886), 1101110110(887), 1101110111(888), 1101111000(889), 1101111001(890), 1101111010(891), 1101111011(892), 1101111100(893), 1101111101(894), 1101111110(895), 1101111111(896), 1110000000(897), 1110000001(898), 1110000010(899), 1110000011(900), 1110000100(901), 1110000101(902), 1110000110(903), 1110000111(904), 1110001000(905), 1110001001(906), 1110001010(907), 1110001011(908), 1110001100(909), 1110001101(910), 1110001110(911), 1110001111(912), 1110010000(913), 1110010001(914), 1110010010(915), 1110010011(916), 1110010100(917), 1110010101(918), 1110010110(919), 1110010111(920), 1110011000(921), 1110011001(922), 1110011010(923), 1110011011(924), 1110011100(925), 1110011101(926), 1110011110(927), 1110011111(928), 1110100000(929), 1110100001(930), 1110100010(931), 1110100011(932), 1110100100(933), 1110100101(934), 1110100110(935), 1110100111(936), 1110101000(937), 1110101001(938), 1110101010(939), 1110101011(940), 1110101100(941), 1110101101(942), 1110101110(943), 1110101111(944), 1110110000(945), 1110110001(946), 1110110010(947), 1110110011(948), 1110110100(949), 1110110101(950), 1110110110(951), 1110110111(952), 1110111000(953), 1110111001(954), 1110111010(955), 1110111011(956), 1110111100(957), 1110111101(958), 1110111110(959), 1110111111(960), 1111000000(961), 1111000001(962), 1111000010(963), 1111000011(964), 1111000100(965), 1111000101(966), 1111000110(967), 1111000111(968), 1111001000(969), 1111001001(970), 1111001010(971), 1111001011(972), 1111001100(973), 1111001101(974), 1111001110(975), 1111001111(976), 1111010000(977), 1111010001(978), 1111010010(979), 1111010011(980), 1111010100(981), 1111010101(982), 1111010110(983), 1111010111(984), 1111011000(985), 1111011001(986), 1111011010(987), 1111011011(988), 1111011100(989), 1111011101(990), 1111011110(991), 1111011111(992), 1111100000(993), 1111100001(994), 1111100010(995), 1111100011(996), 1111100100(997), 1111100101(998), 1111100110(999), 1111100111(1000), 1111101000(1001), 1111101001(1002), 1111101010(1003), 1111101011(1004), 1111101100(1005), 1111101101(1006), 1111101110(1007), 1111101111(1008), 1111110000(1009), 1111110001(1010), 1111110010(1011), 1111110011(1012), 1111110100(1013), 1111110101(1014), 1111110110(1015), 1111110111(1016), 1111111000(1017), 1111111001(1018), 1111111010(1019), 1111111011(1020), 1111111100(1021), 1111111101(1022), 1111111110(1023), 1111111111(1024)

3.2 APEx 9395: Sequências de caras e coroas balanceadas

O número de sequências distintas com a mesma quantidade de caras e coroas que pode ocorrer em dez lançamentos independentes de uma moeda honesta é:

A. 1
B. 10
C. 120
D. 252
E. 512

Explicações e comentários:

Alternativa correta: D.

Em 10 lançamentos, ter a mesma quantidade de caras e coroas significa ter exatamente: \[ 5 \text{ caras e } 5 \text{ coroas} \]

Uma sequência é completamente determinada pelas posições ocupadas pelas caras (ou, equivalentemente, pelas coroas). Assim, o problema se reduz a contar de quantas maneiras é possível escolher 5 posições, entre as 10 disponíveis, para colocar as caras.

Esse número é dado pelo coeficiente binomial: \[ \begin{align} \binom{10}{5} &= \frac{10!}{5!\,5!} \\ \binom{10}{5}&= 252 \end{align} \]

Portanto, existem 252 sequências distintas balanceadas (com 5 caras e 5 coroas) em dez lançamentos de uma moeda honesta.

choose(10, 5)
[1] 252

3.3 APEx 9396: Sequências de caras e coroas: probabilidade

A probabilidade de ocorrência de cada uma das sequências distintas de caras e coroas que pode ocorrer em dez lançamentos independentes de uma moeda honesta é:

A. \(1/10\)
B. \(1/100\)
C. \(1/1000\)
D. \(1/10!\)
E. \(1/2^{10}\)

Explicações e comentários:

Alternativa correta: E.

Cada lançamento da moeda tem dois resultados possíveis (cara ou coroa), com probabilidade \(0{,}5\), e os lançamentos são independentes.

O número total de sequências possíveis em 10 lançamentos é: \[ 2^{10} = 1024 \]

Como a moeda é honesta e o processo é aleatório, todas as sequências têm a mesma probabilidade. Logo, a probabilidade de qualquer sequência específica é: \[ \begin{align} P(\text{sequência}) &= \left(\frac{1}{2}\right)^{10} \\ &= \frac{1}{2^{10}} \\ &= \frac{1}{1024} \\ P(\text{sequência}) &= 0.0009765625 \end{align} \] ## APEx 12124: Mega-Sena e tempo esperado de espera

Você joga sempre na Mega Sena, apostando toda semana os mesmos 6 números entre os 60 disponíveis. Acredita que, pela persistência, chegará o dia em que sua sequência será premiada.

Qual é, aproximadamente, sua expectativa matemática para o tempo de espera até ganhar o prêmio máximo?

A. um ano
B. dez anos
C. cem anos
D. mil anos
E. dez mil anos
F. cem mil anos
G. um milhão de anos

Explicações e comentários:

Alternativa correta: G.

Na aposta mínima da Mega Sena escolhem-se 6 números entre 60, sem repetição e sem importar a ordem. O número total de combinações possíveis é dado por: \[ \begin{align} \binom{60}{6} &= 50\,063\,860 \end{align} \] Cada combinação tem a mesma probabilidade de ser sorteada. Assim, ao jogar sempre a mesma sequência, a probabilidade de ganhar o prêmio máximo em um concurso é: \[ \begin{align} p &= \frac{1}{50\,063\,860} \end{align} \]

O tempo de espera até o primeiro sucesso segue uma distribuição geométrica. O valor esperado do tempo de espera é o inverso da probabilidade: \[ \begin{align} \mathbb{E}(T) &= \frac{1}{p} = 50\,063\,860 \text{ semanas} \end{align} \]

Segundo o enunciado, já ocorreram 2301 concursos. Descontando esse tempo: \[ \begin{align} T_{\text{restante}} &= 50\,063\,860 - 2\,301 \end{align} \]

Convertendo semanas em anos: \[ \begin{align} \text{anos} &= \frac{(50\,063\,860 - 2\,301)\times 7}{365} \\ \text{anos}&\approx 960\,085 \text{ anos} \end{align} \]

Portanto, a expectativa matemática para o tempo de espera até ganhar o prêmio máximo é da ordem de um milhão de anos.

Observação final: esse é um valor médio. É possível ganhar antes ou depois desse tempo, mas a esperança matemática permanece da ordem de centenas de milhares a um milhão de anos.

# número total de combinações possíveis na Mega-Sena
total_combinacoes <- choose(60, 6)

# concursos já realizados
concursos_passados <- 2301

# tempo esperado restante (em semanas)
semanas_esperadas <- total_combinacoes - concursos_passados

# conversão para anos
anos_esperados <- (semanas_esperadas * 7) / 365

# custo total esperado (em reais de hoje)
custo_aposta <- 4.5
custo_total <- semanas_esperadas * custo_aposta

total_combinacoes
[1] 50063860
anos_esperados
[1] 960084.7
custo_total
[1] 225277016

3.4 APEx 3297: Probabilidade

Uma família tem quatro crianças. A probabilidade de nascimento de um menino é 0,5.

Qual é a probabilidade de haver pelo menos um menino e uma menina?

A. 7/8
B. 15/16
C. 3/4
D. 5/8
E. 6/8

Explicações e comentários:

Alternativa correta: A.

Defina os eventos:

\(A\) = nenhum menino (todas meninas)
\(B\) = nenhuma menina (todos meninos)

Como os nascimentos são independentes e \(P(\text{menino})=P(\text{menina})=0{,}5\),

\[ \begin{align} P(A) &= 0.5^4 = \frac{1}{16}\\ P(B) &= 0.5^4 = \frac{1}{16} \end{align} \]

O evento “pelo menos um menino e uma menina” é o complemento de \(A \cup B\):

\[ \begin{align} P(\text{pelo menos um de cada}) &= 1 - P(A) - P(B)\\ &= 1 - \frac{1}{16} - \frac{1}{16}\\ &= \frac{14}{16}\\ P(\text{pelo menos um de cada})&= \frac{7}{8} \end{align} \]

3.5 APEx 3298: Probabilidade

A probabilidade de um paciente sofrer uma má reação pela injeção de certo soro é \(p = 1/1000\).

Qual é a probabilidade de que exatamente 3 em 2000 pacientes venham a sofrer uma má reação?

A. 0.18
B. 0.32
C. 0.20
D. 0.15
E. 0.13

Explicações e comentários:

Alternativa correta: A.

O número de pacientes é grande (\(n=2000>20\)) e a probabilidade individual é pequena (\(p=0.001<0.05\)). Nessas condições, a distribuição Binomial pode ser bem aproximada por uma distribuição de Poisson.

A média da Poisson é \[ \begin{align} \lambda &= np \\ &= 2000 \times \frac{1}{1000} \\ \lambda &= 2 \end{align} \]

Logo, a probabilidade de exatamente 3 reações adversas é \[ \begin{align} P(X=3) &= \frac{\lambda^3 e^{-\lambda}}{3!} \\ &= \frac{2^3 e^{-2}}{3!} \\ P(X=3)&\approx 0.18 \end{align} \]

# comparação Binomial vs Poisson
dbinom(x = 3, size = 2000, prob = 1/1000)
[1] 0.1805373
dpois(x = 3, lambda = 2)
[1] 0.180447

3.6 APEx 11259: Probabilidade

A probabilidade de um paciente sofrer uma má reação pela injeção de certo soro é \(1/1000\).

A probabilidade de mais do que 2 em 2000 pacientes venham a sofrer uma má reação no mesmo período é:

A. 1,000
B. 0,999
C. 0,998
D. 0,677
E. 0,541
F. 0,459
G. 0,323
H. 0,080
I. 1,67×10-10

Explicações e comentários:

Alternativa correta: G.

Seja \(X\) o número de más reações em \(n=2000\) pacientes, com \(p=0.001\). Como \(n\) é grande e \(p\) é pequena, usa-se a aproximação de Poisson com

\[ \begin{align} \lambda &= np \\ &= 2000 \times 0.001 \\ \lambda&= 2 \end{align} \]

Queremos \(P(X>2)\):

\[ \begin{align} P(X>2) &= 1 - P(X\le 2)\\ &= 1 - \sum_{k=0}^{2} \frac{\lambda^k e^{-\lambda}}{k!}\\ &= 1 - e^{-2}\left(\frac{2^0}{0!}+\frac{2^1}{1!}+\frac{2^2}{2!}\right)\\ &= 1 - e^{-2}(1+2+2)\\ &= 1 - 5e^{-2}\\ P(X>2)&\approx 0.323 \end{align} \] Erros comuns:

  • Esquecer de tirar o complemento: 0.6766764
  • Esquecer de somar o caso de 0 pacientes: 0.4586589
  • Usar \(\lambda\) para 1000 pacientes, sem corrigir para 2000: 0.0803014
  • O complemento desse erro: 0.5413411
  • Raciocinar de forma simplista:
    \[ 1 - \frac{1}{1000} = 0.999 \quad \text{ou} \quad 1 - \frac{2}{1000} = 0.998 \]
  • Confundir \(\lambda\) com probabilidade usando \(P(X=p)\) de Poisson com \(\lambda = 1/1000\):
    \[ P(X=p \mid \lambda=1/1000) = 1.665417 \times 10^{-10} \ (\text{praticamente } 0) \]
# Poisson: lambda = n*p = 2
1 - (dpois(0, 2) + dpois(1, 2) + dpois(2, 2))
[1] 0.3233236
1 - ppois(2, 2)
[1] 0.3233236
# Binomial (para conferir)
1 - (dbinom(0, 2000, 1/1000) + dbinom(1, 2000, 1/1000) + dbinom(2, 2000, 1/1000))
[1] 0.3233236
1 - pbinom(2, 2000, 1/1000)
[1] 0.3233236

3.7 APEx 7620: Processo gerador aleatório

Um processo gerador aleatório tem duas propriedades:

  1. independência e
  2. similaridade dos resultados.

Independência significa que o próximo resultado do processo independe dos resultados anteriores. Similaridade significa que as condições conhecidas e desconhecidas são semelhantes na geração de cada resultado.

Se o processo gerador de lançamento de uma moeda honesta é aleatório, qual é a probabilidade aproximada de ocorrência de cada uma das distintas sequências de caras e coroas com 10 lançamentos?

A. 0.1
B. 0.01
C. 0.05
D. 0.001
E. 0.0001

Explicações e comentários:

Alternativa correta: D.

Em cada lançamento de uma moeda honesta há dois resultados equiprováveis: cara ou coroa. Logo, o número total de sequências possíveis em 10 lançamentos é \[ \begin{align} N &= 2^{10} = 1024 \end{align} \]

Como o processo é aleatório, todas as sequências têm a mesma probabilidade. Assim, a probabilidade de ocorrência de uma sequência específica é \[ \begin{align} P(\text{sequência}) &= \frac{1}{1024} \\ P(\text{sequência})&= 0009765625 \end{align} \]

A melhor aproximação entre as alternativas é 0.001.

3.8 APEx 7631: Dengue I

Assista ao vídeo Wizards of Odds: The Power of Probability.

Qual é a probabilidade de uma pessoa estado-unidense contrair dengue ao fazer uma visita às Bermudas?

A. 1/9999
B. 1/11
C. 1/10000
D. 1/9989
E. 1/10

Explicações e comentários:

Alternativa correta: C.

O vídeo mostra como probabilidades muito pequenas costumam ser percebidas de forma distorcida. No caso da dengue nas Bermudas, o risco informado é extremamente baixo, da ordem de um caso para dezenas de milhares de visitantes.

A probabilidade apresentada no vídeo é aproximadamente: \[ \begin{align} P(\text{dengue}) &\approx \frac{1}{10000} \end{align} \]

Diferenças como \(1/9999\) ou \(1/9989\) não têm significado prático distinto nesse contexto; a ideia central é enfatizar a raridade do evento.

3.9 APEx 7633: Dengue II

Assista ao vídeo Wizards of Odds: The Power of Probability.

Qual é a probabilidade de uma pessoa estado-unidense contrair dengue ao fazer uma visita às Bermudas se ela testar positivamente com confiabilidade de 99,9%?

A. 1/10000
B. 1/11
C. 1/9999
D. 1/9989
E. 1/10

Explicações e comentários:

Alternativa correta: B.

Defina os eventos: \(D^+\) = contrair dengue
\(T^+\) = testar positivamente para dengue

A prevalência observada é: \[ P(D^+) = \frac{1}{10000} \]

A confiabilidade do teste é de 99,9%, isto é: \[ \begin{align} P(T^+ \mid D^+) &= 0.999\\ P(T^- \mid D^-) &= 0.999 \end{align} \] logo a taxa de falso positivo é: \[ P(T^+ \mid D^-) = 1 - 0.999 = 0.001 \]

Primeiro calcula-se a probabilidade total de um teste positivo: \[ \begin{align} P(T^+) &= P(D^+)P(T^+ \mid D^+) + P(D^-)P(T^+ \mid D^-) \\ &= \frac{1}{10000}\cdot 0.999 + \left(1-\frac{1}{10000}\right)\cdot 0.001 \\ P(T^+)&= 0.0010998 \end{align} \]

Aplicando a regra de Bayes: \[ \begin{align} P(D^+ \mid T^+) &= \frac{P(T^+ \mid D^+)P(D^+)}{P(T^+)} \\ &= \frac{0.999 \cdot \dfrac{1}{10000}}{0.0011} \\ &= \frac{1}{11}\\ P(D^+ \mid T^+)&= 0.\overline{09} \end{align} \]

Portanto, mesmo com um teste altamente confiável, a probabilidade de a pessoa realmente ter dengue dado um resultado positivo é cerca de \(1/11\).

3.10 APEx 9101: Fator Rh− I

Além da classificação comum de sangue nos grupos A, B, AB e O, é importante a subdivisão de acordo com o fator Rhesus (Rh), que pode ser positivo (Rh+) ou negativo (Rh−). Aproximadamente 85% da população são Rh+ e 15% são Rh−. Em um cenário cirúrgico, três pacientes serão submetidos a transplante.

Qual é a probabilidade de que nenhum paciente seja Rh−?

A. 61.4%
B. 6.14%
C. 0.614%
D. 64.1%
E. 15%

Explicações e comentários:

Alternativa correta: A.

  • Siqueira & Tibúrcio (2011, p. 198-9).

Defina o evento: \(X\) = número de pacientes Rh− entre os três submetidos ao transplante.

Cada paciente, independentemente, tem probabilidade \[ P(\text{Rh−}) = 0.15 \quad P(\text{Rh+}) = 0.85 \]

Logo, \(X\) segue uma distribuição Binomial com parâmetros \(P(X \sim \text{Binomial}(n=3, p=0.15))\).

Queremos a probabilidade de nenhum paciente ser Rh−, isto é, \(P(X=0)\): \[ \begin{align} P(X=0) &= \binom{3}{0}(0.15)^0(0.85)^3 \\ &= 0.85^3 \\ P(X=0)&= 0.614125 \end{align} \]

Portanto, a probabilidade de que nenhum dos três pacientes seja Rh− é aproximadamente 61.4%.

dbinom(x=0, size=3,prob=0.15)
[1] 0.614125

3.11 APEx 9102: Fator Rh− II

Além da classificação comum de sangue nos grupos A, B, AB e O, é importante a subdivisão de acordo com o fator Rhesus (Rh), que pode ser positivo (Rh+) ou negativo (Rh−). Aproximadamente 85% da população são Rh+ e 15% são Rh−. Em um cenário cirúrgico, três pacientes serão submetidos a transplante.

Qual é a probabilidade de que pelo menos um paciente seja Rh−?

A. 0.614
B. 0.386
C. 0.15
D. 0.641
E. 0.368

Explicações e comentários:

Alternativa correta: B.

  • Siqueira & Tibúrcio (2011, p. 198–9).

Defina o evento: \(X\) = número de pacientes Rh− entre os três.

Cada paciente tem, independentemente, \[ P(\text{Rh−}) = 0.15 \quad P(\text{Rh+}) = 0.85 \]

Logo, \[ X \sim \text{Binomial}(n=3, p=0.15) \]

O evento “pelo menos um paciente Rh−” é o complemento do evento “nenhum paciente Rh−”. Assim, \[ \begin{align} P(X \ge 1) &= 1 - P(X = 0) \\ &= 1 - \binom{3}{0}(0.15)^0(0.85)^3 \\ &= 1 - 0.85^3 \\ &= 1 - 0.614125 \\ P(X \ge 1)&= 0.385875 \end{align} \]

Portanto, a probabilidade de que pelo menos um dos três pacientes seja Rh− é aproximadamente \(0.386\).

1 - dbinom(x=0, size=3, prob=0.15)
[1] 0.385875

3.12 APEx 9103: Fator Rh− III

Além da classificação comum de sangue nos grupos A, B, AB e O, é importante a subdivisão de acordo com o fator Rhesus (Rh), que pode ser positivo (Rh+) ou negativo (Rh−). Aproximadamente 85% da população são Rh+ e 15% são Rh−. Em um cenário cirúrgico, três pacientes serão submetidos a transplante.

Qual é a probabilidade de que todos os pacientes sejam Rh−?

A. 0.34
B. 0.034
C. 0.0034
D. 0.00034
E. 0.000034

Explicações e comentários:

Alternativa correta: C.

  • Siqueira & Tibúrcio (2011, p. 198–9).

Defina: \(X\) = número de pacientes Rh− entre os três.

Cada paciente tem, independentemente, \[ P(\text{Rh−}) = 0.15 \]

Logo, \[ X \sim \text{Binomial}(n=3, p=0.15) \]

Queremos \(P(X=3)\): \[ \begin{align} P(X=3) &= \binom{3}{3}(0.15)^3(0.85)^0 \\ &= 0.15^3 \\ P(X=3)&= 0.003375 \end{align} \]

dbinom(x=3, size=3, prob=0.15)
[1] 0.003375

3.13 APEx 9104: Número de atendimentos completos num PA – I

O número de pacientes que têm atendimento completo num pronto-socorro de uma pequena cidade durante a madrugada tem distribuição de Poisson com taxa média igual a 3.

Qual é a probabilidade de que nenhum paciente tenha atendimento completo durante uma madrugada?

A. 0.095
B. 0.50
C. 0.95
D. 0.05
E. 0.005

Explicações e comentários:

Alternativa correta: D.

  • Siqueira & Tibúrcio (2011, p. 201–2).

Seja \(X\) o número de atendimentos completos durante a madrugada. Pelo enunciado, \[ X \sim \text{Poisson}(\lambda = 3) \]

A probabilidade de nenhum atendimento é: \[ \begin{align} P(X=0) &= \frac{\lambda^0 e^{-\lambda}}{0!} \\ &= e^{-3} \\ P(X=0)&\approx 0.04978707 \end{align} \]

dpois(x=0, lambda=3)
[1] 0.04978707

3.14 APEx 9105: Número de atendimentos completos num PA – II

O número de pacientes que têm atendimento completo num pronto-socorro de uma pequena cidade durante a madrugada tem distribuição de Poisson com taxa média igual a 3.

Qual é a probabilidade de que pelo menos um paciente tenha atendimento completo durante uma madrugada?

A. 0.95
B. 0.05
C. 0.095
D. 0.5
E. 0.0095

Explicações e comentários:

Alternativa correta: A.

  • Siqueira & Tibúrcio (2011, p. 201–2).

Seja \(X\) o número de atendimentos completos durante a madrugada. Pelo enunciado, \[ X \sim \text{Poisson}(\lambda = 3) \]

O evento “pelo menos um atendimento” é o complemento do evento “nenhum atendimento”. Logo, \[ \begin{align} P(X \ge 1) &= 1 - P(X=0) \\ &= 1 - e^{-3} \\ &= 1 - 0.049787 \\ P(X \ge 1)&\approx 0.9502129 \end{align} \]

1 - dpois(x=0, lambda=3)
[1] 0.9502129

3.15 APEx 9106: Número de atendimentos completos num PA – III

O número de pacientes que têm atendimento completo num pronto-socorro de uma pequena cidade durante a madrugada tem distribuição de Poisson com taxa média igual a 3.

Qual é a probabilidade de que mais de 10 pacientes tenham atendimento completo durante uma madrugada?

A. 0.3
B. 0.03
C. 0.003
D. 0.0003
E. 0.00003

Explicações e comentários:

Alternativa correta: D.

  • Siqueira & Tibúrcio (2011, p. 201–2).

Seja \(X\) o número de atendimentos completos durante a madrugada. Pelo enunciado, \[ X \sim \text{Poisson}(\lambda = 3) \]

Queremos a probabilidade: \[ P(X > 10) \]

Usando a função de distribuição acumulada da Poisson, \[ \begin{align} P(X > 10) &= 1 - P(X \le 10) \\ &= 1 - \sum_{k=0}^{10} \frac{3^k e^{-3}}{k!}\\ P(X > 10)&=0.000292337 \end{align} \]

Em termos computacionais, isso é obtido diretamente por:

1 - ppois(q = 10, lambda = 3)
[1] 0.000292337
# equivalente a:
ppois(q = 10, lambda = 3, lower.tail = FALSE)
[1] 0.000292337

3.16 APEx 9107: Número de consultas médicas – I

O número de consultas médicas de um determinado ano de um plano de saúde tem a seguinte distribuição:

Número de consultas Frequência
0 589
1 1274
2 1542
3 1144
4 663
5 304
6 126
7 39
8 10
9 3

O número médio de consultas médicas de um plano num determinado ano é:

A. 3.2
B. 2
C. 2.3
D. 4.5
E. 3

Explicações e comentários:

Alternativa correta: C.

  • Siqueira & Tibúrcio (2011, p. 202).

A média do número de consultas é calculada como média ponderada, i.e., \[ \begin{align} \lambda &= \frac{\sum x_i f_i}{\sum f_i} \\ \lambda&= \frac{ 0\cdot589 +1\cdot1274 +2\cdot1542 +3\cdot1144 +4\cdot663 +5\cdot304 +6\cdot126 +7\cdot39 +8\cdot10 +9\cdot3 }{ 589+1274+1542+1144+663+304+126+39+10+3 }. \end{align} \]

Efetuando os cálculos: \[ \begin{align} \lambda &\approx 2.3 \end{align} \]

Portanto, o número médio de consultas médicas por beneficiário no ano é aproximadamente 2.3.

x <- 0:9
f <- c(589, 1274, 1542, 1144, 663, 304, 126, 39, 10, 3)
weighted.mean(x, w = f)
[1] 2.300316

3.17 APEx 9113: DCV – I

A probabilidade de um indivíduo do sexo masculino com mais de 60 anos, vida sedentária e tabagista ativo desenvolver uma doença cardiovascular (DCV) nos próximos 8 anos é 40%.

A partir de um estudo com 10 indivíduos com essas características, qual é a probabilidade de que nenhum desses indivíduos sofra DCV no período determinado?

A. 0.6%
B. 6%
C. 60%
D. 66%
E. 0.006%

Explicações e comentários:

Alternativa correta: A.

  • Arango, HG (2012) Bioestatística. 3ª ed. Rio de Janeiro: Guanabara Koogan, p. 186.

Defina: \(X\) = número de indivíduos que desenvolvem DCV entre os 10 observados.

Cada indivíduo tem, independentemente, \[ P(\text{DCV}) = 0.4 \quad P(\text{não DCV}) = 0.6 \]

Logo, \[ X \sim \text{Binomial}(n=10, p=0.4) \]

A probabilidade de nenhum indivíduo desenvolver DCV é: \[ \begin{align} P(X=0) &= \binom{10}{0}(0.4)^0(0.6)^{10} \\ &= 0.6^{10} \\ P(X=0)&\approx 0.006046618 \end{align} \]

pbinom(q = 0, size = 10, prob = 0.4)
[1] 0.006046618

3.18 APEx 9114: DCV – II

A probabilidade de um indivíduo do sexo masculino com mais de 60 anos, vida sedentária e tabagista ativo desenvolver uma doença cardiovascular (DCV) nos próximos 8 anos é 40%.

A partir de um estudo com 10 indivíduos com essas características, qual é a probabilidade de se ter menos de três indivíduos com DCV?

A. 38.2%
B. 16.7%
C. 83.2%
D. 61.7%
E. 12.1%

Explicações e comentários:

Alternativa correta: B.

  • Arango, HG (2012) Bioestatística. 3ª ed. Rio de Janeiro: Guanabara Koogan, p. 186.

Defina: \(X\) = número de indivíduos que desenvolvem DCV entre os 10 observados.

Cada indivíduo tem, independentemente, \[ P(\text{DCV}) = 0.4 \]

Logo, \[ X \sim \text{Binomial}(n=10, p=0.4) \]

Queremos: \[ P(X<3)=P(X\le 2) \]

Pela definição da distribuição Binomial, \[ \begin{align} P(X\le 2) &= \sum_{k=0}^{2} \binom{10}{k}(0.4)^k(0.6)^{10-k}\\ P(X\le 2) &=0.1672898 \end{align} \]

pbinom(q = 2, size = 10, prob = 0.4)
[1] 0.1672898

3.19 APEx 9115: DCV – III

A probabilidade de um indivíduo do sexo masculino com mais de 60 anos, vida sedentária e tabagista ativo desenvolver uma doença cardiovascular (DCV) nos próximos 8 anos é 40%.

A partir de um estudo com 10 indivíduos com essas características, qual é a probabilidade de se ter mais de dois indivíduos com DCV?

A. 0.26
B. 0.62
C. 0.38
D. 0.83
E. 0.083

Explicações e comentários:

Alternativa correta: D.

  • Arango, HG (2012) Bioestatística. 3ª ed. Rio de Janeiro: Guanabara Koogan, p. 186.

Defina: \(X\) = número de indivíduos que desenvolvem DCV entre os 10.

Cada indivíduo tem, independentemente, \[ P(\text{DCV}) = 0.4 \] logo \[ X \sim \text{Binomial}(n=10, p=0.4) \]

Queremos: \[ \begin{align} P(X>2) &= 1 - P(X\le 2) \end{align} \]

Assim, \[ \begin{align} P(X>2) &= 1 - \sum_{k=0}^{2} \binom{10}{k}(0.4)^k(0.6)^{10-k}\\ P(X>2) &=0.8327102 \end{align} \]

1 - pbinom(q = 2, size = 10, prob = 0.4)
[1] 0.8327102
# equivalente a:
pbinom(q = 2, size = 10, prob = 0.4, lower.tail = FALSE)
[1] 0.8327102

3.20 APEx 9116: DCV – IV

A probabilidade de um indivíduo do sexo masculino com mais de 60 anos, vida sedentária e tabagista ativo desenvolver uma doença cardiovascular (DCV) nos próximos 8 anos é 40%.

A partir de um estudo com 10 indivíduos com essas características, o número esperado de casos de DCV no final do estudo é:

A. 0
B. 1
C. 2
D. 3
E. 4

Explicações e comentários:

Alternativa correta: E.

  • Arango, HG (2012) Bioestatística. 3ª ed. Rio de Janeiro: Guanabara Koogan, p. 186.

Seja \(X\) o número de indivíduos que desenvolvem DCV entre os 10. Com probabilidade individual \(p=0.4\), \[ X \sim \text{Binomial}(n=10, p=0.4) \]

O valor esperado de uma Binomial é: \[ \begin{align} \mathbb{E}[X] &= np \\ &= 10 \times 0.4 \\ \mathbb{E}[X] &= 4 \end{align} \]

Logo, esperam-se 4 casos de DCV ao final do estudo.

3.21 APEx 9117: DCV – V

A probabilidade de um indivíduo do sexo masculino com mais de 60 anos, vida sedentária e tabagista ativo desenvolver uma doença cardiovascular (DCV) nos próximos 8 anos é 40%.

A partir de um estudo com 10 indivíduos com essas características, qual é o desvio-padrão do número de casos de DCV no final do estudo?

A. 1.55
B. 1.45
C. 1.54
D. 1.59
E. 1.95

Explicações e comentários:

Alternativa correta: A.

  • Arango, HG (2012) Bioestatística. 3ª ed. Rio de Janeiro: Guanabara Koogan, p. 186.

Seja \(X\) o número de indivíduos que desenvolvem DCV entre os 10. Então, \[ X \sim \text{Binomial}(n=10, p=0.4) \]

O desvio-padrão de uma Binomial é: \[ \begin{align} s &= \sqrt{np(1-p)} \\ &= \sqrt{10 \cdot 0.4 \cdot (1-0.4)} \\ &= \sqrt{10 \cdot 0.4 \cdot 0.6} \\ &= \sqrt{2.4} \\ s &\approx 1.549193 \end{align} \]

Arredondando: \[ s \approx 1.55 \]

sqrt(10*0.4*(1-0.4))
[1] 1.549193

3.22 APEx 9118: Anestésico – I

Uma em cada mil pessoas que utilizam determinado anestésico sofre uma reação negativa (choque).

Num total de 500 cirurgias em que se empregou esse anestésico, qual é a probabilidade de que exatamente uma pessoa sofra a reação negativa?

A. 33.0%
B. 3.03%
C. 30.3%
D. 33.3%
E. 0.303%

Explicações e comentários:

Alternativa correta: C.

  • Arango, HG (2012) Bioestatística. 3ª ed. Rio de Janeiro: Guanabara Koogan, p. 187.

Defina: \(X\) = número de reações negativas entre os 500 pacientes.

Cada paciente tem, independentemente, \[ p = \frac{1}{1000} = 0.001 \]

Logo, \[ X \sim \text{Binomial}(n=500, p=0.001) \]

Como \(n=500>20\) e \(p=0.001<0.05\), a Binomial pode ser bem aproximada por uma distribuição de Poisson com parâmetro \[ \begin{align} \lambda &= np \\ &= 500 \times \frac{1}{1000} \\ \lambda &= 0.5 \end{align} \]

Usando a aproximação de Poisson: \[ \begin{align} P(X=1) &= \frac{\lambda^1 e^{-\lambda}}{1!} \\ &= 0.5 e^{-0.5} \\ P(X=1)&\approx 0.3032653 \end{align} \]

Usando a Binomial exata:

dbinom(x = 1, size = 500, prob = 1/1000)
[1] 0.303493
dpois(x = 1, lambda = 0.5)
[1] 0.3032653

3.23 APEx 9119: Anestésico – II

Uma em cada mil pessoas que utilizam determinado anestésico sofre uma reação negativa (choque).

Num total de 500 cirurgias em que se empregou esse anestésico, qual é a probabilidade de que nenhuma pessoa sofra a reação negativa?

A. 66.6%
B. 60.6%
C. 6.06%
D. 0.606%
E. 0.0606%

Explicações e comentários:

Alternativa correta: B.

  • Arango, HG (2012) Bioestatística. 3ª ed. Rio de Janeiro: Guanabara Koogan, p. 187.

Defina: \(X\) = número de reações negativas entre os 500 pacientes.

Cada paciente tem, independentemente, \[ p=\frac{1}{1000}=0.001 \]

Logo, \[ X \sim \text{Binomial}(n=500,p=0.001) \]

Como \(n>20\) e \(p\le 0.05\), usa-se a aproximação de Poisson com \[ \begin{align} \lambda &= np \\ &= 500 \times \frac{1}{1000} \\ \lambda &= 0.5 \end{align} \]

A probabilidade de nenhuma reação é: \[ \begin{align} P(X=0) &= e^{-\lambda} \\ &= e^{-0.5} \\ P(X=0)&\approx 0.6065307 \end{align} \]

Cálculo exato e aproximado:

dbinom(x = 0, size = 500, prob = 1/1000)
[1] 0.6063789
dpois(x = 0, lambda = 0.5)
[1] 0.6065307

3.24 APEx 9120: Anestésico – III

Uma em cada mil pessoas que utilizam determinado anestésico sofre uma reação negativa (choque).

Num total de 500 cirurgias em que se empregou esse anestésico, qual é a probabilidade de que mais de uma pessoa sofra a reação negativa?

A. 0.09%
B. 99%
C. 90%
D. 0.9%
E. 9%

Explicações e comentários:

Alternativa correta: E.

  • Arango, HG (2012) Bioestatística. 3ª ed. Rio de Janeiro: Guanabara Koogan, p. 187.

Defina: \(X\) = número de reações negativas entre os 500 pacientes.

Cada paciente tem, independentemente, \[ p=\frac{1}{1000}=0.001 \]

Logo, \[ X \sim \text{Binomial}(n=500,p=0.001) \]

Como \(n=500>20\) e \(p=0.001\le 0.05\), a Binomial pode ser bem aproximada por uma distribuição de Poisson com parâmetro \[ \begin{align} \lambda &= np \\ &= 500 \times \frac{1}{1000} \\ \lambda &= 0.5 \end{align} \]

Queremos: \[ P(X>1) \]

Usando o complemento: \[ \begin{align} P(X>1) &= 1 - P(X\le 1) \\ P(X>1)&= 1 - \left[P(X=0)+P(X=1)\right] \end{align} \]

Pela Poisson: \[ \begin{align} P(X>1) &= 1 - \left(e^{-0.5} + 0.5e^{-0.5}\right) \\ &= 1 - 1.5e^{-0.5} \\ P(X>1)&\approx 0.09020401 \end{align} \]

Cálculo em R (Binomial exata e Poisson aproximada):

1 - pbinom(q = 1, size = 500, prob = 1/1000)
[1] 0.09012809
1 - ppois(q = 1, lambda = 0.5)
[1] 0.09020401

3.25 APEx 12123: Choque anafilático e distribuição de Poisson

Um hospital observa que, em média, ocorre um choque anafilático a cada 2 meses relacionado ao uso de certo anestésico. As cirurgias são realizadas apenas em dias úteis (segunda a sexta-feira), mas para fins de modelagem assume-se o tempo em dias corridos.

Qual é a probabilidade, aproximadamente, de a equipe de anestesia ter que lidar com dois pacientes em choque anafilático no mesmo dia?

A. praticamente 0%
B. 1.6%
C. 2.7%
D. 3.3%
E. 25.0%
F. 50.0%
G. praticamente 100%

Explicações e comentários:

Alternativa correta: A.

A ocorrência de 1 choque a cada 2 meses (em um número indeterminado de cirurgias) configura uma taxa de ocorrência (lambda) e a aplicação da distribuição de Poisson.

Um mês tem, em média, \[ \frac{365}{12} \approx 30.42 \text{ dias} \]

Logo, dois meses correspondem a: \[ \begin{align} 2 \times \frac{365}{12} &= 60.83 \text{ dias} \end{align} \]

A taxa diária é, portanto, \[ \begin{align} \lambda &= \frac{1}{60.83} \\ \lambda&\approx 0.01644 \end{align} \]

Esse valor é uma taxa, não uma probabilidade.

Seja \(X\) o número de choques anafiláticos em um dia. Então, \[ X \sim \text{Poisson}(\lambda = 0.01644) \]

Queremos a probabilidade de ocorrerem dois choques no mesmo dia: \[ \begin{align} P(X=2) &= \frac{\lambda^2 e^{-\lambda}}{2!} \\ &= \frac{(0.01644)^2 e^{-0.01644}}{2} \\ P(X=2)&\approx 0.000135 \end{align} \]

Esse valor é praticamente zero.

## Parâmetros do problema
# taxa observada: 1 choque a cada 2 meses
lambda_2_meses <- 1

# conversão de meses para dias (média anual)
dias_por_mes <- 365 / 12
dias_em_2_meses <- 2 * dias_por_mes

# taxa diária (lambda da Poisson)
lambda_dia <- lambda_2_meses / dias_em_2_meses

## Probabilidade de dois choques no mesmo dia
k <- 2
prob_2_choques <- dpois(k, lambda = lambda_dia)

# saída organizada
cat(
  "Taxa diária (lambda):", round(lambda_dia, 6), "\n",
  "P(X = 2 choques no mesmo dia):", 
  formatC(prob_2_choques * 100, format = "f", digits = 4), "%\n"
)
Taxa diária (lambda): 0.016438 
 P(X = 2 choques no mesmo dia): 0.0133 %
## Distribuição de Poisson por dia (0 a 3 choques)
eventos <- 0:3
prob_eventos <- dpois(eventos, lambda = lambda_dia)

poisson_df <- data.frame(
  Eventos = eventos,
  Probabilidade = prob_eventos
)

print(poisson_df, row.names = FALSE)
 Eventos Probabilidade
       0  9.836960e-01
       1  1.617035e-02
       2  1.329069e-04
       3  7.282573e-07
## Gráfico
plot(
  poisson_df$Eventos,
  poisson_df$Probabilidade,
  type = "h",
  lwd = 3,
  col = "darkblue",
  xlab = "Número de choques anafiláticos no dia",
  ylab = "Probabilidade",
  main = paste(
    "Distribuição de Poisson diária\nlambda =",
    round(lambda_dia, 5))
)

3.26 APEx 12178: Poisson (leitos para 95% da demanda)

“No Brasil, esperam-se 49.400 novos casos de câncer de mama para o ano de 2008, [o que corresponde a] 50,7 casos para cada 100 mil mulheres.”

Fonte: Martins et al. (2009) Rev Bras Ginecol Obstet 31(5):219-23. doi:10.1590/S0100-72032009000500003

Um gestor está organizando um serviço médico para uma cidade com 500 mil mulheres. Estima-se que o tempo de internação médio, para cada novo caso, é de 1 mês.

Qual é o número mínimo de leitos necessários para que 95% da demanda de casos novos seja atendida?

A. 9
B. 10
C. 19
D. 20
E. 29
F. 30
G. 39
H. 45
I. Infinito
J. Impossível determinar

Explicações e comentários:

Alternativa correta: E.

A taxa anual é 50.7 por 100 mil mulheres. Para 500 mil mulheres, o número esperado anual é \(5 \times 50.7\). Como o tempo médio de internação é 1 mês, modelamos a demanda mensal por uma Poisson com taxa: \[ \begin{align} \lambda &= \left(\frac{500000}{100000}\right)\left(\frac{50.7}{12}\right) \\ \lambda&= 21.125 \text{ casos/mês} \end{align} \]

Se \(X\) é o número de casos novos em um mês, então \(X \sim \text{Poisson}(\lambda)\).

Queremos o menor inteiro \(L\) tal que: \[ \begin{align} P(X \le L) \ge 0.95 \end{align} \]

Em R, isso é o quantil de ordem 0.95: \(L = \text{qpois}(0.95,\lambda)\).

# parâmetros
mulheres <- 500000
taxa_anual_por_100k <- 50.7
demanda <- 0.95

# taxa mensal (lambda)
lambda <- (mulheres/100000) * (taxa_anual_por_100k/12)

# número mínimo de leitos: menor L tal que P(X <= L) >= 0.95
L <- qpois(p = demanda, lambda = lambda)

# checagem
p_atendida <- ppois(q = L, lambda = lambda)
p_antes <- ppois(q = L - 1, lambda = lambda)

cat("lambda =", round(lambda, 3), "casos/mês\n")
lambda = 21.125 casos/mês
cat("Leitos mínimos (95%):", L, "\n")
Leitos mínimos (95%): 29 
cat("P(X <= L)   =", round(p_atendida, 6), "\n")
P(X <= L)   = 0.960155 
cat("P(X <= L-1) =", round(p_antes, 6), "\n")
P(X <= L-1) = 0.94029 
# tabela local (em torno do ponto de corte)
k <- (L - 6):(L + 6)
tbl <- data.frame(
  Leitos = k,
  Prob = dpois(k, lambda = lambda),
  Prob_acum = ppois(k, lambda = lambda)
)
print(tbl, row.names = FALSE) 
 Leitos        Prob Prob_acum
     23 0.076446771 0.7065271
     24 0.067289085 0.7738162
     25 0.056859277 0.8306755
     26 0.046198162 0.8768736
     27 0.036145784 0.9130194
     28 0.027270703 0.9402901
     29 0.019865297 0.9601554
     30 0.013988480 0.9741439
     31 0.009532472 0.9836764
     32 0.006292921 0.9899693
     33 0.004028423 0.9939977
     34 0.002502954 0.9965007
     35 0.001510712 0.9980114
# gráfico da probabilidade acumulada
k2 <- 0:(L + 20)
plot(
  k2, ppois(k2, lambda = lambda),
  type = "s",
  xlab = "Leitos",
  ylab = "Demanda atendida (P(X <= leitos))",
  main = paste0("Poisson mensal (lambda = ", round(lambda, 3), ")"),
  ylim = c(0, 1)
)
abline(h = demanda, lty = 2)
abline(v = L, lty = 2)

3.27 APEx 3175: Z-score e percentil (matemática vs. inglês)

\(X_1\) e \(X_2\) medem o desempenho nas atividades 1 e 2. Se \(X_1\) e \(X_2\) têm distribuições normais (ou simétricas) com médias e desvios-padrão \(m_1\), \(d_1\) e \(m_2\), \(d_2\), respectivamente, e \(Z_1 > Z_2\), então o desempenho na atividade 1 é melhor que o desempenho na atividade 2.

Vamos supor que seus aproveitamentos em matemática e inglês sejam 65% e 71%, respectivamente, e que as distribuições são normais. Qual é sua melhor matéria e respectivo percentil em comparação com outros no seu grupo se as médias dos grupos e desvios-padrão são 60 e 5 (para matemática) e 65 e 7 (para inglês)?

A. Matemática e 84,1%
B. Inglês e 80,4%
C. Matemática e 80,4%
D. Inglês e 84,1%

Explicações e comentários:

Alternativa correta: A.

Padronizando as notas:

\[ \begin{align} Z_1 &= \frac{X_1 - m_1}{d_1} = \frac{65 - 60}{5} = 1 \\ Z_2 &= \frac{X_2 - m_2}{d_2} = \frac{71 - 65}{7} = \frac{6}{7} \approx 0.857 \end{align} \]

Como \(Z_1 > Z_2\), o desempenho relativo é melhor em matemática.

Os percentis (distribuição normal) são:

\[ \begin{align} P(X_1 \le 65) &= \Phi(Z_1) = \Phi(1.0) \approx 0.8413 = 84.1\% \\ P(X_2 \le 71) &= \Phi(Z_2) = \Phi(0.857) \approx 0.8043 = 80.4\% \end{align} \]

pnorm(q = 65, mean = 60, sd = 5, lower.tail = TRUE)
[1] 0.8413447
pnorm(q = 71, mean = 65, sd = 7, lower.tail = TRUE)
[1] 0.804317

3.28 APEx 7595: Tempos de vida (Normal) e escolha do aparelho

Os tempos de vida de dois aparelhos eletrônicos \(D_1\) e \(D_2\) de um laboratório médico, medidos em horas, têm distribuições \(\text{Normal}(42,6)\) e \(\text{Normal}(45,3)\), respectivamente.

Se os aparelhos são produzidos para serem usados por um período de 49 horas, qual aparelho deve ser preferido?

A. São equivalentes
B. \(D_1\)
C. \(D_2\)
D. Impossível determinar

Explicações e comentários:

Alternativa correta: B.

Interprete “ser usado por um período de 49 horas” como exigir que o tempo de vida exceda 49 horas. Logo, o melhor aparelho é o que maximiza a probabilidade de sobrevivência acima de 49:

\[ \begin{align} P(D_1>49) \quad \text{vs.} \quad P(D_2>49) \end{align} \]

Padronizando:

\[ \begin{align} Z_1 &= \frac{49-42}{6} = \frac{7}{6} \approx 1.167 \\ Z_2 &= \frac{49-45}{3} = \frac{4}{3} \approx 1.333 \end{align} \]

Como \(P(X>49)=1-\Phi(Z)\), e \(Z_1 < Z_2\), então: \[ \begin{align} P(D_1>49) > P(D_2>49) \end{align} \]

# D1 ~ N(42, 6)
# D2 ~ N(45, 3)
# Preferir o que tem maior P(vida > 49)

p1 <- pnorm(49, mean = 42, sd = 6, lower.tail = FALSE)
p2 <- pnorm(49, mean = 45, sd = 3, lower.tail = FALSE)

p1
[1] 0.1216725
p2
[1] 0.09121122
# Curvas e região de sobrevivência acima de 49h
x <- seq(25, 65, by = 0.01)
y1 <- dnorm(x, mean = 42, sd = 6)  # D1
y2 <- dnorm(x, mean = 45, sd = 3)  # D2

plot(x, y2, type = "l",
     xlab = "Duração (h)", ylab = "Densidade",
     main = "Densidades de D1 e D2\nSobrevivência acima de 49h")
lines(x, y1, lty = 2)
abline(v = 49, lty = 3)

legend("topleft",
       legend = c("D2: N(45, 3)", "D1: N(42, 6)"),
       lty = c(1, 2), bty = "n")

# sombrear P(D2 > 49)
idx2 <- x >= 49
polygon(c(49, x[idx2], max(x[idx2])),
        c(0,  y2[idx2], 0),
        border = NA, col = "#0000FF44")

# sombrear P(D1 > 49)
idx1 <- x >= 49
polygon(c(49, x[idx1], max(x[idx1])),
        c(0,  y1[idx1], 0),
        border = NA, col = "#FF000044")

3.29 APEx 7654: Distribuição normal padrão

Os percentis dos quantis −1,96 e 1,96 da normal padrão são, respectivamente:

A. 5% e 95%
B. 2,5% e 97,5%
C. 5% e 97,5%
D. 2,5% e 95%
E. 1% e 99%
F. 10% e 90%

Explicações e comentários:

Alternativa correta: B.

Considere \(Z \sim \mathcal{N}(0,1)\). Os percentis associados a valores de \(Z\) são dados pela função de distribuição acumulada \(\Phi(z)\).

\[ \begin{align} P(Z \le -1.96) &= \Phi(-1.96) \approx 0.025 \\ P(Z \le \phantom{-}1.96) &= \Phi(1.96) \approx 0.975 \end{align} \]

Logo, os percentis correspondentes são 2,5% e 97,5%.

pnorm(q = -1.96, mean = 0, sd = 1)
[1] 0.0249979
pnorm(q =  1.96, mean = 0, sd = 1)
[1] 0.9750021
qnorm(p = 0.025, mean = 0, sd = 1)
[1] -1.959964
qnorm(p = 0.975, mean = 0, sd = 1)
[1] 1.959964

3.30 APEx 9108: Infecção por H. pylori I

Desde o isolamento em 1983 do Helicobacter pylori na mucosa gástrica humana, inúmeros estudos têm sido realizados objetivando determinar possível relação entre ele e algumas entidades gastroduodenais tais como úlcera, gastrite crônica etc. O microrganismo tem sido diagnosticado pelo exame de cultura (com desprezível margem de erro). O teste respiratório que emprega ureia marcada com carbono-14 é mais simples e rápido. Por possuir uréase, enzima capaz de degradar ureia a gás carbônico, a bactéria pode ser evidenciada pela detecção de carbono no ar expirado após a administração, por via oral, da ureia marcada. A quantidade de \(^{14}\mathrm{C}\) liberada sob a forma de \(CO_2\) para pacientes não portadores de H. pylori é uma variável gaussiana com média 0.07 unidade de \(^{14}\mathrm{C}\) e desvio-padrão igual a 0.03 unidade de \(^{14}\mathrm{C}\).

Qual é a probabilidade de uma pessoa não infectada liberar entre 0.04 e 0.10 unidade de \(^{14}\mathrm{C}\)?

A. 0.086
B. 0.068
C. 0.86
D. 0.68
E. 0.32

Explicações e comentários:

Alternativa correta: D.

  • Siqueira, AL & Tibúrcio, JD (2011) Estatística na Área de Saúde: conceitos, metodologia, aplicações e prática computacional. BH: Coopmed, p. 211-2.

Modelagem: \[ X \sim \mathcal{N}(0.07,\;0.03^2) \]

Cálculo da probabilidade: \[ \begin{align} P(0.04 \le X \le 0.10) &= \Phi\!\left(\frac{0.10 - 0.07}{0.03}\right) - \Phi\!\left(\frac{0.04 - 0.07}{0.03}\right) \\ &= \Phi(1) - \Phi(-1)\\ &= 0.8413 - 0.1587\\ P(0.04 \le X \le 0.10)&=0.6826 \end{align} \]

pnorm(0.10, mean = 0.07, sd = 0.03) -
pnorm(0.04, mean = 0.07, sd = 0.03)
[1] 0.6826895

3.31 APEx 9109: Infecção por H. pylori II

Desde o isolamento em 1983 do Helicobacter pylori na mucosa gástrica humana, inúmeros estudos têm sido realizados objetivando determinar possível relação entre ele e algumas entidades gastroduodenais tais como úlcera, gastrite crônica etc. O microrganismo tem sido diagnosticado pelo exame de cultura (com desprezível margem de erro). O teste respiratório que emprega ureia marcada com carbono-14 é mais simples e rápido. Por possuir uréase, enzima capaz de degradar ureia a gás carbônico, a bactéria pode ser evidenciada pela detecção de carbono no ar expirado após a administração, por via oral, da ureia marcada. A quantidade de \(^{14}\mathrm{C}\) liberada sob a forma de \(CO_2\) para pacientes não portadores de H. pylori é uma variável gaussiana com média 0.07 unidade de \(^{14}\mathrm{C}\) e desvio-padrão igual a 0.03 unidade de \(^{14}\mathrm{C}\).

Qual é a probabilidade de uma pessoa não infectada liberar mais de 0.15 unidade de \(^{14}\mathrm{C}\)?

A. 0
B. 0.996
C. 0.4
D. 0.04
E. 0.004

Explicações e comentários:

Alternativa correta: E.

  • Siqueira, AL & Tibúrcio, JD (2011) Estatística na Área de Saúde: conceitos, metodologia, aplicações e prática computacional. BH: Coopmed, p. 211–2.

Modelagem: \[ X \sim \mathcal{N}(0.07,\;0.03^2) \]

Cálculo da probabilidade: \[ \begin{align} P(X > 0.15) &= 1 - \Phi\!\left(\frac{0.15 - 0.07}{0.03}\right) \\ &= 1 - \Phi(2.67) \\ &\approx 1 - 0.9962 \\ P(X > 0.15) &\approx 0.0038 \end{align} \]

1 - pnorm(0.15, mean = 0.07, sd = 0.03)
[1] 0.003830381

3.32 APEx 9110: Infecção por H. pylori III

Desde o isolamento em 1983 do Helicobacter pylori na mucosa gástrica humana, inúmeros estudos têm sido realizados objetivando determinar possível relação entre ele e algumas entidades gastroduodenais tais como úlcera, gastrite crônica etc. O microrganismo tem sido diagnosticado pelo exame de cultura (com desprezível margem de erro). O teste respiratório que emprega ureia marcada com carbono-14 é mais simples e rápido. Por possuir uréase, enzima capaz de degradar ureia a gás carbônico, a bactéria pode ser evidenciada pela detecção de carbono no ar expirado após a administração, por via oral, da ureia marcada. A quantidade de \(^{14}\mathrm{C}\) liberada sob a forma de \(CO_2\) para pacientes não portadores de H. pylori é uma variável gaussiana com média 0.07 unidade de \(^{14}\mathrm{C}\) e desvio-padrão igual a 0.03 unidade de \(^{14}\mathrm{C}\).

Quais são os limites de um intervalo simétrico em relação à média que engloba 80% dos pacientes não infectados?

A. 0.03 e 0.11
B. 0.003 e 0.011
C. 0.03 e 0.11
D. 0.01 e 0.33
E. 0.003 e 0.33

Explicações e comentários:

Alternativa correta: C.

  • Siqueira, AL & Tibúrcio, JD (2011) Estatística na Área de Saúde: conceitos, metodologia, aplicações e prática computacional. BH: Coopmed, p. 211–2.

Modelagem: \[ X \sim \mathcal{N}(0.07,\;0.03^2) \]

Deseja-se um intervalo simétrico em torno da média que contenha 80% da probabilidade: \[ P(a \le X \le b) = 0.80, \qquad b-\mu = \mu-a \]

Como o intervalo é central, sobram 20% nas caudas, isto é, 10% em cada cauda: \[ P(X \le a)=0.10 \qquad P(X \le b)=0.90 \]

Logo: \[ \begin{align} a &= \mu + z_{0.10}\,\sigma = 0.07 + q_{0.10}\cdot 0.03 \\ b &= \mu + z_{0.90}\,\sigma = 0.07 + q_{0.90}\cdot 0.03 \end{align} \]

Com \(z_{0.10}\approx -1.2816\) e \(z_{0.90}\approx 1.2816\): \[ \begin{align} a &\approx 0.07 + (-1.2816)\cdot 0.03 = 0.0316 \\ b &\approx 0.07 + (1.2816)\cdot 0.03 = 0.1084 \end{align} \]

Portanto, aproximadamente, \((a,b)\approx(0.03,\;0.11)\).

a <- 0.07 + qnorm(0.10, mean = 0, sd = 1) * 0.03
b <- 0.07 + qnorm(0.90, mean = 0, sd = 1) * 0.03
a
[1] 0.03155345
b
[1] 0.1084465
pnorm(b, mean = 0.07, sd = 0.03) - pnorm(a, mean = 0.07, sd = 0.03)
[1] 0.8

3.33 APEx 9111: PAS em jovens saudáveis I

A pressão arterial sistólica (PAS), medida em milímetro de mercúrio (mmHg), em pessoas jovens gozando de boa saúde tem distribuição normal com média 120 mmHg e desvio-padrão 10 mmHg.

Qual é a probabilidade de se encontrar uma pessoa jovem e sadia com PAS acima de 140 mmHg?

A. 0.032
B. 0.023
C. 0.23
D. 0.32
E. 0.0032

Explicações e comentários:

Alternativa correta: B.

  • Siqueira, AL & Tibúrcio, JD (2011). Estatística na Área de Saúde: conceitos, metodologia, aplicações e prática computacional. Belo Horizonte: Coopmed, p. 210–1.

Modelagem: \[ X \sim \mathcal{N}(120,\;10^2) \]

Cálculo da probabilidade: \[ \begin{align} P(X > 140) &= 1 - \Phi\!\left(\frac{140 - 120}{10}\right) \\ &= 1 - \Phi(2) \\ &= 1 - 0.97725 \\ P(X > 140)&= 0.02275 \end{align} \]

pnorm(q = 140, mean = 120, sd = 10, lower.tail = FALSE)
[1] 0.02275013
# ou
1 - pnorm(q = 140, mean = 120, sd = 10)
[1] 0.02275013

3.34 APEx 9112: PAS em jovens saudáveis II

A pressão arterial sistólica (PAS), medida em milímetro de mercúrio (mmHg), em pessoas jovens gozando de boa saúde tem distribuição normal com média 120 mmHg e desvio-padrão 10 mmHg.

Quais são os limites de um intervalo simétrico em relação à média que engloba 95% dos valores de PAS de pessoas jovens e sadias?

A. 100.9 e 140.4
B. 109.4 e 134.6
C. 104.4 e 139.9
D. 104.0 e 136.9
E. 100.4 e 139.6

Explicações e comentários:

Alternativa correta: E.

  • Siqueira, AL & Tibúrcio, JD (2011) Estatística na Área de Saúde: conceitos, metodologia, aplicações e prática computacional. Belo Horizonte: Coopmed, p. 210–1.

Modelagem: \[ X \sim \mathcal{N}(120,\;10^2) \]

Intervalo central de 95% (simétrico em relação à média): \[ \begin{align} P(a < X < b) &= 0.95 \\\\ a &= \mu + z_{0.025}\sigma \\ b &= \mu + z_{0.975}\sigma \end{align} \]

Cálculo: \[ \begin{align} a &= 120 + (-1.96)\cdot 10 = 100.4 \\ b &= 120 + (1.96)\cdot 10 = 139.6 \end{align} \]

Logo, \[ P(100.4 < X < 139.6) = 0.95 \]

m <- 120
dp <- 10

a <- m + qnorm(p = 0.025) * dp
b <- m + qnorm(p = 0.975) * dp

a
[1] 100.4004
b
[1] 139.5996

3.35 APEx 9284: Comprimento de recém-nascido feminino I

O comprimento de recém-nascido do sexo feminino não portador de anomalias congênitas é uma variável aleatória com distribuição aproximadamente normal, com média 48.54 cm e desvio-padrão 2.5 cm.

Qual é a probabilidade de um recém-nascido feminino não portador de anomalias congênitas, escolhido aleatoriamente, ter um comprimento maior que a média?

A. 25%
B. 50%
C. 75%
D. 49%
E. 51%

Explicações e comentários:

Alternativa correta: B.

  • Arango, HG (2012). Bioestatística. 3ª ed. Rio de Janeiro: Guanabara Koogan, p. 189.

Modelagem: \[ X \sim \mathcal{N}(48.54,\;2.5^2) \]

Propriedade da distribuição normal:

A distribuição normal é simétrica em relação à média. Logo, metade da massa de probabilidade está acima da média e metade abaixo.

Cálculo: \[ \begin{align} P(X > \mu) &= 1 - \Phi(0) \\ &= 1 - 0.5 \\ P(X > \mu)&= 0.5 \end{align} \]

Logo, \[ P(X > 48.54) = 0.50 \]

pnorm(q = 48.54, mean = 48.54, sd = 2.5)
[1] 0.5

3.36 APEx 9283: Comprimento de recém-nascido feminino II

O comprimento de recém-nascido do sexo feminino não portador de anomalias congênitas é uma variável aleatória com distribuição aproximadamente normal, com média 48.54 cm e desvio-padrão 2.5 cm.

Qual é a probabilidade de um recém-nascido feminino não portador de anomalias congênitas, escolhido aleatoriamente, ter comprimento menor que 44.79 cm?

A. 76%
B. 7.6%
C. 67%
D. 6.7%
E. 0.67%

Explicações e comentários:

Alternativa correta: D.

  • Arango, HG (2012). Bioestatística. 3ª ed. Rio de Janeiro: Guanabara Koogan, p. 189.

Modelagem: \[ X \sim \mathcal{N}(48.54,\;2.5^2) \]

Cálculo da probabilidade: \[ \begin{align} P(X < 44.79) &= \Phi\!\left(\frac{44.79 - 48.54}{2.5}\right) \\ &= \Phi(-1.50) \\ P(X < 44.79)&= 0.0668 \end{align} \]

Logo, \[ P(X < 44.79) \approx 6.7\% \]

pnorm(q = 44.79, mean = 48.54, sd = 2.5)
[1] 0.0668072

3.37 APEx 9282: Comprimento de recém-nascido feminino III

O comprimento de recém-nascido do sexo feminino não portador de anomalias congênitas é uma variável aleatória com distribuição aproximadamente normal, com média 48.54 cm e desvio-padrão 2.5 cm.

Qual é a probabilidade de um recém-nascido feminino não portador de anomalias congênitas, escolhido aleatoriamente, ter comprimento maior que 47.29 cm?

A. 69.15%
B. 30.85%
C. 96.15%
D. 3.85%
E. 50%

Explicações e comentários:

Alternativa correta: A.

  • Arango, HG (2012). Bioestatística. 3ª ed. Rio de Janeiro: Guanabara Koogan, p. 189.

Modelagem: \[ X \sim \mathcal{N}(48.54,\;2.5^2) \]

Cálculo da probabilidade: \[ \begin{align} P(X > 47.29) &= 1 - \Phi\!\left(\frac{47.29 - 48.54}{2.5}\right) \\ &= 1 - \Phi(-0.50) \\ &= \Phi(0.50) \\ P(X > 47.29)&= 0.6915 \end{align} \]

Logo, \[ P(X > 47.29) \approx 69.15\% \]

pnorm(q = 47.29, mean = 48.54, sd = 2.5, lower.tail = FALSE)
[1] 0.6914625
# ou
1 - pnorm(q = 47.29, mean = 48.54, sd = 2.5)
[1] 0.6914625

3.38 APEx 9281: Comprimento de recém-nascido feminino IV

O comprimento de recém-nascido do sexo feminino não portadores de anomalias congênitas é uma variável aleatória com distribuição aproximadamente normal, com média 48.54 cm e desvio-padrão 2.5 cm.

Quais são os limites de um intervalo simétrico em relação à média que engloba 95% de recém-nascidos do sexo feminino não portadores de anomalias congênitas?

A. 43.64 e 54.44
B. 46.34 e 53.44
C. 43.64 e 53.44
D. 43.46 e 53.44
E. 43.64 e 53.34

Explicações e comentários:

Alternativa correta: C.

  • Arango, HG (2012). Bioestatística. 3ª ed. Rio de Janeiro: Guanabara Koogan, p. 190.

Modelagem: \[ X \sim \mathcal{N}(48.54,\;2.5^2) \]

Intervalo central de 95% (simétrico em relação à média): \[ \begin{align} P(a < X < b) &= 0.95 \\\\ a &= \mu + z_{0.025}\sigma \\ b &= \mu + z_{0.975}\sigma \end{align} \]

Cálculo: \[ \begin{align} a &= 48.54 + (-1.96)\cdot 2.5 = 43.64 \\ b &= 48.54 + (1.96)\cdot 2.5 = 53.44 \end{align} \]

Logo, \[ P(43.64 < X < 53.44) = 0.95 \]

mu <- 48.54
sigma <- 2.5

a <- mu + qnorm(0.025) * sigma
b <- mu + qnorm(0.975) * sigma

a
[1] 43.64009
b
[1] 53.43991

3.39 APEx 10426: MCT Mulher

Entre as mulheres de 18 a 34 anos de idade em uma localidade, a massa corporal total (MCT) é normalmente distribuída com média 52 kg e desvio-padrão 7.5 kg.

Qual a percentagem de mulheres que têm MCT superior a 59.5 kg?

A. 2
B. 5
C. 10
D. 16
E. 32

Explicações e comentários:

Alternativa correta: D.

  • Ratelle, S (2001). Preventive Medicine and Public Health: PreTest® Self-Assessment and Review. 9th ed. New York: McGraw-Hill, questão 5.

Modelagem: \[ X \sim \mathcal{N}(52,\;7.5^2) \]

Cálculo da probabilidade: \[ \begin{align} P(X > 59.5) &= 1 - \Phi\!\left(\frac{59.5 - 52}{7.5}\right) \\ &= 1 - \Phi(1) \\ &= 1 - 0.8413 \\ P(X > 59.5)&= 0.1587 \end{align} \]

Logo, \[ P(X > 59.5) \approx 15.9\% \approx 16\% \]

pnorm(q = 59.5, mean = 52, sd = 7.5, lower.tail = FALSE)
[1] 0.1586553
# ou
1 - pnorm(q = 59.5, mean = 52, sd = 7.5)
[1] 0.1586553

3.40 APEx 10427: Normais sobrepostas

Considere as duas curvas de distribuição da estatura a seguir.

Qual medida-resumo numérica permite discriminar entre as duas distribuições?

A. Mediana
B. Desvio-padrão
C. Coeficiente de assimetria
D. Média
E. Tamanho da amostra

Explicações e comentários:

Alternativa correta: B.

  • Ratelle, S (2001) Preventive Medicine and Public Health: PreTest® Self-Assessment and Review. 9th ed. New York: McGraw-Hill, questão 46.

Justificativa conceitual:

As duas distribuições apresentadas têm o mesmo perfil simétrico e unimodal, com coincidência das principais medidas de localização: moda, mediana e média. Portanto, essas medidas não permitem discriminar entre as distribuições.

A diferença entre as curvas está na dispersão dos valores em torno da média. Essa característica é capturada numericamente pelo desvio-padrão, que quantifica a variabilidade da distribuição.

Logo, a única medida-resumo capaz de discriminar as duas distribuições é o desvio-padrão.

3.41 APEx 11575: Conceitos em notas de Estatística

As notas de Estatística Aplicada à Medicina de uma determinada universidade distribuem-se de acordo com uma distribuição normal. Para uma turma com média igual a 6.5 e desvio-padrão igual a 0.8, o professor atribuiu conceitos da seguinte forma: R: nota menor que 5, B: nota maior ou igual a 5 e menor que 7 e A: nota maior ou igual a 7 e menor que 10. Numa turma de 180 estudantes, os números esperados aproximados de alunos com conceito R, B e A são, respectivamente:

A. 9 (5%), 122 (68%), 49 (27%)
B. 60 (33.3%), 60 (33.3%), 60 (33.3%)
C. 5 (3%), 127 (70%), 48 (27%)
D. 4 ou 5 (2.5%), 171 (95%), 4 ou 5 (2.5%)
E. 49 (27%), 122 (68%), 9 (5%)

Explicações e comentários:

Alternativa correta: C.

Modelagem: \[ X \sim \mathcal{N}(6.5,\;0.8^2) \]

Probabilidades dos conceitos: \[ \begin{align} P(R) &= P(X < 5) = \Phi\!\left(\frac{5-6.5}{0.8}\right) \\ P(A) &= P(X \ge 7) = 1-\Phi\!\left(\frac{7-6.5}{0.8}\right) \\ P(B) &= 1 - \big(P(R)+P(A)\big) \end{align} \]

Números esperados em \(n=180\): \[ \mathbb{E}[R]=nP(R),\quad \mathbb{E}[B]=nP(B),\quad \mathbb{E}[A]=nP(A) \]

Valores aproximados: \[ \begin{align} P(R) &\approx 0.0304,\quad \mathbb{E}[R]\approx 180\cdot 0.0304 \approx 5 \\ P(B) &\approx 0.7036,\quad \mathbb{E}[B]\approx 180\cdot 0.7036 \approx 127 \\ P(A) &\approx 0.2660,\quad \mathbb{E}[A]\approx 180\cdot 0.2660 \approx 48 \end{align} \]

media <- 6.5
dp <- 0.8
n <- 180

p_R <- pnorm(q = 5, mean = media, sd = dp, lower.tail = TRUE)
p_A <- pnorm(q = 7, mean = media, sd = dp, lower.tail = FALSE)
p_B <- 1 - (p_R + p_A)

cat("proporcoes:", round(p_R,2), round(p_B,2), round(p_A,2), "\n")
proporcoes: 0.03 0.7 0.27 
cat("em numeros:", round(p_R*n, 0), round(p_B*n, 0), round(p_A*n, 0), "\n")
em numeros: 5 127 48 

3.42 APEx 12126: Desempenho posicional em duas normais

Considere duas unidades curriculares da FMUSP, cujas notas tenham distribuições normais com suas respectivas médias e desvios-padrão. Suponha que você tem determinado desempenho registrado em cada uma delas. É possível saber em qual das duas seu desempenho relativo aos colegas é melhor, verificando qual tem maior proporção de indivíduos abaixo de seu desempenho.

Vamos supor que suas notas nas disciplinas de Estatística e de Moléstias Infecciosas sejam 7.1 e 9.2, respectivamente. Em qual disciplina você está melhor posicional e qual porcentagem de colegas tiveram desempenho melhor que o seu se as médias e desvios-padrão são, respectivamente, 6.8 e 2.2 para Estatística e 9.0 e 1.5 para Moléstias Infecciosas?

A. MSP1290, com 36% dos colegas com desempenho superior ao meu.
B. MSP1290, com 4% dos colegas com desempenho superior ao meu.
C. MSP1290, com 96% dos colegas com desempenho superior ao meu.

D. Aproximadamente iguais, com 45% dos colegas com desempenho superior ao meu.

E. Aproximadamente iguais, com 55% dos colegas com desempenho superior ao meu.

F. MSP4261, com 63% dos colegas com desempenho superior ao meu.

G. MSP4261, com 97% dos colegas com desempenho superior ao meu.
H. MSP4261, com 3% dos colegas com desempenho superior ao meu.

Explicações e comentários:

Alternativa correta: D.

Modelagem: \[ \begin{align} X_E &\sim \mathcal{N}(6.8,\;2.2^2) \\ X_M &\sim \mathcal{N}(9.0,\;1.5^2) \end{align} \]

A proporção de colegas com desempenho superior ao seu é a cauda superior: \[ P(X > x) = 1 - \Phi\!\left(\frac{x-\mu}{\sigma}\right) \]

Cálculos: \[ \begin{align} P(X_E > 7.1) &= 1 - \Phi\!\left(\frac{7.1-6.8}{2.2}\right) = 1 - \Phi(0.1364) \approx 0.4458 \\ P(X_M > 9.2) &= 1 - \Phi\!\left(\frac{9.2-9.0}{1.5}\right) = 1 - \Phi(0.1333) \approx 0.4470 \end{align} \]

Conclusão: os dois percentuais são praticamente iguais, cerca de 45% dos colegas acima do seu desempenho em cada disciplina.

nota_E <- 7.1
nota_M <- 9.2

mu_E <- 6.8
sd_E <- 2.2
mu_M <- 9.0
sd_M <- 1.5

p_sup_E <- pnorm(q = nota_E, mean = mu_E, sd = sd_E, lower.tail = FALSE)
p_sup_M <- pnorm(q = nota_M, mean = mu_M, sd = sd_M, lower.tail = FALSE)

cat("Proporcao acima (Estatistica):", p_sup_E, "\n")
Proporcao acima (Estatistica): 0.4457669 
cat("Proporcao acima (Molestias Infecciosas):", p_sup_M, "\n")
Proporcao acima (Molestias Infecciosas): 0.4469649 

3.43 APEx 15875: Distribuição Normal

Ranking mundial de estatura: brasileiro cresce, mas ainda é “baixinho”.

O homem brasileiro tem, em média, 1.73 m, e a mulher, 1.60 m. Ambos registraram o mesmo crescimento desde 1914: 8.6 cm. Para homens, o Brasil é o 68º colocado em altura entre os países pesquisados – fica acima de nações como Portugal, México e Chile, e abaixo de Romênia, Argentina e Jamaica. A mulher brasileira alcançou a 71ª posição, mais alta do que a mulher turca, argentina ou chinesa, e mais baixa do que as espanholas, israelenses e inglesas.

Fonte:
http://www.pragmatismopolitico.com.br/2016/07/ranking-mundial-de-estatura-brasileiro-cresce-mas-ainda-e-baixinho.html

Se o desvio-padrão populacional da estatura do homem brasileiro for de 7 cm, então os percentis aproximados de indivíduos dessa população com distribuição normal com até 166 cm, 173 cm e 180 cm são, respectivamente:

A. 15.9%, 50% e 84.1%
B. 19.5%, 50% e 84.1%
C. 15.9%, 49.9% e 84.1%
D. 15.9%, 50% e 81.4%

Explicações e comentários:

Alternativa correta: A.

Modelagem: \[ X \sim \mathcal{N}(173,\;7^2) \]

Cálculo dos percentis: \[ \begin{align} P(X \le 166) &= \Phi\!\left(\frac{166 - 173}{7}\right) = \Phi(-1) \approx 0.1587 \\ P(X \le 173) &= \Phi(0) = 0.5 \\ P(X \le 180) &= \Phi\!\left(\frac{180 - 173}{7}\right) = \Phi(1) \approx 0.8413 \end{align} \]

Logo, os percentis aproximados são 15.9%, 50% e 84.1%.

pnorm(q = 166, mean = 173, sd = 7)
[1] 0.1586553
pnorm(q = 173, mean = 173, sd = 7)
[1] 0.5
pnorm(q = 180, mean = 173, sd = 7)
[1] 0.8413447