Bastão de Asclépio & Distribuição Normal
RPubsVocê está preparando um relatório sobre a evolução da prevalência anual de gonorreia no município de São Paulo, SP, para homens e mulheres na última década e quer evidenciar a comparação entre os anos. Qual tipo de gráfico melhor ilustra os dados?
A. Histograma
B. Gráfico de setores
C. Gráfico de densidade
D. Gráfico de linhas
Explicações e comentários:
Alternativa correta: D.
O objetivo é comparar a evolução de uma medida ao longo do tempo. Para esse tipo de dado, em que a variável independente é o tempo (anos) e há interesse em comparar tendências entre grupos (homens e mulheres), o gráfico de linhas é o mais adequado. Ele permite visualizar variações temporais e comparar trajetórias entre populações.
Histogramas e gráficos de densidade são apropriados para distribuições de frequência, não para séries temporais. Gráficos de setores servem para proporções em um único momento, não para evolução temporal.
Qual das medidas de tendência central apresentadas abaixo é a mais sensível a valores extremos?
A. moda
B. média
C. desvio-padrão
D. mediana
E. intervalo interquartil
Explicações e justificativas:
Alternativa correta: B.
Valores extremos (outliers) afetam mais as medidas ligadas à média aritmética do que aquelas ligadas à mediana. Nesta questão, moda, média e mediana são medidas de localização. Desvio-padrão e intervalo interquartílico são medidas de dispersão. Destas, somente o desvio-padrão depende da média e, portanto, é a mais afetada.
set.seed(123)
# dados originais
colesterol <- round(rgamma(n = 20, shape = 3, rate = 0.014), 0)
print(summary(colesterol)) Min. 1st Qu. Median Mean 3rd Qu. Max.
37.0 121.0 181.5 195.1 246.5 425.0
# estatisticas sem outlier
estat_sem <- c(
media = mean(colesterol),
dp = sd(colesterol),
mediana = median(colesterol),
iqr = IQR(colesterol),
max = max(colesterol)
)
# substitui o maior valor pelo outlier
colesterol_out <- colesterol
colesterol_out[which.max(colesterol_out)] <- 500
print(summary(colesterol_out)) Min. 1st Qu. Median Mean 3rd Qu. Max.
37.0 121.0 181.5 198.8 246.5 500.0
# estatisticas com outlier
estat_com <- c(
media = mean(colesterol_out),
dp = sd(colesterol_out),
mediana = median(colesterol_out),
iqr = IQR(colesterol_out),
max = max(colesterol_out)
)
# variacao percentual
variacao_pct <- 100 * (estat_com - estat_sem) / estat_sem
print(round(cbind(sem_outlier = estat_sem,
com_outlier = estat_com,
variacao_pct = variacao_pct), 2)) sem_outlier com_outlier variacao_pct
media 195.05 198.80 1.92
dp 110.01 119.16 8.32
mediana 181.50 181.50 0.00
iqr 125.50 125.50 0.00
max 425.00 500.00 17.65
# boxplots lado a lado
par(mfrow = c(1, 2))
boxplot(colesterol,
ylim=c(50,510),
main = "Sem outlier",
ylab = "Colesterol")
boxplot(colesterol_out,
ylim=c(50,510),
main = "Com outlier",
ylab = "Colesterol")par(mfrow = c(1, 1))
plot(density(colesterol),
xlim=c(0,650),
main = "Density",
xlab = "Colesterol",
col="blue",
type = "l")
lines(density(colesterol_out),
type = "l")Qual das medidas de dispersão apresentadas abaixo é a mais sensível a valores extremos?
A. moda
B. média
C. desvio-padrão
D. mediana
E. intervalo interquartil
Explicações e justificativas:
Alternativa correta: C.
set.seed(123)
# dados originais
colesterol <- round(rgamma(n = 20, shape = 3, rate = 0.014), 0)
print(summary(colesterol)) Min. 1st Qu. Median Mean 3rd Qu. Max.
37.0 121.0 181.5 195.1 246.5 425.0
# estatisticas sem outlier
estat_sem <- c(
media = mean(colesterol),
dp = sd(colesterol),
mediana = median(colesterol),
iqr = IQR(colesterol),
max = max(colesterol)
)
# substitui o maior valor pelo outlier
colesterol_out <- colesterol
colesterol_out[which.max(colesterol_out)] <- 500
print(summary(colesterol_out)) Min. 1st Qu. Median Mean 3rd Qu. Max.
37.0 121.0 181.5 198.8 246.5 500.0
# estatisticas com outlier
estat_com <- c(
media = mean(colesterol_out),
dp = sd(colesterol_out),
mediana = median(colesterol_out),
iqr = IQR(colesterol_out),
max = max(colesterol_out)
)
# variacao percentual
variacao_pct <- 100 * (estat_com - estat_sem) / estat_sem
print(round(cbind(sem_outlier = estat_sem,
com_outlier = estat_com,
variacao_pct = variacao_pct), 2)) sem_outlier com_outlier variacao_pct
media 195.05 198.80 1.92
dp 110.01 119.16 8.32
mediana 181.50 181.50 0.00
iqr 125.50 125.50 0.00
max 425.00 500.00 17.65
# boxplots lado a lado
par(mfrow = c(1, 2))
boxplot(colesterol,
ylim=c(50,510),
main = "Sem outlier",
ylab = "Colesterol")
boxplot(colesterol_out,
ylim=c(50,510),
main = "Com outlier",
ylab = "Colesterol")par(mfrow = c(1, 1))
plot(density(colesterol),
xlim=c(0,650),
main = "Density",
xlab = "Colesterol",
col="blue",
type = "l")
lines(density(colesterol_out),
type = "l")No ambulatório de geriatria verificou-se o número de quedas entre pacientes dos dois sexos. Obtendo-se:
Mulheres = (1, 5, 5, 5, 7, 7, 7, 11)
Homens = (3, 3, 3, 5, 7, 9, 9, 9)
Quais são, aproximadamente, as médias aritméticas e os desvios-padrão do número de quedas de mulheres e homens?
A. média de 2.83 quedas e desvio-padrão de 6 quedas para ambos os
grupos.
B. média de 8 quedas e desvio-padrão de 6 quedas para ambos os
grupos.
C. média de 6 quedas e desvio-padrão de 8 quedas para ambos os
grupos.
D. média de 6 quedas e desvio-padrão de 2.83 quedas para ambos os
grupos.
E. média de 8 quedas e desvio-padrão de 2.83 quedas para ambos os
grupos.
F. média de 2.83 quedas e desvio-padrão de 8 quedas para ambos os
grupos.
Explicações e justificativas:
Alternativa correta: D.
As duas amostras apresentam a mesma soma total de quedas e o mesmo padrão de dispersão. Assim, as médias aritméticas são iguais a 6 quedas em ambos os grupos. O desvio-padrão amostral é aproximadamente 2.83 quedas tanto para mulheres quanto para homens.
Mulheres <- c(1, 5, 5, 5, 7, 7, 7, 11)
avg_M <- mean(Mulheres)
dp_M <- sd(Mulheres)
print(paste("avg_M =", avg_M))[1] "avg_M = 6"
[1] "dp_M = 2.83"
Homens <- c(3, 3, 3, 5, 7, 9, 9, 9)
avg_H <- mean(Homens)
dp_H <- sd(Homens)
print(paste("avg_H =", avg_H))[1] "avg_H = 6"
[1] "dp_H = 2.83"
A temperatura observada em cem pacientes, sendo que seus valores são distintos, teve seus valores transformados em escores-z. Pode-se afirmar sobre a variável transformada que tem:
A. Apenas valores negativos
B. Distribuição normal
C. Apenas valores positivos
D. Valores negativos e positivos
Explicações e justificativas:
Alternativa correta: D.
A padronização por escores-z é dada por
\[ z_i = \dfrac{x_i - \bar{x}}{s} \] Essa transformação centra a variável na média zero e ajusta a escala para desvio-padrão igual a um. Assim, observações abaixo da média geram valores negativos e observações acima da média geram valores positivos. A padronização não altera o formato da distribuição original e não garante normalidade.
set.seed(123)
# valores originais com distribuicao assimetrica (gama)
temperatura <- rgamma(n = 100, shape = 5, rate = 0.15)
# padronizacao (escore-z)
z <- scale(temperatura)
# contagem de valores
sum(z < 0)[1] 54
[1] 46
[1] 0
# boxplots lado a lado
par(mfrow = c(1, 2))
boxplot(temperatura,
main = "Variável original",
ylab = "Temperatura")
boxplot(z,
main = "Variável padronizada (z)",
ylab = "z")A distribuição do nível de colesterol total (TLC) na população estado-unidense é assimétrica.
Nível de colesterol total na população dos EUA
A variável TLC padronizada tem distribuição:
A. Normal
B. Mesocúrtica
C. Platicúrtica
D. Leptocúrtica
E. Igual à da TLC original
Explicações e justificativas:
Alternativa correta: E.
É um erro comum, até mesmo em livros, confundir padronização com normalização porque a distribuição normal padronizada, com média igual a zero e desvio-padrão igual a 1 é, como diz o nome, resultado da padronização de uma distribuição normal.
Padronizar é, meramente, centrar a média em zero (subtrair a média de todos os valores) e tornar o desvio padrão em valor unitário (dividir todos os valores pelo desvio-padrão). O número resultante é um escore z. A forma da distribuição não muda. Qualquer distribuição padronizada está convertida em escore z; escore z não é sinônimo de normal.
Uma transformação linear tem a seguinte forma:
\[ Z = a + bX \] sendo \(X\) a variável bruta, \(a\) e \(b\) constantes, com \(b \neq 0\). A padronização da variável bruta \(X\) é uma transformação linear: \[ Z = \dfrac{X - M}{S} = -\dfrac{M}{S} + \dfrac{1}{S}X \] sendo \(M\) a média e \(S\) o desvio-padrão. Note que \(a = -M/S\) e \(b = 1/S\). A distribuição da variável \(X\) é invariante relativamente à transformação linear. Portanto, \(X\) e \(Z\) têm a mesma distribuição, porém \(Z\) tem média sempre nula e desvio-padrão unitário, adimensionais.
Normalização, converter uma distribuição qualquer em uma distribuição aproximadamente simétrica (condição necessária da normal), é uma transformação não linear. Pode ter qualquer média e desvio-padrão. Só vai se tornar uma normal padronizada se for feito o procedimento de subtrair a média e dividir pelo desvio-padrão.
O seguinte código em R demonstra. Variando a semente deste código, poderá obter outras distribuições para experimentar. Leia o código, os comentários, e execute uma parte de cada vez. Verá que a padronização mantém o formato da distribuição inalterado.
# normal padrao (grafico separado)
z <- seq(-3, 3, 0.01)
dz <- dnorm(z, mean = 0, sd = 1)
plot(z, dz,
main = "Normal padrao\nmedia = 0, dp = 1",
xlab = "z", ylab = "densidade",
type = "l")# distribuicao qualquer vs. distribuicao padronizada (lado a lado)
set.seed(5456)
qualquer <- runif(1000, 10, 200)
par(mfrow = c(1, 2))
dqualquer <- density(qualquer)
plot(dqualquer,
main = "Distribuicao qualquer",
xlab = "valor", ylab = "densidade",
type = "l")
padronizada <- (qualquer - mean(qualquer)) / sd(qualquer)
dpadronizada <- density(padronizada)
plot(dpadronizada,
main = "Distribuicao padronizada",
xlab = "z", ylab = "densidade",
type = "l")O número de malformações de cinco pacientes são 4, 1, 8, 7 e \(X\).
Qual o valor de \(X\) que minimiza o desvio-padrão dos cinco valores?
A. 0
B. 1
C. 2
D. 3
E. 4
F. 5
G. 6
Explicações e justificativas:
Alternativa correta: F.
A média dos quatro valores é: \[ \bar{x}_4 = \dfrac{20}{4} = 5 \]
O desvio-padrão amostral é dado por \[ s = \sqrt{\dfrac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2} \] Como a raiz quadrada e o fator \(\frac{1}{n-1}\) não alteram o ponto de mínimo, minimizar \(s\) é equivalente a minimizar \[ \sum_{i=1}^{5}(x_i-\bar{x})^2 \]
A média dos cinco valores é \[ \bar{x}_5 = \dfrac{4 + 1 + 8 + 7 + X}{5} = \dfrac{20 + X}{5} \]
A soma de quadrados é minimizada quando o valor variável coincide com a média, isto é, \[ X = \bar{x}_4 \]
Substituindo: \[ \begin{align} X &= \dfrac{20 + X}{5} \\ 5X &= 20 + X \\ 4X &= 20 \\ X &= 5 \end{align} \]
Com \(X = 5\), a média dos cinco valores é \[ \bar{x}_5 = \dfrac{20 + \bar{x}_4}{5} = \dfrac{20 + 5}{5} =5 \] ## APEx 3293: Média conjunta de colesterol
Num relatório de um hospital constam apenas as médias e desvios-padrão dos níveis de colesterol total de 10 mulheres e 20 homens pacientes adultos. As médias são 210 e 230 mg/dL, respectivamente. Os desvios-padrão são 28 e 32 mg/dL, respectivamente.
A média do nível de colesterol total dos 30 pacientes adultos é:
A. 216.67
B. 220.00
C. 223.33
Explicações e justificativas:
Alternativa correta: C.
A média conjunta é obtida por média ponderada pelos tamanhos amostrais. Seja \(\bar{x}_M\) a média das mulheres e \(\bar{x}_H\) a média dos homens. Então, \[ \bar{x} = \dfrac{n_M \bar{x}_M + n_H \bar{x}_H}{n_M + n_H} \] Substituindo os valores: \[ \bar{x} = \dfrac{10 \cdot 210 + 20 \cdot 230}{30} = \dfrac{2100 + 4600}{30} = \dfrac{6700}{30} = 223.33 \]
medias <- c(210, 230)
pesos <- c(10, 20)
media_total <- weighted.mean(medias,
w = pesos)
print(media_total, digits=5)[1] 223.33
Num relatório de um hospital constam apenas as médias e desvios-padrão dos níveis de colesterol total de 10 mulheres e 20 homens pacientes adultos. As médias são 210 e 230 mg/dL, respectivamente. Os desvios-padrão são 28 e 32 mg/dL, respectivamente.
O desvio-padrão do nível de colesterol total dos 30 pacientes adultos é:
A. 30.00
B. 30.72
C. 32.14
Explicações e justificativas:
Alternativa correta: C.
Sejam \(n_A, \bar{x}_A, s_A\) para mulheres e \(n_B, \bar{x}_B, s_B\) para homens. A média global é \[ \bar{x} = \dfrac{n_A \bar{x}_A + n_B \bar{x}_B}{n_A + n_B} \]
A variância total (com denominador \(n_A+n_B\)) pode ser decomposta em componente dentro dos grupos e entre grupos: \[ s^2 = \dfrac{n_A s_A^2 + n_B s_B^2}{n_A+n_B} + \dfrac{n_A(\bar{x}_A-\bar{x})^2 + n_B(\bar{x}_B-\bar{x})^2}{n_A+n_B} \] Logo, o desvio-padrão é \(s = \sqrt{s^2}\).
O resultado é 32.14 mg/dL.
nA <- 10; mA <- 210; sA <- 28
nB <- 20; mB <- 230; sB <- 32
M <- (nA*mA + nB*mB) / (nA + nB)
DP <- sqrt((nA*(sA^2) + nB*(sB^2)) / (nA + nB) +
(nA*(mA - M)^2 + nB*(mB - M)^2) / (nA + nB))
print(M, digits=5)[1] 223.33
[1] 32.14
Num grupo de cem pacientes de um hospital a média do nível de colesterol total é 220 mg/dL. Um novo paciente tem nível de colesterol total 220 mg/dL.
Então, a média e o desvio-padrão, respectivamente:
A. Diminui e permanece o mesmo
B. Permanece a mesma e diminui
C. Aumentam
D. Diminuem
E. Permanecem os mesmos
Explicações e justificativas:
Alternativa correta: B.
Seja \(\bar{x}\) a média do grupo inicial. Ao incluir um novo valor exatamente igual à média, a nova média permanece inalterada: \[ \bar{x}_{\text{novo}} = \dfrac{n\bar{x} + \bar{x}}{n+1} = \bar{x} \] Já o desvio-padrão diminui, pois o novo valor não adiciona dispersão em torno da média, reduzindo a variabilidade média dos desvios quadráticos.
[1] 220
[1] 18.256
[1] 220
[1] 18.274
Uma variável quantitativa medida nos pacientes de um hospital tem cem valores distintos. A variável foi padronizada. Seus _________ construídos pelo mesmo programa estatístico NÃO têm o mesmo formato de distribuição.
A. dotplots
B. gráficos de densidade
C. boxplots
D. histogramas
Explicações e justificativas:
Alternativa correta: D.
A padronização é uma transformação linear \(Z = (X-\bar{X})/S\), que preserva a forma da distribuição. Portanto, gráficos que representam a forma de modo invariante a transformações lineares (dotplot, densidade e boxplot) mantêm o mesmo formato quando comparados entre \(X\) e \(Z\).
O histograma, porém, depende da escolha de classes (bins) e seus limites são definidos na escala da variável. Ao padronizar, a escala muda e, usando o mesmo algoritmo de escolha de classes, os bins podem ser diferentes, alterando o formato visual do histograma. Assim, é o histograma que pode não manter o mesmo formato.
set.seed(123)
colesterol <- round(rgamma(n = 100,
shape = 2,
rate = 0.014),
0)
# Dados originais
media <- mean(colesterol)
dp <- sd(colesterol)
mediana <- median(colesterol)
iqr <- IQR(colesterol)
cat("\nValores originais:\n")
Valores originais:
media=122.97, dp=79.828
mediana=109, iqr=84.75
# Dados padronizados
colesterol.pd <- as.numeric(scale(colesterol))
media.pd <- mean(colesterol.pd)
dp.pd <- sd(colesterol.pd)
mediana.pd <- median(colesterol.pd)
iqr.pd <- IQR(colesterol.pd)
cat("\nValores padronizados:\n")
Valores padronizados:
media=0, dp=1
mediana=-0.175, iqr=1.062
# Graficos: original vs padronizado (2x4)
par(mfrow = c(1, 2))
# density
plot(density(colesterol),
xlab = "Colesterol (mg/dl)", ylab = "Densidade",
main = "Density (original)", type = "l")
plot(density(colesterol.pd),
xlab = "Colesterol (z)", ylab = "Densidade",
main = "Density (padronizado)", type = "l")par(mfrow = c(1, 1))
par(mfrow = c(1, 2))
# boxplot
boxplot(colesterol, main = "Boxplot (original)", ylab = "Colesterol (mg/dl)")
boxplot(colesterol.pd, main = "Boxplot (padronizado)", ylab = "Colesterol (z)")par(mfrow = c(1, 1))
par(mfrow = c(1, 2))
# dotplot (stripchart)
stripchart(colesterol, method = "stack", offset = 0.5, pch = 19,
xlab = "Colesterol (mg/dl)", main = "Dotplot (original)")
stripchart(colesterol.pd, method = "stack", offset = 0.5, pch = 19,
xlab = "Colesterol (z)", main = "Dotplot (padronizado)")par(mfrow = c(1, 1))
par(mfrow = c(1, 2))
# histogram
hist(colesterol, main = "Histograma (original)",
xlab = "Colesterol (mg/dl)", ylab = "Frequencia absoluta")
hist(colesterol.pd, main = "Histograma (padronizado)",
xlab = "Colesterol (z)", ylab = "Frequencia absoluta")Um determinado valor de uma variável quantitativa observado num paciente é um outlier.
Se essa variável for padronizada, então o outlier:
A. Torna-se outlier menos extremo
B. Imprevisível
C. Permanece
D. Torna-se outlier mais extremo
E. Desaparece
Explicações e comentários:
Alternativa correta: C.
A padronização é uma transformação linear do tipo \[ Z = \dfrac{X - \bar{X}}{S} \] Transformações lineares preservam a ordem, a assimetria e a posição relativa dos valores na distribuição. Portanto, um valor que é outlier na escala original continua sendo outlier após a padronização. Ele não desaparece nem muda qualitativamente de status; apenas muda de escala.
O código a seguir mostra que os valores 20 e 100 são outliers tanto para \(X\) quanto para o escore-z.
X <- c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 100)
Z <- scale(X)
par(mfrow = c(1, 2))
boxplot(X,
main = "Variável original (X)",
ylab = "X")
boxplot(Z,
main = "Variável padronizada (Z)",
ylab = "Z")Se a distribuição de uma variável quantitativa é simétrica, então moda, média e mediana são iguais. No entanto, se moda, média e mediana são iguais, não necessariamente a distribuição é simétrica.
Qual das distribuições abaixo está de acordo com esta afirmação?
A. Discreta (10 valores 6, 28 valores 7, 3 valores 8, 2 valores 9, 1
valor 10)
B. Discreta (14 valores 6, 39 valores 7, 3 valores 8, 2 valores 9, 1
valor 10, 1 valor 11)
C. Binomial (\(p = 0.1\), \(n = 10\))
D. Todas as outras alternativas são verdadeiras
Explicações e comentários:
Alternativa correta: D.
A afirmação é correta: simetria implica coincidência entre média, mediana e moda, mas a recíproca não é verdadeira. Existem distribuições assimétricas nas quais essas três medidas coincidem.
Nas alternativas A e B, as distribuições são discretas e claramente assimétricas, mas média, mediana e moda assumem o mesmo valor. Na alternativa C, a distribuição binomial com \(p=0.1\) e \(n=10\) também é assimétrica, mas apresenta média, mediana e moda coincidentes em torno de 1.
Logo, todas as alternativas A, B e C satisfazem a condição descrita.
# Alternativa A
a <- c(rep(6, times = 10),
rep(7, times = 28),
rep(8, times = 3),
rep(9, times = 2),
rep(10, times = 1))
tabela_a <- table(a) / length(a)
barplot(tabela_a,
main = "Distribuicao A",
xlab = "Valor",
ylab = "Probabilidade")A:
media= 7
mediana= 7
moda= 7
# Alternativa B
b <- c(rep(6, times = 14),
rep(7, times = 39),
rep(8, times = 3),
rep(9, times = 2),
rep(10, times = 1),
rep(11, times = 1))
tabela_b <- table(b) / length(b)
barplot(tabela_b,
main = "Distribuicao B",
xlab = "Valor",
ylab = "Probabilidade")
B:
media= 7
mediana= 7
moda= 7
# Alternativa C – simulada
set.seed(123)
c_sim <- rbinom(n = 1e6, size = 10, prob = 0.1)
dens_c <- table(c_sim)
dens_c <- dens_c / sum(dens_c)
plot(as.numeric(names(dens_c)), as.numeric(dens_c),
main = "C (simulado)",
xlab = "Valor",
ylab = "Probabilidade",
ylim = c(0, 0.5),
type = "h")
C (versao simulada):
media= 0.998918
mediana= 1
moda= 1
# Alternativa C – analitica
x <- 0:7
c_anal <- dbinom(x = x, size = 10, prob = 0.1)
plot(x, c_anal,
main = "C (analitico)",
xlab = "Valor",
ylab = "Probabilidade",
ylim = c(0, 0.5),
type = "h")
C (versao formula):
media= 1
mediana= 1
moda= 1
Nos livros de Estatística afirma-se que:
“Se a distribuição de frequência é assimétrica, a média e a mediana situam-se do mesmo lado em relação à moda. Para uma distribuição assimétrica positiva, a média está à direita da moda e a mediana está entre a média e a moda, isto é, moda < mediana < média. Para uma distribuição assimétrica negativa, moda > mediana > média.”
No entanto, isso nem sempre é verdadeiro. A seguinte distribuição discreta é uma exceção à regra:
0 (1 ocorrência)
1 (2 ocorrências)
2 (10 ocorrências)
3 (9 ocorrências)
4 (8 ocorrências)
Os valores da média, mediana e moda são, respectivamente:
A. 2, 3 e 2.7
B. 2.7, 2 e 3
C. 3, 2.7 e 2
D. 2.7, 3 e 2
E. 2, 2.7 e 3
F. 3, 2 e 2.7
Explicações e comentários:
Alternativa correta: D.
# valores da distribuicao
dados <- c(
0,
1, 1,
rep(2, 10),
rep(3, 9),
rep(4, 8)
)
# media e mediana
media <- mean(dados)
mediana <- median(dados)
# moda via tabela de frequencias
t <- table(dados)
moda <- as.numeric(names(t)[t == max(t)])
cat("media:", media, "\n")media: 2.7
mediana: 3
moda: 2
# alternativamente, achar a moda graficamente
# stacked dotplot para observar a moda (melhor escolha)
stripchart(dados, method="stack", xlab="x",
offset=0.5, at=0.15, pch=19)# ou density plot (mais adequado para quantitativas continuas)
plot(density(dados), main="", xlab="x")
abline(v=media,lty=2)
abline(v=mediana,lty=3)
abline(v=moda,lty=4)
legend("topleft",
c("media","mediana","moda"),
lty=c(2,3,4),
bg="transparent", bty="n")No ambulatório de geriatria verificou-se o número de quedas entre pacientes dos dois sexos, obtendo-se:
Mulheres = (1, 5, 5, 5, 7, 7, 7, 11)
Homens = (3, 3, 3, 5, 7, 9, 9, 9)
Qual a melhor interpretação sobre a variabilidade do número de quedas de pacientes dos dois sexos?
A. É igual para ambos os sexos
B. É maior para as mulheres
C. É maior para os homens
Explicações e comentários:
Alternativa correta: C.
A interpretação da variabilidade depende da medida utilizada.
A amplitude, que é uma medida de variabilidade absoluta, é maior entre as mulheres. O desvio-padrão, também medida absoluta, é igual nos dois grupos. O coeficiente de variação, frequentemente interpretado como medida relativa, também é igual, pois as médias coincidem. No entanto, o coeficiente de dispersão relativa de Eisenhauer (CDR), que mede a quantidade de desvio-padrão por unidade de amplitude, indica maior variabilidade relativa entre os homens.
Assim, considerando variabilidade relativa de forma adequada, a variabilidade é maior para os homens.
Fem <- c(1, 5, 5, 5, 7, 7, 7, 11)
Masc <- c(3, 3, 3, 5, 7, 9, 9, 9)
n <- length(Fem)
amp_F <- diff(range(Fem))
amp_M <- diff(range(Masc))
cvr_F <- (sd(Fem)/(amp_F/2) - sqrt(2/(n-1))) /
(sqrt(n/(n-1)) - sqrt(2/(n-1)))
cvr_M <- (sd(Masc)/(amp_M/2) - sqrt(2/(n-1))) /
(sqrt(n/(n-1)) - sqrt(2/(n-1)))
tabela <- data.frame(
Grupo = c("Mulher", "Homem"),
n = c(length(Fem), length(Masc)),
Media = c(mean(Fem), mean(Masc)),
"Desvio-padrao" = c(sd(Fem), sd(Masc)),
Amplitude = c(amp_F, amp_M),
CV = c(sd(Fem)/mean(Fem), sd(Masc)/mean(Masc)),
"CDR Eisenhauer" = c(cvr_F, cvr_M),
check.names = FALSE
)
tabela[ , -1] <- round(tabela[ , -1], 3)
print(tabela, row.names = FALSE) Grupo n Media Desvio-padrao Amplitude CV CDR Eisenhauer
Mulher 8 6 2.828 10 0.471 0.058
Homem 8 6 2.828 6 0.471 0.764
par(mfrow = c(1, 3))
stripchart(Fem, method = "stack", offset = 0.5, pch = 4,
main = "Mulher (dotplot)", xlab = "Quedas")
stripchart(Masc, method = "stack", offset = 0.5, pch = 1,
main = "Homem (dotplot)", xlab = "Quedas")
par(mfrow = c(1, 1))dF <- density(Fem)
dM <- density(Masc)
plot(dF, main = "Densidade (comparação)", xlab = "Quedas", type = "l")
lines(dM, lty = 2)
legend("topleft", legend = c("Mulher", "Homem"), lty = c(1, 2),
bty="n")Os resultados de um ensaio clínico para testar a efetividade de uma droga hipnótica no qual a duração do sono em horas de dez pacientes foi observada durante uma noite com o uso da droga e uma noite com o placebo.
| Grupo | Observações (horas de sono) |
|---|---|
| Sonífero | 6.1, 7.0, 8.2, 7.6, 6.5, 8.4, 6.9, 6.7, 7.4, 5.8 |
| Placebo | 5.2, 7.9, 3.9, 4.7, 5.3, 5.4, 4.2, 6.1, 3.8, 6.3 |
As medianas de horas de sono dos grupos placebo e sonífero são, respectivamente:
A. 6.95 e 5.25
B. 6.95 e 6.95
C. 5.25 e 5.25
D. 5.25 e 6.95
Explicações e comentários:
Alternativa correta: D.
O problema é resolvido calculando diretamente as medianas de cada grupo. Atenção à ordem solicitada na pergunta: primeiro placebo, depois sonífero.
sonifero <- c(6.1, 7, 8.2, 7.6, 6.5, 8.4, 6.9, 6.7, 7.4, 5.8)
placebo <- c(5.2, 7.9, 3.9, 4.7, 5.3, 5.4, 4.2, 6.1, 3.8, 6.3)
median(placebo)[1] 5.25
[1] 6.95
50%
5.25
50%
6.95
Os resultados de um ensaio clínico para testar a efetividade de uma droga hipnótica no qual a duração do sono em horas de dez pacientes foi observada durante uma noite com o uso da droga e uma noite com o placebo.
| Grupo | Observações (horas de sono) |
|---|---|
| Sonífero | 6.1, 7.0, 8.2, 7.6, 6.5, 8.4, 6.9, 6.7, 7.4, 5.8 |
| Placebo | 5.2, 7.9, 3.9, 4.7, 5.3, 5.4, 4.2, 6.1, 3.8, 6.3 |
A média e o desvio-padrão da diferença de horas de sono entre os grupos droga e placebo, nessa ordem, são, respectivamente:
A. -1.78 e 1.77
B. 1.78 e -1.77
C. 1.78 e 1.78
D. 1.78 e 1.77
Explicações e comentários:
Alternativa correta: D.
A pergunta refere-se à média e ao desvio-padrão das diferenças individuais entre as condições droga e placebo, caracterizando um estudo intra-participantes. Seja
\[ D_i = X_{i,\text{sonífero}} - X_{i,\text{placebo}} \] A média das diferenças é \(\bar{D}=1.78\) e o desvio-padrão é \(S_D=1.77\).
sonifero <- c(6.1, 7, 8.2, 7.6, 6.5, 8.4, 6.9, 6.7, 7.4, 5.8)
placebo <- c(5.2, 7.9, 3.9, 4.7, 5.3, 5.4, 4.2, 6.1, 3.8, 6.3)
diferenca <- sonifero - placebo
mean(diferenca)[1] 1.78
[1] 1.77
O histograma de uma variável quantitativa no SPSS pode ser acompanhado por uma distribuição contínua.
SPSS Statistics: Histograma com normal da estatura de 51 estudantes de graduação da USP do sexo masculino.
A normal desse gráfico é:
A. Densidade de probabilidades derivada da parametrização do
histograma. B. Distribuição normal baseada na média e desvio-padrão
amostrais. C. Histograma alisado corrigindo distorções dos intervalos de
classe.
D. Polígono de frequência unificador dos intervalos de classe.
E. Polígono de frequência alisado pela parametrização do histograma. F.
Distribuição da média e desvio-padrão populacionais.
Explicações e comentários:
Alternativa correta: B.
A curva normal sobreposta ao histograma no SPSS não é um gráfico de densidade empírica nem um histograma alisado. Trata-se da função densidade da distribuição normal, construída a partir da média e do desvio-padrão amostrais, isto é, \[ f(x)=\dfrac{1}{s\sqrt{2\pi}}\exp\left(-\dfrac{1}{2}\left(\dfrac{x-m}{s}\right)^2\right) \] em que \(m\) é a média amostral e \(s\) o desvio-padrão amostral.
Portanto, a normal exibida é um gráfico da distribuição normal paramétrica ajustada aos dados.
set.seed(123)
estaturas <- rnorm(51, 1.76, 0.081)
m <- mean(estaturas)
s <- sd(estaturas)
# histograma
h1 <- hist(estaturas,
freq = FALSE,
col = "#dddddd",
border = "white",
main = "",
xlab = "Estatura (m)",
ylab = "Densidade")
# normal ajustada
x <- seq(m - 4*s, m + 4*s, length.out = 300)
lines(x, dnorm(x, m, s), lwd = 2)
# densidade empírica
lines(density(estaturas), lwd = 2, lty = 2)
# polígono de frequência
agricolae::polygon.freq(h1, frequency = 3, lwd = 2, lty = 3)
# legenda (sempre por último)
legend("topright",
legend = c("Normal ajustada", "Densidade empírica", "Polígono de frequência"),
lty = c(1, 2, 3),
lwd = 2,
bty = "n",
cex = 0.8)O aluno C está sendo acusado pelo professor de colar do aluno A numa prova. Oitenta e oito estudantes participaram da prova com 40 questões de múltipla escolha com 5 alternativas. Os estudantes A e C erraram, cada um, 16 questões. Treze das 16 questões têm erros coincidentes. A variável \(K\) representa o número de questões com respostas certas e erradas coincidentes com as do estudante A.
Tabela: Número de acertos e erros dos estudantes relativamente ao estudante A: \(K\).
| K | Frequência Absoluta |
|---|---|
| 11 | 2 |
| 12 | 0 |
| 13 | 1 |
| 14 | 1 |
| 15 | 3 |
| 16 | 5 |
| 17 | 4 |
| 18 | 11 |
| 19 | 7 |
| 20 | 17 |
| 21 | 15 |
| 22 | 7 |
| 23 | 7 |
| 24 | 2 |
| 25 | 0 |
| 26 | 3 |
| 27 | 1 |
| 28 | 0 |
| 29 | 0 |
| 30 | 0 |
| 31 | 0 |
| 32 | C |
O gráfico mais adequado para representar os dados apresentados no problema é:
A. Histogramas
B. Gráfico de linhas
C. Gráfico de setores
D. Gráfico de barras
E. Gráfico de pontos
Explicações e comentários:
Alternativa correta: E.
A variável \(K\) é quantitativa discreta, pois representa uma contagem do número de coincidências. Para esse tipo de variável, o gráfico de pontos (dotplot) é o mais adequado, pois preserva todos os valores possíveis, inclusive aqueles com frequência zero, e permite identificar facilmente valores discrepantes. Nesse contexto, o valor observado para o estudante C pode se destacar como um possível outlier. O gráfico de barras, por outro lado, omite escores com frequência nula e pode mascarar essa informação.
# tabela do enunciado (K e frequencia absoluta)
K <- 11:32
freq <- c(2, 0, 1, 1, 3, 5, 4, 11, 7, 17, 15, 7, 7,
2, 0, 3, 1, 0, 0, 0, 0, 1) # 32: estudante C
tabela <- data.frame(K = K, freq = freq)
# dotplot (via repeticao)
dados <- rep(tabela$K, times = tabela$freq)
stripchart(dados, method = "stack", offset = 0.5, pch = 19,
xlab = "K (coincidencias com o estudante A)",
main = "Dotplot de K")
# (opcional) destacar o valor do aluno C
abline(v = 32, lty = 2)
text(x = 32, y = 1, labels = "C", pos = 3)Os dados estão disponíveis na Google Planilha Cap03_Dados compartilhada.
A primeira linha tem os nomes das variáveis. As demais linhas contêm temperaturas em grau Celsius e a correspondente em Fahrenheit, calculada por \[ F = 1.8\,C + 32 \]
Sendo \(C\) correspondente à temperatura em graus Celsius e \(F\) à Fahrenheit, produza os histogramas de \(C\) e \(F\) usando o mesmo software estatístico com suas opções pré-definidas (default).
Os dois gráficos:
A. Têm formatos bem distintos
B. Têm formatos parecidos, mas não o mesmo formato
C. Têm o mesmo formato
D. Não é possível comparar seus formatos
Explicações e comentários:
Alternativa correta: C.
A transformação de Celsius para Fahrenheit é linear do tipo \[ F = a + bC,\quad b>0 \] Transformações lineares preservam a forma da distribuição. Assim, quando os histogramas são construídos pelo mesmo software, usando as opções pré-definidas, os formatos são os mesmos, diferindo apenas na escala do eixo horizontal.
googlesheets4::gs4_deauth()
dados <- googlesheets4::read_sheet(
"https://docs.google.com/spreadsheets/d/1InKOOTso7TnXNGVOhn6VofHbBhTkqj7zIW5AUn0X1gs"
)✔ Reading from "Cap03_Dados".
✔ Range 'CF'.
# A tibble: 6 × 3
`Unidade Experimental` Celsius Fahrenheit
<dbl> <dbl> <dbl>
1 1 114. 237.
2 2 113. 235.
3 3 105. 220.
4 4 94.9 203.
5 5 91.2 196.
6 6 109. 229.
# A tibble: 6 × 3
`Unidade Experimental` Celsius Fahrenheit
<dbl> <dbl> <dbl>
1 1995 103. 218.
2 1996 103. 217.
3 1997 95.2 203.
4 1998 100. 213.
5 1999 94.3 202.
6 2000 99.0 210.
Unidade Experimental Celsius Fahrenheit
Min. : 1.0 Min. : 71.65 Min. :161.0
1st Qu.: 500.8 1st Qu.: 93.96 1st Qu.:201.1
Median :1000.5 Median :100.09 Median :212.2
Mean :1000.5 Mean :100.22 Mean :212.4
3rd Qu.:1500.2 3rd Qu.:106.38 3rd Qu.:223.5
Max. :2000.0 Max. :131.60 Max. :268.9
C <- dados$Celsius
F <- dados$Fahrenheit
par(mfrow = c(1, 2))
# histogramas com opcoes default
hist(C, main = "C", xlab = "Celsius")
hist(F, main = "F", xlab = "Fahrenheit")Considere os seguintes dados, disponíveis em CFK.xls.
| Mês | Celsius | Fahrenheit | Kelvin |
|---|---|---|---|
| Jan | 6.70 | 44.06 | 280.20 |
| Fev | 6.40 | 43.52 | 279.90 |
| Mar | 7.80 | 46.04 | 281.30 |
| Abr | 6.90 | 44.42 | 280.40 |
| Mai | 13.20 | 55.76 | 286.70 |
| Jun | 14.70 | 58.46 | 288.20 |
| Jul | 18.30 | 64.94 | 291.80 |
| Ago | 17.00 | 62.60 | 290.50 |
| Set | 15.10 | 59.18 | 288.60 |
| Out | 12.30 | 54.14 | 285.80 |
| Nov | 7.20 | 44.96 | 280.70 |
| Dez | 5.50 | 41.90 | 279.00 |
| Média | 10.90 | 51.40 | 282.80 |
Qual é o tipo de transformação feita entre graus Celsius, Fahrenheit e Kelvin?
A. não linear porque há uma divisão e uma soma para encontrar-se os
valores em Fahrenheit
B. não linear, porque as escalas nos eixos gráficos não se iniciam em
zero nas escalas transformadas (Fahrenheit e Kelvin)
C. linear, porque a comparação das medidas segue uma reta
D. redução, porque os valores são reduzidos (K > F > C)
E. ampliação, porque os valores são aumentados (C < F < K)
F. fatoração, porque a transformação envolve a multiplicação dos
valores
G. decomposição, porque os valores em Kelvin correspondem aos valores
absolutos, Celsius é um deslocamento dos valores Kelvin, e Fahrenheit é
uma escala deteriorada
H. logarítmica, motivo pelo qual os valores em Celsius, na ordem de
unidades, correspondem a Fahrenheit na ordem de dezenas e a Kelvin na
ordem de centenas
Explicações e comentários:
Alternativa correta: C.
As transformações entre as escalas de temperatura são dadas por funções do tipo \[ F = a + bC \quad \text{e} \quad K = C + 273.15 \] com \(b \neq 0\). Essas são transformações lineares (afins), pois envolvem apenas soma, subtração, multiplicação e divisão por constantes. Transformações lineares preservam proporções e distâncias relativas entre os pontos da escala, o que se reflete no alinhamento dos valores quando comparados graficamente.
Logo, o tipo de transformação entre Celsius, Fahrenheit e Kelvin é linear.
file_id <- "10RQDeb0JVGJImT5W22TEI2Wfcwq5fHm-"
url_dl <- paste0("https://drive.google.com/uc?export=download&id=", file_id)
dest <- "CFK.xls"
download.file(url_dl, destfile = dest, mode = "wb")
dados <- readxl::read_excel(dest)
dados <- dados[dados$Mes != "Media", ]
print(dados)# A tibble: 12 × 4
Mes Celsius Fahrenheit Kelvin
<chr> <dbl> <dbl> <dbl>
1 Jan 6.7 44.1 280.
2 Fev 6.7 44.1 280.
3 Mar 7.8 46.0 281.
4 Abr 6.9 44.4 280.
5 Mai 13.2 55.8 286.
6 Jun 14.7 58.5 288.
7 Jul 18.3 64.9 291.
8 Ago 17 62.6 290.
9 Set 15.1 59.2 288.
10 Out 12.3 54.1 285.
11 Nov 7.2 45.0 280.
12 Dez 5.5 41.9 279.
# supondo colunas: Celsius, Fahrenheit, Kelvin
C <- dados$Celsius
F <- dados$Fahrenheit
K <- dados$Kelvin
# conferência das relações lineares
summary(F - (1.8*C + 32)) Min. 1st Qu. Median Mean 3rd Qu. Max.
0 0 0 0 0 0
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.000e+00 0.000e+00 2.842e-14 2.842e-14 5.684e-14 5.684e-14
# gráficos das transformações lineares
par(mfrow = c(1, 3))
plot(C, F,
xlab = "Celsius",
ylab = "Fahrenheit",
main = "F = 1.8 C + 32",
pch = 19)
abline(lm(F ~ C), lwd = 1, lty=2)
plot(C, K,
xlab = "Celsius",
ylab = "Kelvin",
main = "K = C + 273.15",
pch = 19)
abline(lm(K ~ C), lwd = 1, lty=2)
plot(F, K,
xlab = "Fahrenheit",
ylab = "Kelvin",
main = "K em função de F",
pch = 19)
abline(lm(K ~ F), lwd = 1, lty=2)Considere os dados encontrados no arquivo CFK.xls, contendo as mesmas
temperaturas nas três escalas de temperatura, e produza os histogramas
para cada escala.
| Mês | Celsius | Fahrenheit | Kelvin |
|---|---|---|---|
| Jan | 6.70 | 44.06 | 280.20 |
| Fev | 6.40 | 43.52 | 279.90 |
| Mar | 7.80 | 46.04 | 281.30 |
| Abr | 6.90 | 44.42 | 280.40 |
| Mai | 13.20 | 55.76 | 286.70 |
| Jun | 14.70 | 58.46 | 288.20 |
| Jul | 18.30 | 64.94 | 291.80 |
| Ago | 17.00 | 62.60 | 290.50 |
| Set | 15.10 | 59.18 | 288.60 |
| Out | 12.30 | 54.14 | 285.80 |
| Nov | 7.20 | 44.96 | 280.70 |
| Dez | 5.50 | 41.90 | 279.00 |
| Média | 10.90 | 51.40 | 282.80 |
Qual é sua conclusão?
A. A distribuição das temperaturas em graus Kelvin é mais
detalhada.
B. A distribuição das temperaturas em graus Celsius é menos
precisa.
C. A distribuição das temperaturas em graus Fahrenheit é mais
contínua.
D. Todas as três alternativas que mencionam os atributos das escalas
(mais detalhada, precisa ou contínua) estão corretas.
E. Não é possível comparar as distribuições através de histogramas.
Explicações e comentários:
Alternativa correta: E.
As três variáveis representam exatamente os mesmos dados, apenas expressos em escalas diferentes, ligadas por transformações lineares do tipo \[ F = 1.8C + 32, \qquad K = C + 273.15 \] Histogramas dependem fortemente da escolha das classes (bins) e da escala do eixo horizontal. Assim, diferenças aparentes entre histogramas de Celsius, Fahrenheit e Kelvin são artefatos gráficos e não refletem diferenças reais na forma das distribuições.
Portanto, histogramas não são adequados para comparar a forma das distribuições quando há apenas mudança de escala.
# ler CFK.xls diretamente do Google Drive
file_id <- "10RQDeb0JVGJImT5W22TEI2Wfcwq5fHm-"
url_dl <- paste0("https://drive.google.com/uc?export=download&id=", file_id)
dest <- "CFK.xls"
download.file(url_dl, destfile = dest, mode = "wb")
CFK <- readxl::read_excel(dest)
CFK <- CFK[CFK$Mes != "Media", ]
CFK# A tibble: 12 × 4
Mes Celsius Fahrenheit Kelvin
<chr> <dbl> <dbl> <dbl>
1 Jan 6.7 44.1 280.
2 Fev 6.7 44.1 280.
3 Mar 7.8 46.0 281.
4 Abr 6.9 44.4 280.
5 Mai 13.2 55.8 286.
6 Jun 14.7 58.5 288.
7 Jul 18.3 64.9 291.
8 Ago 17 62.6 290.
9 Set 15.1 59.2 288.
10 Out 12.3 54.1 285.
11 Nov 7.2 45.0 280.
12 Dez 5.5 41.9 279.
par(mfrow = c(1, 3))
hist(CFK$Celsius,
main = "Celsius",
xlab = "Temperatura",
ylab = "Frequência")
hist(CFK$Fahrenheit,
main = "Fahrenheit",
xlab = "Temperatura",
ylab = "Frequência")
hist(CFK$Kelvin,
main = "Kelvin",
xlab = "Temperatura",
ylab = "Frequência")Considere os seguintes dados, disponíveis em CFK.xls, que mostram as mesmas
temperaturas nas três escalas de temperatura, e produza density
plots para cada escala.
| Mês | Celsius | Fahrenheit | Kelvin |
|---|---|---|---|
| Jan | 6.70 | 44.06 | 280.20 |
| Fev | 6.40 | 43.52 | 279.90 |
| Mar | 7.80 | 46.04 | 281.30 |
| Abr | 6.90 | 44.42 | 280.40 |
| Mai | 13.20 | 55.76 | 286.70 |
| Jun | 14.70 | 58.46 | 288.20 |
| Jul | 18.30 | 64.94 | 291.80 |
| Ago | 17.00 | 62.60 | 290.50 |
| Set | 15.10 | 59.18 | 288.60 |
| Out | 12.30 | 54.14 | 285.80 |
| Nov | 7.20 | 44.96 | 280.70 |
| Dez | 5.50 | 41.90 | 279.00 |
| Média | 10.90 | 51.40 | 282.80 |
Qual é sua conclusão?
A. A distribuição das temperaturas em graus Kelvin é mais
detalhada.
B. A distribuição das temperaturas em graus Celsius é menos
precisa.
C. A distribuição das temperaturas em graus Fahrenheit é mais
contínua.
D. As distribuições são iguais, somente com alteração de escala.
E. Não é possível comparar as distribuições através de density
plots.
Explicações e comentários:
Alternativa correta: D.
Diferentemente dos histogramas, density plots representam diretamente a forma da distribuição. As transformações entre Celsius, Fahrenheit e Kelvin são lineares (afins). Transformações lineares preservam o formato da distribuição; apenas a escala do eixo é alterada. Portanto, as três distribuições têm o mesmo formato.
# leitura dos dados do Google Drive (CFK.xls)
file_id <- "10RQDeb0JVGJImT5W22TEI2Wfcwq5fHm-"
url_dl <- paste0("https://drive.google.com/uc?export=download&id=", file_id)
dest <- "CFK.xls"
download.file(url_dl, destfile = dest, mode = "wb")
dados <- readxl::read_excel(dest)
dados <- dados[dados$Mes != "Media", ]
C <- dados$Celsius
F <- dados$Fahrenheit
K <- dados$Kelvin
par(mfrow = c(1, 3))
plot(density(C),
main = "Celsius",
xlab = "Temperatura",
ylab = "Densidade")
plot(density(F),
main = "Fahrenheit",
xlab = "Temperatura",
ylab = "Densidade")
plot(density(K),
main = "Kelvin",
xlab = "Temperatura",
ylab = "Densidade")Considere os dados encontrados no arquivo CFK.xls, contendo as mesmas
temperaturas nas três escalas de temperatura (Celsius, Fahrenheit e
Kelvin).
| Mês | Celsius | Fahrenheit | Kelvin |
|---|---|---|---|
| Jan | 6.70 | 44.06 | 280.20 |
| Fev | 6.40 | 43.52 | 279.90 |
| Mar | 7.80 | 46.04 | 281.30 |
| Abr | 6.90 | 44.42 | 280.40 |
| Mai | 13.20 | 55.76 | 286.70 |
| Jun | 14.70 | 58.46 | 288.20 |
| Jul | 18.30 | 64.94 | 291.80 |
| Ago | 17.00 | 62.60 | 290.50 |
| Set | 15.10 | 59.18 | 288.60 |
| Out | 12.30 | 54.14 | 285.80 |
| Nov | 7.20 | 44.96 | 280.70 |
| Dez | 5.50 | 41.90 | 279.00 |
| Média | 10.90 | 51.40 | 282.80 |
Uma medida de dispersão muito usada em artigos é o coeficiente de variação (CV), dado por \[ \text{CV} = \dfrac{s}{\bar{x}} \]
Outra medida, menos conhecida, é o coeficiente de dispersão relativa (CDR), dado por \[ \text{CDR} = \dfrac{\dfrac{s}{\text{amplitude}/2}-\sqrt{\dfrac{2}{n-1}}} {\sqrt{\dfrac{n}{n-1}}-\sqrt{\dfrac{2}{n-1}}} \]
Calculando-se o CDR para os três tipos de temperaturas, quais são seus valores aproximados e a melhor explicação para o que se observa?
A. Evidencia diferenças reais de precisão entre as escalas.
B. Evidencia que Kelvin é menos precisa que Fahrenheit e Celsius.
C. É invariante à transformação linear; não há diferença com a mudança
da unidade de medida.
D. Mostra maior variabilidade em Kelvin devido à magnitude dos
valores.
E. Mostra menor variabilidade em Kelvin devido à magnitude dos
valores.
F. Não é uma boa medida porque não é afetada pela unidade de medida.
Explicações e comentários:
Alternativa correta: C.
As três escalas estão relacionadas por transformações lineares do tipo \[ F = 1.8C + 32, \qquad K = C + 273.15 \] Para variáveis com o mesmo tamanho amostral, uma medida de dispersão relativa adequada deve ser invariante à mudança de unidade. O CDR corrigido de Eisenhauer satisfaz essa propriedade, ao contrário do CV.
# leitura do arquivo CFK.xls diretamente do Google Drive
file_id <- "10RQDeb0JVGJImT5W22TEI2Wfcwq5fHm-"
url_dl <- paste0("https://drive.google.com/uc?export=download&id=", file_id)
dest <- "CFK.xls"
utils::download.file(url_dl, destfile = dest, mode = "wb")
CFK <- readxl::read_excel(dest)
# remover a linha da média
CFK <- CFK[CFK$Mes != "Media", ]
# tamanhos amostrais
n <- nrow(CFK)
# médias
avg_C <- mean(CFK$Celsius)
avg_F <- mean(CFK$Fahrenheit)
avg_K <- mean(CFK$Kelvin)
# desvios-padrão
dp_C <- sd(CFK$Celsius)
dp_F <- sd(CFK$Fahrenheit)
dp_K <- sd(CFK$Kelvin)
# semi-amplitudes
sa_C <- diff(range(CFK$Celsius)) / 2
sa_F <- diff(range(CFK$Fahrenheit)) / 2
sa_K <- diff(range(CFK$Kelvin)) / 2
# coeficiente de variação
cv_C <- dp_C / avg_C
cv_F <- dp_F / avg_F
cv_K <- dp_K / avg_K
# coeficiente de variação corrigido
cvc_C <- cv_C / sqrt(n - 1)
cvc_F <- cv_F / sqrt(n - 1)
cvc_K <- cv_K / sqrt(n - 1)
# coeficiente de dispersão relativa (CDR)
cdr_C <- dp_C / sa_C
cdr_F <- dp_F / sa_F
cdr_K <- dp_K / sa_K
# coeficiente de dispersão relativa corrigido (Eisenhauer)
cdrc_C <- (cdr_C - sqrt(2/(n-1))) / (sqrt(n/(n-1)) - sqrt(2/(n-1)))
cdrc_F <- (cdr_F - sqrt(2/(n-1))) / (sqrt(n/(n-1)) - sqrt(2/(n-1)))
cdrc_K <- (cdr_K - sqrt(2/(n-1))) / (sqrt(n/(n-1)) - sqrt(2/(n-1)))
# tabela comparativa
tabela_comp <- data.frame(
Escala = c("Celsius", "Fahrenheit", "Kelvin"),
CV = c(cv_C, cv_F, cv_K),
CVc = c(cvc_C, cvc_F, cvc_K),
CDR = c(cdr_C, cdr_F, cdr_K),
CDRc = c(cdrc_C, cdrc_F, cdrc_K)
)
# arredondar colunas numericas
num_cols <- sapply(tabela_comp, is.numeric)
tabela_comp[num_cols] <- lapply(tabela_comp[num_cols], round, 2)
print(tabela_comp, row.names=FALSE) Escala CV CVc CDR CDRc
Celsius 0.42 0.13 0.72 0.48
Fahrenheit 0.16 0.05 0.72 0.48
Kelvin 0.02 0.00 0.72 0.48
No ambulatório de geriatria verificou-se o número de quedas entre pacientes dos dois sexos. Obtendo-se:
Mulheres = (1, 5, 5, 5, 7, 7, 7, 11)
Homens = (3, 3, 3, 5, 7, 9, 9, 9)
Quais são, aproximadamente, os coeficientes de variação, dados por \[ \text{CV} = \dfrac{\text{desvio-padrão}}{\text{média}} \] do número de quedas de pacientes (mulheres e homens), respectivamente?
A. 0,47 para ambos os grupos, adimensionais.
B. 2,83 para ambos os grupos, adimensionais.
C. 0,47 quedas para ambos os grupos.
D. 2,83 quedas para ambos os grupos.
E. 0,47 por queda para ambos os grupos.
F. 2,83 por queda para ambos os grupos.
Explicações e comentários:
Alternativa correta: A.
O coeficiente de variação é uma razão entre duas grandezas com a mesma unidade, logo é adimensional. Como as médias e os desvios-padrão dos dois grupos coincidem, seus coeficientes de variação também coincidem.
[1] 6
[1] 2.828427
[1] 0.4714045
[1] 6
[1] 2.828427
[1] 0.4714045
No ambulatório de geriatria verificou-se o número de quedas entre pacientes dos dois sexos. Obtendo-se:
Mulheres = (1, 5, 5, 5, 7, 7, 7, 11)
Homens = (3, 3, 3, 5, 7, 9, 9, 9)
O coeficiente de dispersão relativa é definido por \[ \text{CDR} = \dfrac{s}{\text{amplitude}/2} \]
Quais são, aproximadamente, os coeficientes de dispersão relativa do número de quedas de pacientes, homens e mulheres, respectivamente?
A. 0.57 para ambos os grupos, adimensionais.
B. 0.94 para ambos os grupos, adimensionais.
C. 0.94 e 0.57, adimensionais.
D. 0.57 quedas para ambos os grupos.
E. 0.94 quedas para ambos os grupos.
F. 0.94 e 0.57 quedas.
G. 0.57 e 0.94 quedas.
H. 1.89 e 1.31, adimensionais.
I. 1.31 e 1.89, adimensionais.
J. 1.89 e 1.31 quedas.
K. 1.31 e 1.89 quedas.
L. 1.89 para ambos os grupos, adimensionais.
M. 1.89 quedas para ambos os grupos.
N. 1.31 para ambos os grupos, adimensionais.
O. 1.31 quedas para ambos os grupos.
Explicações e comentários:
Alternativa correta: C.
Mulheres <- c(1, 5, 5, 5, 7, 7, 7, 11)
Homens <- c(3, 3, 3, 5, 7, 9, 9, 9)
# Mulheres
dp_M <- sd(Mulheres)
amp_M <- diff(range(Mulheres))
cdr_M <- dp_M / (amp_M / 2)
# Homens
dp_H <- sd(Homens)
amp_H <- diff(range(Homens))
cdr_H <- dp_H / (amp_H / 2)
cdr_H[1] 0.942809
[1] 0.5656854
No ambulatório de geriatria foi registrado o número de quedas entre pacientes femininos e masculinos:
Mulheres = (1, 5, 5, 5, 7, 7, 7, 11)
Homens = (3, 3, 3, 5, 7, 9, 9, 9)
O coeficiente de dispersão relativa de Eisenhauer (1993) é dado por \[ \text{CDR} = \dfrac{\dfrac{s}{r/2} - \sqrt{\dfrac{2}{n-1}}} {\sqrt{\dfrac{n}{n-1}} - \sqrt{\dfrac{2}{n-1}}} \] em que \(s\) é o desvio-padrão, \(r\) é a amplitude e \(n\) é o tamanho da amostra.
Quais são os valores do CDR do número de quedas de pacientes (mulheres e homens), respectivamente?
A. 0.76 e 0.06, adimensionais.
B. 0.06 e 0.76, adimensionais.
C. 0.76 e 0.06 quedas.
D. 0.06 e 0.76 quedas.
E. 0.76 e 0.06 / queda.
F. 0.06 e 0.76 / queda.
Explicações e comentários:
Alternativa correta: B.
Fem <- c(1, 5, 5, 5, 7, 7, 7, 11)
Masc <- c(3, 3, 3, 5, 7, 9, 9, 9)
n <- length(Fem)
# amplitudes
amp_F <- diff(range(Fem))
amp_M <- diff(range(Masc))
# desvios-padrao
dp_F <- sd(Fem)
dp_M <- sd(Masc)
# CDR de Eisenhauer
cdr_F <- (dp_F/(amp_F/2) - sqrt(2/(n-1))) /
(sqrt(n/(n-1)) - sqrt(2/(n-1)))
cdr_M <- (dp_M/(amp_M/2) - sqrt(2/(n-1))) /
(sqrt(n/(n-1)) - sqrt(2/(n-1)))
cdr_F[1] 0.05830052
[1] 0.7638342
Suponha que medimos a estatura (cm) de 30 mulheres e 10 homens:
Mulheres = (166, 174, 166, 169, 173, 171, 174, 180, 175, 168, 168, 171, 169, 170, 172, 170, 162, 168, 172, 171, 169, 175, 163, 179, 163, 177, 173, 175, 171, 166)
Homens = (154, 171, 175, 172, 179, 186, 185, 180, 179, 197)
Estamos interessados em uma medida de variabilidade relativa para decidir qual grupo apresenta maior dispersão relativa.
As medidas consideradas são: \[ \text{CV} = \dfrac{s}{\bar{x}} \qquad \text{CV}_c = \dfrac{s/\bar{x}}{\sqrt{n-1}} \] \[ \text{CDR} = \dfrac{s}{r/2} \qquad \text{CDR}_c = \dfrac{\dfrac{s}{r/2}-\sqrt{\dfrac{2}{n-1}}} {\sqrt{\dfrac{n}{n-1}}-\sqrt{\dfrac{2}{n-1}}} \] onde \(s\) é o desvio-padrão, \(\bar{x}\) a média, \(r\) a amplitude e \(n\) o tamanho da amostra.
Qual é o coeficiente que permite concluir sobre qual grupo (mulheres ou homens) tem maior variabilidade relativa?
A. CV, mulheres
B. CVc, mulheres
C. CDR, mulheres
D. CDRc, mulheres
E. CV, homens
F. CVc, homens
G. CDR, homens
H. CDRc, homens
Explicações e comentários:
Alternativa correta: D.
Os resultados obtidos para as medidas de variabilidade relativa são:
| Grupo | \(\bar{x}\) | \(s\) | \(r\) | \(n\) | \(CV\) | \(CV_c\) | \(CDR\) | \(CDR_c\) |
|---|---|---|---|---|---|---|---|---|
| Mulheres | 170.667 | 4.467 | 18 | 30 | 0.026 | 0.005 | 0.496 | 0.310 |
| Homens | 177.800 | 11.302 | 43 | 10 | 0.064 | 0.021 | 0.526 | 0.093 |
A única medida que permite concluir de forma consistente sobre a variabilidade relativa entre os grupos é o coeficiente de dispersão relativa corrigido de Eisenhauer (\(CDR_c\)). Com base nele,
\[ \text{CDR}_{c}^{\text{Mulher}} > \text{CDR}_{c}^{\text{Homem}} \]
Logo, as mulheres apresentam maior variabilidade relativa.
Male <- c(154,171,175,172,179,186,185,180,179,197)
Female <- c(166,174,166,169,173,171,174,180,175,168,
168,171,169,170,172,170,162,168,172,171,
169,175,163,179,163,177,173,175,171,166)
calc_disp <- function(x){
n <- length(x)
m <- mean(x)
s <- sd(x)
r <- diff(range(x))
c(
mean = m,
s = s,
r = r,
n = n,
CV = s/m,
CVc = (s/m)/sqrt(n-1),
CDR = s/(r/2),
CDRc = ((s/(r/2)) - sqrt(2/(n-1))) /
(sqrt(n/(n-1)) - sqrt(2/(n-1)))
)
}
tab <- rbind(
Female = calc_disp(Female),
Male = calc_disp(Male)
)
print(round(tab, 3), row.names=FALSE) mean s r n CV CVc CDR CDRc
Female 170.667 4.467 18 30 0.026 0.005 0.496 0.310
Male 177.800 11.302 43 10 0.064 0.021 0.526 0.093
Considere o seguinte conjunto de valores quantitativos: \[ x = (1,1,2,2,3,3,4,4,5,5,5,5,6,6,6,6,6,6,\\ 7,7,7,7,8,8,9,9,10,10,11,11) \]
Qual(is) histograma(s) exibe(m) a distribuição de \(x\)?
A. A
B. B
C. C
D. D
E. E
F. F
G. Nenhum deles
H. Todos eles
Explicações e comentários:
Alternativa correta: H.
Todos os histogramas apresentados foram construídos a partir do mesmo
conjunto de dados \(x\). O que muda
entre eles é apenas a escolha do ponto inicial das classes e da largura
dos intervalos (breaks). Essas escolhas alteram
substancialmente a aparência do histograma, podendo sugerir formatos
distintos para a mesma distribuição subjacente.
Isso ilustra um fato fundamental: histogramas não representam unicamente a distribuição dos dados, pois dependem fortemente de decisões arbitrárias de construção (início e largura das classes). Assim, histogramas diferentes podem ser todos compatíveis com os mesmos dados.
# histogramas lado a lado (base R)
x <- c(1,1,2,2,3,3,4,4,5,5,5,5,
6,6,6,6,6,6,7,7,7,7,
8,8,9,9,10,10,11,11)
par(mfrow = c(2, 3))
hist(x, breaks = seq(-1,12,1),
freq = FALSE, col = "white",
main = "A",
ylab = "Frequência relativa")
hist(x, breaks = seq(1,12,1.5),
freq = FALSE, col = "white",
main = "B",
ylab = "Frequência relativa")
hist(x, breaks = seq(-1.5,12,1.5),
freq = FALSE, col = "white",
main = "C",
ylab = "Frequência relativa")
hist(x, breaks = seq(-0.5,12,1.5),
freq = FALSE, col = "white",
main = "D",
ylab = "Frequência relativa")
hist(x, breaks = seq(-2,12,2),
freq = FALSE, col = "white",
main = "E (default)",
ylab = "Frequência relativa")
hist(x, breaks = seq(-1.9,12,1.9),
freq = FALSE, col = "white",
main = "F",
ylab = "Frequência relativa")O número de sequências distintas de caras e coroas que pode ocorrer em dez lançamentos independentes de uma moeda honesta é:
A. \(10!\)
B. \(10^2\)
C. \(2 \times 10\)
D. \(2^{10}\)
E. \(10\)
Explicações e comentários:
Alternativa correta: D.
Cada lançamento de moeda tem dois resultados possíveis: cara ou coroa. Logo, cada lançamento duplica o número de sequências possíveis.
Para poucos lançamentos: - 1 lançamento: \(2\) sequências
- 2 lançamentos: \(2^2 = 4\)
sequências
- 3 lançamentos: \(2^3 = 8\)
sequências
Generalizando, para \(n\) lançamentos, o número total de sequências distintas é: \[ \begin{align} N(n) &= 2^n \end{align} \]
Para dez lançamentos: \[ \begin{align} N(10) &= 2^{10} \\ N(10) &= 1024 \end{align} \]
Portanto, existem 1024 sequências distintas possíveis de caras e coroas em dez lançamentos de uma moeda.
Representando cara como 0 e coroa como 1,
para 1 jogada há 2 possibilidades:
Para 2 jogadas, 4 possibilidades:
Para 3 jogadas, 8 possibilidades:
e assim por diante.
É possível construir a sequência manualmente, numerando-se em binário para não esquecer nenhuma. Para 10 jogadas:
Tedioso… então podemos generalizar e perceber que o número de sequências possíveis é 2^(número de jogadas).
Para 10 jogadas, portanto, são 210=1024.
Quer conferir?
library(R.utils)
jogadas <- 10
sequencias <- 2^jogadas
cat("Todas as sequencias possiveis em ",
jogadas," jogadas: ",sep="")Todas as sequencias possiveis em 10 jogadas:
# de 0 a 1023 temos 1024 sequencias
virgula <- ""
i <- 0
while (i < sequencias)
{
bin <- R.utils::intToBin(i)
bin <- sprintf("%s",bin)
while(nchar(bin) < jogadas)
{
bin <- paste("0",bin,sep="")
}
cat(virgula,bin,"(",i+1,")",sep="")
i <- i+1
virgula <- ", "
}0000000000(1), 0000000001(2), 0000000010(3), 0000000011(4), 0000000100(5), 0000000101(6), 0000000110(7), 0000000111(8), 0000001000(9), 0000001001(10), 0000001010(11), 0000001011(12), 0000001100(13), 0000001101(14), 0000001110(15), 0000001111(16), 0000010000(17), 0000010001(18), 0000010010(19), 0000010011(20), 0000010100(21), 0000010101(22), 0000010110(23), 0000010111(24), 0000011000(25), 0000011001(26), 0000011010(27), 0000011011(28), 0000011100(29), 0000011101(30), 0000011110(31), 0000011111(32), 0000100000(33), 0000100001(34), 0000100010(35), 0000100011(36), 0000100100(37), 0000100101(38), 0000100110(39), 0000100111(40), 0000101000(41), 0000101001(42), 0000101010(43), 0000101011(44), 0000101100(45), 0000101101(46), 0000101110(47), 0000101111(48), 0000110000(49), 0000110001(50), 0000110010(51), 0000110011(52), 0000110100(53), 0000110101(54), 0000110110(55), 0000110111(56), 0000111000(57), 0000111001(58), 0000111010(59), 0000111011(60), 0000111100(61), 0000111101(62), 0000111110(63), 0000111111(64), 0001000000(65), 0001000001(66), 0001000010(67), 0001000011(68), 0001000100(69), 0001000101(70), 0001000110(71), 0001000111(72), 0001001000(73), 0001001001(74), 0001001010(75), 0001001011(76), 0001001100(77), 0001001101(78), 0001001110(79), 0001001111(80), 0001010000(81), 0001010001(82), 0001010010(83), 0001010011(84), 0001010100(85), 0001010101(86), 0001010110(87), 0001010111(88), 0001011000(89), 0001011001(90), 0001011010(91), 0001011011(92), 0001011100(93), 0001011101(94), 0001011110(95), 0001011111(96), 0001100000(97), 0001100001(98), 0001100010(99), 0001100011(100), 0001100100(101), 0001100101(102), 0001100110(103), 0001100111(104), 0001101000(105), 0001101001(106), 0001101010(107), 0001101011(108), 0001101100(109), 0001101101(110), 0001101110(111), 0001101111(112), 0001110000(113), 0001110001(114), 0001110010(115), 0001110011(116), 0001110100(117), 0001110101(118), 0001110110(119), 0001110111(120), 0001111000(121), 0001111001(122), 0001111010(123), 0001111011(124), 0001111100(125), 0001111101(126), 0001111110(127), 0001111111(128), 0010000000(129), 0010000001(130), 0010000010(131), 0010000011(132), 0010000100(133), 0010000101(134), 0010000110(135), 0010000111(136), 0010001000(137), 0010001001(138), 0010001010(139), 0010001011(140), 0010001100(141), 0010001101(142), 0010001110(143), 0010001111(144), 0010010000(145), 0010010001(146), 0010010010(147), 0010010011(148), 0010010100(149), 0010010101(150), 0010010110(151), 0010010111(152), 0010011000(153), 0010011001(154), 0010011010(155), 0010011011(156), 0010011100(157), 0010011101(158), 0010011110(159), 0010011111(160), 0010100000(161), 0010100001(162), 0010100010(163), 0010100011(164), 0010100100(165), 0010100101(166), 0010100110(167), 0010100111(168), 0010101000(169), 0010101001(170), 0010101010(171), 0010101011(172), 0010101100(173), 0010101101(174), 0010101110(175), 0010101111(176), 0010110000(177), 0010110001(178), 0010110010(179), 0010110011(180), 0010110100(181), 0010110101(182), 0010110110(183), 0010110111(184), 0010111000(185), 0010111001(186), 0010111010(187), 0010111011(188), 0010111100(189), 0010111101(190), 0010111110(191), 0010111111(192), 0011000000(193), 0011000001(194), 0011000010(195), 0011000011(196), 0011000100(197), 0011000101(198), 0011000110(199), 0011000111(200), 0011001000(201), 0011001001(202), 0011001010(203), 0011001011(204), 0011001100(205), 0011001101(206), 0011001110(207), 0011001111(208), 0011010000(209), 0011010001(210), 0011010010(211), 0011010011(212), 0011010100(213), 0011010101(214), 0011010110(215), 0011010111(216), 0011011000(217), 0011011001(218), 0011011010(219), 0011011011(220), 0011011100(221), 0011011101(222), 0011011110(223), 0011011111(224), 0011100000(225), 0011100001(226), 0011100010(227), 0011100011(228), 0011100100(229), 0011100101(230), 0011100110(231), 0011100111(232), 0011101000(233), 0011101001(234), 0011101010(235), 0011101011(236), 0011101100(237), 0011101101(238), 0011101110(239), 0011101111(240), 0011110000(241), 0011110001(242), 0011110010(243), 0011110011(244), 0011110100(245), 0011110101(246), 0011110110(247), 0011110111(248), 0011111000(249), 0011111001(250), 0011111010(251), 0011111011(252), 0011111100(253), 0011111101(254), 0011111110(255), 0011111111(256), 0100000000(257), 0100000001(258), 0100000010(259), 0100000011(260), 0100000100(261), 0100000101(262), 0100000110(263), 0100000111(264), 0100001000(265), 0100001001(266), 0100001010(267), 0100001011(268), 0100001100(269), 0100001101(270), 0100001110(271), 0100001111(272), 0100010000(273), 0100010001(274), 0100010010(275), 0100010011(276), 0100010100(277), 0100010101(278), 0100010110(279), 0100010111(280), 0100011000(281), 0100011001(282), 0100011010(283), 0100011011(284), 0100011100(285), 0100011101(286), 0100011110(287), 0100011111(288), 0100100000(289), 0100100001(290), 0100100010(291), 0100100011(292), 0100100100(293), 0100100101(294), 0100100110(295), 0100100111(296), 0100101000(297), 0100101001(298), 0100101010(299), 0100101011(300), 0100101100(301), 0100101101(302), 0100101110(303), 0100101111(304), 0100110000(305), 0100110001(306), 0100110010(307), 0100110011(308), 0100110100(309), 0100110101(310), 0100110110(311), 0100110111(312), 0100111000(313), 0100111001(314), 0100111010(315), 0100111011(316), 0100111100(317), 0100111101(318), 0100111110(319), 0100111111(320), 0101000000(321), 0101000001(322), 0101000010(323), 0101000011(324), 0101000100(325), 0101000101(326), 0101000110(327), 0101000111(328), 0101001000(329), 0101001001(330), 0101001010(331), 0101001011(332), 0101001100(333), 0101001101(334), 0101001110(335), 0101001111(336), 0101010000(337), 0101010001(338), 0101010010(339), 0101010011(340), 0101010100(341), 0101010101(342), 0101010110(343), 0101010111(344), 0101011000(345), 0101011001(346), 0101011010(347), 0101011011(348), 0101011100(349), 0101011101(350), 0101011110(351), 0101011111(352), 0101100000(353), 0101100001(354), 0101100010(355), 0101100011(356), 0101100100(357), 0101100101(358), 0101100110(359), 0101100111(360), 0101101000(361), 0101101001(362), 0101101010(363), 0101101011(364), 0101101100(365), 0101101101(366), 0101101110(367), 0101101111(368), 0101110000(369), 0101110001(370), 0101110010(371), 0101110011(372), 0101110100(373), 0101110101(374), 0101110110(375), 0101110111(376), 0101111000(377), 0101111001(378), 0101111010(379), 0101111011(380), 0101111100(381), 0101111101(382), 0101111110(383), 0101111111(384), 0110000000(385), 0110000001(386), 0110000010(387), 0110000011(388), 0110000100(389), 0110000101(390), 0110000110(391), 0110000111(392), 0110001000(393), 0110001001(394), 0110001010(395), 0110001011(396), 0110001100(397), 0110001101(398), 0110001110(399), 0110001111(400), 0110010000(401), 0110010001(402), 0110010010(403), 0110010011(404), 0110010100(405), 0110010101(406), 0110010110(407), 0110010111(408), 0110011000(409), 0110011001(410), 0110011010(411), 0110011011(412), 0110011100(413), 0110011101(414), 0110011110(415), 0110011111(416), 0110100000(417), 0110100001(418), 0110100010(419), 0110100011(420), 0110100100(421), 0110100101(422), 0110100110(423), 0110100111(424), 0110101000(425), 0110101001(426), 0110101010(427), 0110101011(428), 0110101100(429), 0110101101(430), 0110101110(431), 0110101111(432), 0110110000(433), 0110110001(434), 0110110010(435), 0110110011(436), 0110110100(437), 0110110101(438), 0110110110(439), 0110110111(440), 0110111000(441), 0110111001(442), 0110111010(443), 0110111011(444), 0110111100(445), 0110111101(446), 0110111110(447), 0110111111(448), 0111000000(449), 0111000001(450), 0111000010(451), 0111000011(452), 0111000100(453), 0111000101(454), 0111000110(455), 0111000111(456), 0111001000(457), 0111001001(458), 0111001010(459), 0111001011(460), 0111001100(461), 0111001101(462), 0111001110(463), 0111001111(464), 0111010000(465), 0111010001(466), 0111010010(467), 0111010011(468), 0111010100(469), 0111010101(470), 0111010110(471), 0111010111(472), 0111011000(473), 0111011001(474), 0111011010(475), 0111011011(476), 0111011100(477), 0111011101(478), 0111011110(479), 0111011111(480), 0111100000(481), 0111100001(482), 0111100010(483), 0111100011(484), 0111100100(485), 0111100101(486), 0111100110(487), 0111100111(488), 0111101000(489), 0111101001(490), 0111101010(491), 0111101011(492), 0111101100(493), 0111101101(494), 0111101110(495), 0111101111(496), 0111110000(497), 0111110001(498), 0111110010(499), 0111110011(500), 0111110100(501), 0111110101(502), 0111110110(503), 0111110111(504), 0111111000(505), 0111111001(506), 0111111010(507), 0111111011(508), 0111111100(509), 0111111101(510), 0111111110(511), 0111111111(512), 1000000000(513), 1000000001(514), 1000000010(515), 1000000011(516), 1000000100(517), 1000000101(518), 1000000110(519), 1000000111(520), 1000001000(521), 1000001001(522), 1000001010(523), 1000001011(524), 1000001100(525), 1000001101(526), 1000001110(527), 1000001111(528), 1000010000(529), 1000010001(530), 1000010010(531), 1000010011(532), 1000010100(533), 1000010101(534), 1000010110(535), 1000010111(536), 1000011000(537), 1000011001(538), 1000011010(539), 1000011011(540), 1000011100(541), 1000011101(542), 1000011110(543), 1000011111(544), 1000100000(545), 1000100001(546), 1000100010(547), 1000100011(548), 1000100100(549), 1000100101(550), 1000100110(551), 1000100111(552), 1000101000(553), 1000101001(554), 1000101010(555), 1000101011(556), 1000101100(557), 1000101101(558), 1000101110(559), 1000101111(560), 1000110000(561), 1000110001(562), 1000110010(563), 1000110011(564), 1000110100(565), 1000110101(566), 1000110110(567), 1000110111(568), 1000111000(569), 1000111001(570), 1000111010(571), 1000111011(572), 1000111100(573), 1000111101(574), 1000111110(575), 1000111111(576), 1001000000(577), 1001000001(578), 1001000010(579), 1001000011(580), 1001000100(581), 1001000101(582), 1001000110(583), 1001000111(584), 1001001000(585), 1001001001(586), 1001001010(587), 1001001011(588), 1001001100(589), 1001001101(590), 1001001110(591), 1001001111(592), 1001010000(593), 1001010001(594), 1001010010(595), 1001010011(596), 1001010100(597), 1001010101(598), 1001010110(599), 1001010111(600), 1001011000(601), 1001011001(602), 1001011010(603), 1001011011(604), 1001011100(605), 1001011101(606), 1001011110(607), 1001011111(608), 1001100000(609), 1001100001(610), 1001100010(611), 1001100011(612), 1001100100(613), 1001100101(614), 1001100110(615), 1001100111(616), 1001101000(617), 1001101001(618), 1001101010(619), 1001101011(620), 1001101100(621), 1001101101(622), 1001101110(623), 1001101111(624), 1001110000(625), 1001110001(626), 1001110010(627), 1001110011(628), 1001110100(629), 1001110101(630), 1001110110(631), 1001110111(632), 1001111000(633), 1001111001(634), 1001111010(635), 1001111011(636), 1001111100(637), 1001111101(638), 1001111110(639), 1001111111(640), 1010000000(641), 1010000001(642), 1010000010(643), 1010000011(644), 1010000100(645), 1010000101(646), 1010000110(647), 1010000111(648), 1010001000(649), 1010001001(650), 1010001010(651), 1010001011(652), 1010001100(653), 1010001101(654), 1010001110(655), 1010001111(656), 1010010000(657), 1010010001(658), 1010010010(659), 1010010011(660), 1010010100(661), 1010010101(662), 1010010110(663), 1010010111(664), 1010011000(665), 1010011001(666), 1010011010(667), 1010011011(668), 1010011100(669), 1010011101(670), 1010011110(671), 1010011111(672), 1010100000(673), 1010100001(674), 1010100010(675), 1010100011(676), 1010100100(677), 1010100101(678), 1010100110(679), 1010100111(680), 1010101000(681), 1010101001(682), 1010101010(683), 1010101011(684), 1010101100(685), 1010101101(686), 1010101110(687), 1010101111(688), 1010110000(689), 1010110001(690), 1010110010(691), 1010110011(692), 1010110100(693), 1010110101(694), 1010110110(695), 1010110111(696), 1010111000(697), 1010111001(698), 1010111010(699), 1010111011(700), 1010111100(701), 1010111101(702), 1010111110(703), 1010111111(704), 1011000000(705), 1011000001(706), 1011000010(707), 1011000011(708), 1011000100(709), 1011000101(710), 1011000110(711), 1011000111(712), 1011001000(713), 1011001001(714), 1011001010(715), 1011001011(716), 1011001100(717), 1011001101(718), 1011001110(719), 1011001111(720), 1011010000(721), 1011010001(722), 1011010010(723), 1011010011(724), 1011010100(725), 1011010101(726), 1011010110(727), 1011010111(728), 1011011000(729), 1011011001(730), 1011011010(731), 1011011011(732), 1011011100(733), 1011011101(734), 1011011110(735), 1011011111(736), 1011100000(737), 1011100001(738), 1011100010(739), 1011100011(740), 1011100100(741), 1011100101(742), 1011100110(743), 1011100111(744), 1011101000(745), 1011101001(746), 1011101010(747), 1011101011(748), 1011101100(749), 1011101101(750), 1011101110(751), 1011101111(752), 1011110000(753), 1011110001(754), 1011110010(755), 1011110011(756), 1011110100(757), 1011110101(758), 1011110110(759), 1011110111(760), 1011111000(761), 1011111001(762), 1011111010(763), 1011111011(764), 1011111100(765), 1011111101(766), 1011111110(767), 1011111111(768), 1100000000(769), 1100000001(770), 1100000010(771), 1100000011(772), 1100000100(773), 1100000101(774), 1100000110(775), 1100000111(776), 1100001000(777), 1100001001(778), 1100001010(779), 1100001011(780), 1100001100(781), 1100001101(782), 1100001110(783), 1100001111(784), 1100010000(785), 1100010001(786), 1100010010(787), 1100010011(788), 1100010100(789), 1100010101(790), 1100010110(791), 1100010111(792), 1100011000(793), 1100011001(794), 1100011010(795), 1100011011(796), 1100011100(797), 1100011101(798), 1100011110(799), 1100011111(800), 1100100000(801), 1100100001(802), 1100100010(803), 1100100011(804), 1100100100(805), 1100100101(806), 1100100110(807), 1100100111(808), 1100101000(809), 1100101001(810), 1100101010(811), 1100101011(812), 1100101100(813), 1100101101(814), 1100101110(815), 1100101111(816), 1100110000(817), 1100110001(818), 1100110010(819), 1100110011(820), 1100110100(821), 1100110101(822), 1100110110(823), 1100110111(824), 1100111000(825), 1100111001(826), 1100111010(827), 1100111011(828), 1100111100(829), 1100111101(830), 1100111110(831), 1100111111(832), 1101000000(833), 1101000001(834), 1101000010(835), 1101000011(836), 1101000100(837), 1101000101(838), 1101000110(839), 1101000111(840), 1101001000(841), 1101001001(842), 1101001010(843), 1101001011(844), 1101001100(845), 1101001101(846), 1101001110(847), 1101001111(848), 1101010000(849), 1101010001(850), 1101010010(851), 1101010011(852), 1101010100(853), 1101010101(854), 1101010110(855), 1101010111(856), 1101011000(857), 1101011001(858), 1101011010(859), 1101011011(860), 1101011100(861), 1101011101(862), 1101011110(863), 1101011111(864), 1101100000(865), 1101100001(866), 1101100010(867), 1101100011(868), 1101100100(869), 1101100101(870), 1101100110(871), 1101100111(872), 1101101000(873), 1101101001(874), 1101101010(875), 1101101011(876), 1101101100(877), 1101101101(878), 1101101110(879), 1101101111(880), 1101110000(881), 1101110001(882), 1101110010(883), 1101110011(884), 1101110100(885), 1101110101(886), 1101110110(887), 1101110111(888), 1101111000(889), 1101111001(890), 1101111010(891), 1101111011(892), 1101111100(893), 1101111101(894), 1101111110(895), 1101111111(896), 1110000000(897), 1110000001(898), 1110000010(899), 1110000011(900), 1110000100(901), 1110000101(902), 1110000110(903), 1110000111(904), 1110001000(905), 1110001001(906), 1110001010(907), 1110001011(908), 1110001100(909), 1110001101(910), 1110001110(911), 1110001111(912), 1110010000(913), 1110010001(914), 1110010010(915), 1110010011(916), 1110010100(917), 1110010101(918), 1110010110(919), 1110010111(920), 1110011000(921), 1110011001(922), 1110011010(923), 1110011011(924), 1110011100(925), 1110011101(926), 1110011110(927), 1110011111(928), 1110100000(929), 1110100001(930), 1110100010(931), 1110100011(932), 1110100100(933), 1110100101(934), 1110100110(935), 1110100111(936), 1110101000(937), 1110101001(938), 1110101010(939), 1110101011(940), 1110101100(941), 1110101101(942), 1110101110(943), 1110101111(944), 1110110000(945), 1110110001(946), 1110110010(947), 1110110011(948), 1110110100(949), 1110110101(950), 1110110110(951), 1110110111(952), 1110111000(953), 1110111001(954), 1110111010(955), 1110111011(956), 1110111100(957), 1110111101(958), 1110111110(959), 1110111111(960), 1111000000(961), 1111000001(962), 1111000010(963), 1111000011(964), 1111000100(965), 1111000101(966), 1111000110(967), 1111000111(968), 1111001000(969), 1111001001(970), 1111001010(971), 1111001011(972), 1111001100(973), 1111001101(974), 1111001110(975), 1111001111(976), 1111010000(977), 1111010001(978), 1111010010(979), 1111010011(980), 1111010100(981), 1111010101(982), 1111010110(983), 1111010111(984), 1111011000(985), 1111011001(986), 1111011010(987), 1111011011(988), 1111011100(989), 1111011101(990), 1111011110(991), 1111011111(992), 1111100000(993), 1111100001(994), 1111100010(995), 1111100011(996), 1111100100(997), 1111100101(998), 1111100110(999), 1111100111(1000), 1111101000(1001), 1111101001(1002), 1111101010(1003), 1111101011(1004), 1111101100(1005), 1111101101(1006), 1111101110(1007), 1111101111(1008), 1111110000(1009), 1111110001(1010), 1111110010(1011), 1111110011(1012), 1111110100(1013), 1111110101(1014), 1111110110(1015), 1111110111(1016), 1111111000(1017), 1111111001(1018), 1111111010(1019), 1111111011(1020), 1111111100(1021), 1111111101(1022), 1111111110(1023), 1111111111(1024)
O número de sequências distintas com a mesma quantidade de caras e coroas que pode ocorrer em dez lançamentos independentes de uma moeda honesta é:
A. 1
B. 10
C. 120
D. 252
E. 512
Explicações e comentários:
Alternativa correta: D.
Em 10 lançamentos, ter a mesma quantidade de caras e coroas significa ter exatamente: \[ 5 \text{ caras e } 5 \text{ coroas} \]
Uma sequência é completamente determinada pelas posições ocupadas pelas caras (ou, equivalentemente, pelas coroas). Assim, o problema se reduz a contar de quantas maneiras é possível escolher 5 posições, entre as 10 disponíveis, para colocar as caras.
Esse número é dado pelo coeficiente binomial: \[ \begin{align} \binom{10}{5} &= \frac{10!}{5!\,5!} \\ \binom{10}{5}&= 252 \end{align} \]
Portanto, existem 252 sequências distintas balanceadas (com 5 caras e 5 coroas) em dez lançamentos de uma moeda honesta.
[1] 252
A probabilidade de ocorrência de cada uma das sequências distintas de caras e coroas que pode ocorrer em dez lançamentos independentes de uma moeda honesta é:
A. \(1/10\)
B. \(1/100\)
C. \(1/1000\)
D. \(1/10!\)
E. \(1/2^{10}\)
Explicações e comentários:
Alternativa correta: E.
Cada lançamento da moeda tem dois resultados possíveis (cara ou coroa), com probabilidade \(0{,}5\), e os lançamentos são independentes.
O número total de sequências possíveis em 10 lançamentos é: \[ 2^{10} = 1024 \]
Como a moeda é honesta e o processo é aleatório, todas as sequências têm a mesma probabilidade. Logo, a probabilidade de qualquer sequência específica é: \[ \begin{align} P(\text{sequência}) &= \left(\frac{1}{2}\right)^{10} \\ &= \frac{1}{2^{10}} \\ &= \frac{1}{1024} \\ P(\text{sequência}) &= 0.0009765625 \end{align} \] ## APEx 12124: Mega-Sena e tempo esperado de espera
Você joga sempre na Mega Sena, apostando toda semana os mesmos 6 números entre os 60 disponíveis. Acredita que, pela persistência, chegará o dia em que sua sequência será premiada.
Qual é, aproximadamente, sua expectativa matemática para o tempo de espera até ganhar o prêmio máximo?
A. um ano
B. dez anos
C. cem anos
D. mil anos
E. dez mil anos
F. cem mil anos
G. um milhão de anos
Explicações e comentários:
Alternativa correta: G.
Na aposta mínima da Mega Sena escolhem-se 6 números entre 60, sem repetição e sem importar a ordem. O número total de combinações possíveis é dado por: \[ \begin{align} \binom{60}{6} &= 50\,063\,860 \end{align} \] Cada combinação tem a mesma probabilidade de ser sorteada. Assim, ao jogar sempre a mesma sequência, a probabilidade de ganhar o prêmio máximo em um concurso é: \[ \begin{align} p &= \frac{1}{50\,063\,860} \end{align} \]
O tempo de espera até o primeiro sucesso segue uma distribuição geométrica. O valor esperado do tempo de espera é o inverso da probabilidade: \[ \begin{align} \mathbb{E}(T) &= \frac{1}{p} = 50\,063\,860 \text{ semanas} \end{align} \]
Segundo o enunciado, já ocorreram 2301 concursos. Descontando esse tempo: \[ \begin{align} T_{\text{restante}} &= 50\,063\,860 - 2\,301 \end{align} \]
Convertendo semanas em anos: \[ \begin{align} \text{anos} &= \frac{(50\,063\,860 - 2\,301)\times 7}{365} \\ \text{anos}&\approx 960\,085 \text{ anos} \end{align} \]
Portanto, a expectativa matemática para o tempo de espera até ganhar o prêmio máximo é da ordem de um milhão de anos.
Observação final: esse é um valor médio. É possível ganhar antes ou depois desse tempo, mas a esperança matemática permanece da ordem de centenas de milhares a um milhão de anos.
# número total de combinações possíveis na Mega-Sena
total_combinacoes <- choose(60, 6)
# concursos já realizados
concursos_passados <- 2301
# tempo esperado restante (em semanas)
semanas_esperadas <- total_combinacoes - concursos_passados
# conversão para anos
anos_esperados <- (semanas_esperadas * 7) / 365
# custo total esperado (em reais de hoje)
custo_aposta <- 4.5
custo_total <- semanas_esperadas * custo_aposta
total_combinacoes[1] 50063860
[1] 960084.7
[1] 225277016
Uma família tem quatro crianças. A probabilidade de nascimento de um menino é 0,5.
Qual é a probabilidade de haver pelo menos um menino e uma menina?
A. 7/8
B. 15/16
C. 3/4
D. 5/8
E. 6/8
Explicações e comentários:
Alternativa correta: A.
Defina os eventos:
– \(A\) = nenhum menino (todas
meninas)
– \(B\) = nenhuma menina (todos
meninos)
Como os nascimentos são independentes e \(P(\text{menino})=P(\text{menina})=0{,}5\),
\[ \begin{align} P(A) &= 0.5^4 = \frac{1}{16}\\ P(B) &= 0.5^4 = \frac{1}{16} \end{align} \]
O evento “pelo menos um menino e uma menina” é o complemento de \(A \cup B\):
\[ \begin{align} P(\text{pelo menos um de cada}) &= 1 - P(A) - P(B)\\ &= 1 - \frac{1}{16} - \frac{1}{16}\\ &= \frac{14}{16}\\ P(\text{pelo menos um de cada})&= \frac{7}{8} \end{align} \]
A probabilidade de um paciente sofrer uma má reação pela injeção de certo soro é \(p = 1/1000\).
Qual é a probabilidade de que exatamente 3 em 2000 pacientes venham a sofrer uma má reação?
A. 0.18
B. 0.32
C. 0.20
D. 0.15
E. 0.13
Explicações e comentários:
Alternativa correta: A.
O número de pacientes é grande (\(n=2000>20\)) e a probabilidade individual é pequena (\(p=0.001<0.05\)). Nessas condições, a distribuição Binomial pode ser bem aproximada por uma distribuição de Poisson.
A média da Poisson é \[ \begin{align} \lambda &= np \\ &= 2000 \times \frac{1}{1000} \\ \lambda &= 2 \end{align} \]
Logo, a probabilidade de exatamente 3 reações adversas é \[ \begin{align} P(X=3) &= \frac{\lambda^3 e^{-\lambda}}{3!} \\ &= \frac{2^3 e^{-2}}{3!} \\ P(X=3)&\approx 0.18 \end{align} \]
[1] 0.1805373
[1] 0.180447
A probabilidade de um paciente sofrer uma má reação pela injeção de certo soro é \(1/1000\).
A probabilidade de mais do que 2 em 2000 pacientes venham a sofrer uma má reação no mesmo período é:
A. 1,000
B. 0,999
C. 0,998
D. 0,677
E. 0,541
F. 0,459
G. 0,323
H. 0,080
I. 1,67×10-10
Explicações e comentários:
Alternativa correta: G.
Seja \(X\) o número de más reações em \(n=2000\) pacientes, com \(p=0.001\). Como \(n\) é grande e \(p\) é pequena, usa-se a aproximação de Poisson com
\[ \begin{align} \lambda &= np \\ &= 2000 \times 0.001 \\ \lambda&= 2 \end{align} \]
Queremos \(P(X>2)\):
\[ \begin{align} P(X>2) &= 1 - P(X\le 2)\\ &= 1 - \sum_{k=0}^{2} \frac{\lambda^k e^{-\lambda}}{k!}\\ &= 1 - e^{-2}\left(\frac{2^0}{0!}+\frac{2^1}{1!}+\frac{2^2}{2!}\right)\\ &= 1 - e^{-2}(1+2+2)\\ &= 1 - 5e^{-2}\\ P(X>2)&\approx 0.323 \end{align} \] Erros comuns:
[1] 0.3233236
[1] 0.3233236
# Binomial (para conferir)
1 - (dbinom(0, 2000, 1/1000) + dbinom(1, 2000, 1/1000) + dbinom(2, 2000, 1/1000))[1] 0.3233236
[1] 0.3233236
Um processo gerador aleatório tem duas propriedades:
Independência significa que o próximo resultado do processo independe dos resultados anteriores. Similaridade significa que as condições conhecidas e desconhecidas são semelhantes na geração de cada resultado.
Se o processo gerador de lançamento de uma moeda honesta é aleatório, qual é a probabilidade aproximada de ocorrência de cada uma das distintas sequências de caras e coroas com 10 lançamentos?
A. 0.1
B. 0.01
C. 0.05
D. 0.001
E. 0.0001
Explicações e comentários:
Alternativa correta: D.
Em cada lançamento de uma moeda honesta há dois resultados equiprováveis: cara ou coroa. Logo, o número total de sequências possíveis em 10 lançamentos é \[ \begin{align} N &= 2^{10} = 1024 \end{align} \]
Como o processo é aleatório, todas as sequências têm a mesma probabilidade. Assim, a probabilidade de ocorrência de uma sequência específica é \[ \begin{align} P(\text{sequência}) &= \frac{1}{1024} \\ P(\text{sequência})&= 0009765625 \end{align} \]
A melhor aproximação entre as alternativas é 0.001.
Assista ao vídeo Wizards of Odds: The Power of Probability.
Qual é a probabilidade de uma pessoa estado-unidense contrair dengue ao fazer uma visita às Bermudas?
A. 1/9999
B. 1/11
C. 1/10000
D. 1/9989
E. 1/10
Explicações e comentários:
Alternativa correta: C.
O vídeo mostra como probabilidades muito pequenas costumam ser percebidas de forma distorcida. No caso da dengue nas Bermudas, o risco informado é extremamente baixo, da ordem de um caso para dezenas de milhares de visitantes.
A probabilidade apresentada no vídeo é aproximadamente: \[ \begin{align} P(\text{dengue}) &\approx \frac{1}{10000} \end{align} \]
Diferenças como \(1/9999\) ou \(1/9989\) não têm significado prático distinto nesse contexto; a ideia central é enfatizar a raridade do evento.
Assista ao vídeo Wizards of Odds: The Power of Probability.
Qual é a probabilidade de uma pessoa estado-unidense contrair dengue ao fazer uma visita às Bermudas se ela testar positivamente com confiabilidade de 99,9%?
A. 1/10000
B. 1/11
C. 1/9999
D. 1/9989
E. 1/10
Explicações e comentários:
Alternativa correta: B.
Defina os eventos: \(D^+\) =
contrair dengue
\(T^+\) = testar positivamente para
dengue
A prevalência observada é: \[ P(D^+) = \frac{1}{10000} \]
A confiabilidade do teste é de 99,9%, isto é: \[ \begin{align} P(T^+ \mid D^+) &= 0.999\\ P(T^- \mid D^-) &= 0.999 \end{align} \] logo a taxa de falso positivo é: \[ P(T^+ \mid D^-) = 1 - 0.999 = 0.001 \]
Primeiro calcula-se a probabilidade total de um teste positivo: \[ \begin{align} P(T^+) &= P(D^+)P(T^+ \mid D^+) + P(D^-)P(T^+ \mid D^-) \\ &= \frac{1}{10000}\cdot 0.999 + \left(1-\frac{1}{10000}\right)\cdot 0.001 \\ P(T^+)&= 0.0010998 \end{align} \]
Aplicando a regra de Bayes: \[ \begin{align} P(D^+ \mid T^+) &= \frac{P(T^+ \mid D^+)P(D^+)}{P(T^+)} \\ &= \frac{0.999 \cdot \dfrac{1}{10000}}{0.0011} \\ &= \frac{1}{11}\\ P(D^+ \mid T^+)&= 0.\overline{09} \end{align} \]
Portanto, mesmo com um teste altamente confiável, a probabilidade de a pessoa realmente ter dengue dado um resultado positivo é cerca de \(1/11\).
Além da classificação comum de sangue nos grupos A, B, AB e O, é importante a subdivisão de acordo com o fator Rhesus (Rh), que pode ser positivo (Rh+) ou negativo (Rh−). Aproximadamente 85% da população são Rh+ e 15% são Rh−. Em um cenário cirúrgico, três pacientes serão submetidos a transplante.
Qual é a probabilidade de que nenhum paciente seja Rh−?
A. 61.4%
B. 6.14%
C. 0.614%
D. 64.1%
E. 15%
Explicações e comentários:
Alternativa correta: A.
Defina o evento: \(X\) = número de pacientes Rh− entre os três submetidos ao transplante.
Cada paciente, independentemente, tem probabilidade \[ P(\text{Rh−}) = 0.15 \quad P(\text{Rh+}) = 0.85 \]
Logo, \(X\) segue uma distribuição Binomial com parâmetros \(P(X \sim \text{Binomial}(n=3, p=0.15))\).
Queremos a probabilidade de nenhum paciente ser Rh−, isto é, \(P(X=0)\): \[ \begin{align} P(X=0) &= \binom{3}{0}(0.15)^0(0.85)^3 \\ &= 0.85^3 \\ P(X=0)&= 0.614125 \end{align} \]
Portanto, a probabilidade de que nenhum dos três pacientes seja Rh− é aproximadamente 61.4%.
[1] 0.614125
Além da classificação comum de sangue nos grupos A, B, AB e O, é importante a subdivisão de acordo com o fator Rhesus (Rh), que pode ser positivo (Rh+) ou negativo (Rh−). Aproximadamente 85% da população são Rh+ e 15% são Rh−. Em um cenário cirúrgico, três pacientes serão submetidos a transplante.
Qual é a probabilidade de que pelo menos um paciente seja Rh−?
A. 0.614
B. 0.386
C. 0.15
D. 0.641
E. 0.368
Explicações e comentários:
Alternativa correta: B.
Defina o evento: \(X\) = número de pacientes Rh− entre os três.
Cada paciente tem, independentemente, \[ P(\text{Rh−}) = 0.15 \quad P(\text{Rh+}) = 0.85 \]
Logo, \[ X \sim \text{Binomial}(n=3, p=0.15) \]
O evento “pelo menos um paciente Rh−” é o complemento do evento “nenhum paciente Rh−”. Assim, \[ \begin{align} P(X \ge 1) &= 1 - P(X = 0) \\ &= 1 - \binom{3}{0}(0.15)^0(0.85)^3 \\ &= 1 - 0.85^3 \\ &= 1 - 0.614125 \\ P(X \ge 1)&= 0.385875 \end{align} \]
Portanto, a probabilidade de que pelo menos um dos três pacientes seja Rh− é aproximadamente \(0.386\).
[1] 0.385875
Além da classificação comum de sangue nos grupos A, B, AB e O, é importante a subdivisão de acordo com o fator Rhesus (Rh), que pode ser positivo (Rh+) ou negativo (Rh−). Aproximadamente 85% da população são Rh+ e 15% são Rh−. Em um cenário cirúrgico, três pacientes serão submetidos a transplante.
Qual é a probabilidade de que todos os pacientes sejam Rh−?
A. 0.34
B. 0.034
C. 0.0034
D. 0.00034
E. 0.000034
Explicações e comentários:
Alternativa correta: C.
Defina: \(X\) = número de pacientes Rh− entre os três.
Cada paciente tem, independentemente, \[ P(\text{Rh−}) = 0.15 \]
Logo, \[ X \sim \text{Binomial}(n=3, p=0.15) \]
Queremos \(P(X=3)\): \[ \begin{align} P(X=3) &= \binom{3}{3}(0.15)^3(0.85)^0 \\ &= 0.15^3 \\ P(X=3)&= 0.003375 \end{align} \]
[1] 0.003375
O número de pacientes que têm atendimento completo num pronto-socorro de uma pequena cidade durante a madrugada tem distribuição de Poisson com taxa média igual a 3.
Qual é a probabilidade de que nenhum paciente tenha atendimento completo durante uma madrugada?
A. 0.095
B. 0.50
C. 0.95
D. 0.05
E. 0.005
Explicações e comentários:
Alternativa correta: D.
Seja \(X\) o número de atendimentos completos durante a madrugada. Pelo enunciado, \[ X \sim \text{Poisson}(\lambda = 3) \]
A probabilidade de nenhum atendimento é: \[ \begin{align} P(X=0) &= \frac{\lambda^0 e^{-\lambda}}{0!} \\ &= e^{-3} \\ P(X=0)&\approx 0.04978707 \end{align} \]
[1] 0.04978707
O número de pacientes que têm atendimento completo num pronto-socorro de uma pequena cidade durante a madrugada tem distribuição de Poisson com taxa média igual a 3.
Qual é a probabilidade de que pelo menos um paciente tenha atendimento completo durante uma madrugada?
A. 0.95
B. 0.05
C. 0.095
D. 0.5
E. 0.0095
Explicações e comentários:
Alternativa correta: A.
Seja \(X\) o número de atendimentos completos durante a madrugada. Pelo enunciado, \[ X \sim \text{Poisson}(\lambda = 3) \]
O evento “pelo menos um atendimento” é o complemento do evento “nenhum atendimento”. Logo, \[ \begin{align} P(X \ge 1) &= 1 - P(X=0) \\ &= 1 - e^{-3} \\ &= 1 - 0.049787 \\ P(X \ge 1)&\approx 0.9502129 \end{align} \]
[1] 0.9502129
O número de pacientes que têm atendimento completo num pronto-socorro de uma pequena cidade durante a madrugada tem distribuição de Poisson com taxa média igual a 3.
Qual é a probabilidade de que mais de 10 pacientes tenham atendimento completo durante uma madrugada?
A. 0.3
B. 0.03
C. 0.003
D. 0.0003
E. 0.00003
Explicações e comentários:
Alternativa correta: D.
Seja \(X\) o número de atendimentos completos durante a madrugada. Pelo enunciado, \[ X \sim \text{Poisson}(\lambda = 3) \]
Queremos a probabilidade: \[ P(X > 10) \]
Usando a função de distribuição acumulada da Poisson, \[ \begin{align} P(X > 10) &= 1 - P(X \le 10) \\ &= 1 - \sum_{k=0}^{10} \frac{3^k e^{-3}}{k!}\\ P(X > 10)&=0.000292337 \end{align} \]
Em termos computacionais, isso é obtido diretamente por:
[1] 0.000292337
[1] 0.000292337
O número de consultas médicas de um determinado ano de um plano de saúde tem a seguinte distribuição:
| Número de consultas | Frequência |
|---|---|
| 0 | 589 |
| 1 | 1274 |
| 2 | 1542 |
| 3 | 1144 |
| 4 | 663 |
| 5 | 304 |
| 6 | 126 |
| 7 | 39 |
| 8 | 10 |
| 9 | 3 |
O número médio de consultas médicas de um plano num determinado ano é:
A. 3.2
B. 2
C. 2.3
D. 4.5
E. 3
Explicações e comentários:
Alternativa correta: C.
A média do número de consultas é calculada como média ponderada, i.e., \[ \begin{align} \lambda &= \frac{\sum x_i f_i}{\sum f_i} \\ \lambda&= \frac{ 0\cdot589 +1\cdot1274 +2\cdot1542 +3\cdot1144 +4\cdot663 +5\cdot304 +6\cdot126 +7\cdot39 +8\cdot10 +9\cdot3 }{ 589+1274+1542+1144+663+304+126+39+10+3 }. \end{align} \]
Efetuando os cálculos: \[ \begin{align} \lambda &\approx 2.3 \end{align} \]
Portanto, o número médio de consultas médicas por beneficiário no ano é aproximadamente 2.3.
[1] 2.300316
A probabilidade de um indivíduo do sexo masculino com mais de 60 anos, vida sedentária e tabagista ativo desenvolver uma doença cardiovascular (DCV) nos próximos 8 anos é 40%.
A partir de um estudo com 10 indivíduos com essas características, qual é a probabilidade de que nenhum desses indivíduos sofra DCV no período determinado?
A. 0.6%
B. 6%
C. 60%
D. 66%
E. 0.006%
Explicações e comentários:
Alternativa correta: A.
Defina: \(X\) = número de indivíduos que desenvolvem DCV entre os 10 observados.
Cada indivíduo tem, independentemente, \[ P(\text{DCV}) = 0.4 \quad P(\text{não DCV}) = 0.6 \]
Logo, \[ X \sim \text{Binomial}(n=10, p=0.4) \]
A probabilidade de nenhum indivíduo desenvolver DCV é: \[ \begin{align} P(X=0) &= \binom{10}{0}(0.4)^0(0.6)^{10} \\ &= 0.6^{10} \\ P(X=0)&\approx 0.006046618 \end{align} \]
[1] 0.006046618
A probabilidade de um indivíduo do sexo masculino com mais de 60 anos, vida sedentária e tabagista ativo desenvolver uma doença cardiovascular (DCV) nos próximos 8 anos é 40%.
A partir de um estudo com 10 indivíduos com essas características, qual é a probabilidade de se ter menos de três indivíduos com DCV?
A. 38.2%
B. 16.7%
C. 83.2%
D. 61.7%
E. 12.1%
Explicações e comentários:
Alternativa correta: B.
Defina: \(X\) = número de indivíduos que desenvolvem DCV entre os 10 observados.
Cada indivíduo tem, independentemente, \[ P(\text{DCV}) = 0.4 \]
Logo, \[ X \sim \text{Binomial}(n=10, p=0.4) \]
Queremos: \[ P(X<3)=P(X\le 2) \]
Pela definição da distribuição Binomial, \[ \begin{align} P(X\le 2) &= \sum_{k=0}^{2} \binom{10}{k}(0.4)^k(0.6)^{10-k}\\ P(X\le 2) &=0.1672898 \end{align} \]
[1] 0.1672898
A probabilidade de um indivíduo do sexo masculino com mais de 60 anos, vida sedentária e tabagista ativo desenvolver uma doença cardiovascular (DCV) nos próximos 8 anos é 40%.
A partir de um estudo com 10 indivíduos com essas características, qual é a probabilidade de se ter mais de dois indivíduos com DCV?
A. 0.26
B. 0.62
C. 0.38
D. 0.83
E. 0.083
Explicações e comentários:
Alternativa correta: D.
Defina: \(X\) = número de indivíduos que desenvolvem DCV entre os 10.
Cada indivíduo tem, independentemente, \[ P(\text{DCV}) = 0.4 \] logo \[ X \sim \text{Binomial}(n=10, p=0.4) \]
Queremos: \[ \begin{align} P(X>2) &= 1 - P(X\le 2) \end{align} \]
Assim, \[ \begin{align} P(X>2) &= 1 - \sum_{k=0}^{2} \binom{10}{k}(0.4)^k(0.6)^{10-k}\\ P(X>2) &=0.8327102 \end{align} \]
[1] 0.8327102
[1] 0.8327102
A probabilidade de um indivíduo do sexo masculino com mais de 60 anos, vida sedentária e tabagista ativo desenvolver uma doença cardiovascular (DCV) nos próximos 8 anos é 40%.
A partir de um estudo com 10 indivíduos com essas características, o número esperado de casos de DCV no final do estudo é:
A. 0
B. 1
C. 2
D. 3
E. 4
Explicações e comentários:
Alternativa correta: E.
Seja \(X\) o número de indivíduos que desenvolvem DCV entre os 10. Com probabilidade individual \(p=0.4\), \[ X \sim \text{Binomial}(n=10, p=0.4) \]
O valor esperado de uma Binomial é: \[ \begin{align} \mathbb{E}[X] &= np \\ &= 10 \times 0.4 \\ \mathbb{E}[X] &= 4 \end{align} \]
Logo, esperam-se 4 casos de DCV ao final do estudo.
A probabilidade de um indivíduo do sexo masculino com mais de 60 anos, vida sedentária e tabagista ativo desenvolver uma doença cardiovascular (DCV) nos próximos 8 anos é 40%.
A partir de um estudo com 10 indivíduos com essas características, qual é o desvio-padrão do número de casos de DCV no final do estudo?
A. 1.55
B. 1.45
C. 1.54
D. 1.59
E. 1.95
Explicações e comentários:
Alternativa correta: A.
Seja \(X\) o número de indivíduos que desenvolvem DCV entre os 10. Então, \[ X \sim \text{Binomial}(n=10, p=0.4) \]
O desvio-padrão de uma Binomial é: \[ \begin{align} s &= \sqrt{np(1-p)} \\ &= \sqrt{10 \cdot 0.4 \cdot (1-0.4)} \\ &= \sqrt{10 \cdot 0.4 \cdot 0.6} \\ &= \sqrt{2.4} \\ s &\approx 1.549193 \end{align} \]
Arredondando: \[ s \approx 1.55 \]
[1] 1.549193
Uma em cada mil pessoas que utilizam determinado anestésico sofre uma reação negativa (choque).
Num total de 500 cirurgias em que se empregou esse anestésico, qual é a probabilidade de que exatamente uma pessoa sofra a reação negativa?
A. 33.0%
B. 3.03%
C. 30.3%
D. 33.3%
E. 0.303%
Explicações e comentários:
Alternativa correta: C.
Defina: \(X\) = número de reações negativas entre os 500 pacientes.
Cada paciente tem, independentemente, \[ p = \frac{1}{1000} = 0.001 \]
Logo, \[ X \sim \text{Binomial}(n=500, p=0.001) \]
Como \(n=500>20\) e \(p=0.001<0.05\), a Binomial pode ser bem aproximada por uma distribuição de Poisson com parâmetro \[ \begin{align} \lambda &= np \\ &= 500 \times \frac{1}{1000} \\ \lambda &= 0.5 \end{align} \]
Usando a aproximação de Poisson: \[ \begin{align} P(X=1) &= \frac{\lambda^1 e^{-\lambda}}{1!} \\ &= 0.5 e^{-0.5} \\ P(X=1)&\approx 0.3032653 \end{align} \]
Usando a Binomial exata:
[1] 0.303493
[1] 0.3032653
Uma em cada mil pessoas que utilizam determinado anestésico sofre uma reação negativa (choque).
Num total de 500 cirurgias em que se empregou esse anestésico, qual é a probabilidade de que nenhuma pessoa sofra a reação negativa?
A. 66.6%
B. 60.6%
C. 6.06%
D. 0.606%
E. 0.0606%
Explicações e comentários:
Alternativa correta: B.
Defina: \(X\) = número de reações negativas entre os 500 pacientes.
Cada paciente tem, independentemente, \[ p=\frac{1}{1000}=0.001 \]
Logo, \[ X \sim \text{Binomial}(n=500,p=0.001) \]
Como \(n>20\) e \(p\le 0.05\), usa-se a aproximação de Poisson com \[ \begin{align} \lambda &= np \\ &= 500 \times \frac{1}{1000} \\ \lambda &= 0.5 \end{align} \]
A probabilidade de nenhuma reação é: \[ \begin{align} P(X=0) &= e^{-\lambda} \\ &= e^{-0.5} \\ P(X=0)&\approx 0.6065307 \end{align} \]
Cálculo exato e aproximado:
[1] 0.6063789
[1] 0.6065307
Uma em cada mil pessoas que utilizam determinado anestésico sofre uma reação negativa (choque).
Num total de 500 cirurgias em que se empregou esse anestésico, qual é a probabilidade de que mais de uma pessoa sofra a reação negativa?
A. 0.09%
B. 99%
C. 90%
D. 0.9%
E. 9%
Explicações e comentários:
Alternativa correta: E.
Defina: \(X\) = número de reações negativas entre os 500 pacientes.
Cada paciente tem, independentemente, \[ p=\frac{1}{1000}=0.001 \]
Logo, \[ X \sim \text{Binomial}(n=500,p=0.001) \]
Como \(n=500>20\) e \(p=0.001\le 0.05\), a Binomial pode ser bem aproximada por uma distribuição de Poisson com parâmetro \[ \begin{align} \lambda &= np \\ &= 500 \times \frac{1}{1000} \\ \lambda &= 0.5 \end{align} \]
Queremos: \[ P(X>1) \]
Usando o complemento: \[ \begin{align} P(X>1) &= 1 - P(X\le 1) \\ P(X>1)&= 1 - \left[P(X=0)+P(X=1)\right] \end{align} \]
Pela Poisson: \[ \begin{align} P(X>1) &= 1 - \left(e^{-0.5} + 0.5e^{-0.5}\right) \\ &= 1 - 1.5e^{-0.5} \\ P(X>1)&\approx 0.09020401 \end{align} \]
Cálculo em R (Binomial exata e Poisson aproximada):
[1] 0.09012809
[1] 0.09020401
Um hospital observa que, em média, ocorre um choque anafilático a cada 2 meses relacionado ao uso de certo anestésico. As cirurgias são realizadas apenas em dias úteis (segunda a sexta-feira), mas para fins de modelagem assume-se o tempo em dias corridos.
Qual é a probabilidade, aproximadamente, de a equipe de anestesia ter que lidar com dois pacientes em choque anafilático no mesmo dia?
A. praticamente 0%
B. 1.6%
C. 2.7%
D. 3.3%
E. 25.0%
F. 50.0%
G. praticamente 100%
Explicações e comentários:
Alternativa correta: A.
A ocorrência de 1 choque a cada 2 meses (em um número indeterminado de cirurgias) configura uma taxa de ocorrência (lambda) e a aplicação da distribuição de Poisson.
Um mês tem, em média, \[ \frac{365}{12} \approx 30.42 \text{ dias} \]
Logo, dois meses correspondem a: \[ \begin{align} 2 \times \frac{365}{12} &= 60.83 \text{ dias} \end{align} \]
A taxa diária é, portanto, \[ \begin{align} \lambda &= \frac{1}{60.83} \\ \lambda&\approx 0.01644 \end{align} \]
Esse valor é uma taxa, não uma probabilidade.
Seja \(X\) o número de choques anafiláticos em um dia. Então, \[ X \sim \text{Poisson}(\lambda = 0.01644) \]
Queremos a probabilidade de ocorrerem dois choques no mesmo dia: \[ \begin{align} P(X=2) &= \frac{\lambda^2 e^{-\lambda}}{2!} \\ &= \frac{(0.01644)^2 e^{-0.01644}}{2} \\ P(X=2)&\approx 0.000135 \end{align} \]
Esse valor é praticamente zero.
## Parâmetros do problema
# taxa observada: 1 choque a cada 2 meses
lambda_2_meses <- 1
# conversão de meses para dias (média anual)
dias_por_mes <- 365 / 12
dias_em_2_meses <- 2 * dias_por_mes
# taxa diária (lambda da Poisson)
lambda_dia <- lambda_2_meses / dias_em_2_meses
## Probabilidade de dois choques no mesmo dia
k <- 2
prob_2_choques <- dpois(k, lambda = lambda_dia)
# saída organizada
cat(
"Taxa diária (lambda):", round(lambda_dia, 6), "\n",
"P(X = 2 choques no mesmo dia):",
formatC(prob_2_choques * 100, format = "f", digits = 4), "%\n"
)Taxa diária (lambda): 0.016438
P(X = 2 choques no mesmo dia): 0.0133 %
## Distribuição de Poisson por dia (0 a 3 choques)
eventos <- 0:3
prob_eventos <- dpois(eventos, lambda = lambda_dia)
poisson_df <- data.frame(
Eventos = eventos,
Probabilidade = prob_eventos
)
print(poisson_df, row.names = FALSE) Eventos Probabilidade
0 9.836960e-01
1 1.617035e-02
2 1.329069e-04
3 7.282573e-07
## Gráfico
plot(
poisson_df$Eventos,
poisson_df$Probabilidade,
type = "h",
lwd = 3,
col = "darkblue",
xlab = "Número de choques anafiláticos no dia",
ylab = "Probabilidade",
main = paste(
"Distribuição de Poisson diária\nlambda =",
round(lambda_dia, 5))
)“No Brasil, esperam-se 49.400 novos casos de câncer de mama para o ano de 2008, [o que corresponde a] 50,7 casos para cada 100 mil mulheres.”
Fonte: Martins et al. (2009) Rev Bras Ginecol Obstet 31(5):219-23. doi:10.1590/S0100-72032009000500003
Um gestor está organizando um serviço médico para uma cidade com 500 mil mulheres. Estima-se que o tempo de internação médio, para cada novo caso, é de 1 mês.
Qual é o número mínimo de leitos necessários para que 95% da demanda de casos novos seja atendida?
A. 9
B. 10
C. 19
D. 20
E. 29
F. 30
G. 39
H. 45
I. Infinito
J. Impossível determinar
Explicações e comentários:
Alternativa correta: E.
A taxa anual é 50.7 por 100 mil mulheres. Para 500 mil mulheres, o número esperado anual é \(5 \times 50.7\). Como o tempo médio de internação é 1 mês, modelamos a demanda mensal por uma Poisson com taxa: \[ \begin{align} \lambda &= \left(\frac{500000}{100000}\right)\left(\frac{50.7}{12}\right) \\ \lambda&= 21.125 \text{ casos/mês} \end{align} \]
Se \(X\) é o número de casos novos em um mês, então \(X \sim \text{Poisson}(\lambda)\).
Queremos o menor inteiro \(L\) tal que: \[ \begin{align} P(X \le L) \ge 0.95 \end{align} \]
Em R, isso é o quantil de ordem 0.95: \(L = \text{qpois}(0.95,\lambda)\).
# parâmetros
mulheres <- 500000
taxa_anual_por_100k <- 50.7
demanda <- 0.95
# taxa mensal (lambda)
lambda <- (mulheres/100000) * (taxa_anual_por_100k/12)
# número mínimo de leitos: menor L tal que P(X <= L) >= 0.95
L <- qpois(p = demanda, lambda = lambda)
# checagem
p_atendida <- ppois(q = L, lambda = lambda)
p_antes <- ppois(q = L - 1, lambda = lambda)
cat("lambda =", round(lambda, 3), "casos/mês\n")lambda = 21.125 casos/mês
Leitos mínimos (95%): 29
P(X <= L) = 0.960155
P(X <= L-1) = 0.94029
# tabela local (em torno do ponto de corte)
k <- (L - 6):(L + 6)
tbl <- data.frame(
Leitos = k,
Prob = dpois(k, lambda = lambda),
Prob_acum = ppois(k, lambda = lambda)
)
print(tbl, row.names = FALSE) Leitos Prob Prob_acum
23 0.076446771 0.7065271
24 0.067289085 0.7738162
25 0.056859277 0.8306755
26 0.046198162 0.8768736
27 0.036145784 0.9130194
28 0.027270703 0.9402901
29 0.019865297 0.9601554
30 0.013988480 0.9741439
31 0.009532472 0.9836764
32 0.006292921 0.9899693
33 0.004028423 0.9939977
34 0.002502954 0.9965007
35 0.001510712 0.9980114
# gráfico da probabilidade acumulada
k2 <- 0:(L + 20)
plot(
k2, ppois(k2, lambda = lambda),
type = "s",
xlab = "Leitos",
ylab = "Demanda atendida (P(X <= leitos))",
main = paste0("Poisson mensal (lambda = ", round(lambda, 3), ")"),
ylim = c(0, 1)
)
abline(h = demanda, lty = 2)
abline(v = L, lty = 2)\(X_1\) e \(X_2\) medem o desempenho nas atividades 1 e 2. Se \(X_1\) e \(X_2\) têm distribuições normais (ou simétricas) com médias e desvios-padrão \(m_1\), \(d_1\) e \(m_2\), \(d_2\), respectivamente, e \(Z_1 > Z_2\), então o desempenho na atividade 1 é melhor que o desempenho na atividade 2.
Vamos supor que seus aproveitamentos em matemática e inglês sejam 65% e 71%, respectivamente, e que as distribuições são normais. Qual é sua melhor matéria e respectivo percentil em comparação com outros no seu grupo se as médias dos grupos e desvios-padrão são 60 e 5 (para matemática) e 65 e 7 (para inglês)?
A. Matemática e 84,1%
B. Inglês e 80,4%
C. Matemática e 80,4%
D. Inglês e 84,1%
Explicações e comentários:
Alternativa correta: A.
Padronizando as notas:
\[ \begin{align} Z_1 &= \frac{X_1 - m_1}{d_1} = \frac{65 - 60}{5} = 1 \\ Z_2 &= \frac{X_2 - m_2}{d_2} = \frac{71 - 65}{7} = \frac{6}{7} \approx 0.857 \end{align} \]
Como \(Z_1 > Z_2\), o desempenho relativo é melhor em matemática.
Os percentis (distribuição normal) são:
\[ \begin{align} P(X_1 \le 65) &= \Phi(Z_1) = \Phi(1.0) \approx 0.8413 = 84.1\% \\ P(X_2 \le 71) &= \Phi(Z_2) = \Phi(0.857) \approx 0.8043 = 80.4\% \end{align} \]
[1] 0.8413447
[1] 0.804317
Os tempos de vida de dois aparelhos eletrônicos \(D_1\) e \(D_2\) de um laboratório médico, medidos em horas, têm distribuições \(\text{Normal}(42,6)\) e \(\text{Normal}(45,3)\), respectivamente.
Se os aparelhos são produzidos para serem usados por um período de 49 horas, qual aparelho deve ser preferido?
A. São equivalentes
B. \(D_1\)
C. \(D_2\)
D. Impossível determinar
Explicações e comentários:
Alternativa correta: B.
Interprete “ser usado por um período de 49 horas” como exigir que o tempo de vida exceda 49 horas. Logo, o melhor aparelho é o que maximiza a probabilidade de sobrevivência acima de 49:
\[ \begin{align} P(D_1>49) \quad \text{vs.} \quad P(D_2>49) \end{align} \]
Padronizando:
\[ \begin{align} Z_1 &= \frac{49-42}{6} = \frac{7}{6} \approx 1.167 \\ Z_2 &= \frac{49-45}{3} = \frac{4}{3} \approx 1.333 \end{align} \]
Como \(P(X>49)=1-\Phi(Z)\), e \(Z_1 < Z_2\), então: \[ \begin{align} P(D_1>49) > P(D_2>49) \end{align} \]
# D1 ~ N(42, 6)
# D2 ~ N(45, 3)
# Preferir o que tem maior P(vida > 49)
p1 <- pnorm(49, mean = 42, sd = 6, lower.tail = FALSE)
p2 <- pnorm(49, mean = 45, sd = 3, lower.tail = FALSE)
p1[1] 0.1216725
[1] 0.09121122
# Curvas e região de sobrevivência acima de 49h
x <- seq(25, 65, by = 0.01)
y1 <- dnorm(x, mean = 42, sd = 6) # D1
y2 <- dnorm(x, mean = 45, sd = 3) # D2
plot(x, y2, type = "l",
xlab = "Duração (h)", ylab = "Densidade",
main = "Densidades de D1 e D2\nSobrevivência acima de 49h")
lines(x, y1, lty = 2)
abline(v = 49, lty = 3)
legend("topleft",
legend = c("D2: N(45, 3)", "D1: N(42, 6)"),
lty = c(1, 2), bty = "n")
# sombrear P(D2 > 49)
idx2 <- x >= 49
polygon(c(49, x[idx2], max(x[idx2])),
c(0, y2[idx2], 0),
border = NA, col = "#0000FF44")
# sombrear P(D1 > 49)
idx1 <- x >= 49
polygon(c(49, x[idx1], max(x[idx1])),
c(0, y1[idx1], 0),
border = NA, col = "#FF000044")Os percentis dos quantis −1,96 e 1,96 da normal padrão são, respectivamente:
A. 5% e 95%
B. 2,5% e 97,5%
C. 5% e 97,5%
D. 2,5% e 95%
E. 1% e 99%
F. 10% e 90%
Explicações e comentários:
Alternativa correta: B.
Considere \(Z \sim \mathcal{N}(0,1)\). Os percentis associados a valores de \(Z\) são dados pela função de distribuição acumulada \(\Phi(z)\).
\[ \begin{align} P(Z \le -1.96) &= \Phi(-1.96) \approx 0.025 \\ P(Z \le \phantom{-}1.96) &= \Phi(1.96) \approx 0.975 \end{align} \]
Logo, os percentis correspondentes são 2,5% e 97,5%.
[1] 0.0249979
[1] 0.9750021
[1] -1.959964
[1] 1.959964
Desde o isolamento em 1983 do Helicobacter pylori na mucosa gástrica humana, inúmeros estudos têm sido realizados objetivando determinar possível relação entre ele e algumas entidades gastroduodenais tais como úlcera, gastrite crônica etc. O microrganismo tem sido diagnosticado pelo exame de cultura (com desprezível margem de erro). O teste respiratório que emprega ureia marcada com carbono-14 é mais simples e rápido. Por possuir uréase, enzima capaz de degradar ureia a gás carbônico, a bactéria pode ser evidenciada pela detecção de carbono no ar expirado após a administração, por via oral, da ureia marcada. A quantidade de \(^{14}\mathrm{C}\) liberada sob a forma de \(CO_2\) para pacientes não portadores de H. pylori é uma variável gaussiana com média 0.07 unidade de \(^{14}\mathrm{C}\) e desvio-padrão igual a 0.03 unidade de \(^{14}\mathrm{C}\).
Qual é a probabilidade de uma pessoa não infectada liberar entre 0.04 e 0.10 unidade de \(^{14}\mathrm{C}\)?
A. 0.086
B. 0.068
C. 0.86
D. 0.68
E. 0.32
Explicações e comentários:
Alternativa correta: D.
Modelagem: \[ X \sim \mathcal{N}(0.07,\;0.03^2) \]
Cálculo da probabilidade: \[ \begin{align} P(0.04 \le X \le 0.10) &= \Phi\!\left(\frac{0.10 - 0.07}{0.03}\right) - \Phi\!\left(\frac{0.04 - 0.07}{0.03}\right) \\ &= \Phi(1) - \Phi(-1)\\ &= 0.8413 - 0.1587\\ P(0.04 \le X \le 0.10)&=0.6826 \end{align} \]
[1] 0.6826895
Desde o isolamento em 1983 do Helicobacter pylori na mucosa gástrica humana, inúmeros estudos têm sido realizados objetivando determinar possível relação entre ele e algumas entidades gastroduodenais tais como úlcera, gastrite crônica etc. O microrganismo tem sido diagnosticado pelo exame de cultura (com desprezível margem de erro). O teste respiratório que emprega ureia marcada com carbono-14 é mais simples e rápido. Por possuir uréase, enzima capaz de degradar ureia a gás carbônico, a bactéria pode ser evidenciada pela detecção de carbono no ar expirado após a administração, por via oral, da ureia marcada. A quantidade de \(^{14}\mathrm{C}\) liberada sob a forma de \(CO_2\) para pacientes não portadores de H. pylori é uma variável gaussiana com média 0.07 unidade de \(^{14}\mathrm{C}\) e desvio-padrão igual a 0.03 unidade de \(^{14}\mathrm{C}\).
Qual é a probabilidade de uma pessoa não infectada liberar mais de 0.15 unidade de \(^{14}\mathrm{C}\)?
A. 0
B. 0.996
C. 0.4
D. 0.04
E. 0.004
Explicações e comentários:
Alternativa correta: E.
Modelagem: \[ X \sim \mathcal{N}(0.07,\;0.03^2) \]
Cálculo da probabilidade: \[ \begin{align} P(X > 0.15) &= 1 - \Phi\!\left(\frac{0.15 - 0.07}{0.03}\right) \\ &= 1 - \Phi(2.67) \\ &\approx 1 - 0.9962 \\ P(X > 0.15) &\approx 0.0038 \end{align} \]
[1] 0.003830381
Desde o isolamento em 1983 do Helicobacter pylori na mucosa gástrica humana, inúmeros estudos têm sido realizados objetivando determinar possível relação entre ele e algumas entidades gastroduodenais tais como úlcera, gastrite crônica etc. O microrganismo tem sido diagnosticado pelo exame de cultura (com desprezível margem de erro). O teste respiratório que emprega ureia marcada com carbono-14 é mais simples e rápido. Por possuir uréase, enzima capaz de degradar ureia a gás carbônico, a bactéria pode ser evidenciada pela detecção de carbono no ar expirado após a administração, por via oral, da ureia marcada. A quantidade de \(^{14}\mathrm{C}\) liberada sob a forma de \(CO_2\) para pacientes não portadores de H. pylori é uma variável gaussiana com média 0.07 unidade de \(^{14}\mathrm{C}\) e desvio-padrão igual a 0.03 unidade de \(^{14}\mathrm{C}\).
Quais são os limites de um intervalo simétrico em relação à média que engloba 80% dos pacientes não infectados?
A. 0.03 e 0.11
B. 0.003 e 0.011
C. 0.03 e 0.11
D. 0.01 e 0.33
E. 0.003 e 0.33
Explicações e comentários:
Alternativa correta: C.
Modelagem: \[ X \sim \mathcal{N}(0.07,\;0.03^2) \]
Deseja-se um intervalo simétrico em torno da média que contenha 80% da probabilidade: \[ P(a \le X \le b) = 0.80, \qquad b-\mu = \mu-a \]
Como o intervalo é central, sobram 20% nas caudas, isto é, 10% em cada cauda: \[ P(X \le a)=0.10 \qquad P(X \le b)=0.90 \]
Logo: \[ \begin{align} a &= \mu + z_{0.10}\,\sigma = 0.07 + q_{0.10}\cdot 0.03 \\ b &= \mu + z_{0.90}\,\sigma = 0.07 + q_{0.90}\cdot 0.03 \end{align} \]
Com \(z_{0.10}\approx -1.2816\) e \(z_{0.90}\approx 1.2816\): \[ \begin{align} a &\approx 0.07 + (-1.2816)\cdot 0.03 = 0.0316 \\ b &\approx 0.07 + (1.2816)\cdot 0.03 = 0.1084 \end{align} \]
Portanto, aproximadamente, \((a,b)\approx(0.03,\;0.11)\).
[1] 0.03155345
[1] 0.1084465
[1] 0.8
A pressão arterial sistólica (PAS), medida em milímetro de mercúrio (mmHg), em pessoas jovens gozando de boa saúde tem distribuição normal com média 120 mmHg e desvio-padrão 10 mmHg.
Qual é a probabilidade de se encontrar uma pessoa jovem e sadia com PAS acima de 140 mmHg?
A. 0.032
B. 0.023
C. 0.23
D. 0.32
E. 0.0032
Explicações e comentários:
Alternativa correta: B.
Modelagem: \[ X \sim \mathcal{N}(120,\;10^2) \]
Cálculo da probabilidade: \[ \begin{align} P(X > 140) &= 1 - \Phi\!\left(\frac{140 - 120}{10}\right) \\ &= 1 - \Phi(2) \\ &= 1 - 0.97725 \\ P(X > 140)&= 0.02275 \end{align} \]
[1] 0.02275013
[1] 0.02275013
A pressão arterial sistólica (PAS), medida em milímetro de mercúrio (mmHg), em pessoas jovens gozando de boa saúde tem distribuição normal com média 120 mmHg e desvio-padrão 10 mmHg.
Quais são os limites de um intervalo simétrico em relação à média que engloba 95% dos valores de PAS de pessoas jovens e sadias?
A. 100.9 e 140.4
B. 109.4 e 134.6
C. 104.4 e 139.9
D. 104.0 e 136.9
E. 100.4 e 139.6
Explicações e comentários:
Alternativa correta: E.
Modelagem: \[ X \sim \mathcal{N}(120,\;10^2) \]
Intervalo central de 95% (simétrico em relação à média): \[ \begin{align} P(a < X < b) &= 0.95 \\\\ a &= \mu + z_{0.025}\sigma \\ b &= \mu + z_{0.975}\sigma \end{align} \]
Cálculo: \[ \begin{align} a &= 120 + (-1.96)\cdot 10 = 100.4 \\ b &= 120 + (1.96)\cdot 10 = 139.6 \end{align} \]
Logo, \[ P(100.4 < X < 139.6) = 0.95 \]
[1] 100.4004
[1] 139.5996
O comprimento de recém-nascido do sexo feminino não portador de anomalias congênitas é uma variável aleatória com distribuição aproximadamente normal, com média 48.54 cm e desvio-padrão 2.5 cm.
Qual é a probabilidade de um recém-nascido feminino não portador de anomalias congênitas, escolhido aleatoriamente, ter um comprimento maior que a média?
A. 25%
B. 50%
C. 75%
D. 49%
E. 51%
Explicações e comentários:
Alternativa correta: B.
Modelagem: \[ X \sim \mathcal{N}(48.54,\;2.5^2) \]
Propriedade da distribuição normal:
A distribuição normal é simétrica em relação à média. Logo, metade da massa de probabilidade está acima da média e metade abaixo.
Cálculo: \[ \begin{align} P(X > \mu) &= 1 - \Phi(0) \\ &= 1 - 0.5 \\ P(X > \mu)&= 0.5 \end{align} \]
Logo, \[ P(X > 48.54) = 0.50 \]
[1] 0.5
O comprimento de recém-nascido do sexo feminino não portador de anomalias congênitas é uma variável aleatória com distribuição aproximadamente normal, com média 48.54 cm e desvio-padrão 2.5 cm.
Qual é a probabilidade de um recém-nascido feminino não portador de anomalias congênitas, escolhido aleatoriamente, ter comprimento menor que 44.79 cm?
A. 76%
B. 7.6%
C. 67%
D. 6.7%
E. 0.67%
Explicações e comentários:
Alternativa correta: D.
Modelagem: \[ X \sim \mathcal{N}(48.54,\;2.5^2) \]
Cálculo da probabilidade: \[ \begin{align} P(X < 44.79) &= \Phi\!\left(\frac{44.79 - 48.54}{2.5}\right) \\ &= \Phi(-1.50) \\ P(X < 44.79)&= 0.0668 \end{align} \]
Logo, \[ P(X < 44.79) \approx 6.7\% \]
[1] 0.0668072
O comprimento de recém-nascido do sexo feminino não portador de anomalias congênitas é uma variável aleatória com distribuição aproximadamente normal, com média 48.54 cm e desvio-padrão 2.5 cm.
Qual é a probabilidade de um recém-nascido feminino não portador de anomalias congênitas, escolhido aleatoriamente, ter comprimento maior que 47.29 cm?
A. 69.15%
B. 30.85%
C. 96.15%
D. 3.85%
E. 50%
Explicações e comentários:
Alternativa correta: A.
Modelagem: \[ X \sim \mathcal{N}(48.54,\;2.5^2) \]
Cálculo da probabilidade: \[ \begin{align} P(X > 47.29) &= 1 - \Phi\!\left(\frac{47.29 - 48.54}{2.5}\right) \\ &= 1 - \Phi(-0.50) \\ &= \Phi(0.50) \\ P(X > 47.29)&= 0.6915 \end{align} \]
Logo, \[ P(X > 47.29) \approx 69.15\% \]
[1] 0.6914625
[1] 0.6914625
O comprimento de recém-nascido do sexo feminino não portadores de anomalias congênitas é uma variável aleatória com distribuição aproximadamente normal, com média 48.54 cm e desvio-padrão 2.5 cm.
Quais são os limites de um intervalo simétrico em relação à média que engloba 95% de recém-nascidos do sexo feminino não portadores de anomalias congênitas?
A. 43.64 e 54.44
B. 46.34 e 53.44
C. 43.64 e 53.44
D. 43.46 e 53.44
E. 43.64 e 53.34
Explicações e comentários:
Alternativa correta: C.
Modelagem: \[ X \sim \mathcal{N}(48.54,\;2.5^2) \]
Intervalo central de 95% (simétrico em relação à média): \[ \begin{align} P(a < X < b) &= 0.95 \\\\ a &= \mu + z_{0.025}\sigma \\ b &= \mu + z_{0.975}\sigma \end{align} \]
Cálculo: \[ \begin{align} a &= 48.54 + (-1.96)\cdot 2.5 = 43.64 \\ b &= 48.54 + (1.96)\cdot 2.5 = 53.44 \end{align} \]
Logo, \[ P(43.64 < X < 53.44) = 0.95 \]
[1] 43.64009
[1] 53.43991
Entre as mulheres de 18 a 34 anos de idade em uma localidade, a massa corporal total (MCT) é normalmente distribuída com média 52 kg e desvio-padrão 7.5 kg.
Qual a percentagem de mulheres que têm MCT superior a 59.5 kg?
A. 2
B. 5
C. 10
D. 16
E. 32
Explicações e comentários:
Alternativa correta: D.
Modelagem: \[ X \sim \mathcal{N}(52,\;7.5^2) \]
Cálculo da probabilidade: \[ \begin{align} P(X > 59.5) &= 1 - \Phi\!\left(\frac{59.5 - 52}{7.5}\right) \\ &= 1 - \Phi(1) \\ &= 1 - 0.8413 \\ P(X > 59.5)&= 0.1587 \end{align} \]
Logo, \[ P(X > 59.5) \approx 15.9\% \approx 16\% \]
[1] 0.1586553
[1] 0.1586553
Considere as duas curvas de distribuição da estatura a seguir.
Qual medida-resumo numérica permite discriminar entre as duas distribuições?
A. Mediana
B. Desvio-padrão
C. Coeficiente de assimetria
D. Média
E. Tamanho da amostra
Explicações e comentários:
Alternativa correta: B.
Justificativa conceitual:
As duas distribuições apresentadas têm o mesmo perfil simétrico e unimodal, com coincidência das principais medidas de localização: moda, mediana e média. Portanto, essas medidas não permitem discriminar entre as distribuições.
A diferença entre as curvas está na dispersão dos valores em torno da média. Essa característica é capturada numericamente pelo desvio-padrão, que quantifica a variabilidade da distribuição.
Logo, a única medida-resumo capaz de discriminar as duas distribuições é o desvio-padrão.
As notas de Estatística Aplicada à Medicina de uma determinada universidade distribuem-se de acordo com uma distribuição normal. Para uma turma com média igual a 6.5 e desvio-padrão igual a 0.8, o professor atribuiu conceitos da seguinte forma: R: nota menor que 5, B: nota maior ou igual a 5 e menor que 7 e A: nota maior ou igual a 7 e menor que 10. Numa turma de 180 estudantes, os números esperados aproximados de alunos com conceito R, B e A são, respectivamente:
A. 9 (5%), 122 (68%), 49 (27%)
B. 60 (33.3%), 60 (33.3%), 60 (33.3%)
C. 5 (3%), 127 (70%), 48 (27%)
D. 4 ou 5 (2.5%), 171 (95%), 4 ou 5 (2.5%)
E. 49 (27%), 122 (68%), 9 (5%)
Explicações e comentários:
Alternativa correta: C.
Modelagem: \[ X \sim \mathcal{N}(6.5,\;0.8^2) \]
Probabilidades dos conceitos: \[ \begin{align} P(R) &= P(X < 5) = \Phi\!\left(\frac{5-6.5}{0.8}\right) \\ P(A) &= P(X \ge 7) = 1-\Phi\!\left(\frac{7-6.5}{0.8}\right) \\ P(B) &= 1 - \big(P(R)+P(A)\big) \end{align} \]
Números esperados em \(n=180\): \[ \mathbb{E}[R]=nP(R),\quad \mathbb{E}[B]=nP(B),\quad \mathbb{E}[A]=nP(A) \]
Valores aproximados: \[ \begin{align} P(R) &\approx 0.0304,\quad \mathbb{E}[R]\approx 180\cdot 0.0304 \approx 5 \\ P(B) &\approx 0.7036,\quad \mathbb{E}[B]\approx 180\cdot 0.7036 \approx 127 \\ P(A) &\approx 0.2660,\quad \mathbb{E}[A]\approx 180\cdot 0.2660 \approx 48 \end{align} \]
media <- 6.5
dp <- 0.8
n <- 180
p_R <- pnorm(q = 5, mean = media, sd = dp, lower.tail = TRUE)
p_A <- pnorm(q = 7, mean = media, sd = dp, lower.tail = FALSE)
p_B <- 1 - (p_R + p_A)
cat("proporcoes:", round(p_R,2), round(p_B,2), round(p_A,2), "\n")proporcoes: 0.03 0.7 0.27
em numeros: 5 127 48
Considere duas unidades curriculares da FMUSP, cujas notas tenham distribuições normais com suas respectivas médias e desvios-padrão. Suponha que você tem determinado desempenho registrado em cada uma delas. É possível saber em qual das duas seu desempenho relativo aos colegas é melhor, verificando qual tem maior proporção de indivíduos abaixo de seu desempenho.
Vamos supor que suas notas nas disciplinas de Estatística e de Moléstias Infecciosas sejam 7.1 e 9.2, respectivamente. Em qual disciplina você está melhor posicional e qual porcentagem de colegas tiveram desempenho melhor que o seu se as médias e desvios-padrão são, respectivamente, 6.8 e 2.2 para Estatística e 9.0 e 1.5 para Moléstias Infecciosas?
A. MSP1290, com 36% dos colegas com desempenho superior ao meu.
B. MSP1290, com 4% dos colegas com desempenho superior ao meu.
C. MSP1290, com 96% dos colegas com desempenho superior ao meu.
D. Aproximadamente iguais, com 45% dos colegas com desempenho superior ao meu.
E. Aproximadamente iguais, com 55% dos colegas com desempenho superior ao meu.
F. MSP4261, com 63% dos colegas com desempenho superior ao meu.
G. MSP4261, com 97% dos colegas com desempenho superior ao meu.
H. MSP4261, com 3% dos colegas com desempenho superior ao meu.
Explicações e comentários:
Alternativa correta: D.
Modelagem: \[ \begin{align} X_E &\sim \mathcal{N}(6.8,\;2.2^2) \\ X_M &\sim \mathcal{N}(9.0,\;1.5^2) \end{align} \]
A proporção de colegas com desempenho superior ao seu é a cauda superior: \[ P(X > x) = 1 - \Phi\!\left(\frac{x-\mu}{\sigma}\right) \]
Cálculos: \[ \begin{align} P(X_E > 7.1) &= 1 - \Phi\!\left(\frac{7.1-6.8}{2.2}\right) = 1 - \Phi(0.1364) \approx 0.4458 \\ P(X_M > 9.2) &= 1 - \Phi\!\left(\frac{9.2-9.0}{1.5}\right) = 1 - \Phi(0.1333) \approx 0.4470 \end{align} \]
Conclusão: os dois percentuais são praticamente iguais, cerca de 45% dos colegas acima do seu desempenho em cada disciplina.
nota_E <- 7.1
nota_M <- 9.2
mu_E <- 6.8
sd_E <- 2.2
mu_M <- 9.0
sd_M <- 1.5
p_sup_E <- pnorm(q = nota_E, mean = mu_E, sd = sd_E, lower.tail = FALSE)
p_sup_M <- pnorm(q = nota_M, mean = mu_M, sd = sd_M, lower.tail = FALSE)
cat("Proporcao acima (Estatistica):", p_sup_E, "\n")Proporcao acima (Estatistica): 0.4457669
Proporcao acima (Molestias Infecciosas): 0.4469649
Ranking mundial de estatura: brasileiro cresce, mas ainda é “baixinho”.
O homem brasileiro tem, em média, 1.73 m, e a mulher, 1.60 m. Ambos registraram o mesmo crescimento desde 1914: 8.6 cm. Para homens, o Brasil é o 68º colocado em altura entre os países pesquisados – fica acima de nações como Portugal, México e Chile, e abaixo de Romênia, Argentina e Jamaica. A mulher brasileira alcançou a 71ª posição, mais alta do que a mulher turca, argentina ou chinesa, e mais baixa do que as espanholas, israelenses e inglesas.
Se o desvio-padrão populacional da estatura do homem brasileiro for de 7 cm, então os percentis aproximados de indivíduos dessa população com distribuição normal com até 166 cm, 173 cm e 180 cm são, respectivamente:
A. 15.9%, 50% e 84.1%
B. 19.5%, 50% e 84.1%
C. 15.9%, 49.9% e 84.1%
D. 15.9%, 50% e 81.4%
Explicações e comentários:
Alternativa correta: A.
Modelagem: \[ X \sim \mathcal{N}(173,\;7^2) \]
Cálculo dos percentis: \[ \begin{align} P(X \le 166) &= \Phi\!\left(\frac{166 - 173}{7}\right) = \Phi(-1) \approx 0.1587 \\ P(X \le 173) &= \Phi(0) = 0.5 \\ P(X \le 180) &= \Phi\!\left(\frac{180 - 173}{7}\right) = \Phi(1) \approx 0.8413 \end{align} \]
Logo, os percentis aproximados são 15.9%, 50% e 84.1%.
[1] 0.1586553
[1] 0.5
[1] 0.8413447