O indicador de biodaegradação é o nível de dióxido na água.
Dado que temos variância desconhecida, ultilizaremos a variância amostral \(s^2\) no lugar de \(\sigma^2\). Desse modo temos que
\[\begin{equation} T=\frac{\overline{X}-\mu}{s/\sqrt{n}}\sim t_{(n-1)}, \end{equation}\]
ou seja, a variável \(T\) tem distribuição t-student com \(n-1\) graus de liberdade.
Portanto nosso intervalode confiança será dado por
\[\begin{equation} IC(\mu,1-\alpha)=\left(\overline{X}-t_{\alpha/2}\frac{s}{\sqrt{n}};\overline{X}+t_{\alpha/2}\frac{s}{\sqrt{n}}\right). \end{equation}\]
Definindo nossa base de dados:
quant_dioxido <- c(3.3, 0.5, 1.3, 0.4, 0.1, 4, 0.3, 0.2, 2.4, 2.4, 1.4, 0.5,
0.2, 4, 4, 4)
oleo <- c("não", "sim", "sim", "sim", "não", "não", "não", "sim", "não", "não",
"não", "sim", "sim", "não", "não", "não")
dados <- data.frame(quant_dioxido = quant_dioxido, oleo = oleo)
dados
## quant_dioxido oleo
## 1 3.3 não
## 2 0.5 sim
## 3 1.3 sim
## 4 0.4 sim
## 5 0.1 não
## 6 4.0 não
## 7 0.3 não
## 8 0.2 sim
## 9 2.4 não
## 10 2.4 não
## 11 1.4 não
## 12 0.5 sim
## 13 0.2 sim
## 14 4.0 não
## 15 4.0 não
## 16 4.0 não
Começaremos filtrando as amostras onde o óleo estava presente e definindo o n para esse caso,
com_oleo <- dados %>%
filter(dados$oleo == "sim")
com_oleo
## quant_dioxido oleo
## 1 0.5 sim
## 2 1.3 sim
## 3 0.4 sim
## 4 0.2 sim
## 5 0.5 sim
## 6 0.2 sim
n <- nrow(com_oleo)
n
## [1] 6
Além disso, teremos que o nosso \(\overline{X}\) e nosso \(s\) serão iguais a
mean(com_oleo$quant_dioxido)
## [1] 0.5166667
sd(com_oleo$quant_dioxido)
## [1] 0.4070217
e o nosso \(t_{(5, 0.05)}\) = 2.571.
Sendo assim, os nosso intervalo de confiança será dado pelo equação (2) e calculado da seguinte maneira:
mean(com_oleo$quant_dioxido) - 2.571*(sd(com_oleo$quant_dioxido)/sqrt(n))
## [1] 0.0894541
mean(com_oleo$quant_dioxido) + 2.571*(sd(com_oleo$quant_dioxido)/sqrt(n))
## [1] 0.9438792
\[IC(\mu, 0.95) = (0.0894541;0.9438792)\]
Repetindo o item (a) para os espécimes de água que não contêm óleo:
Nossa base de dados será definida por,
sem_oleo <- dados %>%
filter(dados$oleo == "não")
sem_oleo
## quant_dioxido oleo
## 1 3.3 não
## 2 0.1 não
## 3 4.0 não
## 4 0.3 não
## 5 2.4 não
## 6 2.4 não
## 7 1.4 não
## 8 4.0 não
## 9 4.0 não
## 10 4.0 não
n <- nrow(com_oleo)
n
## [1] 6
teremos que o nosso \(\overline{X}\) e nosso \(s\) serão iguais a
mean(sem_oleo$quant_dioxido)
## [1] 2.59
sd(sem_oleo$quant_dioxido)
## [1] 1.541608
e o nosso \(t_{(9, 0.05)}\) = 2.262.
Portanto, nosso intervalo de confiança é, substituindo esses valores na equação (2)
mean(sem_oleo$quant_dioxido) - 2.262*(sd(com_oleo$quant_dioxido)/sqrt(n))
## [1] 2.214133
mean(sem_oleo$quant_dioxido) + 2.262*(sd(com_oleo$quant_dioxido)/sqrt(n))
## [1] 2.965867
\[IC(\mu, 0.95) = (2.214133;2.965867)\]
O nível de dióxido influência na ph da água, quanto maior a quantidade de dióxido maior será a ácidez do meio. No caso de muita acidez, acaba sendo pior para o meio, por exemplo, no oceano o meio muito ácido acaba destruindo algumas coisas como corais, etc.
Dado os casos das alternativas (a) e (b), vemos que o máximo valor para a média real num intervalo de confiança de 95% para amostras com óleo tem 1.270254 mg/l a menos que o mínimo valor para a média real num intervalo de confiança de 95% para amostras sem óleo. Podemos inferir que as amostras sem óleo acabam sendo mais prejudiciais para o meio em que essa água está inserida.
\[H_0: \mu = 39\]
\[H_1: \mu > 39\]
Temos que \(n = 50\), \(\overline{x} = 41.3\) e \(s = 6.4\).
Definido as hipóteses como vimos na alternativa (a) e tendo que \(\alpha = 0.05\). Dado que \(n > 30\) podemos dizer que a distribuição está muito próxima a distribuição normal. Por isso,
Como \(\alpha = 0.05\), temos que \(Z_{\alpha} = Z_{0.05} = 1.645\).
Critério: rejeitar \(H_0\) se \(Z_{obs} > 1.645\).
\[Z_{\text{obs}}=\frac{\overline{x} - 39}{\frac{\sigma}{\sqrt{n}}}\]
Substituindo os termos da equação pelos seus respectivos valores temos:
\[Z_{obs} = \frac{41.3 - 39}{\frac{6.4}{\sqrt{50}}}\]
Portanto, \(Z_{obs} = 2.54 > 1.645\) e assim rejeitamos a hipótese nula.
Vamos assumir que rejeitaremos \(H_0\) se \(\overline{X} > c\), onde \(\alpha = 0.05\). Sendo assim,
\[P[\overline{X} > c | \mu = \mu_0] = 0.05\]
Da mesmo maneira temos que o complementar é dado por,
\[P[\overline{X} < c | \mu = \mu_0] = 0.95\]
a partir disso,
\[\begin{equation} P\left[\frac{\overline{X} - \mu_0}{\frac{\sigma}{n}} < \frac{(c - \mu_0)\sqrt{n}}{\sigma} \right] \end{equation}\]
que é o mesmo que
\[\begin{equation} P\left[Z < \frac{(c - \mu_0)\sqrt{n}}{\sigma} \right] = 0.95 \end{equation}\]
Portanto,
\[\begin{equation} \frac{c \sqrt{n} - \mu_0 \sqrt{n}}{\sigma} = 1.645 \end{equation}\]
desenvolvendo a equação chegamos a
\[\begin{equation} c = \frac{1.645\sigma + \mu_0\sqrt{n}}{\sqrt{n}} \end{equation}\]
A função poder será dada por
\[\begin{equation} \Pi(\mu) = P[\overline{X} > c] = P_{\mu}\left[\overline{X} > \frac{1.645\sigma + \mu_0}{\sqrt{n}}\right] \end{equation}\]
desenvolvendo essa equação:
\[\begin{equation} P_{\mu}\left[\overline{X} - \mu > \frac{1.645\sigma + \mu_0}{\sqrt{n}} - \mu\right] = P_{\mu}\left[\frac{(\overline{X} - \mu)\sqrt{n}}{\sigma} > \left(\frac{1.645\sigma + \mu_0}{\sqrt{n}} - \mu\right) \frac{\sqrt{n}}{\sigma}\right] \end{equation}\]
dado a normalização
\[\begin{equation} P_{\mu}\left[Z > \left(\frac{1.645\sigma + \mu_0}{\sqrt{n}} - \mu\right) \frac{\sqrt{n}}{\sigma}\right] \end{equation}\]
colocando tudo sobre o mesmo denomiador chegamos a
\[\begin{equation} P_{\mu}\left[Z > \frac{1.488 + \mu_0 - \mu}{\frac{6.4}{\sqrt{n}}}\right] \end{equation}\]
Portanto a função poder será dada por
\[\begin{equation} \text{Poder = } 1 - \phi\left(\frac{1.488 + \mu_0 - \mu}{\frac{\sigma}{\sqrt{n}}}\right) \end{equation}\]
Sabendo que \(n = 50\), \(\mu_0 = 39\) e \(s = 6.4\), assumindo que é uma boa estimativa, iremos calcular agora a função poder para o conjunto \(\mu = \{39.5, 40, 40.5, 41, 41.5\}\).
Teremos assim,
1 - pnorm(1.488 + 39, mean = 39.5, sd = 6.4/sqrt(50))
## [1] 0.1375053
1 - pnorm(1.488 + 39, mean = 40, sd = 6.4/sqrt(50))
## [1] 0.2948852
1 - pnorm(1.488 + 39, mean = 40.5, sd = 6.4/sqrt(50))
## [1] 0.5052891
1 - pnorm(1.488 + 39, mean = 41, sd = 6.4/sqrt(50))
## [1] 0.7141962
1 - pnorm(1.488 + 39, mean = 41.5, sd = 6.4/sqrt(50))
## [1] 0.8682405
POdemos concluir que conforme nos afastamos de \(\mu_0\) o poder de rejeitar \(H_0\) aumenta bastante, como ilustra o gráfico a seguir:
library(ggplot2)
mu <- seq(39.5,41.5,0.5)
mu <- as.matrix(mu)
poder <- apply(mu,1,function(x){1 - pnorm(1.488 + 39, mean = x, sd = 6.4/sqrt(50))})
teste <- data.frame(mu = mu, poder = poder)
ggplot(teste) + geom_line(aes(x=mu, y=poder), color = "blue3") +
scale_y_continuous(breaks = seq(0,0.9,0.1))
O poder do teste será dado por:
\[\begin{equation} \text{Poder = } 1 - \phi\left(\frac{1.488 + 39 - \mu}{\frac{6.4}{\sqrt{50}}}\right) \end{equation}\]
\[\begin{equation} \text{Poder = } 1 - \phi\left(\frac{40.488 - \mu}{\frac{6.4}{\sqrt{50}}}\right) \end{equation}\]
Portanto, o desenho da função poder do teste será:
mu <- seq(30,50,0.5)
mu <- as.matrix(mu)
poder <- apply(mu,1,function(x){1 - pnorm(40.488, mean = x, sd = 6.4/sqrt(50))})
teste <- data.frame(mu = mu, poder = poder)
ggplot(teste) + geom_line(aes(x=mu, y=poder), color = "blue3") +
scale_y_continuous(breaks = seq(0,1,0.1)) +
scale_x_continuous(breaks = seq(30,50,1))
Portanto vemos que o teste tem probabilidade muito baixa de rejeitar \(H_0\) para valores de \(\mu\) menores que 39 e que essa probabilidade de rejeição aumenta conforme vamos tendo valores maiores que \(\mu\).
Olhando para o gráfico da função poder do teste, tem-se uma estimativa de que quando \(\mu = 40.75\) o \(\text{poder = }0.60\). Para validar se isso está próximo ao valor real iremos agora calcular o poder quando \(\mu = 40.75\). Para isso,
1 - pnorm(1.488 + 39, mean = 40.75, sd = 6.4/sqrt(50))
## [1] 0.6138898
Olhando para o gráfico novamente mas agora para o valor de \(\mu = 44\), tem-se que o poder do teste em questão nesse ponto está muito próximo a 1.
Agora, dado que o valor da média fosse realmente 44, ou seja, \(\mu_0 = 44\), qual seria a chance desse teste falhar na rejeição da hipótese nula de que a média é 39?
Iniciaremos relembrando a equação da função poder,
\[\begin{equation} \text{Poder = } 1 - \phi\left(\frac{1.488 + \mu_0 - \mu}{\frac{6.4}{\sqrt{50}}}\right) \end{equation}\]
dado isso e sabendo que agora \(\mu_0 = 44\) e que queremos a chance do teste falhar, utilizaremos
\[\begin{equation} \text{Poder = } \phi\left(\frac{45.488 - \mu}{\frac{6.4}{\sqrt{50}}}\right) \end{equation}\]
o script no software de programação R para que obtenhamos o gráfico dessa função poder será dado por
mu <- seq(35,55,0.5)
mu <- as.matrix(mu)
nao_rejeicao <- apply(mu,1,function(x){pnorm(45.488, mean = x, sd = 6.4/sqrt(50))})
teste <- data.frame(mu = mu, nao_rejeicao = nao_rejeicao)
ggplot(teste) + geom_line(aes(x=mu, y=nao_rejeicao), color = "blue3") +
scale_y_continuous(breaks = seq(0,1,0.1)) +
scale_x_continuous(breaks = seq(35,55,1)) +
labs(y = "Chance de não rejeitar")
aqui podemos ver que a chance de não rejeitar a hipótese nula de que a média é 39 é muito alta para o teste onde \(\mu_0 = 44\), já que o poder é muito proximo ou igual a 1 no ponto em que \(\mu = 39\).
Para corrigir os caracters especiais na base de dados e importá-la utilizaremos
library(readr)
dados <- readr::read_delim("MICRODADOS.csv", ";", escape_double = FALSE, locale = locale(encoding = "ISO-8859-1"), trim_ws = TRUE)
##
## -- Column specification --------------------------------------------------------
## cols(
## .default = col_character(),
## DataNotificacao = col_date(format = ""),
## DataCadastro = col_date(format = ""),
## DataDiagnostico = col_date(format = ""),
## DataColeta_RT_PCR = col_date(format = ""),
## DataColetaTesteRapido = col_date(format = ""),
## DataColetaSorologia = col_date(format = ""),
## DataColetaSorologiaIGG = col_date(format = ""),
## DataEncerramento = col_date(format = ""),
## DataObito = col_logical()
## )
## i Use `spec()` for the full column specifications.
## Warning: 5319 parsing failures.
## row col expected actual file
## 6451 DataObito 1/0/T/F/TRUE/FALSE 2020-11-05 'MICRODADOS.csv'
## 9591 DataObito 1/0/T/F/TRUE/FALSE 2020-11-08 'MICRODADOS.csv'
## 10900 DataObito 1/0/T/F/TRUE/FALSE 2020-11-05 'MICRODADOS.csv'
## 11163 DataObito 1/0/T/F/TRUE/FALSE 2020-10-28 'MICRODADOS.csv'
## 11643 DataObito 1/0/T/F/TRUE/FALSE 2020-11-02 'MICRODADOS.csv'
## ..... ......... .................. .......... ................
## See problems(...) for more details.
após a importação iremos filtrar somente os casos confirmados
library(dplyr)
library(lubridate)
##
## Attaching package: 'lubridate'
## The following objects are masked from 'package:base':
##
## date, intersect, setdiff, union
dados <- filter(dados, dados$Classificacao == "Confirmados")
dados <- dados %>%
filter(DataNotificacao >= dmy("27/02/2020") & DataNotificacao <= dmy("15/10/2020"))
A partir daqui começaremos a analisar algumas informações a começar pela estimação da proporção de óbitos po covid-19 para amostras com \(n = 10, 1000, 5000, 10000, 20000\).
Para saber quais são as respostas possíveis para a variável Evolução:
table(dados$Evolucao)
##
## - Cura Ignorado
## 1657 139281 1908
## Óbito pelo COVID-19 Óbito por outras causas
## 3832 60
Agora, estamos interessados em estudar uma proporção. Nestes casos, a distribuição binomial deve ser utilizada no processo de inferência.
A proporção amostral
\[\hat{p} = \frac{x}{n} = \frac{\text{número de sucessos}}{\text{total de tentativas}}\] é a melhor estimativa para a proporção populacional. Com isso, para os diferentes tipos de amostragens, temos os seguintes valores para \(\hat{p}\)
n_10 <- dados$Evolucao %>%
sample(10)
x_10 <- 0
for (i in 1:length(n_10)) {
if(n_10[i] == "Óbito pelo COVID-19"){x_10 <- x_10 + 1}
}
p1 <- x_10/length(n_10)
p1
## [1] 0.1
n_1000 <- dados$Evolucao %>%
sample(1000)
x_1000 <- 0
for (i in 1:length(n_1000)) {
if(n_1000[i] == "Óbito pelo COVID-19"){x_1000 <- x_1000 + 1}
}
p2 <- x_1000/length(n_1000)
p2
## [1] 0.027
n_5000 <- dados$Evolucao %>%
sample(5000)
x_5000 <- 0
for (i in 1:length(n_5000)) {
if(n_5000[i] == "Óbito pelo COVID-19"){x_5000 <- x_5000 + 1}
}
p3 <- x_5000/length(n_5000)
p3
## [1] 0.0292
n_10000 <- dados$Evolucao %>%
sample(10000)
x_10000 <- 0
for (i in 1:length(n_10000)) {
if(n_10000[i] == "Óbito pelo COVID-19"){x_10000 <- x_10000 + 1}
}
p4 <- x_10000/length(n_10000)
p4
## [1] 0.0271
n_20000 <- dados$Evolucao %>%
sample(20000)
x_20000 <- 0
for (i in 1:length(n_20000)){
if(n_20000[i] == "Óbito pelo COVID-19"){x_20000 <- x_20000 + 1}
}
p5 <- x_20000/length(n_20000)
p5
## [1] 0.0257
Aqui, através do estudo da distribuição amostral da proporção, chegamos aos seguintes resultados
\[\begin{equation} E(\hat{p}) = \mu_{\hat{p}} = p \end{equation}\]
\[\begin{equation} Var(\hat{p}) = \sigma^2_{\hat{p}} = \frac{p(1-p)}{n} \end{equation}\]
Ou seja,
\[\begin{equation} p \sim N\left(p, \frac{p(1-p)}{n}\right) \end{equation}\]
Ainda podemos mostrar que a quantidade
\[\begin{equation} Z = \frac{\hat{p}-p}{\sqrt{\frac{p(1-p)}{n}}} \end{equation}\]
Quando não conhecemos \(p\), usamos \(\hat{p} = \frac{x}{n}\) como estimativa.
Com estas definições, podemos construir um intervalo de confiança para uma estimativa da proporção amostral p através de
\[\hat{p} - e < p < \hat{p} + e\] com \(e\) sendo definido por
\[\begin{equation} e = z_{\alpha/2} \sqrt{\frac{p(1-p)}{n}} \end{equation}\]
Para esta questão, temos \(\alpha = 0.05\) e para os \(\hat{p}\)’s, iremos calcular os intervalos de confiança para os diferentes tamanhos de amostra
Desse modo,
Para amostra de \(n = 10\)
lim_inf <- p1 - (qnorm(0.975)*sqrt((p1*(1-p1))/10)) # limite inferior do intervalo
lim_inf
## [1] -0.08593851
lim_sup <- p1 + (qnorm(0.975)*sqrt((p1*(1-p1))/10)) # limite superior do intervalo
lim_sup
## [1] 0.2859385
Para amostra de \(n = 1000\)
lim_inf <- p2 - (qnorm(0.975)*sqrt((p2*(1-p2))/1000)) # limite inferior do intervalo
lim_inf
## [1] 0.01695416
lim_sup <- p2 + (qnorm(0.975)*sqrt((p2*(1-p2))/1000)) # limite superior do intervalo
lim_sup
## [1] 0.03704584
Para amostra de \(n = 5000\)
lim_inf <- p3 - (qnorm(0.975)*sqrt((p3*(1-p3))/5000)) # limite inferior do intervalo
lim_inf
## [1] 0.0245332
lim_sup <- p3 + (qnorm(0.975)*sqrt((p3*(1-p3))/5000)) # limite superior do intervalo
lim_sup
## [1] 0.0338668
Para amostra de \(n = 10000\)
lim_inf <- p4 - (qnorm(0.975)*sqrt((p4*(1-p4))/10000)) # limite inferior do intervalo
lim_inf
## [1] 0.02391751
lim_sup <- p4 + (qnorm(0.975)*sqrt((p4*(1-p4))/10000)) # limite superior do intervalo
lim_sup
## [1] 0.03028249
Para amostra de \(n = 20000\)
lim_inf <- p5 - (qnorm(0.975)*sqrt((p5*(1-p5))/20000)) # limite inferior do intervalo
lim_inf
## [1] 0.02350696
lim_sup <- p5 + (qnorm(0.975)*sqrt((p5*(1-p5))/20000)) # limite superior do intervalo
lim_sup
## [1] 0.02789304
O intervalo de confiança de 95% para os intervalos obtidos na questão anterior, quer dizer que tem 95% de “chance” de o verdadeiro parâmetro p está presente naquele intervalo. Óbvio que existem algumas premissas a serem respeitadas para que isso possa ser afirmado, devemos assumir que os valores foram amostrados de forma independente e aleatória de um população com distribuição normal com média \(p\) e variância \(\frac{p(1-p)}{n}\). Ou seja, se produzirmos diversos intervalos de confiança provenientes de diferentes amostras independentes de mesmo tamanho, podemos esperar que aproximadamente 95% destes intervalos devem conter o verdadeiro valor da proporção populacional.
Para calcular as proporções populacionais
dados %>%
group_by(Classificacao, Evolucao) %>%
summarise(n=n()) %>%
mutate(proporcao = n/sum(n)) %>%
filter(Evolucao == "Óbito pelo COVID-19")
## `summarise()` regrouping output by 'Classificacao' (override with `.groups` argument)
## # A tibble: 1 x 4
## # Groups: Classificacao [1]
## Classificacao Evolucao n proporcao
## <chr> <chr> <int> <dbl>
## 1 Confirmados Óbito pelo COVID-19 3832 0.0261
Aqui vemos que a proporção populacional de óbitos pelo covid está dentro de todos os intervalos, exceto o IC para amostra de \(n = 10\).
Iremos analisar algumas situações para amostragens de tamanho n = {10, 20} e iremos considerar \(\alpha = 0.05\).
Nessa parte faremos coparação de proporções. Na estatística, podemos definir as hipóteses nula e alternativas como se segue:
\[H_0: p_1 = p_2\] \[H_1: p_1 \neq p_2\]
Em caso de grandes amostras, a estatística do teste (também conhecida como teste z) pode ser calculada da seguinte forma:
\[\begin{equation} z = \frac{p_1 - p_2}{\sqrt{pq/n_1 + pq/n_2}} \end{equation}\]
Onde, \(p_1\) é a proporção observada no grupo 1 com tamanho \(n_1\), \(p_2\) é a proporção observada no grupo 2 com tamanho \(n_2\), \(p\) são as proporções gerais. O nível de significância (p-valor) correspondente à estatística-z pode ser lida na tabela da normal padronizada. Lembrando que:
p-valor > 0.05 então a diferença não é significativa em 5%
p-valor \(\leq\) 0.05 então a diferença é significativa em 5%
Nessa alternativa vamos considerar o grupo 1 são indivíduos de 0 a 19 anos e o grupo 2 são indivíduos de 20 a 30 anos.
#Para n = 10
## Grupo 1
g1_n10 <- dados %>%
filter(FaixaEtaria == "0 a 4 anos" | FaixaEtaria == "05 a 9 anos" | FaixaEtaria == "10 a 19 anos")
g1_n10 <- dados$Evolucao %>%
sample(10)
g1_count <- 0
for (i in 1:length(g1_n10)) {
if(g1_n10[i] == "Óbito pelo COVID-19"){g1_count <- g1_count + 1}
}
## Grupo 2
g2_n10 <- dados %>%
filter(FaixaEtaria == "20 a 29 anos")
g2_n10 <- dados$Evolucao %>%
sample(10)
g2_count <- 0
for (i in 1:length(g2_n10)) {
if(g2_n10[i] == "Óbito pelo COVID-19"){g2_count <- g2_count + 1}
}
prop.test(x = c(g1_count, g2_count), n = c(10,10), alternative = "two.sided")
## Warning in prop.test(x = c(g1_count, g2_count), n = c(10, 10), alternative =
## "two.sided"): Chi-squared approximation may be incorrect
##
## 2-sample test for equality of proportions with continuity correction
##
## data: c(g1_count, g2_count) out of c(10, 10)
## X-squared = 0, df = 1, p-value = 1
## alternative hypothesis: two.sided
## 95 percent confidence interval:
## -0.1859385 0.3859385
## sample estimates:
## prop 1 prop 2
## 0.1 0.0
# Para n = 200
## Grupo 1
g1_n200 <- dados %>%
filter(FaixaEtaria == "0 a 4 anos" | FaixaEtaria == "05 a 9 anos" | FaixaEtaria == "10 a 19 anos")
g1_n200 <- dados$Evolucao %>%
sample(200)
g1_count <- 0
for (i in 1:length(g1_n200)) {
if(g1_n200[i] == "Óbito pelo COVID-19"){g1_count <- g1_count + 1}
}
##Grupo 2
g2_n200 <- dados %>%
filter(FaixaEtaria == "20 a 29 anos")
g2_n200 <- dados$Evolucao %>%
sample(200)
g2_count <- 0
for (i in 1:length(g2_n200)) {
if(g2_n200[i] == "Óbito pelo COVID-19"){g2_count <- g2_count + 1}
}
### Fazendo o teste de proporções
prop.test(x = c(g1_count, g2_count), n = c(200,200), alternative = "two.sided")
##
## 2-sample test for equality of proportions with continuity correction
##
## data: c(g1_count, g2_count) out of c(200, 200)
## X-squared = 0.31803, df = 1, p-value = 0.5728
## alternative hypothesis: two.sided
## 95 percent confidence interval:
## -0.05472374 0.02472374
## sample estimates:
## prop 1 prop 2
## 0.025 0.040
Nessa alternativa vamos considerar o grupo 1 são indivíduos de 40 a 59 anos e o grupo 2 são indivíduos de 80 ou mais anos.
#Para n = 10
## Grupo 1
g1_n10 <- dados %>%
filter(FaixaEtaria == "40 a 49 anos" | FaixaEtaria == "50 a 59 anos")
g1_n10 <- dados$Evolucao %>%
sample(10)
g1_count <- 0
for (i in 1:length(g1_n10)) {
if(g1_n10[i] == "Óbito pelo COVID-19"){g1_count <- g1_count + 1}
}
## Grupo 2
g2_n10 <- dados %>%
filter(FaixaEtaria == "80 a 89 anos"|FaixaEtaria == "90 anos ou mais")
g2_n10 <- dados$Evolucao %>%
sample(10)
g2_count <- 0
for (i in 1:length(g2_n10)) {
if(g2_n10[i] == "Óbito pelo COVID-19"){g2_count <- g2_count + 1}
}
prop.test(x = c(g1_count, g2_count), n = c(10,10), alternative = "two.sided")
## Warning in prop.test(x = c(g1_count, g2_count), n = c(10, 10), alternative =
## "two.sided"): Chi-squared approximation may be incorrect
##
## 2-sample test for equality of proportions without continuity
## correction
##
## data: c(g1_count, g2_count) out of c(10, 10)
## X-squared = NaN, df = 1, p-value = NA
## alternative hypothesis: two.sided
## 95 percent confidence interval:
## 0 0
## sample estimates:
## prop 1 prop 2
## 0 0
# Para n = 200
## Grupo 1
g1_n200 <- dados %>%
filter(FaixaEtaria == "40 a 49 anos" | FaixaEtaria == "50 a 59 anos")
g1_n200 <- dados$Evolucao %>%
sample(200)
g1_count <- 0
for (i in 1:length(g1_n200)) {
if(g1_n200[i] == "Óbito pelo COVID-19"){g1_count <- g1_count + 1}
}
##Grupo 2
g2_n200 <- dados %>%
filter(FaixaEtaria == "80 a 89 anos"|FaixaEtaria == "90 anos ou mais")
g2_n200 <- dados$Evolucao %>%
sample(200)
g2_count <- 0
for (i in 1:length(g2_n200)) {
if(g2_n200[i] == "Óbito pelo COVID-19"){g2_count <- g2_count + 1}
}
### Fazendo o teste de proporções
prop.test(x = c(g1_count, g2_count), n = c(200,200), alternative = "two.sided")
## Warning in prop.test(x = c(g1_count, g2_count), n = c(200, 200), alternative =
## "two.sided"): Chi-squared approximation may be incorrect
##
## 2-sample test for equality of proportions with continuity correction
##
## data: c(g1_count, g2_count) out of c(200, 200)
## X-squared = 0.58161, df = 1, p-value = 0.4457
## alternative hypothesis: two.sided
## 95 percent confidence interval:
## -0.01565794 0.04565794
## sample estimates:
## prop 1 prop 2
## 0.025 0.010
Nessa alternativa vamos considerar o grupo 1 são indivíduos do sexo feminino e o grupo 2 são indivíduos do sexo masculino.
#Para n = 10
## Grupo 1
g1_n10 <- dados %>%
filter(Sexo == "F")
g1_n10 <- dados$Evolucao %>%
sample(10)
g1_count <- 0
for (i in 1:length(g1_n10)) {
if(g1_n10[i] == "Óbito pelo COVID-19"){g1_count <- g1_count + 1}
}
## Grupo 2
g2_n10 <- dados %>%
filter(Sexo == "M")
g2_n10 <- dados$Evolucao %>%
sample(10)
g2_count <- 0
for (i in 1:length(g2_n10)) {
if(g2_n10[i] == "Óbito pelo COVID-19"){g2_count <- g2_count + 1}
}
prop.test(x = c(g1_count, g2_count), n = c(10,10), alternative = "two.sided")
## Warning in prop.test(x = c(g1_count, g2_count), n = c(10, 10), alternative =
## "two.sided"): Chi-squared approximation may be incorrect
##
## 2-sample test for equality of proportions without continuity
## correction
##
## data: c(g1_count, g2_count) out of c(10, 10)
## X-squared = NaN, df = 1, p-value = NA
## alternative hypothesis: two.sided
## 95 percent confidence interval:
## 0 0
## sample estimates:
## prop 1 prop 2
## 0 0
# Para n = 200
## Grupo 1
g1_n200 <- dados %>%
filter(Sexo == "F")
g1_n200 <- dados$Evolucao %>%
sample(200)
g1_count <- 0
for (i in 1:length(g1_n200)) {
if(g1_n200[i] == "Óbito pelo COVID-19"){g1_count <- g1_count + 1}
}
##Grupo 2
g2_n200 <- dados %>%
filter(Sexo == "M")
g2_n200 <- dados$Evolucao %>%
sample(200)
g2_count <- 0
for (i in 1:length(g2_n200)) {
if(g2_n200[i] == "Óbito pelo COVID-19"){g2_count <- g2_count + 1}
}
### Fazendo o teste de proporções
prop.test(x = c(g1_count, g2_count), n = c(200,200), alternative = "two.sided")
##
## 2-sample test for equality of proportions with continuity correction
##
## data: c(g1_count, g2_count) out of c(200, 200)
## X-squared = 0, df = 1, p-value = 1
## alternative hypothesis: two.sided
## 95 percent confidence interval:
## -0.04168669 0.05168669
## sample estimates:
## prop 1 prop 2
## 0.050 0.045
Nessa alternativa vamos considerar o grupo 1 são indivíduos de raça preta e o grupo 2 são indivíduos de raça diferente da preta.
#Para n = 10
## Grupo 1
g1_n10 <- dados %>%
filter(RacaCor == "Preta")
g1_n10 <- dados$Evolucao %>%
sample(10)
g1_count <- 0
for (i in 1:length(g1_n10)) {
if(g1_n10[i] == "Óbito pelo COVID-19"){g1_count <- g1_count + 1}
}
## Grupo 2
g2_n10 <- dados %>%
filter(RacaCor != "Preta")
g2_n10 <- dados$Evolucao %>%
sample(10)
g2_count <- 0
for (i in 1:length(g2_n10)) {
if(g2_n10[i] == "Óbito pelo COVID-19"){g2_count <- g2_count + 1}
}
prop.test(x = c(g1_count, g2_count), n = c(10,10), alternative = "two.sided")
## Warning in prop.test(x = c(g1_count, g2_count), n = c(10, 10), alternative =
## "two.sided"): Chi-squared approximation may be incorrect
##
## 2-sample test for equality of proportions without continuity
## correction
##
## data: c(g1_count, g2_count) out of c(10, 10)
## X-squared = NaN, df = 1, p-value = NA
## alternative hypothesis: two.sided
## 95 percent confidence interval:
## 0 0
## sample estimates:
## prop 1 prop 2
## 0 0
# Para n = 200
## Grupo 1
g1_n200 <- dados %>%
filter(RacaCor == "Preta")
g1_n200 <- dados$Evolucao %>%
sample(200)
g1_count <- 0
for (i in 1:length(g1_n200)) {
if(g1_n200[i] == "Óbito pelo COVID-19"){g1_count <- g1_count + 1}
}
##Grupo 2
g2_n200 <- dados %>%
filter(RacaCor != "Preta")
g2_n200 <- dados$Evolucao %>%
sample(200)
g2_count <- 0
for (i in 1:length(g2_n200)) {
if(g2_n200[i] == "Óbito pelo COVID-19"){g2_count <- g2_count + 1}
}
### Fazendo o teste de proporções
prop.test(x = c(g1_count, g2_count), n = c(200,200), alternative = "two.sided")
##
## 2-sample test for equality of proportions with continuity correction
##
## data: c(g1_count, g2_count) out of c(200, 200)
## X-squared = 0.074019, df = 1, p-value = 0.7856
## alternative hypothesis: two.sided
## 95 percent confidence interval:
## -0.03100684 0.05100684
## sample estimates:
## prop 1 prop 2
## 0.04 0.03
Nessa alternativa vamos considerar o grupo 1 são indivíduos que tiveram tosse e o grupo 2 são indivíduos que não tiveram tosse.
#Para n = 10
## Grupo 1
g1_n10 <- dados %>%
filter(Tosse == "Sim")
g1_n10 <- dados$Evolucao %>%
sample(10)
g1_count <- 0
for (i in 1:length(g1_n10)) {
if(g1_n10[i] == "Óbito pelo COVID-19"){g1_count <- g1_count + 1}
}
## Grupo 2
g2_n10 <- dados %>%
filter(Tosse != "Sim")
g2_n10 <- dados$Evolucao %>%
sample(10)
g2_count <- 0
for (i in 1:length(g2_n10)) {
if(g2_n10[i] == "Óbito pelo COVID-19"){g2_count <- g2_count + 1}
}
prop.test(x = c(g1_count, g2_count), n = c(10,10), alternative = "two.sided")
## Warning in prop.test(x = c(g1_count, g2_count), n = c(10, 10), alternative =
## "two.sided"): Chi-squared approximation may be incorrect
##
## 2-sample test for equality of proportions without continuity
## correction
##
## data: c(g1_count, g2_count) out of c(10, 10)
## X-squared = NaN, df = 1, p-value = NA
## alternative hypothesis: two.sided
## 95 percent confidence interval:
## 0 0
## sample estimates:
## prop 1 prop 2
## 0 0
# Para n = 200
## Grupo 1
g1_n200 <- dados %>%
filter(Tosse == "Sim")
g1_n200 <- dados$Evolucao %>%
sample(200)
g1_count <- 0
for (i in 1:length(g1_n200)) {
if(g1_n200[i] == "Óbito pelo COVID-19"){g1_count <- g1_count + 1}
}
##Grupo 2
g2_n200 <- dados %>%
filter(Tosse != "Sim")
g2_n200 <- dados$Evolucao %>%
sample(200)
g2_count <- 0
for (i in 1:length(g2_n200)) {
if(g2_n200[i] == "Óbito pelo COVID-19"){g2_count <- g2_count + 1}
}
### Fazendo o teste de proporções
prop.test(x = c(g1_count, g2_count), n = c(200,200), alternative = "two.sided")
##
## 2-sample test for equality of proportions with continuity correction
##
## data: c(g1_count, g2_count) out of c(200, 200)
## X-squared = 0.085911, df = 1, p-value = 0.7694
## alternative hypothesis: two.sided
## 95 percent confidence interval:
## -0.04842012 0.02842012
## sample estimates:
## prop 1 prop 2
## 0.025 0.035
A partir daqui iremos analisar somento o grupo que teve o sintoma de tosse:
Nessa alternativa vamos considerar o grupo 1 são indivíduos de 0 a 19 anos e o grupo 2 são indivíduos de 20 a 30 anos.
#Para n = 10
## Grupo 1
g1_n10 <- dados %>%
filter((FaixaEtaria == "0 a 4 anos" | FaixaEtaria == "05 a 9 anos" | FaixaEtaria == "10 a 19 anos") & Tosse == "Sim")
g1_n10 <- dados$Evolucao %>%
sample(10)
g1_count <- 0
for (i in 1:length(g1_n10)) {
if(g1_n10[i] == "Óbito pelo COVID-19"){g1_count <- g1_count + 1}
}
## Grupo 2
g2_n10 <- dados %>%
filter((FaixaEtaria == "20 a 29 anos") & Tosse == "Sim")
g2_n10 <- dados$Evolucao %>%
sample(10)
g2_count <- 0
for (i in 1:length(g2_n10)) {
if(g2_n10[i] == "Óbito pelo COVID-19"){g2_count <- g2_count + 1}
}
prop.test(x = c(g1_count, g2_count), n = c(10,10), alternative = "two.sided")
## Warning in prop.test(x = c(g1_count, g2_count), n = c(10, 10), alternative =
## "two.sided"): Chi-squared approximation may be incorrect
##
## 2-sample test for equality of proportions without continuity
## correction
##
## data: c(g1_count, g2_count) out of c(10, 10)
## X-squared = NaN, df = 1, p-value = NA
## alternative hypothesis: two.sided
## 95 percent confidence interval:
## 0 0
## sample estimates:
## prop 1 prop 2
## 0 0
# Para n = 200
## Grupo 1
g1_n200 <- dados %>%
filter((FaixaEtaria == "0 a 4 anos" | FaixaEtaria == "05 a 9 anos" | FaixaEtaria == "10 a 19 anos") & Tosse == "Sim")
g1_n200 <- dados$Evolucao %>%
sample(200)
g1_count <- 0
for (i in 1:length(g1_n200)) {
if(g1_n200[i] == "Óbito pelo COVID-19"){g1_count <- g1_count + 1}
}
##Grupo 2
g2_n200 <- dados %>%
filter((FaixaEtaria == "20 a 29 anos") & Tosse == "Sim")
g2_n200 <- dados$Evolucao %>%
sample(200)
g2_count <- 0
for (i in 1:length(g2_n200)) {
if(g2_n200[i] == "Óbito pelo COVID-19"){g2_count <- g2_count + 1}
}
### Fazendo o teste de proporções
prop.test(x = c(g1_count, g2_count), n = c(200,200), alternative = "two.sided")
## Warning in prop.test(x = c(g1_count, g2_count), n = c(200, 200), alternative =
## "two.sided"): Chi-squared approximation may be incorrect
##
## 2-sample test for equality of proportions with continuity correction
##
## data: c(g1_count, g2_count) out of c(200, 200)
## X-squared = 1.148, df = 1, p-value = 0.284
## alternative hypothesis: two.sided
## 95 percent confidence interval:
## -0.05236941 0.01236941
## sample estimates:
## prop 1 prop 2
## 0.01 0.03
Nessa alternativa vamos considerar o grupo 1 são indivíduos de 40 a 59 anos e o grupo 2 são indivíduos de 80 ou mais anos.
#Para n = 10
## Grupo 1
g1_n10 <- dados %>%
filter((FaixaEtaria == "40 a 49 anos" | FaixaEtaria == "50 a 59 anos") & Tosse == "Sim")
g1_n10 <- dados$Evolucao %>%
sample(10)
g1_count <- 0
for (i in 1:length(g1_n10)) {
if(g1_n10[i] == "Óbito pelo COVID-19"){g1_count <- g1_count + 1}
}
## Grupo 2
g2_n10 <- dados %>%
filter((FaixaEtaria == "80 a 89 anos"|FaixaEtaria == "90 anos ou mais") & Tosse == "Sim")
g2_n10 <- dados$Evolucao %>%
sample(10)
g2_count <- 0
for (i in 1:length(g2_n10)) {
if(g2_n10[i] == "Óbito pelo COVID-19"){g2_count <- g2_count + 1}
}
prop.test(x = c(g1_count, g2_count), n = c(10,10), alternative = "two.sided")
## Warning in prop.test(x = c(g1_count, g2_count), n = c(10, 10), alternative =
## "two.sided"): Chi-squared approximation may be incorrect
##
## 2-sample test for equality of proportions without continuity
## correction
##
## data: c(g1_count, g2_count) out of c(10, 10)
## X-squared = NaN, df = 1, p-value = NA
## alternative hypothesis: two.sided
## 95 percent confidence interval:
## 0 0
## sample estimates:
## prop 1 prop 2
## 0 0
# Para n = 200
## Grupo 1
g1_n200 <- dados %>%
filter((FaixaEtaria == "40 a 49 anos" | FaixaEtaria == "50 a 59 anos") & Tosse == "Sim")
g1_n200 <- dados$Evolucao %>%
sample(200)
g1_count <- 0
for (i in 1:length(g1_n200)) {
if(g1_n200[i] == "Óbito pelo COVID-19"){g1_count <- g1_count + 1}
}
##Grupo 2
g2_n200 <- dados %>%
filter((FaixaEtaria == "80 a 89 anos"|FaixaEtaria == "90 anos ou mais") & Tosse == "Sim")
g2_n200 <- dados$Evolucao %>%
sample(200)
g2_count <- 0
for (i in 1:length(g2_n200)) {
if(g2_n200[i] == "Óbito pelo COVID-19"){g2_count <- g2_count + 1}
}
### Fazendo o teste de proporções
prop.test(x = c(g1_count, g2_count), n = c(200,200), alternative = "two.sided")
##
## 2-sample test for equality of proportions with continuity correction
##
## data: c(g1_count, g2_count) out of c(200, 200)
## X-squared = 2.5641, df = 1, p-value = 0.1093
## alternative hypothesis: two.sided
## 95 percent confidence interval:
## -0.00545837 0.06545837
## sample estimates:
## prop 1 prop 2
## 0.04 0.01
Nessa alternativa vamos considerar o grupo 1 são indivíduos do sexo feminino e o grupo 2 são indivíduos do sexo masculino.
#Para n = 10
## Grupo 1
g1_n10 <- dados %>%
filter((Sexo == "F") & Tosse == "Sim")
g1_n10 <- dados$Evolucao %>%
sample(10)
g1_count <- 0
for (i in 1:length(g1_n10)) {
if(g1_n10[i] == "Óbito pelo COVID-19"){g1_count <- g1_count + 1}
}
## Grupo 2
g2_n10 <- dados %>%
filter((Sexo == "M") & Tosse == "Sim")
g2_n10 <- dados$Evolucao %>%
sample(10)
g2_count <- 0
for (i in 1:length(g2_n10)) {
if(g2_n10[i] == "Óbito pelo COVID-19"){g2_count <- g2_count + 1}
}
prop.test(x = c(g1_count, g2_count), n = c(10,10), alternative = "two.sided")
## Warning in prop.test(x = c(g1_count, g2_count), n = c(10, 10), alternative =
## "two.sided"): Chi-squared approximation may be incorrect
##
## 2-sample test for equality of proportions without continuity
## correction
##
## data: c(g1_count, g2_count) out of c(10, 10)
## X-squared = NaN, df = 1, p-value = NA
## alternative hypothesis: two.sided
## 95 percent confidence interval:
## 0 0
## sample estimates:
## prop 1 prop 2
## 0 0
# Para n = 200
## Grupo 1
g1_n200 <- dados %>%
filter((Sexo == "F") & Tosse == "Sim")
g1_n200 <- dados$Evolucao %>%
sample(200)
g1_count <- 0
for (i in 1:length(g1_n200)) {
if(g1_n200[i] == "Óbito pelo COVID-19"){g1_count <- g1_count + 1}
}
##Grupo 2
g2_n200 <- dados %>%
filter((Sexo == "M") & Tosse == "Sim")
g2_n200 <- dados$Evolucao %>%
sample(200)
g2_count <- 0
for (i in 1:length(g2_n200)) {
if(g2_n200[i] == "Óbito pelo COVID-19"){g2_count <- g2_count + 1}
}
### Fazendo o teste de proporções
prop.test(x = c(g1_count, g2_count), n = c(200,200), alternative = "two.sided")
##
## 2-sample test for equality of proportions with continuity correction
##
## data: c(g1_count, g2_count) out of c(200, 200)
## X-squared = 0.074019, df = 1, p-value = 0.7856
## alternative hypothesis: two.sided
## 95 percent confidence interval:
## -0.03100684 0.05100684
## sample estimates:
## prop 1 prop 2
## 0.04 0.03
Nessa alternativa vamos considerar o grupo 1 são indivíduos de raça preta e o grupo 2 são indivíduos de raça diferente da preta.
#Para n = 10
## Grupo 1
g1_n10 <- dados %>%
filter((RacaCor == "Preta") & Tosse == "Sim")
g1_n10 <- dados$Evolucao %>%
sample(10)
g1_count <- 0
for (i in 1:length(g1_n10)) {
if(g1_n10[i] == "Óbito pelo COVID-19"){g1_count <- g1_count + 1}
}
## Grupo 2
g2_n10 <- dados %>%
filter((RacaCor != "Preta") & Tosse == "Sim")
g2_n10 <- dados$Evolucao %>%
sample(10)
g2_count <- 0
for (i in 1:length(g2_n10)) {
if(g2_n10[i] == "Óbito pelo COVID-19"){g2_count <- g2_count + 1}
}
prop.test(x = c(g1_count, g2_count), n = c(10,10), alternative = "two.sided")
## Warning in prop.test(x = c(g1_count, g2_count), n = c(10, 10), alternative =
## "two.sided"): Chi-squared approximation may be incorrect
##
## 2-sample test for equality of proportions with continuity correction
##
## data: c(g1_count, g2_count) out of c(10, 10)
## X-squared = 0.55556, df = 1, p-value = 0.4561
## alternative hypothesis: two.sided
## 95 percent confidence interval:
## -0.147918 0.547918
## sample estimates:
## prop 1 prop 2
## 0.2 0.0
# Para n = 200
## Grupo 1
g1_n200 <- dados %>%
filter((RacaCor == "Preta") & Tosse == "Sim")
g1_n200 <- dados$Evolucao %>%
sample(200)
g1_count <- 0
for (i in 1:length(g1_n200)) {
if(g1_n200[i] == "Óbito pelo COVID-19"){g1_count <- g1_count + 1}
}
##Grupo 2
g2_n200 <- dados %>%
filter((RacaCor != "Preta") & Tosse == "Sim")
g2_n200 <- dados$Evolucao %>%
sample(200)
g2_count <- 0
for (i in 1:length(g2_n200)) {
if(g2_n200[i] == "Óbito pelo COVID-19"){g2_count <- g2_count + 1}
}
### Fazendo o teste de proporções
prop.test(x = c(g1_count, g2_count), n = c(200,200), alternative = "two.sided")
## Warning in prop.test(x = c(g1_count, g2_count), n = c(200, 200), alternative =
## "two.sided"): Chi-squared approximation may be incorrect
##
## 2-sample test for equality of proportions with continuity correction
##
## data: c(g1_count, g2_count) out of c(200, 200)
## X-squared = 1.148, df = 1, p-value = 0.284
## alternative hypothesis: two.sided
## 95 percent confidence interval:
## -0.05236941 0.01236941
## sample estimates:
## prop 1 prop 2
## 0.01 0.03
Nos testes para duas proporções podemos ver que devido ao tamanho do n ser muito pequeno em relação ao tamanho da base de dados que estamos utilizando, principalmente quando igual \(n=10\), temos alguns que acabam não dando resultados muito conclusivos. Em caso de amostras muito pequenas, o teste de probabilidade exata de Fisher é uma excelente técnica não paramétrica para comparar proporções. Mas, como entendi que a questão seria para entender a diferença do resultado quando temos amostras muito pequenas acabei utilizando o teste z para ambas. Nas que foi possível interpretar o resultado de maneira mais tranquila, vimos que em nenhuma delas \(H_0\) foi rejeitado, já que o Intervalo de Confiança em questão é de 95% e em nenhum dos testes tivemos p-valor \(< 0.05\).