Questão 8

Analise a base de dados acidentes.txt para responder as perguntas a seguir.

Carregando o Banco de Dados

# Banco de Dados
acidentes <- read.table("C:/Users/luiza/OneDrive/Documentos/JOANA/ESTATÍSTICA/2022.2/Estatistica Nao Parametrica/Unidade 1/Prova/acidentes.txt" , sep = "\t", header = TRUE)

Resumo do Banco de Dados

summary(acidentes)
##     acidente         idade           sexo              causa          
##  Min.   : 1.00   Min.   :19.00   Length:20          Length:20         
##  1st Qu.: 5.75   1st Qu.:23.75   Class :character   Class :character  
##  Median :10.50   Median :32.50   Mode  :character   Mode  :character  
##  Mean   :10.50   Mean   :31.75                                        
##  3rd Qu.:15.25   3rd Qu.:38.00                                        
##  Max.   :20.00   Max.   :45.00

Podemos observar que as variáveis sexo e causa estão como caracteres então iremos transformá-las em fatores, para então realizarmos os testes e as análises gráficas corretamente.

acidentes$sexo <- as.factor(acidentes$sexo)
acidentes$causa <- as.factor(acidentes$causa)

Resumo dos Dados com a correção das variáveis

# Resumo dos Dados
summary(acidentes)
##     acidente         idade       sexo                 causa  
##  Min.   : 1.00   Min.   :19.00   f: 4   corrente eletrica:3  
##  1st Qu.: 5.75   1st Qu.:23.75   m:16   impacto          :5  
##  Median :10.50   Median :32.50          queda            :9  
##  Mean   :10.50   Mean   :31.75          vidro            :3  
##  3rd Qu.:15.25   3rd Qu.:38.00                               
##  Max.   :20.00   Max.   :45.00

8.1 Faça o gráfico que julgar mais adequado para cada uma das variáveis. O que você pode dizer, com base nos gráficos, acerca da distribuição dos dados?

Gráfico da Variável Idade

# Histograma da Idade
hist(acidentes$idade, xlab = "Idade", ylab = "Frequência", 
     main = "Histograma da Idade", 
     col = c("#A2006D"))

Observando o histograma acima, podemos notar que a distribuição da variável idade é assimétrica, e que a maioria dos indíviduos que sofreram acidente tinham idade entre 30 e 35 anos.

Gráfico da Variável Sexo

# Gráfico de Setores do Sexo
porc = round(table(acidentes$sexo)*100/sum(table(acidentes$sexo)),2)
rotulos = paste("(",porc,"%)", sep = "")
pie(table(acidentes$sexo), main = "Gráfico de Setores do Sexo", labels = rotulos, col = c(6,5))
legenda = c("Feminino","Masculino")
legend(x="topright",legend=legenda,col=c(6,5),pch=rep(20,6))

Observando o gráfico de setores acima, podemos notar que a distribuição da variável sexo é assimétrica, e que os indíviduos que sofreram acidente eram 80% do sexo masculino e 20% do sexo feminino.

Gráfico da Variável Causa

# Gráfico de Colunas da Causa
nomes = c("corrente elétrica","impacto","queda","vidro")
barplot(table(acidentes$causa), names.arg = nomes,
        main = "Gráfico de Colunas da Causa", ylab="frequência", 
        ylim=c(0,10), col = c(2,3,5,6))

Observando o gráfico de colunas acima, podemos notar que a distribuição da variável causa é assimétrica, e que a maior causa dos acidentes eram por queda.

8.2 Teste a aderência da variável idade à distribuição normal padrão. Conclua;

Teste de Lilliefors para a normalidade

\(H_0: F(X) = Normal \, (0,1) \\ H_1: F(X) \neq Normal \, (0,1)\)

# Teste de Normalidade
nortest::lillie.test(acidentes$idade)
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  acidentes$idade
## D = 0.13549, p-value = 0.4365

Pelo Teste de Lilliefors, como o \(p-valor = 0.4365 \, > \, \alpha = 0.05\), então não rejeitamos \(H_0\), ou seja, com base na amostra e com 95% de confiança, podemos concluir que a variável idade segue distribuição Normal Padrão.

8.3 Com base no teste anterior, qual medida de posição você julga ser a mais adequada para representar a variável idade? Explique. Teste se essa medida de posição é igual a 30 anos. Conclua;

De acordo com o Teste de Normalidade, como a distribuição da variável idade é aproximadamente normal, logo a distribuição da variável é simétrica, assim a média e a mediana da idade são aproximadamente iguais. Porém, como a média é sensível a outliers, e pelo histograma notamos que a distribuição da variável idade é assimétrica, então, a medida de posição mais indicada para representar a variável idade é a mediana, pois a mesma é uma medida de localização central dos dados, assim, iremos testar se a mediana é igual a 30 anos.

Teste de Wilcoxon para a mediana

\(H_0: \tilde{\mu} = 30 \\ H_1: \tilde{\mu} \neq 30\)

# Teste de Wilcoxon
wilcox.test(acidentes$idade, mu = 30, alternative = "two.sided", conf.level = 0.99)
## Warning in wilcox.test.default(acidentes$idade, mu = 30, alternative =
## "two.sided", : não é possível computar o valor de p exato com o de desempate
## Warning in wilcox.test.default(acidentes$idade, mu = 30, alternative =
## "two.sided", : cannot compute exact p-value with zeroes
## 
##  Wilcoxon signed rank test with continuity correction
## 
## data:  acidentes$idade
## V = 118.5, p-value = 0.3538
## alternative hypothesis: true location is not equal to 30

Pelo Teste de Wilcoxon, como o \(p-valor = 0.3538 \, > \, \alpha = 0.05\), então não rejeitamos \(H_0\), ou seja, com base na amostra e com 95% de confiança, podemos concluir que a idade mediana é igual a 30 anos.

8.4 Podemos concluir, com base na amostra, que a proporção populacional de homens e mulheres é a mesma?

Teste Qui-quadrado de bondade do ajuste

\(H_0: p = \frac{1}{2} \\ H_1: p \neq \frac{1}{2}\)

# Teste Qui-quadrado de bondade do ajuste
x1 <- table(acidentes$sexo)
esp <- c(rep(0.5,2))
chisq.test(x1, p = esp)
## 
##  Chi-squared test for given probabilities
## 
## data:  x1
## X-squared = 7.2, df = 1, p-value = 0.00729

Pelo Teste Qui-quadrado de bondade do ajuste, como o \(p-valor = 0.00729 \, < \, \alpha = 0.05\), então rejeitamos \(H_0\), ou seja, com base na amostra e com 95% de confiança, podemos concluir que a proporção populacional de homens e mulheres são diferentes, o que é comprovado observando o gráfico de setores da variável gênero na questão 8.1.

8.5 A frequência de acidentes difere entre as causas?

Teste Qui-quadrado de bondade do ajuste

\(H_0: p = \frac{1}{4} \\ H_1: p \neq \frac{1}{4}\)

# Teste Qui-quadrado de bondade do ajuste
x2 <- table(acidentes$causa)
esp <- c(rep(0.25,4))
chisq.test(x2, p = esp)
## 
##  Chi-squared test for given probabilities
## 
## data:  x2
## X-squared = 4.8, df = 3, p-value = 0.187

Pelo Teste Qui-quadrado de bondade do ajuste, como o \(p-valor = 0.187 \, > \, \alpha = 0.05\), então não rejeitamos \(H_0\), ou seja, com base na amostra e com 95% de confiança, podemos concluir que a frequência de acidentes não difere entre as causas.

8.6 A variável sexo é aleatória? E a variável idade?

Teste de Iterações da variável sexo

\(H_0:\) A variável sexo é aleatória
\(H_1:\) A variável sexo não é aleatória

# Teste de Iterações da variável sexo
genero <- as.factor(acidentes$sexo)
x3 <- ifelse(genero=="m", 1, -1)
randtests::bartels.rank.test(x3)
## 
##  Bartels Ratio Test
## 
## data:  x3
## statistic = -1.0164, n = 20, p-value = 0.3095
## alternative hypothesis: nonrandomness

Pelo Teste de Iterações, como o \(p-valor = 0.3095 \, > \, \alpha = 0.05\), então não rejeitamos \(H_0\), ou seja, com base na amostra e com 95% de confiança, podemos concluir que a variável sexo é aleatória.

Teste de Iterações da variável idade

\(H_0:\) A variável idade é aleatória
\(H_1:\) A variável idade não é aleatória

# Teste de Iterações da variável idade
x4 <- ifelse(acidentes$idade<median(acidentes$idade),1,-1)
randtests::runs.test(x4)
## 
##  Runs Test
## 
## data:  x4
## statistic = 0, runs = 11, n1 = 10, n2 = 10, n = 20, p-value = 1
## alternative hypothesis: nonrandomness

Pelo Teste de Iterações, como o \(p-valor = 1 \, > \, \alpha = 0.05\), então não rejeitamos \(H_0\), ou seja, com base na amostra e com 95% de confiança, podemos concluir que a variável idade é aleatória.

Questão 9

Analise a base de dados latas.xls para responder as perguntas a seguir.

Carregando o Banco de Dados

# Banco de Dados
library(readxl)
latas <- read_xls("C:/Users/luiza/OneDrive/Documentos/JOANA/ESTATÍSTICA/2022.2/Estatistica Nao Parametrica/Unidade 1/Prova/latas.xls")
latas_109 <- latas$LATAS109
latas_111 <- latas$LATAS111

Resumo do Banco de Dados

summary(latas)
##     LATAS109        LATAS111    
##  Min.   :200.0   Min.   :205.0  
##  1st Qu.:262.0   1st Qu.:275.0  
##  Median :273.0   Median :285.0  
##  Mean   :267.1   Mean   :281.8  
##  3rd Qu.:282.0   3rd Qu.:294.5  
##  Max.   :297.0   Max.   :504.0

9.1 O que você pode dizer acerca da distribuição dos dados? E o que isso implica?

Gráfico das Latas 109

# Histograma das Latas 109
hist(latas_109, xlab = "Cargas Axiais", ylab = "Frequência", 
     main = "Histograma das Latas 109", 
     col = c("#Be5b59"))

Observando o histograma acima, podemos notar que a distribuição da variável Latas 109 é assimétrica à esquerda, e que a maioria das Latas 109 têm cargas axiais entre 270 u.m. a 280 u.m.

Gráfico das Latas 111

# Histograma das Latas 111
hist(latas_111, xlab = "Cargas Axiais", ylab = "Frequência", 
     main = "Histograma das Latas 111", 
     col = c("#993399"))

Observando o histograma acima, podemos notar que a distribuição da variável Latas 111 é assimétrica à direita, e que a maioria das Latas 111 têm cargas axiais entre 250 u.m. e 300 u.m.

9.2 Existe diferença entre as cargas axiais de cada tipo de lata, em relação ao parâmetro de locação?

Teste de Wilcoxon-Mann-Whitney

\(H_0:\) Não há diferença entre as cargas axiais de cada tipo de lata, em relação ao parâmetro de locação
\(H_1:\) Há diferença entre as cargas axiais de cada tipo de lata, em relação ao parâmetro de locação

# Teste de Wilcoxon-Mann-Whitney
wilcox.test(latas_109,latas_111, correct = F, alternative = "two.sided")
## 
##  Wilcoxon rank sum test
## 
## data:  latas_109 and latas_111
## W = 8626.5, p-value = 1.598e-12
## alternative hypothesis: true location shift is not equal to 0

Pelo Teste de Wilcoxon-Mann-Whitney, como o \(p-valor = 1.598e-12 \, < \, \alpha = 0.05\), então rejeitamos \(H_0\), ou seja, com base na amostra e com 95% de confiança, podemos concluir que existe diferença entre as cargas axiais de cada tipo de lata, em relação ao parâmetro de locação.

Questão 10

Analise a base de dados temperaturas do temperaturas_do_corpo.xlsx para responder as perguntas a seguir.

Carregando o Banco de Dados

# Banco de Dados
library(readxl)
temperaturas <- read_xlsx("C:/Users/luiza/OneDrive/Documentos/JOANA/ESTATÍSTICA/2022.2/Estatistica Nao Parametrica/Unidade 1/Prova/temperaturas_do_corpo.xlsx")

Resumo do Banco de Dados

# Resumo dos Dados
summary(temperaturas)
##     sujeito           idade           sexo             fumante         
##  Min.   : 80.00   Min.   :18.00   Length:28          Length:28         
##  1st Qu.: 86.75   1st Qu.:22.50   Class :character   Class :character  
##  Median : 93.50   Median :25.50   Mode  :character   Mode  :character  
##  Mean   : 93.50   Mean   :25.50                                        
##  3rd Qu.:100.25   3rd Qu.:28.25                                        
##  Max.   :107.00   Max.   :34.00                                        
##  temperatura1-8     temperatura1-12    temperatura2-8     temperatura2-12   
##  Length:28          Length:28          Length:28          Length:28         
##  Class :character   Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character   Mode  :character  
##                                                                             
##                                                                             
## 

Podemos observar que as variáveis temperatura1-8, temperatura1-12, temperatura2-8 e temperatura2-12 estão como caracteres, logo iremos tranformá-las em númericas, já as variáveis sexo e fumante também estão como caracteres então iremos transformá-las em fatores, para realizarmos os testes e as análises gráficas corretamente.

temperaturas$`temperatura1-8` <- as.numeric(temperaturas$`temperatura1-8`)
temperaturas$`temperatura1-12` <- as.numeric(temperaturas$`temperatura1-12`)
temperaturas$`temperatura2-8` <- as.numeric(temperaturas$`temperatura2-8`)
temperaturas$`temperatura2-12` <- as.numeric(temperaturas$`temperatura2-12`)
temperaturas$sexo <- as.factor(temperaturas$sexo)
temperaturas$fumante <- as.factor(temperaturas$fumante)

Resumo dos Dados com a correção das variáveis

# Resumo dos Dados
summary(temperaturas)
##     sujeito           idade       sexo   fumante temperatura1-8 
##  Min.   : 80.00   Min.   :18.00   F: 5   N:11    Min.   :97.20  
##  1st Qu.: 86.75   1st Qu.:22.50   M:23   S:17    1st Qu.:98.00  
##  Median : 93.50   Median :25.50                  Median :98.75  
##  Mean   : 93.50   Mean   :25.50                  Mean   :98.46  
##  3rd Qu.:100.25   3rd Qu.:28.25                  3rd Qu.:98.90  
##  Max.   :107.00   Max.   :34.00                  Max.   :99.40  
##                                                  NA's   :12     
##  temperatura1-12 temperatura2-8  temperatura2-12
##  Min.   :96.70   Min.   :96.00   Min.   :97.00  
##  1st Qu.:97.40   1st Qu.:96.88   1st Qu.:97.90  
##  Median :98.00   Median :97.60   Median :98.40  
##  Mean   :97.94   Mean   :97.36   Mean   :98.27  
##  3rd Qu.:98.40   3rd Qu.:97.83   3rd Qu.:98.70  
##  Max.   :99.30   Max.   :98.70   Max.   :99.20  
##  NA's   :1       NA's   :8

10.1 O que você pode dizer acerca da distribuição dos dados? E o que isso implica?

Gráfico da Variável Idade

# Histograma da Idade
hist(temperaturas$idade, xlab = "Idade", ylab = "Frequência", 
     main = "Histograma da Idade", xlim = c(18,34),
     col = c("#9ACD32"))

Observando o histograma acima, podemos notar que a distribuição da variável idade é simétrica, e que a maioria dos indíviduos que foram aferidas a temperatura tinham idade entre 26 e 28 anos.

Gráfico da Variável Sexo

# Gráfico de Setores do Sexo
porc = round(table(temperaturas$sexo)*100/sum(table(temperaturas$sexo)),2)
rotulos = paste("(",porc,"%)", sep = "")
pie(table(temperaturas$sexo), main = "Gráfico de Setores do Sexo", labels = rotulos, 
col = c("#FF007F","#1981CD"))
legenda = c("Feminino","Masculino")
legend(x="topright",legend=legenda,col=c("#FF007F","#1981CD"),pch=rep(20,6))

Observando o gráfico de setores acima, podemos notar que a distribuição da variável sexo é assimétrica, e que a maioria dos indíviduos que foram aferidas a temperatura eram do sexo masculino.

Gráfico da Variável Fumante

# Gráfico de Setores dos fumantes
porc = round(table(temperaturas$fumante)*100/sum(table(temperaturas$fumante)),2)
rotulos = paste("(",porc,"%)", sep = "")
pie(table(temperaturas$fumante), main = "Gráfico de Setores dos fumantes", labels = rotulos, 
col = c("#32CD32","#FF0000"))
legenda = c("Não Fumante","Fumante")
legend(x="topright",legend=legenda,col=c("#32CD32","#FF0000"),pch=rep(20,6))

Observando o gráfico de setores acima, podemos notar que a distribuição da variável sexo é assimétrica, e que a maioria dos indíviduos que foram aferidas a temperatura eram fumantes.

Gráfico da Variável Temperatura 1-8

# Histograma da Temperatura 1-8
hist(temperaturas$`temperatura1-8`, xlab = "Temperatura", ylab = "Frequência", 
     main = "Histograma da Temperatura 1-8",
     col = c("#20B2AA"))

Observando o histograma acima, podemos notar que a distribuição da variável Temperaturas 1-8 é assimétrica à esquerda, e que a maior temperatura está entre 98.5 u.m e 99.0 u.m.

Gráfico da Variável Temperatura 1-12

# Histograma da Temperatura 1-12
hist(temperaturas$`temperatura1-12`, xlab = "Temperatura", ylab = "Frequência",
     main = "Histograma da Temperatura 1-12",
     col = c("#20B2AA"))

Observando o histograma acima, podemos notar que a distribuição da variável Temperaturas 1-12 é assimétrica, e que a maior temperatura está entre 98.0 u.m e 98.5 u.m.

Gráfico da Variável Temperatura 2-8

# Histograma da Temperatura 2-8
hist(temperaturas$`temperatura2-8`, xlab = "Temperatura", ylab = "Frequência",
     main = "Histograma da Temperatura 2-8",
     col = c("#20B2AA"))

Observando o histograma acima, podemos notar que a distribuição da variável Temperaturas 1-12 é assimétrica, e que a maior temperatura está entre 97.0 u.m e 98.0 u.m.

Gráfico da Variável Temperatura 2-12

# Histograma da Temperatura 2-12
hist(temperaturas$`temperatura2-12`, xlab = "Temperatura", ylab = "Frequência",
     main = "Histograma da Temperatura 2-12",
     col = c("#20B2AA"))

Observando o histograma acima, podemos notar que a distribuição da variável `Temperaturas 1-12 é assimétrica, e que a maior temperatura está entre 98.5 u.m e 99.0 u.m.

10.2 Há relação entre tabagismo e gênero?

Teste Exato de Fisher

\(H_0:\) Não há relação entre o tabagismo e o gênero
\(H_1:\) Há relação entre o tabagismo e o gênero

x5 <- table(temperaturas$fumante,temperaturas$sexo)
# Teste Exato de Fisher
fisher.test(x5)
## 
##  Fisher's Exact Test for Count Data
## 
## data:  x5
## p-value = 0.6195
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
##  0.006014614 4.149234022
## sample estimates:
## odds ratio 
##  0.3369766

Pelo Teste Exato de Fisher, como o \(p-valor = 0.6195 > \alpha = 0.05\), então não rejeitamos a hipótese nula, ou seja, com base na amostra e com 95% de confiança, podemos concluir que não existe relação entre o tabagismo e o gênero.

10.3 Há relação entre idade e tabagismo?

Teste Exato de Fisher

\(H_0:\) Não há relação entre a idade e o tabagismo
\(H_1:\) Há relação entre a idade e o tabagismo

# Teste Exato de Fisher
fisher.test(temperaturas$idade,temperaturas$fumante)
## 
##  Fisher's Exact Test for Count Data
## 
## data:  temperaturas$idade and temperaturas$fumante
## p-value = 0.7411
## alternative hypothesis: two.sided

Pelo Teste Exato de Fisher, como o \(p-valor = 0.7411 > \alpha = 0.05\), então não rejeitamos a hipótese nula, ou seja, com base na amostra e com 95% de confiança, podemos concluir que não existe relação entre a idade e o tabagismo.

10.4 Há diferença de temperatura entre fumantes e não fumantes, em relação ao parâmetro de locação?

Teste de Wilcoxon Mann-Whitney

\(H_0:\) Não há diferença de temperatura entre fumantes e não fumantes, em relação ao parâmetro de locação
\(H_1:\) Há diferença de temperatura entre fumantes e não fumantes, em relação ao parâmetro de locação

# Teste de Wilcoxon Mann-Whitney
wilcox.test(temperaturas$`temperatura2-12`~temperaturas$fumante, correct = F, alternative = "two.sided")
## Warning in wilcox.test.default(x = DATA[[1L]], y = DATA[[2L]], ...): não é
## possível computar o valor de p exato com o de desempate
## 
##  Wilcoxon rank sum test
## 
## data:  temperaturas$`temperatura2-12` by temperaturas$fumante
## W = 111.5, p-value = 0.3959
## alternative hypothesis: true location shift is not equal to 0

Pelo Teste de Wilcoxon Mann-Whitney, como o \(p-valor = 0.3959 > \alpha = 0.05\), então não rejeitamos a hipótese nula, ou seja, com base na amostra e com 95% de confiança, podemos concluir que não existe diferença entre a temperatura de fumantes e não fumantes, em relação ao parâmetro de locação.

10.5 Há diferença de temperatura entre os horários, em relação ao parâmetro de locação?

Teste de Wilcoxon Mann-Whitney

\(H_0:\) Não há diferença entre os horários, em relação ao parâmetro de locação
\(H_1:\) Há diferença entre os horários, em relação ao parâmetro de locação

# Omitindo os Dados Faltantes
temperaturas1_8 <- na.omit(temperaturas$`temperatura1-8`)
temperaturas1_12 <- na.omit(temperaturas$`temperatura1-12`)
# Teste de Wilcoxon Mann-Whitney
wilcox.test(temperaturas1_8,temperaturas1_12, correct = F, alternative = "two.sided")
## Warning in wilcox.test.default(temperaturas1_8, temperaturas1_12, correct = F,
## : não é possível computar o valor de p exato com o de desempate
## 
##  Wilcoxon rank sum test
## 
## data:  temperaturas1_8 and temperaturas1_12
## W = 313, p-value = 0.01461
## alternative hypothesis: true location shift is not equal to 0

Pelo Teste de Wilcoxon Mann-Whitney, como o \(p-valor = 0.01461 < \alpha = 0.05\), então rejeitamos a hipótese nula, ou seja, com base na amostra e com 95% de confiança, podemos concluir que existe diferença entre os horários, em relação ao parâmetro de locação.

# Omitindo os Dados Faltantes
temperaturas2_8 <- na.omit(temperaturas$`temperatura2-8`)
temperaturas2_12 <- na.omit(temperaturas$`temperatura2-12`)
# Teste de Wilcoxon Mann-Whitney
wilcox.test(temperaturas2_8,temperaturas2_12, correct = F, alternative = "two.sided")
## Warning in wilcox.test.default(temperaturas2_8, temperaturas2_12, correct = F,
## : não é possível computar o valor de p exato com o de desempate
## 
##  Wilcoxon rank sum test
## 
## data:  temperaturas2_8 and temperaturas2_12
## W = 89.5, p-value = 6.576e-05
## alternative hypothesis: true location shift is not equal to 0

Pelo Teste de Wilcoxon Mann-Whitney, como o \(p-valor = 6.576e-05 < \alpha = 0.05\), então rejeitamos a hipótese nula, ou seja, com base na amostra e com 95% de confiança, podemos concluir que existe diferença entre os horários, em relação ao parâmetro de locação.