Analise a base de dados acidentes.txt para responder as
perguntas a seguir.
Carregando o Banco de Dados
# Banco de Dados
acidentes <- read.table("C:/Users/luiza/OneDrive/Documentos/JOANA/ESTATÍSTICA/2022.2/Estatistica Nao Parametrica/Unidade 1/Prova/acidentes.txt" , sep = "\t", header = TRUE)
Resumo do Banco de Dados
summary(acidentes)
## acidente idade sexo causa
## Min. : 1.00 Min. :19.00 Length:20 Length:20
## 1st Qu.: 5.75 1st Qu.:23.75 Class :character Class :character
## Median :10.50 Median :32.50 Mode :character Mode :character
## Mean :10.50 Mean :31.75
## 3rd Qu.:15.25 3rd Qu.:38.00
## Max. :20.00 Max. :45.00
Podemos observar que as variáveis sexo e
causa estão como caracteres então iremos transformá-las em
fatores, para então realizarmos os testes e as análises gráficas
corretamente.
acidentes$sexo <- as.factor(acidentes$sexo)
acidentes$causa <- as.factor(acidentes$causa)
Resumo dos Dados com a correção das variáveis
# Resumo dos Dados
summary(acidentes)
## acidente idade sexo causa
## Min. : 1.00 Min. :19.00 f: 4 corrente eletrica:3
## 1st Qu.: 5.75 1st Qu.:23.75 m:16 impacto :5
## Median :10.50 Median :32.50 queda :9
## Mean :10.50 Mean :31.75 vidro :3
## 3rd Qu.:15.25 3rd Qu.:38.00
## Max. :20.00 Max. :45.00
8.1 Faça o gráfico que julgar mais adequado para cada uma das variáveis. O que você pode dizer, com base nos gráficos, acerca da distribuição dos dados?
Gráfico da Variável Idade
# Histograma da Idade
hist(acidentes$idade, xlab = "Idade", ylab = "Frequência",
main = "Histograma da Idade",
col = c("#A2006D"))
Observando o histograma acima, podemos notar que a distribuição
da variável idade é assimétrica, e que a maioria dos
indíviduos que sofreram acidente tinham idade entre 30 e 35
anos.
Gráfico da Variável Sexo
# Gráfico de Setores do Sexo
porc = round(table(acidentes$sexo)*100/sum(table(acidentes$sexo)),2)
rotulos = paste("(",porc,"%)", sep = "")
pie(table(acidentes$sexo), main = "Gráfico de Setores do Sexo", labels = rotulos, col = c(6,5))
legenda = c("Feminino","Masculino")
legend(x="topright",legend=legenda,col=c(6,5),pch=rep(20,6))
Observando o gráfico de setores acima, podemos notar que a
distribuição da variável sexo é assimétrica, e que os
indíviduos que sofreram acidente eram 80% do sexo masculino e 20% do
sexo feminino.
Gráfico da Variável Causa
# Gráfico de Colunas da Causa
nomes = c("corrente elétrica","impacto","queda","vidro")
barplot(table(acidentes$causa), names.arg = nomes,
main = "Gráfico de Colunas da Causa", ylab="frequência",
ylim=c(0,10), col = c(2,3,5,6))
Observando o gráfico de colunas acima, podemos notar que a
distribuição da variável causa é assimétrica, e que a maior
causa dos acidentes eram por queda.
8.2 Teste a aderência da variável idade à distribuição normal padrão. Conclua;
Teste de Lilliefors para a normalidade
\(H_0: F(X) = Normal \, (0,1) \\ H_1: F(X) \neq Normal \, (0,1)\)
# Teste de Normalidade
nortest::lillie.test(acidentes$idade)
##
## Lilliefors (Kolmogorov-Smirnov) normality test
##
## data: acidentes$idade
## D = 0.13549, p-value = 0.4365
Pelo Teste de Lilliefors, como o \(p-valor = 0.4365 \, > \, \alpha =
0.05\), então não rejeitamos \(H_0\), ou seja, com base na amostra e com
95% de confiança, podemos concluir que a variável idade
segue distribuição Normal Padrão.
8.3 Com base no teste anterior, qual medida de posição você julga ser a mais adequada para representar a variável idade? Explique. Teste se essa medida de posição é igual a 30 anos. Conclua;
De acordo com o Teste de Normalidade, como a distribuição da
variável idade é aproximadamente normal, logo a
distribuição da variável é simétrica, assim a média e a mediana da idade
são aproximadamente iguais. Porém, como a média é sensível a outliers, e
pelo histograma notamos que a distribuição da variável
idade é assimétrica, então, a medida de posição mais
indicada para representar a variável idade é a mediana,
pois a mesma é uma medida de localização central dos dados, assim,
iremos testar se a mediana é igual a 30 anos.
Teste de Wilcoxon para a mediana
\(H_0: \tilde{\mu} = 30 \\ H_1: \tilde{\mu} \neq 30\)
# Teste de Wilcoxon
wilcox.test(acidentes$idade, mu = 30, alternative = "two.sided", conf.level = 0.99)
## Warning in wilcox.test.default(acidentes$idade, mu = 30, alternative =
## "two.sided", : não é possível computar o valor de p exato com o de desempate
## Warning in wilcox.test.default(acidentes$idade, mu = 30, alternative =
## "two.sided", : cannot compute exact p-value with zeroes
##
## Wilcoxon signed rank test with continuity correction
##
## data: acidentes$idade
## V = 118.5, p-value = 0.3538
## alternative hypothesis: true location is not equal to 30
Pelo Teste de Wilcoxon, como o \(p-valor = 0.3538 \, > \, \alpha = 0.05\), então não rejeitamos \(H_0\), ou seja, com base na amostra e com 95% de confiança, podemos concluir que a idade mediana é igual a 30 anos.
8.4 Podemos concluir, com base na amostra, que a proporção populacional de homens e mulheres é a mesma?
Teste Qui-quadrado de bondade do ajuste
\(H_0: p = \frac{1}{2} \\ H_1: p \neq \frac{1}{2}\)
# Teste Qui-quadrado de bondade do ajuste
x1 <- table(acidentes$sexo)
esp <- c(rep(0.5,2))
chisq.test(x1, p = esp)
##
## Chi-squared test for given probabilities
##
## data: x1
## X-squared = 7.2, df = 1, p-value = 0.00729
Pelo Teste Qui-quadrado de bondade do ajuste, como o \(p-valor = 0.00729 \, < \, \alpha = 0.05\), então rejeitamos \(H_0\), ou seja, com base na amostra e com 95% de confiança, podemos concluir que a proporção populacional de homens e mulheres são diferentes, o que é comprovado observando o gráfico de setores da variável gênero na questão 8.1.
8.5 A frequência de acidentes difere entre as causas?
Teste Qui-quadrado de bondade do ajuste
\(H_0: p = \frac{1}{4} \\ H_1: p \neq \frac{1}{4}\)
# Teste Qui-quadrado de bondade do ajuste
x2 <- table(acidentes$causa)
esp <- c(rep(0.25,4))
chisq.test(x2, p = esp)
##
## Chi-squared test for given probabilities
##
## data: x2
## X-squared = 4.8, df = 3, p-value = 0.187
Pelo Teste Qui-quadrado de bondade do ajuste, como o \(p-valor = 0.187 \, > \, \alpha = 0.05\), então não rejeitamos \(H_0\), ou seja, com base na amostra e com 95% de confiança, podemos concluir que a frequência de acidentes não difere entre as causas.
8.6 A variável sexo é aleatória? E a variável idade?
Teste de Iterações da variável sexo
\(H_0:\) A variável sexo é
aleatória
\(H_1:\) A variável sexo não é
aleatória
# Teste de Iterações da variável sexo
genero <- as.factor(acidentes$sexo)
x3 <- ifelse(genero=="m", 1, -1)
randtests::bartels.rank.test(x3)
##
## Bartels Ratio Test
##
## data: x3
## statistic = -1.0164, n = 20, p-value = 0.3095
## alternative hypothesis: nonrandomness
Pelo Teste de Iterações, como o \(p-valor = 0.3095 \, > \, \alpha = 0.05\), então não rejeitamos \(H_0\), ou seja, com base na amostra e com 95% de confiança, podemos concluir que a variável sexo é aleatória.
Teste de Iterações da variável idade
\(H_0:\) A variável idade é
aleatória
\(H_1:\) A variável idade não é
aleatória
# Teste de Iterações da variável idade
x4 <- ifelse(acidentes$idade<median(acidentes$idade),1,-1)
randtests::runs.test(x4)
##
## Runs Test
##
## data: x4
## statistic = 0, runs = 11, n1 = 10, n2 = 10, n = 20, p-value = 1
## alternative hypothesis: nonrandomness
Pelo Teste de Iterações, como o \(p-valor = 1 \, > \, \alpha = 0.05\), então não rejeitamos \(H_0\), ou seja, com base na amostra e com 95% de confiança, podemos concluir que a variável idade é aleatória.
Analise a base de dados latas.xls para responder as
perguntas a seguir.
Carregando o Banco de Dados
# Banco de Dados
library(readxl)
latas <- read_xls("C:/Users/luiza/OneDrive/Documentos/JOANA/ESTATÍSTICA/2022.2/Estatistica Nao Parametrica/Unidade 1/Prova/latas.xls")
latas_109 <- latas$LATAS109
latas_111 <- latas$LATAS111
Resumo do Banco de Dados
summary(latas)
## LATAS109 LATAS111
## Min. :200.0 Min. :205.0
## 1st Qu.:262.0 1st Qu.:275.0
## Median :273.0 Median :285.0
## Mean :267.1 Mean :281.8
## 3rd Qu.:282.0 3rd Qu.:294.5
## Max. :297.0 Max. :504.0
9.1 O que você pode dizer acerca da distribuição dos dados? E o que isso implica?
Gráfico das Latas 109
# Histograma das Latas 109
hist(latas_109, xlab = "Cargas Axiais", ylab = "Frequência",
main = "Histograma das Latas 109",
col = c("#Be5b59"))
Observando o histograma acima, podemos notar que a distribuição
da variável Latas 109 é assimétrica à esquerda, e que a
maioria das Latas 109 têm cargas axiais entre 270 u.m. a 280
u.m.
Gráfico das Latas 111
# Histograma das Latas 111
hist(latas_111, xlab = "Cargas Axiais", ylab = "Frequência",
main = "Histograma das Latas 111",
col = c("#993399"))
Observando o histograma acima, podemos notar que a distribuição
da variável Latas 111 é assimétrica à direita, e que a
maioria das Latas 111 têm cargas axiais entre 250 u.m. e 300
u.m.
9.2 Existe diferença entre as cargas axiais de cada tipo de lata, em relação ao parâmetro de locação?
Teste de Wilcoxon-Mann-Whitney
\(H_0:\) Não há diferença entre
as cargas axiais de cada tipo de lata, em relação ao parâmetro de
locação
\(H_1:\) Há diferença entre as
cargas axiais de cada tipo de lata, em relação ao parâmetro de
locação
# Teste de Wilcoxon-Mann-Whitney
wilcox.test(latas_109,latas_111, correct = F, alternative = "two.sided")
##
## Wilcoxon rank sum test
##
## data: latas_109 and latas_111
## W = 8626.5, p-value = 1.598e-12
## alternative hypothesis: true location shift is not equal to 0
Pelo Teste de Wilcoxon-Mann-Whitney, como o \(p-valor = 1.598e-12 \, < \, \alpha = 0.05\), então rejeitamos \(H_0\), ou seja, com base na amostra e com 95% de confiança, podemos concluir que existe diferença entre as cargas axiais de cada tipo de lata, em relação ao parâmetro de locação.
Analise a base de dados temperaturas do
temperaturas_do_corpo.xlsx para responder as perguntas a
seguir.
Carregando o Banco de Dados
# Banco de Dados
library(readxl)
temperaturas <- read_xlsx("C:/Users/luiza/OneDrive/Documentos/JOANA/ESTATÍSTICA/2022.2/Estatistica Nao Parametrica/Unidade 1/Prova/temperaturas_do_corpo.xlsx")
Resumo do Banco de Dados
# Resumo dos Dados
summary(temperaturas)
## sujeito idade sexo fumante
## Min. : 80.00 Min. :18.00 Length:28 Length:28
## 1st Qu.: 86.75 1st Qu.:22.50 Class :character Class :character
## Median : 93.50 Median :25.50 Mode :character Mode :character
## Mean : 93.50 Mean :25.50
## 3rd Qu.:100.25 3rd Qu.:28.25
## Max. :107.00 Max. :34.00
## temperatura1-8 temperatura1-12 temperatura2-8 temperatura2-12
## Length:28 Length:28 Length:28 Length:28
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
##
##
##
Podemos observar que as variáveis temperatura1-8,
temperatura1-12, temperatura2-8 e
temperatura2-12 estão como caracteres, logo iremos
tranformá-las em númericas, já as variáveis sexo e
fumante também estão como caracteres então iremos
transformá-las em fatores, para realizarmos os testes e as análises
gráficas corretamente.
temperaturas$`temperatura1-8` <- as.numeric(temperaturas$`temperatura1-8`)
temperaturas$`temperatura1-12` <- as.numeric(temperaturas$`temperatura1-12`)
temperaturas$`temperatura2-8` <- as.numeric(temperaturas$`temperatura2-8`)
temperaturas$`temperatura2-12` <- as.numeric(temperaturas$`temperatura2-12`)
temperaturas$sexo <- as.factor(temperaturas$sexo)
temperaturas$fumante <- as.factor(temperaturas$fumante)
Resumo dos Dados com a correção das variáveis
# Resumo dos Dados
summary(temperaturas)
## sujeito idade sexo fumante temperatura1-8
## Min. : 80.00 Min. :18.00 F: 5 N:11 Min. :97.20
## 1st Qu.: 86.75 1st Qu.:22.50 M:23 S:17 1st Qu.:98.00
## Median : 93.50 Median :25.50 Median :98.75
## Mean : 93.50 Mean :25.50 Mean :98.46
## 3rd Qu.:100.25 3rd Qu.:28.25 3rd Qu.:98.90
## Max. :107.00 Max. :34.00 Max. :99.40
## NA's :12
## temperatura1-12 temperatura2-8 temperatura2-12
## Min. :96.70 Min. :96.00 Min. :97.00
## 1st Qu.:97.40 1st Qu.:96.88 1st Qu.:97.90
## Median :98.00 Median :97.60 Median :98.40
## Mean :97.94 Mean :97.36 Mean :98.27
## 3rd Qu.:98.40 3rd Qu.:97.83 3rd Qu.:98.70
## Max. :99.30 Max. :98.70 Max. :99.20
## NA's :1 NA's :8
10.1 O que você pode dizer acerca da distribuição dos dados? E o que isso implica?
Gráfico da Variável Idade
# Histograma da Idade
hist(temperaturas$idade, xlab = "Idade", ylab = "Frequência",
main = "Histograma da Idade", xlim = c(18,34),
col = c("#9ACD32"))
Observando o histograma acima, podemos notar que a distribuição
da variável idade é simétrica, e que a maioria dos
indíviduos que foram aferidas a temperatura tinham idade entre 26 e 28
anos.
Gráfico da Variável Sexo
# Gráfico de Setores do Sexo
porc = round(table(temperaturas$sexo)*100/sum(table(temperaturas$sexo)),2)
rotulos = paste("(",porc,"%)", sep = "")
pie(table(temperaturas$sexo), main = "Gráfico de Setores do Sexo", labels = rotulos,
col = c("#FF007F","#1981CD"))
legenda = c("Feminino","Masculino")
legend(x="topright",legend=legenda,col=c("#FF007F","#1981CD"),pch=rep(20,6))
Observando o gráfico de setores acima, podemos notar que a
distribuição da variável sexo é assimétrica, e que a
maioria dos indíviduos que foram aferidas a temperatura eram do sexo
masculino.
Gráfico da Variável Fumante
# Gráfico de Setores dos fumantes
porc = round(table(temperaturas$fumante)*100/sum(table(temperaturas$fumante)),2)
rotulos = paste("(",porc,"%)", sep = "")
pie(table(temperaturas$fumante), main = "Gráfico de Setores dos fumantes", labels = rotulos,
col = c("#32CD32","#FF0000"))
legenda = c("Não Fumante","Fumante")
legend(x="topright",legend=legenda,col=c("#32CD32","#FF0000"),pch=rep(20,6))
Observando o gráfico de setores acima, podemos notar que a
distribuição da variável sexo é assimétrica, e que a
maioria dos indíviduos que foram aferidas a temperatura eram
fumantes.
Gráfico da Variável Temperatura 1-8
# Histograma da Temperatura 1-8
hist(temperaturas$`temperatura1-8`, xlab = "Temperatura", ylab = "Frequência",
main = "Histograma da Temperatura 1-8",
col = c("#20B2AA"))
Observando o histograma acima, podemos notar que a distribuição
da variável Temperaturas 1-8 é assimétrica à esquerda, e
que a maior temperatura está entre 98.5 u.m e 99.0 u.m.
Gráfico da Variável Temperatura 1-12
# Histograma da Temperatura 1-12
hist(temperaturas$`temperatura1-12`, xlab = "Temperatura", ylab = "Frequência",
main = "Histograma da Temperatura 1-12",
col = c("#20B2AA"))
Observando o histograma acima, podemos notar que a distribuição
da variável Temperaturas 1-12 é assimétrica, e que a maior
temperatura está entre 98.0 u.m e 98.5 u.m.
Gráfico da Variável Temperatura 2-8
# Histograma da Temperatura 2-8
hist(temperaturas$`temperatura2-8`, xlab = "Temperatura", ylab = "Frequência",
main = "Histograma da Temperatura 2-8",
col = c("#20B2AA"))
Observando o histograma acima, podemos notar que a distribuição
da variável Temperaturas 1-12 é assimétrica, e que a maior
temperatura está entre 97.0 u.m e 98.0 u.m.
Gráfico da Variável Temperatura 2-12
# Histograma da Temperatura 2-12
hist(temperaturas$`temperatura2-12`, xlab = "Temperatura", ylab = "Frequência",
main = "Histograma da Temperatura 2-12",
col = c("#20B2AA"))
Observando o histograma acima, podemos notar que a distribuição da variável `Temperaturas 1-12 é assimétrica, e que a maior temperatura está entre 98.5 u.m e 99.0 u.m.
10.2 Há relação entre tabagismo e gênero?
Teste Exato de Fisher
\(H_0:\) Não há relação entre o
tabagismo e o gênero
\(H_1:\) Há relação entre o
tabagismo e o gênero
x5 <- table(temperaturas$fumante,temperaturas$sexo)
# Teste Exato de Fisher
fisher.test(x5)
##
## Fisher's Exact Test for Count Data
##
## data: x5
## p-value = 0.6195
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
## 0.006014614 4.149234022
## sample estimates:
## odds ratio
## 0.3369766
Pelo Teste Exato de Fisher, como o \(p-valor = 0.6195 > \alpha = 0.05\), então não rejeitamos a hipótese nula, ou seja, com base na amostra e com 95% de confiança, podemos concluir que não existe relação entre o tabagismo e o gênero.
10.3 Há relação entre idade e tabagismo?
Teste Exato de Fisher
\(H_0:\) Não há relação entre a
idade e o tabagismo
\(H_1:\) Há relação entre a idade e
o tabagismo
# Teste Exato de Fisher
fisher.test(temperaturas$idade,temperaturas$fumante)
##
## Fisher's Exact Test for Count Data
##
## data: temperaturas$idade and temperaturas$fumante
## p-value = 0.7411
## alternative hypothesis: two.sided
Pelo Teste Exato de Fisher, como o \(p-valor = 0.7411 > \alpha = 0.05\), então não rejeitamos a hipótese nula, ou seja, com base na amostra e com 95% de confiança, podemos concluir que não existe relação entre a idade e o tabagismo.
10.4 Há diferença de temperatura entre fumantes e não fumantes, em relação ao parâmetro de locação?
Teste de Wilcoxon Mann-Whitney
\(H_0:\) Não há diferença de
temperatura entre fumantes e não fumantes, em relação ao parâmetro de
locação
\(H_1:\) Há diferença de
temperatura entre fumantes e não fumantes, em relação ao parâmetro de
locação
# Teste de Wilcoxon Mann-Whitney
wilcox.test(temperaturas$`temperatura2-12`~temperaturas$fumante, correct = F, alternative = "two.sided")
## Warning in wilcox.test.default(x = DATA[[1L]], y = DATA[[2L]], ...): não é
## possível computar o valor de p exato com o de desempate
##
## Wilcoxon rank sum test
##
## data: temperaturas$`temperatura2-12` by temperaturas$fumante
## W = 111.5, p-value = 0.3959
## alternative hypothesis: true location shift is not equal to 0
Pelo Teste de Wilcoxon Mann-Whitney, como o \(p-valor = 0.3959 > \alpha = 0.05\), então não rejeitamos a hipótese nula, ou seja, com base na amostra e com 95% de confiança, podemos concluir que não existe diferença entre a temperatura de fumantes e não fumantes, em relação ao parâmetro de locação.
10.5 Há diferença de temperatura entre os horários, em relação ao parâmetro de locação?
Teste de Wilcoxon Mann-Whitney
\(H_0:\) Não há diferença entre
os horários, em relação ao parâmetro de locação
\(H_1:\) Há diferença entre os
horários, em relação ao parâmetro de locação
# Omitindo os Dados Faltantes
temperaturas1_8 <- na.omit(temperaturas$`temperatura1-8`)
temperaturas1_12 <- na.omit(temperaturas$`temperatura1-12`)
# Teste de Wilcoxon Mann-Whitney
wilcox.test(temperaturas1_8,temperaturas1_12, correct = F, alternative = "two.sided")
## Warning in wilcox.test.default(temperaturas1_8, temperaturas1_12, correct = F,
## : não é possível computar o valor de p exato com o de desempate
##
## Wilcoxon rank sum test
##
## data: temperaturas1_8 and temperaturas1_12
## W = 313, p-value = 0.01461
## alternative hypothesis: true location shift is not equal to 0
Pelo Teste de Wilcoxon Mann-Whitney, como o \(p-valor = 0.01461 < \alpha = 0.05\), então rejeitamos a hipótese nula, ou seja, com base na amostra e com 95% de confiança, podemos concluir que existe diferença entre os horários, em relação ao parâmetro de locação.
# Omitindo os Dados Faltantes
temperaturas2_8 <- na.omit(temperaturas$`temperatura2-8`)
temperaturas2_12 <- na.omit(temperaturas$`temperatura2-12`)
# Teste de Wilcoxon Mann-Whitney
wilcox.test(temperaturas2_8,temperaturas2_12, correct = F, alternative = "two.sided")
## Warning in wilcox.test.default(temperaturas2_8, temperaturas2_12, correct = F,
## : não é possível computar o valor de p exato com o de desempate
##
## Wilcoxon rank sum test
##
## data: temperaturas2_8 and temperaturas2_12
## W = 89.5, p-value = 6.576e-05
## alternative hypothesis: true location shift is not equal to 0
Pelo Teste de Wilcoxon Mann-Whitney, como o \(p-valor = 6.576e-05 < \alpha = 0.05\), então rejeitamos a hipótese nula, ou seja, com base na amostra e com 95% de confiança, podemos concluir que existe diferença entre os horários, em relação ao parâmetro de locação.