doenca_dic <- read.csv("C:/Users/Carol/Dropbox/UFGD/2019.01_Disciplinas/Topicos de Estatistica/10_Aula/doenca_dic.csv", sep=";")
grupo | Idade |
---|---|
Et1 | 57 |
Et1 | 44 |
Et1 | 53 |
Et1 | 36 |
Et1 | 47 |
Et1 | 57 |
Et1 | 64 |
Et1 | 51 |
Et1 | 59 |
Et1 | 56 |
Et2 | 70 |
Et2 | 71 |
Et2 | 57 |
Et2 | 33 |
Et2 | 30 |
Et2 | 61 |
Et2 | 39 |
Et2 | 51 |
Et2 | 17 |
Et2 | 40 |
Et3 | 44 |
Et3 | 59 |
Et3 | 37 |
Et3 | 49 |
Et3 | 34 |
Et3 | 30 |
Et3 | 39 |
Et3 | 31 |
Et3 | 49 |
Et3 | 54 |
Considere o modelo:
\[Y_{ij} = \mu + \tau_i + \epsilon_{ij}.\] Em que:
\(Y_{ij}\) - idade do j-ésimo paciente na i-ésima doença;
\(\mu\) - idade média dos pacientes;
\(\tau_i\) - efeito da i-ésima doença;
\(\epsilon_{ij}\) - efeito alatório inerente a observação \(Y_{ij}\)
summary(doenca_dic$Idade)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 17.0 37.5 49.0 47.3 57.0 71.0
As idades dos paceinte encontram-se entre 17 e 71 anos, com uma média de 47,3 anos. Nota-se que \(75\%\) dos pacientes apresentaram um idade inferior a 56 anos.
sd(doenca_dic$Idade)
## [1] 12.99377
sd(doenca_dic$Idade)/mean(doenca_dic$Idade)
## [1] 0.2747096
A idade dos paciente apresentou um desvio padrão de 12,99, seguido de um CV de \(27,47\%\).
aggregate(Idade ~ grupo,
data = doenca_dic,
FUN=mean)
## grupo Idade
## 1 Et1 52.4
## 2 Et2 46.9
## 3 Et3 42.6
aggregate(Idade ~ grupo,
data = doenca_dic,
FUN=sd)
## grupo Idade
## 1 Et1 8.194849
## 2 Et2 17.996605
## 3 Et3 9.968840
Em relação a idade, o grupo Et1 apresentou a maior média e o menor desvio padrão.
require(ggplot2)
## Loading required package: ggplot2
ggplot(doenca_dic, aes(x = grupo, y = Idade)) +
geom_boxplot()
Nota-se, por meio do Box Plot, que na idade dos pacientes:
o grupo Et1 possui o maior valor mediano;
uma maior variabilidade do grupo Et2;
entre os três grupos tem-se uma evidente presença de heterogeneidade nas variâncias.
Através da Análise de Variância (ANOVA) podemos testar o efeitos dos tratamentos (grupos) analisando as seguintes hipóteses.
\[H_0: \tau_1 = \tau_2 = \tau_3 = 0 \]
\[H_1: \mbox{Pelo menos um } \tau_i \neq 0, ~~~ i=\{1,2,3\}\].
modelo = aov(Idade ~ grupo,
data = doenca_dic)
anova(modelo)
## Analysis of Variance Table
##
## Response: Idade
## Df Sum Sq Mean Sq F value Pr(>F)
## grupo 2 482.6 241.30 1.4761 0.2464
## Residuals 27 4413.7 163.47
Pelo teste F, o valor p (Pr(>F)) foi igual a \(0,2464\), o qual é superior ao nível de \(5\%\) de significância, concluindo deste forma que não existe diferente significativa entre a etiologia da doença com relação a idade do pacientes.
require(car)
## Loading required package: car
## Loading required package: carData
qqPlot(modelo$residuals)
## [1] 19 12
Por meio do gráfico que compara os quantis empíricos e teóricos, tem-se evidências que os resíduos podem ser modelados por uma distribuição Normal.
shapiro.test(modelo$residuals)
##
## Shapiro-Wilk normality test
##
## data: modelo$residuals
## W = 0.98635, p-value = 0.9579
O teste de normalidade Shapiro-Wilk forneceu um valor p de \(0,9579\), indicando que, ao nível de \(5\%\) de siginificância, que a hipótese nula (“os resíduos são normais”) não deve ser rejeitada.
bartlett.test(Idade ~ grupo,
data = doenca_dic)
##
## Bartlett test of homogeneity of variances
##
## data: Idade by grupo
## Bartlett's K-squared = 6.0343, df = 2, p-value = 0.04894
O teste de Bartlett forneceu um valor p de \(0,04894\), indicando que, ao nível de \(5\%\) de siginificância, que a hipótese nula (“as variâncias são iguais”) deve ser rejeitada.
duracao_dic <- read.csv("C:/Users/Carol/Dropbox/UFGD/2019.01_Disciplinas/Topicos de Estatistica/10_Aula/duracao_dic.csv", sep=";")
Marca | Duracao |
---|---|
Marca A | 30 |
Marca A | 28 |
Marca A | 31 |
Marca A | 30 |
Marca A | 32 |
Marca A | 30 |
Marca B | 25 |
Marca B | 28 |
Marca B | 25 |
Marca B | 24 |
Marca B | 23 |
Marca B | 23 |
Marca C | 28 |
Marca C | 29 |
Marca C | 30 |
Marca C | 29 |
Marca C | 28 |
Marca C | 29 |
Considere o modelo:
\[Y_{ij} = \mu + \tau_i + \epsilon_{ij}.\] Em que:
\(Y_{ij}\) - duração da j-ésima bateria na i-ésima marca;
\(\mu\) - média geral do tempo de duração
\(\tau_i\) - efeito da i-ésima marca;
\(\epsilon_{ij}\) - efeito alatório inerente a observação \(Y_{ij}\)
summary(duracao_dic$Duracao)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 23.00 25.75 28.50 27.89 30.00 32.00
O tempo de duração encontra-se entre 23 e 32 meses, com uma média de 27,89 meses. Nota-se que \(75\%\) das baterias apresentaram uma duração inferior a 30 meses.
sd(duracao_dic$Duracao)
## [1] 2.741594
sd(duracao_dic$Duracao)/mean(duracao_dic$Duracao)
## [1] 0.09830418
A duração das baterias apresentou um desvio padrão de 2,74, seguido de um CV de \(9,8\%\).
aggregate(Duracao ~ Marca,
data = duracao_dic,
FUN=mean)
## Marca Duracao
## 1 Marca A 30.16667
## 2 Marca B 24.66667
## 3 Marca C 28.83333
aggregate(Duracao ~ Marca,
data = duracao_dic,
FUN=sd)
## Marca Duracao
## 1 Marca A 1.3291601
## 2 Marca B 1.8618987
## 3 Marca C 0.7527727
Em relação a duração, a marca B apresentou a menor média e o maior desvio padrão.
require(ggplot2)
ggplot(duracao_dic, aes(x = Marca, y = Duracao)) +
geom_boxplot()
Nota-se, por meio do Box Plot, que na duração das baterias:
a marca A apresentou o maior valor mediano;
uma maior variabilidade da marca B;
entre as três marcas de baterias tem-se uma evidente presença de heterogeneidade nas variâncias.
Através da Análise de Variância (ANOVA) podemos testar o efeitos dos tratamentos (grupos) analisando as seguintes hipóteses.
\[H_0: \tau_1 = \tau_2 = \tau_3 = 0 \]
\[H_1: \mbox{Pelo menos um } \tau_i \neq 0, ~~~ i=\{1,2,3\}\].
modelo = aov(Duracao ~ Marca,
data = duracao_dic)
anova(modelo)
## Analysis of Variance Table
##
## Response: Duracao
## Df Sum Sq Mean Sq F value Pr(>F)
## Marca 2 98.778 49.389 25.546 1.478e-05 ***
## Residuals 15 29.000 1.933
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Pelo teste F, o valor p (Pr(>F)) foi igual a \(1,478 \times 10^{-5}\), o qual é inferior ao nível de \(5\%\) de significância, concluindo deste forma que existe diferente significativa entre as marcas das baterias quanto a duração.
require(car)
qqPlot(modelo$residuals)
## [1] 8 2
Por meio do gráfico que compara os quantis empíricos e teóricos, tem-se evidências que os resíduos podem ser modelados por uma distribuição Normal.
shapiro.test(modelo$residuals)
##
## Shapiro-Wilk normality test
##
## data: modelo$residuals
## W = 0.94724, p-value = 0.3833
O teste de normalidade Shapiro-Wilk forneceu um valor p de \(0,3833\), indicando que, ao nível de \(5\%\) de siginificância, que a hipótese nula (“os resíduos são normais”) não deve ser rejeitada.
bartlett.test(Duracao ~ Marca,
data = duracao_dic)
##
## Bartlett test of homogeneity of variances
##
## data: Duracao by Marca
## Bartlett's K-squared = 3.3678, df = 2, p-value = 0.1856
O teste de Bartlett forneceu um valor p de \(0,1856\), indicando que, ao nível de \(5\%\) de siginificância, que a hipótese nula (“as variâncias são iguais”) não deve ser rejeitada.
require(agricolae)
## Loading required package: agricolae
## Warning: package 'agricolae' was built under R version 3.5.3
out <- HSD.test(modelo,
"Marca",
main="",
alpha = 0.05)
out
## $statistics
## MSerror Df Mean CV MSD
## 1.933333 15 27.88889 4.985654 2.085179
##
## $parameters
## test name.t ntr StudentizedRange alpha
## Tukey Marca 3 3.673378 0.05
##
## $means
## Duracao std r Min Max Q25 Q50 Q75
## Marca A 30.16667 1.3291601 6 28 32 30.00 30.0 30.75
## Marca B 24.66667 1.8618987 6 23 28 23.25 24.5 25.00
## Marca C 28.83333 0.7527727 6 28 30 28.25 29.0 29.00
##
## $comparison
## NULL
##
## $groups
## Duracao groups
## Marca A 30.16667 a
## Marca C 28.83333 a
## Marca B 24.66667 b
##
## attr(,"class")
## [1] "group"
bar.group(out$groups,
ylim=c(0,40),
density=10,
las=1,
border="blue")
Ao nível de \(5\%\) de significância, as médias seguídas das mesmas letras, não difere estatísticamente entre si.
testeSNK <- SNK.test(modelo,
"Marca",
main="",
alpha = 0.05)
testeSNK
## $statistics
## MSerror Df Mean CV
## 1.933333 15 27.88889 4.985654
##
## $parameters
## test name.t ntr alpha
## SNK Marca 3 0.05
##
## $snk
## Table CriticalRange
## 2 3.014325 1.711070
## 3 3.673378 2.085179
##
## $means
## Duracao std r Min Max Q25 Q50 Q75
## Marca A 30.16667 1.3291601 6 28 32 30.00 30.0 30.75
## Marca B 24.66667 1.8618987 6 23 28 23.25 24.5 25.00
## Marca C 28.83333 0.7527727 6 28 30 28.25 29.0 29.00
##
## $comparison
## NULL
##
## $groups
## Duracao groups
## Marca A 30.16667 a
## Marca C 28.83333 a
## Marca B 24.66667 b
##
## attr(,"class")
## [1] "group"
bar.group(out$groups,
ylim=c(0,40),
density=10,
las=1,
border="blue")