Delineamento Inteiramente Casualizado

Aplicação 1

  • Numa pesquisa na área de saúde sobre doençaa gordurosa hepática (esteato-hepatite) e sua evolução para cirrose deseja-se verificar se existe diferença na idade dos pacientes referente a três grupos, esteato-hepatite alcoólica (Et1), esteato-hepatite de causa desconhecida (Criptogênica, Et2) e esteato-hepatite não alcoólica (EHNA, Et3).
doenca_dic <- read.csv("C:/Users/Carol/Dropbox/UFGD/2019.01_Disciplinas/Topicos de Estatistica/10_Aula/doenca_dic.csv", sep=";")
grupo Idade
Et1 57
Et1 44
Et1 53
Et1 36
Et1 47
Et1 57
Et1 64
Et1 51
Et1 59
Et1 56
Et2 70
Et2 71
Et2 57
Et2 33
Et2 30
Et2 61
Et2 39
Et2 51
Et2 17
Et2 40
Et3 44
Et3 59
Et3 37
Et3 49
Et3 34
Et3 30
Et3 39
Et3 31
Et3 49
Et3 54

Considere o modelo:

\[Y_{ij} = \mu + \tau_i + \epsilon_{ij}.\] Em que:

  • \(Y_{ij}\) - idade do j-ésimo paciente na i-ésima doença;

  • \(\mu\) - idade média dos pacientes;

  • \(\tau_i\) - efeito da i-ésima doença;

  • \(\epsilon_{ij}\) - efeito alatório inerente a observação \(Y_{ij}\)

Análise exploratória

  • medida resumo
summary(doenca_dic$Idade)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    17.0    37.5    49.0    47.3    57.0    71.0

As idades dos paceinte encontram-se entre 17 e 71 anos, com uma média de 47,3 anos. Nota-se que \(75\%\) dos pacientes apresentaram um idade inferior a 56 anos.

  • desvio padrão e coeficente de variação
sd(doenca_dic$Idade)
## [1] 12.99377
sd(doenca_dic$Idade)/mean(doenca_dic$Idade)
## [1] 0.2747096

A idade dos paciente apresentou um desvio padrão de 12,99, seguido de um CV de \(27,47\%\).

Analisando a idade por tipo de doença

aggregate(Idade ~ grupo, 
          data = doenca_dic,
          FUN=mean)
##   grupo Idade
## 1   Et1  52.4
## 2   Et2  46.9
## 3   Et3  42.6
aggregate(Idade ~ grupo, 
          data = doenca_dic,
          FUN=sd)
##   grupo     Idade
## 1   Et1  8.194849
## 2   Et2 17.996605
## 3   Et3  9.968840

Em relação a idade, o grupo Et1 apresentou a maior média e o menor desvio padrão.

require(ggplot2)
## Loading required package: ggplot2
ggplot(doenca_dic, aes(x = grupo, y = Idade)) +
  geom_boxplot()

Nota-se, por meio do Box Plot, que na idade dos pacientes:

  • o grupo Et1 possui o maior valor mediano;

  • uma maior variabilidade do grupo Et2;

  • entre os três grupos tem-se uma evidente presença de heterogeneidade nas variâncias.

Análise de Variância (ANOVA)

Através da Análise de Variância (ANOVA) podemos testar o efeitos dos tratamentos (grupos) analisando as seguintes hipóteses.

\[H_0: \tau_1 = \tau_2 = \tau_3 = 0 \]

\[H_1: \mbox{Pelo menos um } \tau_i \neq 0, ~~~ i=\{1,2,3\}\].

modelo = aov(Idade ~ grupo, 
             data = doenca_dic)
anova(modelo)
## Analysis of Variance Table
## 
## Response: Idade
##           Df Sum Sq Mean Sq F value Pr(>F)
## grupo      2  482.6  241.30  1.4761 0.2464
## Residuals 27 4413.7  163.47

Pelo teste F, o valor p (Pr(>F)) foi igual a \(0,2464\), o qual é superior ao nível de \(5\%\) de significância, concluindo deste forma que não existe diferente significativa entre a etiologia da doença com relação a idade do pacientes.

Análise de diagnóstico

  • Normalidade
require(car)
## Loading required package: car
## Loading required package: carData
qqPlot(modelo$residuals)

## [1] 19 12

Por meio do gráfico que compara os quantis empíricos e teóricos, tem-se evidências que os resíduos podem ser modelados por uma distribuição Normal.

shapiro.test(modelo$residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  modelo$residuals
## W = 0.98635, p-value = 0.9579

O teste de normalidade Shapiro-Wilk forneceu um valor p de \(0,9579\), indicando que, ao nível de \(5\%\) de siginificância, que a hipótese nula (“os resíduos são normais”) não deve ser rejeitada.

  • Homocedasticidade
bartlett.test(Idade ~ grupo, 
             data = doenca_dic)
## 
##  Bartlett test of homogeneity of variances
## 
## data:  Idade by grupo
## Bartlett's K-squared = 6.0343, df = 2, p-value = 0.04894

O teste de Bartlett forneceu um valor p de \(0,04894\), indicando que, ao nível de \(5\%\) de siginificância, que a hipótese nula (“as variâncias são iguais”) deve ser rejeitada.

Aplicação 2

  • Desejamos testar 3 marcas de baterias A, B, C quanto a duração. Observamos 6 baterias de cada marca obtendo os dados abaixo. Duração em meses das baterias:
duracao_dic <- read.csv("C:/Users/Carol/Dropbox/UFGD/2019.01_Disciplinas/Topicos de Estatistica/10_Aula/duracao_dic.csv", sep=";")
Marca Duracao
Marca A 30
Marca A 28
Marca A 31
Marca A 30
Marca A 32
Marca A 30
Marca B 25
Marca B 28
Marca B 25
Marca B 24
Marca B 23
Marca B 23
Marca C 28
Marca C 29
Marca C 30
Marca C 29
Marca C 28
Marca C 29

Considere o modelo:

\[Y_{ij} = \mu + \tau_i + \epsilon_{ij}.\] Em que:

  • \(Y_{ij}\) - duração da j-ésima bateria na i-ésima marca;

  • \(\mu\) - média geral do tempo de duração

  • \(\tau_i\) - efeito da i-ésima marca;

  • \(\epsilon_{ij}\) - efeito alatório inerente a observação \(Y_{ij}\)

Análise exploratória

  • medida resumo
summary(duracao_dic$Duracao)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   23.00   25.75   28.50   27.89   30.00   32.00

O tempo de duração encontra-se entre 23 e 32 meses, com uma média de 27,89 meses. Nota-se que \(75\%\) das baterias apresentaram uma duração inferior a 30 meses.

  • desvio padrão e coeficente de variação
sd(duracao_dic$Duracao)
## [1] 2.741594
sd(duracao_dic$Duracao)/mean(duracao_dic$Duracao)
## [1] 0.09830418

A duração das baterias apresentou um desvio padrão de 2,74, seguido de um CV de \(9,8\%\).

Analisando a duração por tipo de marca da bateria

aggregate(Duracao ~ Marca, 
          data = duracao_dic,
          FUN=mean)
##     Marca  Duracao
## 1 Marca A 30.16667
## 2 Marca B 24.66667
## 3 Marca C 28.83333
aggregate(Duracao ~ Marca, 
          data = duracao_dic,
          FUN=sd)
##     Marca   Duracao
## 1 Marca A 1.3291601
## 2 Marca B 1.8618987
## 3 Marca C 0.7527727

Em relação a duração, a marca B apresentou a menor média e o maior desvio padrão.

require(ggplot2)
ggplot(duracao_dic, aes(x = Marca, y = Duracao)) +
  geom_boxplot()

Nota-se, por meio do Box Plot, que na duração das baterias:

  • a marca A apresentou o maior valor mediano;

  • uma maior variabilidade da marca B;

  • entre as três marcas de baterias tem-se uma evidente presença de heterogeneidade nas variâncias.

Análise de Variância (ANOVA)

Através da Análise de Variância (ANOVA) podemos testar o efeitos dos tratamentos (grupos) analisando as seguintes hipóteses.

\[H_0: \tau_1 = \tau_2 = \tau_3 = 0 \]

\[H_1: \mbox{Pelo menos um } \tau_i \neq 0, ~~~ i=\{1,2,3\}\].

modelo = aov(Duracao ~ Marca, 
             data = duracao_dic)
anova(modelo)
## Analysis of Variance Table
## 
## Response: Duracao
##           Df Sum Sq Mean Sq F value    Pr(>F)    
## Marca      2 98.778  49.389  25.546 1.478e-05 ***
## Residuals 15 29.000   1.933                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Pelo teste F, o valor p (Pr(>F)) foi igual a \(1,478 \times 10^{-5}\), o qual é inferior ao nível de \(5\%\) de significância, concluindo deste forma que existe diferente significativa entre as marcas das baterias quanto a duração.

Análise de diagnóstico

  • Normalidade
require(car)
qqPlot(modelo$residuals)

## [1] 8 2

Por meio do gráfico que compara os quantis empíricos e teóricos, tem-se evidências que os resíduos podem ser modelados por uma distribuição Normal.

shapiro.test(modelo$residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  modelo$residuals
## W = 0.94724, p-value = 0.3833

O teste de normalidade Shapiro-Wilk forneceu um valor p de \(0,3833\), indicando que, ao nível de \(5\%\) de siginificância, que a hipótese nula (“os resíduos são normais”) não deve ser rejeitada.

  • Homocedasticidade
bartlett.test(Duracao ~ Marca, 
             data = duracao_dic)
## 
##  Bartlett test of homogeneity of variances
## 
## data:  Duracao by Marca
## Bartlett's K-squared = 3.3678, df = 2, p-value = 0.1856

O teste de Bartlett forneceu um valor p de \(0,1856\), indicando que, ao nível de \(5\%\) de siginificância, que a hipótese nula (“as variâncias são iguais”) não deve ser rejeitada.

Teste Tukey

require(agricolae)
## Loading required package: agricolae
## Warning: package 'agricolae' was built under R version 3.5.3
out <- HSD.test(modelo,
                "Marca", 
                main="",
                alpha = 0.05)
out
## $statistics
##    MSerror Df     Mean       CV      MSD
##   1.933333 15 27.88889 4.985654 2.085179
## 
## $parameters
##    test name.t ntr StudentizedRange alpha
##   Tukey  Marca   3         3.673378  0.05
## 
## $means
##          Duracao       std r Min Max   Q25  Q50   Q75
## Marca A 30.16667 1.3291601 6  28  32 30.00 30.0 30.75
## Marca B 24.66667 1.8618987 6  23  28 23.25 24.5 25.00
## Marca C 28.83333 0.7527727 6  28  30 28.25 29.0 29.00
## 
## $comparison
## NULL
## 
## $groups
##          Duracao groups
## Marca A 30.16667      a
## Marca C 28.83333      a
## Marca B 24.66667      b
## 
## attr(,"class")
## [1] "group"
  • Análise gráfica
bar.group(out$groups,
          ylim=c(0,40),
          density=10,
          las=1,
          border="blue")

Ao nível de \(5\%\) de significância, as médias seguídas das mesmas letras, não difere estatísticamente entre si.

Teste SNK

testeSNK <- SNK.test(modelo,
                     "Marca", 
                     main="",
                     alpha = 0.05)
testeSNK
## $statistics
##    MSerror Df     Mean       CV
##   1.933333 15 27.88889 4.985654
## 
## $parameters
##   test name.t ntr alpha
##    SNK  Marca   3  0.05
## 
## $snk
##      Table CriticalRange
## 2 3.014325      1.711070
## 3 3.673378      2.085179
## 
## $means
##          Duracao       std r Min Max   Q25  Q50   Q75
## Marca A 30.16667 1.3291601 6  28  32 30.00 30.0 30.75
## Marca B 24.66667 1.8618987 6  23  28 23.25 24.5 25.00
## Marca C 28.83333 0.7527727 6  28  30 28.25 29.0 29.00
## 
## $comparison
## NULL
## 
## $groups
##          Duracao groups
## Marca A 30.16667      a
## Marca C 28.83333      a
## Marca B 24.66667      b
## 
## attr(,"class")
## [1] "group"
  • Análise gráfica
bar.group(out$groups,
          ylim=c(0,40),
          density=10,
          las=1,
          border="blue")