El analisis de normalidad, también llamado contraste de normalidad, analizan cuanto difiere la distribución de los datos observados respecto a una distribución normal con la misma media y desviación típica.

Medidas de resumen

DTangelica<-read.csv("DTangelica.csv", sep = ";", header = T)#
summary(DTangelica)
##       trat           epoc         rept          DVIVOS     
##  citrico:8   trimestre3:12   Min.   :1.00   Min.   : 5.00  
##  H2O    :8   Trimestre4:12   1st Qu.:1.75   1st Qu.: 6.60  
##  MS3K   :8                   Median :2.50   Median :11.77  
##                              Mean   :2.50   Mean   :10.69  
##                              3rd Qu.:3.25   3rd Qu.:13.96  
##                              Max.   :4.00   Max.   :14.93  
##      DOXID           PCONT             BACT             HONG       
##  Min.   :0.200   Min.   :0.0000   Min.   :0.0000   Min.   :0.0000  
##  1st Qu.:1.195   1st Qu.:0.0675   1st Qu.:0.0000   1st Qu.:0.0000  
##  Median :1.815   Median :0.1700   Median :0.1300   Median :0.0000  
##  Mean   :1.778   Mean   :0.2521   Mean   :0.1442   Mean   :0.1079  
##  3rd Qu.:2.493   3rd Qu.:0.4000   3rd Qu.:0.2000   3rd Qu.:0.2000  
##  Max.   :3.000   Max.   :0.6000   Max.   :0.6000   Max.   :0.4000  
##      DMUERT         ResDVIVOS         ResDOXIDA         RESPCONT    
##  Min.   :0.0700   Min.   :0.03000   Min.   :0.0500   Min.   :0.100  
##  1st Qu.:0.7525   1st Qu.:0.05750   1st Qu.:0.2800   1st Qu.:0.580  
##  Median :2.2600   Median :0.07000   Median :0.3550   Median :1.610  
##  Mean   :3.8896   Mean   :0.07083   Mean   :0.3371   Mean   :1.194  
##  3rd Qu.:7.2000   3rd Qu.:0.09000   3rd Qu.:0.4275   3rd Qu.:1.810  
##  Max.   :9.6000   Max.   :0.11000   Max.   :0.5800   Max.   :1.810  
##     RESBACT         RESHONGO       RESDMUERT      
##  Min.   :0.030   Min.   :0.420   Min.   :0.03000  
##  1st Qu.:1.670   1st Qu.:2.040   1st Qu.:0.06000  
##  Median :2.285   Median :2.040   Median :0.07000  
##  Mean   :1.965   Mean   :1.853   Mean   :0.07208  
##  3rd Qu.:2.450   3rd Qu.:2.180   3rd Qu.:0.09000  
##  Max.   :2.620   Max.   :2.530   Max.   :0.11000

QQ-plot

En estadística, un gráfico de Q-Q (quantile-quantile) es un gráfico de probabilidad, que es un método gráfico para comparar dos distribuciones de probabilidad al trazar sus cuantiles uno contra el otro.En este caso, lo ideal es que los puntos se acerquen a una recta diagonal.

setwd("C:/Users/alex/Documents/R")
getwd()
## [1] "C:/Users/alex/Documents/R"
a<-qqnorm(DTangelica$ResDVIVOS, 
       main = "Distribución de residuos para la variable discos vivos")
qqline(DTangelica$ResDVIVOS, col = 2)

b<-qqnorm(DTangelica$ResDOXIDA, 
          main = "Distribución de residuos para la variable discos oxidados")
qqline(DTangelica$ResDOXIDA, col = 2)

c<-qqnorm(DTangelica$RESPCONT, 
        main = "Distribución de residuos para la variable placas contaminadas")
qqline(DTangelica$RESPCONT, col = 2)

d<-qqnorm(DTangelica$RESBACT, 
          main = "Distribución de residuos para la variable placas con bactérias")
qqline(DTangelica$RESBACT, col = 2)

e<-qqnorm(DTangelica$RESHONGO, 
          main = "Distribución de residuos para la variable placas con hongos")
qqline(DTangelica$RESHONGO, col = 2)

f<-qqnorm(DTangelica$RESDMUERT, 
          main = "Distribución de residuos para la variable discos muertos")
qqline(DTangelica$RESDMUERT, col = 2)

Test de normalidad (Shapiro-Wilk):

En este caso, la hipótesis nula del test Shapiro-Wilk es que la población representa una distribución normal. Por lo tanto, un valor de p< 0.05 indica que se debe rechazar la hipótesis nula. En otras palabras, los datos no poseen distribución normal.

shapiro.test(DTangelica$ResDVIVOS)
## 
##  Shapiro-Wilk normality test
## 
## data:  DTangelica$ResDVIVOS
## W = 0.95675, p-value = 0.3767
shapiro.test(DTangelica$ResDOXIDA)
## 
##  Shapiro-Wilk normality test
## 
## data:  DTangelica$ResDOXIDA
## W = 0.97041, p-value = 0.6771
shapiro.test(DTangelica$RESPCONT)
## 
##  Shapiro-Wilk normality test
## 
## data:  DTangelica$RESPCONT
## W = 0.74578, p-value = 4.324e-05
shapiro.test(DTangelica$RESBACT)
## 
##  Shapiro-Wilk normality test
## 
## data:  DTangelica$RESBACT
## W = 0.79626, p-value = 0.000256
shapiro.test(DTangelica$RESHONGO)
## 
##  Shapiro-Wilk normality test
## 
## data:  DTangelica$RESHONGO
## W = 0.63525, p-value = 1.567e-06
shapiro.test(DTangelica$RESDMUERT)
## 
##  Shapiro-Wilk normality test
## 
## data:  DTangelica$RESDMUERT
## W = 0.95468, p-value = 0.3411

Como podemos ver, el test indica qeu la variable RESPCONT no posee distribución normal (p<0.05). En contraste, no conseguimos rechazar la hipótesis nula para los residuos de DVIVOS (P>0.05), de tal manera que este conjunto de datos fue extraído de una población con distribución normal. Así, se analizaron todos los datos.

Análisis de normalidad por métodos gráficos

Histograma superpuesto con una distribución normal con la misma media y sd que los datos. Consiste en representar los datos mediante un histograma y superponer la curva que describe una distribución normal con la misma media y sd que muestran los datos. Otra forma de analizar mejor es realizando un histograma con nuestros datos

dados <- data.frame(DTangelica$ResDVIVOS,DTangelica$ResDOXIDA,
                    DTangelica$RESPCONT, DTangelica$RESBACT,
                    DTangelica$RESHONGO, DTangelica$RESDMUERT)
library(ggplot2)
ggplot(dados, 
       aes(x=DTangelica$ResDVIVOS))+geom_histogram(bins =5,
     colour="tomato",fill="white")  + stat_function(fun = dnorm,
    colour = "blue", args = list(mean = mean(DTangelica$ResDVIVOS), 
        sd = sd(DTangelica$ResDVIVOS)))

ggplot(dados, 
       aes(x=DTangelica$ResDOXIDA))+geom_histogram(bins =5,
      colour="tomato",fill="white")  + stat_function(fun = dnorm,
     colour = "blue", args = list(mean = mean(DTangelica$ResDOXIDA), 
                  sd = sd(DTangelica$ResDOXIDA)))

ggplot(dados, 
       aes(x=DTangelica$RESPCONT))+geom_histogram(bins =5,
      colour="tomato",fill="white") + stat_function(fun = dnorm, 
    colour = "blue", args = list(mean = mean(DTangelica$RESPCONT), 
      sd = sd(DTangelica$RESPCONT)))

ggplot(dados, 
       aes(x=DTangelica$RESBACT))+geom_histogram(bins =5,
      colour="tomato",fill="white") + stat_function(fun = dnorm,
      colour = "blue", args = list(mean = mean(DTangelica$RESBACT), 
      sd = sd(DTangelica$RESBACT)))

ggplot(dados, 
       aes(x=DTangelica$RESHONGO))+geom_histogram(bins =5,
     colour="tomato",fill="white") + stat_function(fun = dnorm,
       colour = "blue", args = list(mean = mean(DTangelica$RESHONGO), 
        sd = sd(DTangelica$RESHONGO)))

ggplot(dados, 
       aes(x=DTangelica$RESDMUERT))+geom_histogram(bins =5,
       colour="tomato",fill="white")+ stat_function(fun = dnorm,
    colour = "blue", args = list(mean = mean(DTangelica$RESDMUERT), 
             sd = sd(DTangelica$RESDMUERT)))