El analisis de normalidad, también llamado contraste de normalidad, analizan cuanto difiere la distribución de los datos observados respecto a una distribución normal con la misma media y desviación típica.
DTangelica<-read.csv("DTangelica.csv", sep = ";", header = T)#
summary(DTangelica)
## trat epoc rept DVIVOS
## citrico:8 trimestre3:12 Min. :1.00 Min. : 5.00
## H2O :8 Trimestre4:12 1st Qu.:1.75 1st Qu.: 6.60
## MS3K :8 Median :2.50 Median :11.77
## Mean :2.50 Mean :10.69
## 3rd Qu.:3.25 3rd Qu.:13.96
## Max. :4.00 Max. :14.93
## DOXID PCONT BACT HONG
## Min. :0.200 Min. :0.0000 Min. :0.0000 Min. :0.0000
## 1st Qu.:1.195 1st Qu.:0.0675 1st Qu.:0.0000 1st Qu.:0.0000
## Median :1.815 Median :0.1700 Median :0.1300 Median :0.0000
## Mean :1.778 Mean :0.2521 Mean :0.1442 Mean :0.1079
## 3rd Qu.:2.493 3rd Qu.:0.4000 3rd Qu.:0.2000 3rd Qu.:0.2000
## Max. :3.000 Max. :0.6000 Max. :0.6000 Max. :0.4000
## DMUERT ResDVIVOS ResDOXIDA RESPCONT
## Min. :0.0700 Min. :0.03000 Min. :0.0500 Min. :0.100
## 1st Qu.:0.7525 1st Qu.:0.05750 1st Qu.:0.2800 1st Qu.:0.580
## Median :2.2600 Median :0.07000 Median :0.3550 Median :1.610
## Mean :3.8896 Mean :0.07083 Mean :0.3371 Mean :1.194
## 3rd Qu.:7.2000 3rd Qu.:0.09000 3rd Qu.:0.4275 3rd Qu.:1.810
## Max. :9.6000 Max. :0.11000 Max. :0.5800 Max. :1.810
## RESBACT RESHONGO RESDMUERT
## Min. :0.030 Min. :0.420 Min. :0.03000
## 1st Qu.:1.670 1st Qu.:2.040 1st Qu.:0.06000
## Median :2.285 Median :2.040 Median :0.07000
## Mean :1.965 Mean :1.853 Mean :0.07208
## 3rd Qu.:2.450 3rd Qu.:2.180 3rd Qu.:0.09000
## Max. :2.620 Max. :2.530 Max. :0.11000
En estadística, un gráfico de Q-Q (quantile-quantile) es un gráfico de probabilidad, que es un método gráfico para comparar dos distribuciones de probabilidad al trazar sus cuantiles uno contra el otro.En este caso, lo ideal es que los puntos se acerquen a una recta diagonal.
setwd("C:/Users/alex/Documents/R")
getwd()
## [1] "C:/Users/alex/Documents/R"
a<-qqnorm(DTangelica$ResDVIVOS,
main = "Distribución de residuos para la variable discos vivos")
qqline(DTangelica$ResDVIVOS, col = 2)
b<-qqnorm(DTangelica$ResDOXIDA,
main = "Distribución de residuos para la variable discos oxidados")
qqline(DTangelica$ResDOXIDA, col = 2)
c<-qqnorm(DTangelica$RESPCONT,
main = "Distribución de residuos para la variable placas contaminadas")
qqline(DTangelica$RESPCONT, col = 2)
d<-qqnorm(DTangelica$RESBACT,
main = "Distribución de residuos para la variable placas con bactérias")
qqline(DTangelica$RESBACT, col = 2)
e<-qqnorm(DTangelica$RESHONGO,
main = "Distribución de residuos para la variable placas con hongos")
qqline(DTangelica$RESHONGO, col = 2)
f<-qqnorm(DTangelica$RESDMUERT,
main = "Distribución de residuos para la variable discos muertos")
qqline(DTangelica$RESDMUERT, col = 2)
En este caso, la hipótesis nula del test Shapiro-Wilk es que la población representa una distribución normal. Por lo tanto, un valor de p< 0.05 indica que se debe rechazar la hipótesis nula. En otras palabras, los datos no poseen distribución normal.
shapiro.test(DTangelica$ResDVIVOS)
##
## Shapiro-Wilk normality test
##
## data: DTangelica$ResDVIVOS
## W = 0.95675, p-value = 0.3767
shapiro.test(DTangelica$ResDOXIDA)
##
## Shapiro-Wilk normality test
##
## data: DTangelica$ResDOXIDA
## W = 0.97041, p-value = 0.6771
shapiro.test(DTangelica$RESPCONT)
##
## Shapiro-Wilk normality test
##
## data: DTangelica$RESPCONT
## W = 0.74578, p-value = 4.324e-05
shapiro.test(DTangelica$RESBACT)
##
## Shapiro-Wilk normality test
##
## data: DTangelica$RESBACT
## W = 0.79626, p-value = 0.000256
shapiro.test(DTangelica$RESHONGO)
##
## Shapiro-Wilk normality test
##
## data: DTangelica$RESHONGO
## W = 0.63525, p-value = 1.567e-06
shapiro.test(DTangelica$RESDMUERT)
##
## Shapiro-Wilk normality test
##
## data: DTangelica$RESDMUERT
## W = 0.95468, p-value = 0.3411
Como podemos ver, el test indica qeu la variable RESPCONT no posee distribución normal (p<0.05). En contraste, no conseguimos rechazar la hipótesis nula para los residuos de DVIVOS (P>0.05), de tal manera que este conjunto de datos fue extraído de una población con distribución normal. Así, se analizaron todos los datos.
Histograma superpuesto con una distribución normal con la misma media y sd que los datos. Consiste en representar los datos mediante un histograma y superponer la curva que describe una distribución normal con la misma media y sd que muestran los datos. Otra forma de analizar mejor es realizando un histograma con nuestros datos
dados <- data.frame(DTangelica$ResDVIVOS,DTangelica$ResDOXIDA,
DTangelica$RESPCONT, DTangelica$RESBACT,
DTangelica$RESHONGO, DTangelica$RESDMUERT)
library(ggplot2)
ggplot(dados,
aes(x=DTangelica$ResDVIVOS))+geom_histogram(bins =5,
colour="tomato",fill="white") + stat_function(fun = dnorm,
colour = "blue", args = list(mean = mean(DTangelica$ResDVIVOS),
sd = sd(DTangelica$ResDVIVOS)))
ggplot(dados,
aes(x=DTangelica$ResDOXIDA))+geom_histogram(bins =5,
colour="tomato",fill="white") + stat_function(fun = dnorm,
colour = "blue", args = list(mean = mean(DTangelica$ResDOXIDA),
sd = sd(DTangelica$ResDOXIDA)))
ggplot(dados,
aes(x=DTangelica$RESPCONT))+geom_histogram(bins =5,
colour="tomato",fill="white") + stat_function(fun = dnorm,
colour = "blue", args = list(mean = mean(DTangelica$RESPCONT),
sd = sd(DTangelica$RESPCONT)))
ggplot(dados,
aes(x=DTangelica$RESBACT))+geom_histogram(bins =5,
colour="tomato",fill="white") + stat_function(fun = dnorm,
colour = "blue", args = list(mean = mean(DTangelica$RESBACT),
sd = sd(DTangelica$RESBACT)))
ggplot(dados,
aes(x=DTangelica$RESHONGO))+geom_histogram(bins =5,
colour="tomato",fill="white") + stat_function(fun = dnorm,
colour = "blue", args = list(mean = mean(DTangelica$RESHONGO),
sd = sd(DTangelica$RESHONGO)))
ggplot(dados,
aes(x=DTangelica$RESDMUERT))+geom_histogram(bins =5,
colour="tomato",fill="white")+ stat_function(fun = dnorm,
colour = "blue", args = list(mean = mean(DTangelica$RESDMUERT),
sd = sd(DTangelica$RESDMUERT)))