1 Introducción al diseño de experimentos.

2 Elementos de inferencia estadística.

3 Pruebas paramétricas y procedimientos análogos no-paramétricos.

4 Supuestos T-test: Normalidad y homocedasticidad (equivalencia de las varianzas).

5 Cómo comprobar la homocedasticidad o equivalencia de las varianzas.

6 Comparar una muestra con un valor de referencia.

6.1 Test paramétrico de una sola muestra (datos siguen una distribución normal).

6.2 Test no-paramétrico de una sola muestra (datos NO siguen una distribución normal).

6.2.1 Introducción.

El test no-paramétrico es una alternativa al t-test de una sola muestra, cuando los datos no siguen una distribución normal. Se usa para determinar si la mediana de una muestra es igual a un valor dado.

Ejemplo 1
Supongamos que queremos comparar la productividad de una parcela con la parcela vecina, de la que sabemos que la media de producción es de 55 kg/árbol. La producción de nuestra parcela es un poco heterogénea y los datos que obtenemos tras muestrear los tenemos en el siguiente data frame.

Creamos nuestro Dataframe.

set.seed(0101) #Establecemos la semilla para que los datos aleatorios no varíen cada vez que se ejecuta el comando.
#Generamos un data frame con dos campos, uno con el que se identifique cada variedad y otro con las medias de las 20 muestras que se han tomado por variedad.

DatosFrutales <- data.frame(
        Muestra = paste0(rep("M_", 20), 1:20),
        Produccion = round(c(runif(n = 14, min = 20, max = 30), runif(6, 35, 55)),2)
)
str(DatosFrutales)

## 'data.frame':    20 obs. of  2 variables:
##  $ Muestra   : Factor w/ 20 levels "M_1","M_10","M_11",..: 1 12 14 15 16 17 18 19 20 2 ...
##  $ Produccion: num  23.7 20.4 27.1 26.6 22.5 ...

6.2.2 Comprobamos primero las premisas que deben cumplir los datos, antes de realizar el t-test.

6.2.2.1 Normalidad. Métodos visuales.

hist(DatosFrutales$Produccion)

plot(density(DatosFrutales$Produccion))

qqnorm(DatosFrutales$Produccion)
qqline(DatosFrutales$Produccion)

Se aprecia claramente que los datos no siguen una distribución normal.

6.2.2.2 Normalidad. Shapiro-Wilk’s test.

shapiro.test(DatosFrutales$Produccion)

## 
##  Shapiro-Wilk normality test
## 
## data:  DatosFrutales$Produccion
## W = 0.84196, p-value = 0.00392

Dado que el test de shapiro arroja un p-value < 0.05, rechazamos la hipótesis nula y aceptamos que los datos no se ajustan al modelo teórico de unos datos normales.

6.2.3 Wilcoxon test para una muestra (datos NO siguen una distribución normal).

Media.Referencia <- 55
W.test <- wilcox.test(DatosFrutales$Produccion, mu = Media.Referencia, conf.int = T) ; W.test

## 
##  Wilcoxon signed rank test
## 
## data:  DatosFrutales$Produccion
## V = 0, p-value = 1.907e-06
## alternative hypothesis: true location is not equal to 55
## 95 percent confidence interval:
##  25.520 35.275
## sample estimates:
## (pseudo)median 
##        29.0975

El p-value es menor que el nivel de significancia alfa = 0.05. Podemos rechazar la hipótesis nula y concluir que la producción mediana de la parcela muestreada (29.0975 kg/árbol) es significativamente diferente de la de la parcela de referencia (55 kg/árbol).

Podríamos comprobar si la producción mediana es significativamente menor de 55 kg/árbol (test de una cola), de la siguiente manera. La hipótesis nula sería, \(H_{0}:\mu \leq \mu_{0}\) y la hipótesis alternativa \(H_{A}: \mu > \mu_{0}\).

wilcox.test(DatosFrutales$Produccion, mu = Media.Referencia,
            alternative = "less")

## 
##  Wilcoxon signed rank test
## 
## data:  DatosFrutales$Produccion
## V = 0, p-value = 9.537e-07
## alternative hypothesis: true location is less than 55

De nuevo el p-value es menor que el nivel de significancia 0.05, rechazamos la \(H_{0}:\mu \leq \mu_{0}\) y aceptamos la hipótesis alternativa \(H_{A}: \mu > \mu_{0}\).

Estadística básica agronómica

Raúl Ortiz

22 de noviembre de 2017