U3A5

Manuel

3/7/2020

  • Importar bibliotecas y establecer folder de trabajo
setwd("~/Stat")
library(pacman)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc","readr", "knitr","DT","dplyr", "ggplot2")

Pruebas sobre dos muestras apareadas

El ejemplo de la sección anterior fue sobre dos muestras provenientes de dos grupos de distintos sujetos, pero en ciertas ocasiones se necesita trabajar sobre un mismo grupo de sujetos al cual se los observa de manera repetida, por ejemplo antes y después de la aplicación de un tratamiento, en este caso los sujetos son controles de ellos mismos.

La prueba de t es distinta para poder tener en cuenta que las observaciones son repetidas sobre el mismo grupo de sujetos. El primer paso es calcular la desviación estándar de las diferencia con la siguiente ecuación :

\[ \begin{equation}\label{eq:apar} s=\sqrt{\sum_{i=1}^{n}\frac{(d-\bar{d})^{2}}{n-1}} \end{equation} \]

Donde d1 es la diferencia entre dos mediciones consecutivas para cada sujeto; d¯ es la media de las diferencias; n es la cantidad de pares de observaciones. La ecuación muestra como calcular el estadístico t para el caso de muestras apareadas.

\[ \begin{equation}\label{eq:t} t=\frac{\bar{x}_{1}-\bar{x}_{2}}{\frac{s}{\sqrt{n}}} \end{equation} \]

donde x¯1 y x¯2, son las medias de cada par de observaciones. Los grados de libertad se calculan de la siguiente formula .

\[ \begin{equation}\label{eq:glt} gl= n-1 \end{equation}\]

  • Ejemplo

El siguiente cuadro muestra los datos de un experimento de comparación de los kilogramos de semillas de Pinus pseudostrobes obtenidos de 10 árboles en el año 2010 (antes) y en el año 2013 (después).

Kilogranos de semillas obtenidas en dos años diferentes (2010 y 2013) de la especie Pinus pseudostrobus

semillas <- read_csv("semilla.csv")
## Parsed with column specification:
## cols(
##   Kilogramos = col_double(),
##   tiempo = col_character()
## )
#xfun::embed_file("semilla.csv")
#xfun::embed_file("pruebas.rmd")

Datos del experimento:

El siguiente cuadro muestra los datos de un experimento de comparación de los kilogramos de semillas de Pinus pseudostrobes obtenidos de 10 árboles en el año 2010 (antes) y en el año 2013 (después).

#datatable(semillas)

La H0 de este ejemplo dice que la cantidad de kilogramos obtenida en el año 2010 es igual a la cantidad obtenida en el año 2013, en el caso contrario estamos hablando de la H1.

  • Pruebas de normalidad Se realiza primero un subconjunto de cada año
T2010 <- subset(semillas, tiempo == "T2010" )
T2013 <- subset(semillas, tiempo == "T2013" )

Asignación

Gráficos de caja y bigote para los subconjuntos 2010 y 2013

boxplot(semillas$Kilogramos  ~ semillas$tiempo, col = "pink"  )

Representación del comportamiento del peso en kilogramos mediante un boxplot

El peso(kilogramos) en semillas de Pinus en el año 2010 (T2010) es diferente con respecto al peso en el año 2013(T2013)

5 Números de Tukey

fivenum(T2010$Kilogramos)
## [1] 3.0 5.0 6.0 7.5 9.0
fivenum(T2013$Kilogramos)
## [1] 3.0 4.0 5.0 7.5 9.0

Histogramas

hist(T2010$Kilogramos)

hist(T2013$Kilogramos)

En estos histogramas se puede observar que en la temporada de 2010, se encuentran mas distribuidos los pesos, mientras que, en 2013 hay mas frecuencia de 3 a 4 kg que otras por frecuencia de 3 o más.

Caja y bigote comparando las desviaciones con gráfico de barra

op <- par(mfrow =c(1,2), cex.axis=.7, cex.lab=.9 )

boxplot(semillas$Kilogramos ~ semillas$tiempo, col="grey", main="A"  )
barplot(tapply(semillas$Kilogramos, list(semillas$tiempo), mean ), beside = T, main="B"  )  

Representación del comportamiento del peso (kilogramos) mediante un boxplot (A) y gráfico de barras con desviación estándar (B).

Pruebas de normalidad (las 2)

  • Prueba de normalidad de Shapiro-Wilk
shapiro.test(T2010$Kilogramos  )
## 
##  Shapiro-Wilk normality test
## 
## data:  T2010$Kilogramos
## W = 0.92998, p-value = 0.2436
shapiro.test(T2013$Kilogramos  )
## 
##  Shapiro-Wilk normality test
## 
## data:  T2013$Kilogramos
## W = 0.9158, p-value = 0.1444
  • Prueba de normalidad de Kolmogorov-Smirnov
ks.test(T2010$Kilogramos,"pnorm", mean=mean(T2010$Kilogramos), sd=sd(T2010$Kilogramos))
## Warning in ks.test(T2010$Kilogramos, "pnorm", mean = mean(T2010$Kilogramos), :
## ties should not be present for the Kolmogorov-Smirnov test
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  T2010$Kilogramos
## D = 0.16135, p-value = 0.7991
## alternative hypothesis: two-sided
ks.test(T2013$Kilogramos,"pnorm", mean=mean(T2013$Kilogramos), sd=sd(T2013$Kilogramos))
## Warning in ks.test(T2013$Kilogramos, "pnorm", mean = mean(T2013$Kilogramos), :
## ties should not be present for the Kolmogorov-Smirnov test
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  T2013$Kilogramos
## D = 0.17708, p-value = 0.6973
## alternative hypothesis: two-sided

Un valor de P≥ 0.05 en los tests de normalidad indican que no hay prueba suficiente para rechazar la normalidad de la variable.

Por lo tanto, se observa que el valor de P es mayor a 0.05, así que, no hay pruebas suficientes para rechazar la normalidad de la variable.

Prueba de F

var.test(T2010$Kilogramos, T2013$Kilogramos)
## 
##  F test to compare two variances
## 
## data:  T2010$Kilogramos and T2013$Kilogramos
## F = 0.96089, num df = 15, denom df = 15, p-value = 0.9394
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.3357312 2.7501671
## sample estimates:
## ratio of variances 
##          0.9608939

La prueba de F arroja para nuestras muestras T2010 Y T2013 un valor de P = 0.412, mayor al α establecido (0.05) para nuestro experimento, por lo tanto se acepta la H0 y ambas varianzas son iguales.

Prueba de t

Como se confirmo anteriormente, la normalidad de los datos y la homogeneidad de las varianzas son iguales, por lo tanto se puede aplicar una prueba de t de muestras independientes de acuerdo con la siguiente función t.test:

# var.equal = T, las varianzas son iguales u Homogéneas 
t.test( T2010$Kilogramos, T2013$Kilogramos, var.equal = T, )
## 
##  Two Sample t-test
## 
## data:  T2010$Kilogramos and T2013$Kilogramos
## t = 0.83205, df = 30, p-value = 0.412
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -0.8181596  1.9431596
## sample estimates:
## mean of x mean of y 
##    6.1250    5.5625

Los datos relevantes del obtenidos de la prueba de t son los siguientes: los grados de libertad (df)= 30; los grados de libertad se pueden comprobar con la formula . El parámetro que debemos revisar para comprobar si aceptamos o rechazamos la H0 es el valor de P, para esta prueba fue de 0.412 por lo cual al ser menor que α 0.5 rechazamos la H0 y aceptamos la H1, es decir, existen diferencias entre las semillas de 2010 y las semillas de 2013.