Primero cargamos las librerias que vamos a usar para esta actividad, para evitar el instalar varias librerias utilizaremos “pacman” que contiene varias y cargaremos las necesarias

#install.packages("pacman")
library(pacman)
## Warning: package 'pacman' was built under R version 3.6.3
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc","readr", "knitr","DT","dplyr", "ggplot2", "fdth")

Inferencia estadistica

La inferencia estadística es el conjunto de métodos que permiten inducir, a través de una muestra estadística, el comportamiento de una determinada población. La inferencia estadística, estudia entonces como, a través de la aplicación de dichos métodos sobre los datos de una muestra, se pueden extraer conclusiones sobre los parámetros de la población de datos. De la misma manera estudia también el grado de fiabilidad de los resultados extraídos del estudio.

  1. Inferencia: Inferir significa, literalmente, extraer juicios o conclusiones a partir de ciertos supuestos, sean estos generales o particulares.

  2. Población: Una población de datos, es el conjunto total de datos que existen sobre un variable.

  3. Muestra estadística: Una muestra es una parte de la población de datos.

Teniendo claro a lo que nos referimos con el concepto de inferir, una de las dudas fundamentales recae en el hecho de elegir una muestra en lugar de una población.

Normalmente, en estadística, se trabaja con muestras debido a la gran cantidad de datos que tiene una población. Por ejemplo, si queremos sacar conclusiones, esto es, inferir, los resultados de las elecciones generales, es imposible preguntar a toda la población del país. Para solventar ese problema se escoge una muestra variada y representativa. Gracias a la cual se puedan extraer una estimación del resultado final. Escoger una muestra adecuada corre a cargo de las distintas técnicas de muestreo.

Métodos de la inferencia estadística Los métodos y técnicas de la inferencia estadística se pueden dividir en dos: métodos de estimación de parámetros y métodos de contraste de hipótesis.

Si los valores estan lejos de la media esto quiere decir que son variables, lo que nos deja con la varianza para determinar si ocupamos muchas muestras o pocas muestras dependiendo si es alta o baja la variabilidad.

Muestreo

Usando el set de datos incluidos en R llamados “cars” estos son datos de velocidad y de distancia tomados a por los años 1920, haremos el ejercicio de muestreo

autos <- data.frame(cars)
dim(autos)
## [1] 50  2

Aqui podemos ver la extensión de los datos, 50 filas y solo 2 columnas

Tabla de datos

Crearemos una tabla dinámica para visualizar los datos

datatable(cars)

Muestreo simple aleatorio

Tomar una cantidad de datos al azar

  • Si queremos muestrear una n de 30

podemos poner una “semilla” para que los datos siempre sean el mismo resultado al azar en este caso no lo usaremos para simular la situación del uso de la población de datos. “replace” sirve para indicar si las muestras se repetitan o no

#set.seed(123) #numero semilla para obtener los mismos resultados
n <- 30
#replace sirve para indicar si las muestras se repetitan o no
#Datos al azar sin repetir
muestraAutos <- sample(1:nrow(autos), size = n, replace = FALSE)
#Para repetir datos
#muestramia <- sample(1:nrow(crime), size = n, replace = TRUE)

muestraAutos
##  [1] 31 26 29 33 47 25 18 38 49  9  4 24  5 11 50 39 22  7  3 15 19 43 23 28  8
## [26] 32 17 44 36 46
  • Asignar los elementos de la muestra al marco de datos
carsmuestraAutos <- autos[muestraAutos, ]
head(carsmuestraAutos)
##    speed dist
## 31    17   50
## 26    15   54
## 29    17   32
## 33    18   56
## 47    24   92
## 25    15   26

Ordenar los datos

sort(muestraAutos, decreasing = FALSE)
##  [1]  3  4  5  7  8  9 11 15 17 18 19 22 23 24 25 26 28 29 31 32 33 36 38 39 43
## [26] 44 46 47 49 50

Muestreo de datos con “dplyr”

Esta es una herramienta del “tidyverse”, agarramos la cantidad de n lineas (no olvidar que vale 20) con sample_n.

  • Muestreo aleatorio simple sin remplazo con dplyr
carsmuestraAutos2 <- autos %>% # Utilizamos pipe (%)
  sample_n(size = n, replace = FALSE)
head(carsmuestraAutos2)
##   speed dist
## 1    24  120
## 2    13   34
## 3    23   54
## 4    20   56
## 5    24   92
## 6    14   36
  • Muestreo aleatorio simple con remplazo con dplyr
carsmuestraAutos2 <- autos %>%
  sample_n(size=n, replace=TRUE)
head(carsmuestraAutos2)
##   speed dist
## 1    11   17
## 2    10   26
## 3    18   76
## 4    12   20
## 5    12   14
## 6    18   84

Muestreo Ponderado (con pesos)

Este moestreo toma los datos que tienen las especificaciónes dadas

  • Ponderación usando la frecuencia (Freq)

Tomamos valores de los datos de la población y los muestra según su frecuencia en este caso la distancia (dist)

carsmuestraAutos3 <- autos %>%   
  sample_n(size=n, weight = dist)
head(carsmuestraAutos3)
##   speed dist
## 1    14   60
## 2    18   76
## 3    25   85
## 4    10   34
## 5    20   48
## 6    24   70

Muestreo con ponderación usando la fracción

head hace que muetre los primeros 6 datos de manera aleatoria

carros <- data.frame(cars) #Marco de datos
n <- 50
autos <- sample(1:nrow(carros), size = n, replace = FALSE)
head(autos) #Head muestra los primeros 6 datos
## [1] 49 43 28  3 22 35
  • Para mostrear una fracción de 0.04 de la población usamos sample_frac
cars.pesos <- carros %>%
  sample_frac(0.04) #Este sirve para mostrar la fracción del valor otogado
head(cars.pesos); 
##   speed dist
## 1    10   34
## 2    12   28

Las dimenciones de la fracción

dim(cars.pesos)
## [1] 2 2

Muestreo estraficado

Para este muestreo usaremos datos estratificados de 3 especies de lirios iris de la base de datos “iris” de Edgar Anderson. Referencia: https://archive.ics.uci.edu/ml/datasets/iris

#echo=FALSE, results=FALSE}
#Para este muestreo usaremos datos estratificados de 3 especies de lirios iris de la base de datos "iris" de Edgar Anderson.
#Referencia: https://archive.ics.uci.edu/ml/datasets/iris
dim(iris)
## [1] 150   5
head(iris)
##   Sepal.Length Sepal.Width Petal.Length Petal.Width Species
## 1          5.1         3.5          1.4         0.2  setosa
## 2          4.9         3.0          1.4         0.2  setosa
## 3          4.7         3.2          1.3         0.2  setosa
## 4          4.6         3.1          1.5         0.2  setosa
## 5          5.0         3.6          1.4         0.2  setosa
## 6          5.4         3.9          1.7         0.4  setosa
  • Establecer las variables categóricas de los subconjuntos de velocidades para hacer un muestreo aleatorio dentro
levels(as.factor(iris$Species))
## [1] "setosa"     "versicolor" "virginica"
#levels(as.factor(cars$speed))
lirios <- iris
lirios$id <- 1:150
lirios[1:5, 4:6]
##   Petal.Width Species id
## 1         0.2  setosa  1
## 2         0.2  setosa  2
## 3         0.2  setosa  3
## 4         0.2  setosa  4
## 5         0.2  setosa  5
#velocidades <- cars
#velocidades$id <- 1:50
#velocidades[1:5, 1:2] #Muestra los valores de 1, 5 y de 4,6, de los datos mostrar los valores especificos
  • MAS (Muestreo aleatorio simple) sin remplazamiento
sample(lirios$id, size = 6, replace = FALSE)
## [1]  25  49 103  52  35  94
  • Muestreo estratificado

En este caso lo haremos contemplando estratos, osea sus especies

set.seed(1)
sample_iris <- iris %>% #pipe sirve para indicar que usamos dplyr
  group_by(Species) %>%
  sample_n(10) #agarra 10 de cada estrato 10 setosa, 10 versicolor y 10 virginica
#sample_iris

datatable(sample_iris)

Prueba de Hipotesis

Una tesis es algo que esta documentado y probado y una hipotesis es algo que tu crees pero no esta probado.

  • Para fines de reproducibilidad practica, se incluye una opción de descarga de los datos utilizados, los cuales son datos de un experimento realizado en la UANL, de plantas con y sin fertilizante.
xfun::embed_file("plantas.csv")

Download plantas.csv

  • Y tambien para descargar este codigo completo
xfun::embed_file("AI3UC1_4.rmd")

Download AI3UC1_4.rmd

Fromulación de hipotesis para pruebas de 1 y 2 muestras

Normalmente, para iniciar con la resolución de un problema se aplica el método científico. De acurdo con Risk (2003), éste es un proceso con el cual se investiga de forma sistemática las observaciones, se resuelven problemas y se prueban hipótesis. Como parte del método científico la propuesta de una hipótesis y luego su comprobación, son temas bien definidos, y a pesar de la incertidumbre asociada al problema es posible cuantificar el error de la conclusión planteada por la hipótesis.

Los pasos del método científico son:

  1. Plantear un problema a resolver.
  2. Colectar una serie de observaciones.
  3. Formular una o más hipótesis.
  4. Probar dichas hipótesis.
  5. Declarar las conclusiones.

La estadística nos puede ayudar en los pasos 2 (diseño y colecta de las observaciones) y 4 (prueba de hipótesis). Una hipótesis se puede definir de la siguiente manera: Una explicación tentativa que cuenta con un conjunto de hechos que pueden ser probados con una investigación posterior.

Caso de estudio para prueba de hipotesis: efectividad de fertilizante en plantas

Un problema a resolver podría ser la importancia del efecto de las fertilizaciones de plántulas producidas en viveros forestales; ya contamos con el paso 1 del método científico. Luego efectuamos observaciones en dos grupos de plántulas, uno control (Sin fertilización, llamados de aquí en adelante Control) y otro de plántulas fertilizadas con un complejo complejo N:P:K (denominados de aquí en adelante como Fertilizados). El tamaño de dichas muestras se basa en estudios similares ya publicados como por ejemplo Fraysse and Crémière (1998) y también es valido de acuerdo con la experiencia del investigador.

Uno de los indicadores más comunes que miden el efecto de la fertilización de una plántula es el Índice de esbeltez (IE). Dicho índice relaciona la altura y el diámetro del tallo y se define con la siguiente ecuación (Olivo and Buduba 2006)

\[ \begin{equation}\label{eq:IE} IE = \frac{\varnothing_{tallo}}{(h_{tallo}/10)+2} \end{equation} \]

El índice de Esbeltez (IE) alcanza valores máximos de 1.2 lo que indica que la plántulas tienen mayor probabilidad de éxito al llevarse a campo. Valores cercanos a 1 indica que la planta tendrá menos problemas en el establecimiento y valores por abajo de 0.5 son plántulas de mala calidad (Olivo and Buduba 2006).

  1. Plantear un problema a resolver. (Sirve el fertilizante)
  2. Colectar una serie de observaciones. (21 fertilizadas, 21 solo con agua)
  3. Formular una o más hipótesis. (H0: El fertilizante sirve, H1: El fertilizante no afecta)
  4. Probar dichas hipótesis. (Usar formula del indice de esbeltez)
  5. Declarar las conclusiones.
  • Importar datos
plantas <- read_csv("plantas.csv")
## 
## -- Column specification --------------------------------------------------------
## cols(
##   planta = col_double(),
##   IE = col_double(),
##   Tratamiento = col_character()
## )
datatable(plantas)

Mediante la observación del cuadro y utilizando métodos de estadística descriptiva y representación gráfica (Fig. ), podríamos aventurarnos a decir que el IE en el tratamiento fertilizadas es más alto con respecto al grupo Control, a este punto es seguro plantear que el IE es distinto en lugar de mayor, aquí es donde formulamos la hipótesis:

Estimación de parámetros descriptivos

  • Para describir la diferencia entre los datos usaremos una gráfica de caja y bigote

El Indice de Esbeltez es lo que indica que tan saludables son y que tanta es la diferencia entre las que llevan fertilizante y las que no lo llevan.

# Indice de Esbeltez es lo que indica que tan saludables son y que tan gorditas
boxplot(plantas$IE ~ plantas$Tratamiento, col = "pink" , xlab = "Tratamiento", ylab = "Indice de Esbeltez")

Representación del comportamiento del IE mediante un boxplot

El Índice de Esbeltez (IE) en plántulas con fertilizante (Fert) es diferente con respecto a las plántulas del tratamiento (Ctrl).

La formulación de una hipótesis en el método científico se inicia definiendo la hipótesis nula (H0) y la hipótesis alternativa (H1) ; generalmente la H0 establece que no hay diferencias entre los grupos a compararse, en este caso Ctrl y el grupo Fert.

La hipótesis alternativa (H1) por otra parte, se indica como el complemento de la H0, por lo tanto H1 establecerá que si existen diferencias significativas entre los grupos en estudio (Zar 2010; A. Field, Miles, and Field 2012). Por lo tanto mediante procedimientos estadísticos que veremos en esta clase, se tratará rechazar nuestra hipótesis H0.

H0: IE Ctrl = IE Fert; H1= IE Ctrl ≠ IE Fert

Normalmente cuando se toma la decisión final sobre la hipótesis nula, surgen situaciones que nos pueden llegar a cometer diferentes errores. Así, una vez realizadas las técnicas para probar esta hipótesis, puede que lleguemos a la conclusión de que el enunciado de nuestra H0 no se rechace (acepta) o bien que sea falso y se rechace la H0. En esta situación puede que hayamos rechazado la H0 cuando en realidad era cierta, o que la evidencia colectada para nuestro análisis no haya sido suficiente para rechazarla siendo falsa (Risk 2003). Estas diferentes situaciones plantean la existencia de diferentes tipos de errores (Köhler, Schachtel, and Voleske 2007) que se muestran a continuación:

Situaciones y conclusiones posibles en la prueba de hipótesis.

Error tipo I y error tipo II

Ninguna prueba de hipótesis es 100% cierta. Puesto que la prueba se basa en probabilidades, siempre existe la posibilidad de llegar a una conclusión incorrecta. Cuando usted realiza una prueba de hipótesis, puede cometer dos tipos de error: tipo I y tipo II. Los riesgos de estos dos errores están inversamente relacionados y se determinan según el nivel de significancia y la potencia de la prueba. Por lo tanto, usted debe determinar qué error tiene consecuencias más graves para su situación antes de definir los riesgos.

  • Error de tipo I Si usted rechaza la hipótesis nula cuando es verdadera, comete un error de tipo I. La probabilidad de cometer un error de tipo I es α, que es el nivel de significancia que usted establece para su prueba de hipótesis. Un α de 0.05 indica que usted está dispuesto a aceptar una probabilidad de 5% de estar equivocado al rechazar la hipótesis nula. Para reducir este riesgo, debe utilizar un valor menor para α. Sin embargo, usar un valor menor para alfa significa que usted tendrá menos probabilidad de detectar una diferencia si esta realmente existe.

  • Error de tipo II Cuando la hipótesis nula es falsa y usted no la rechaza, comete un error de tipo II. La probabilidad de cometer un error de tipo II es β, que depende de la potencia de la prueba. Puede reducir el riesgo de cometer un error de tipo II al asegurarse de que la prueba tenga suficiente potencia. Para ello, asegúrese de que el tamaño de la muestra sea lo suficientemente grande como para detectar una diferencia práctica cuando esta realmente exista.

La probabilidad de rechazar la hipótesis nula cuando es falsa es igual a 1–β. Este valor es la potencia de la prueba.

Pruebas de normalidad (para una muestra)

¿Cómo sabemos si las diferencias son realmente representativas?:

Antes de iniciar con el análisis y probar una hipótesis se debe determinar la distribución de las variables consideradas en la muestra. La importancia de verificar la normalidad de las muestras en un estudio es fundamental en estadística porque si las muestras son normales se pueden aplicar métodos estadísticos parámetricos, en el caso contrario se deben o bien transformar los datos o bien utilizar métodos no parámetricos (Risk 2003). El paso inicial entonces, es determinar si las variables en estudio pueden ser representadas por una distribución normal. Es decir, si las variables medidas en la muestra pueden ser descritas con parámetros de tendencia central y dispersión alrededor de dichos parámetros.

Ctrl <- subset(plantas, Tratamiento == "Ctrl")
Fert <- subset(plantas, Tratamiento == "Fert")

EDA (Exploratory Data Analysis)

  • Plantas controladas
datatable(Ctrl)
  • Plantas con fertilizantes
datatable(Fert)
tablaCtrl=fdt(Ctrl)
tablaFert=fdt(Fert)
  • Datos de las plantas controladas
tablaCtrl
## planta 
##   Class limits f   rf rf(%) cf  cf(%)
##    [0.99,4.36) 4 0.19 19.05  4  19.05
##    [4.36,7.73) 3 0.14 14.29  7  33.33
##    [7.73,11.1) 4 0.19 19.05 11  52.38
##   [11.1,14.47) 3 0.14 14.29 14  66.67
##  [14.47,17.84) 3 0.14 14.29 17  80.95
##  [17.84,21.21) 4 0.19 19.05 21 100.00
## 
## IE 
##     Class limits f   rf rf(%) cf  cf(%)
##  [0.5445,0.6137) 1 0.05  4.76  1   4.76
##  [0.6137,0.6828) 4 0.19 19.05  5  23.81
##   [0.6828,0.752) 4 0.19 19.05  9  42.86
##   [0.752,0.8212) 6 0.29 28.57 15  71.43
##  [0.8212,0.8903) 1 0.05  4.76 16  76.19
##  [0.8903,0.9595) 5 0.24 23.81 21 100.00
  • Datos de las plantas con fertilizantes
tablaFert
## planta 
##   Class limits f   rf rf(%) cf  cf(%)
##  [21.78,25.22) 4 0.19 19.05  4  19.05
##  [25.22,28.66) 3 0.14 14.29  7  33.33
##   [28.66,32.1) 4 0.19 19.05 11  52.38
##   [32.1,35.54) 3 0.14 14.29 14  66.67
##  [35.54,38.98) 3 0.14 14.29 17  80.95
##  [38.98,42.42) 4 0.19 19.05 21 100.00
## 
## IE 
##     Class limits f   rf rf(%) cf  cf(%)
##  [0.5544,0.6573) 2 0.10  9.52  2   9.52
##  [0.6573,0.7601) 3 0.14 14.29  5  23.81
##   [0.7601,0.863) 2 0.10  9.52  7  33.33
##   [0.863,0.9659) 6 0.29 28.57 13  61.90
##   [0.9659,1.069) 3 0.14 14.29 16  76.19
##    [1.069,1.172) 5 0.24 23.81 21 100.00
  • Histograma de frecuencia absoluta
#Histograma de frecuencia absoluta
plot(tablaCtrl, type = "fh", main = "Plantas controladas")

plot(tablaFert,type = "fh", main = "Plantas con fertilizantes") 

* Poligono de frecuencia absoluta

#Poligono de frecuencia absoluta
plot(tablaCtrl,type = "fp", main = "Plantas controladas") 

plot(tablaFert,type = "fp", main = "Plantas con fertilizantes")

  • Histograma de frecuencia relativa
#Histograma de frecuencia relativa
plot(tablaCtrl,type = "rfh", main = "Plantas controladas") 

plot(tablaFert,type = "rfh", main = "Plantas con fertilizantes") 

  • Poligono de frecuencia relativa
plot(tablaCtrl,type = "rfp", main = "Plantas controladas") 

plot(tablaFert,type = "rfp", main = "Plantas con fertilizantes")

  • Histograma de frecuencia acumulada
#Histograma de frecuencia acumulada
plot(tablaCtrl,type = "cfh", main = "Plantas controladas") 

plot(tablaFert,type = "cfh", main = "Plantas con fertilizantes") 

  • Poligono de frecuencia acumulada
#Poligono de frecuencia acumulada
plot(tablaCtrl,type = "cfp", main = "Plantas controladas") 

plot(tablaFert,type = "cfp", main = "Plantas con fertilizantes") 

Cnclusión

En fertilizante como se observa en los diferentes gráficos analizados, muestra que hay una gran diferencia en los que si se lleva a una comparativa del crecimiento de las plantas con y sin uso de fertilizante, lo que estos datos nos dicen es que usar fertilizantes en las platas en mas rentable puesto a que eleva de forma considerable su indice de esbeltez.

Construcción de histogramas para conocer la frecuencia de distribución de los datos

  • Histograma de frecuencias absolutas según Suturges
hist(Ctrl$IE, main = "Plantas Controladas", xlab = "IE")

hist(Fert$IE, main = "Plantas Fertilizadas", xlab = "IE")

  • Analicis cuantilicio
summary(Ctrl$IE)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.5500  0.7000  0.7700  0.7676  0.8700  0.9500
summary(Fert$IE)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.5600  0.7800  0.9100  0.9067  1.0400  1.1600
  • Derivación estandar de frecuencia
sd(Fert$IE)
## [1] 0.1799537
sd(Ctrl$IE)
## [1] 0.1153215

De acuerdo a los datos analizados podemos ver que los datos no son normales en el caso de las plantas controladas ya que estas tienen a acumularse en los primeros 2 cuantiles

Pruebas de normalidad

Las pruebas de normalidad más formales son las pruebas de Shapiro-Wilk y de Kolmogorov-Smirnov (Dalgaard 2008; Zar 2010). En las pruebas de normalidad se busca aceptar la H0 dado que la mayoría de los métodos estadísticos es necesaria la suposición de la distribución normal de la variable de interés. Púes siendo así es posible conocer los parámetros que describen por completo (la media, su desviación estándar). Un valor de P≥ 0.05 en los tests de normalidad indican que no hay prueba suficiente para rechazar la normalidad de la variable.

Valor de significancia: P>0.05

Prueba de normalidad de Shapiro-Wilk

La prueba de Shapiro-Wilk examina si una variable se distribuye normalmente en alguna población. Así, el Shapiro-Wilk tiene exactamente el mismo propósito que el test de Kolmogorov-Smirnov. Algunos estadísticos afirman que este último es peor debido a su menor poder estadístico. Otros no están de acuerdo.

La prueba de Shapiro-Wilk primero cuantifica la similitud entre las distribuciones observada y normal como un solo número: superpone una curva normal sobre la distribución observada como se muestra a continuación. Luego calcula qué porcentaje de nuestra muestra se superpone con él: un porcentaje de similitud.

Sobre la validez de una conjetura o hip+otesis sobre una población (X); típicamente, el valor de un parámetro de la población (θ) (θ puede ser uno cualquiera de los parámetros que hemos considerado hastaahora: µ, p, σ2, etc). Esta hipótesis a confrontar se conoce como la hipóthesis nula (H0)

El test de Shapiro-Wilks plantea la hipótesis nula que una muestra proviene de una distribución normal. Eligimos un nivel de significanza, por ejemplo 0.05, y tenemos una hipótesis alternativa que sostiene que la distribución no es normal.

Tenemos:

H0 : La distribución es normal

H1 : La distribución no es normal,

o más formalmente aún:

\[H0:X∼N(μ,σ2)\]

\[H1:X≁N(μ,σ2)\]

Ahora el test Shapiro-Wilks intenta rechazar la hipotesis nula a nuestro nivel de significanza. Para realizar el test usamos la función shapiro.test en R:

shapiro.test(Ctrl$IE)
## 
##  Shapiro-Wilk normality test
## 
## data:  Ctrl$IE
## W = 0.9532, p-value = 0.3908
shapiro.test(Fert$IE)
## 
##  Shapiro-Wilk normality test
## 
## data:  Fert$IE
## W = 0.95339, p-value = 0.3941

Toma de decisión: Sig(p valor) > alfa: No rechazar H0 (normal). Sig(p valor) < alfa: Rechazar H0 (no normal)

Donde alfa representa la significancia, que en este ejemplo hipotético es igual al 5% (0,05). En estos casos el valor de p-value son normales a duras penas con 0.3

Prueba de normalidad de Kolmogorov-Smirnov

El estadístico de Kolmogorov-Smirnov cuantifica una distancia entre la función de distribución empírica de la muestra y la función de distribución acumulada de la distribución de referencia, o entre las funciones de distribución empírica de dos muestras. La distribución nula de este estadístico se calcula bajo la hipótesis nula de que la muestra se extrae de la distribución de referencia (en el caso de una muestra) o que las muestras se extraen de la misma distribución (en el caso de dos muestras). En el caso de una muestra, la distribución considerada bajo la hipótesis nula puede ser continua, puramente discreta o mixta. En el caso de dos muestras, la distribución considerada bajo la hipótesis nula es una distribución continua, pero por lo demás no tiene restricciones. Sin embargo, la prueba de dos muestras también se puede realizar en condiciones más generales que permitan la discontinuidad, heterogeneidad y dependencia entre muestras.

Cuando la prueba Kolmogorov-Smirnov kolmogorov se aplica para contrastar la hipótesis de normalidad de la población, el estadístico de prueba es la máxima diferencia:

\[ D = máx|Fn(x)-F0(x)| \]

donde: • xi es el i-ésimo valor observado en la muestra (cuyos valores se han ordenado previamente de menor a mayor). • ˆ ( ) F x n i es un estimador de la probabilidad de observar valores menores o iguales que xi. • 0 F x( ) es la probabilidad de observar valores menores o iguales que xi cuando H0 es cierta.

siendo Fn(x) la función de distribución muestral y Fo(x) la función teórica o correspondiente a la población normal especificada en la hipótesis nula.

La distribución del estadístico de Kolmogorov-Smirnov es independiente de la distribución poblacional especificada en la hipótesis nula y los valores críticos de este estadístico están tabulados. Si la distribución postulada es la normal y se estiman sus parámetros, los valores críticos se obtienen aplicando la corrección de significación propuesta por Lilliefors.

#pnorm es normalidad
ks.test(Ctrl$IE, "pnorm", mean = mean(Ctrl$IE), sd = sd(Ctrl$IE))
## Warning in ks.test(Ctrl$IE, "pnorm", mean = mean(Ctrl$IE), sd = sd(Ctrl$IE)):
## ties should not be present for the Kolmogorov-Smirnov test
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  Ctrl$IE
## D = 0.11991, p-value = 0.9233
## alternative hypothesis: two-sided
ks.test(Fert$IE, "pnorm", mean = mean(Fert$IE), sd = sd(Ctrl$IE))
## Warning in ks.test(Fert$IE, "pnorm", mean = mean(Fert$IE), sd = sd(Ctrl$IE)):
## ties should not be present for the Kolmogorov-Smirnov test
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  Fert$IE
## D = 0.20953, p-value = 0.3151
## alternative hypothesis: two-sided

Toma de decisión: Si D≤Dα ⇒ Aceptar H0 Si D>Dα ⇒ Rechazar H0

No hay suficientes datos para que se haga un analicis exacto, aun así nos da los datos mostrando que son muy heterogeneos y nos dice en alternative hypotesis: es que los datos estan extremos estan bajos y estan demasiado parecidos

Referencias

La población y una muestra

Para este ejemplo vamos a considerar al grupo 1 Ctrl los valores para las plántulas de un vivero forestal y las del grupo 2 Fert una muestra de la población. Para este caso existe una prueba estadística que permite comparar la media de la muestra con la media poblacional. Una de las principales pruebas más robustas es la basada en la distribución normal, para la misma se debe calcular el estadistico z con la siguiente ecuación

\[ \begin{equation}\label{eq:normal} z=\frac{\bar{x} - \mu_0 }{ \sigma/\sqrt{n}} \end{equation}\]

Donde x¯ es la media de la muestra, μ0 es la media de la población y σ es la desviación estándar de la población y n es el tamaño de la muestra.

Para los datos del grupo Ctrl (muestra) y comparándolos con la muestra Fert (población) con μ = 0.91, σ = 0.18 y un valor de z = -3.54.

El cuadro 3 muestra los valores críticos de la distribución normal para distintos niveles de significancia (α). Como la H0 dice que la muestra es igual a la población , utilizamos la columna de dos colas; el valor de z obtenido es -3.54, el valor de P esta entre 0.0005 y 0.00005, por lo cual al ser P < 0.05 rechazamos la H0 y concluimos diciendo que la media de la muestra es distinta a la de la población.

valores críticos para una distribución normal estándar (media =0, desviación estándar = 1)

Valores Criticos

Pruebas sobre dos muestras independientes

Para esta prueba vamos a considerar que las plántulas del grupo Ctrly Fert corresponden ambos a muestras de una población. El test implicado intentará probar si ambas medias no difieren (H0) lo que implica que ambas muestras provienen de la misma población y caso contrario si difieren (H1).

La prueba de t es la prueba paramétrica más utilizada; la misma esta basada en el cálculo del estadístico t y de los grados de libertad (gl), con estos dos resultados y utilizando una tabla o bien un cálculo de la distribución t se puede determinar el valor de P.

Para poder utilizar una prueba de t de student se tiene que cumplir tres supuestos: a) Que se ajuste a una distribución normal, b) La independencia de los datos y c) La homogeneidad de varianzas, considerando este como el más importante. La ecuación

La ecuación muestra como calcular el estadístico t:

\[ \begin{equation}\label{eq:t_test} t= \frac{\bar{x}_{1}- \bar{x}_{2}}{\sqrt{\frac{s_1^{2}}{n_1}+ \frac{s_2^{2}}{n_2}}} \end{equation}\]

donde x¯1 y x¯2 son las medias de cada muestra (grupos); \(s_1^{2}\) y\(s_2^{2}\) son las varianzas de las muestras; n1 y n2 son los tamaños de las muestras.

Los grados de libertad se pueden calcular con la siguiente ecuación

\[\begin{equation}\label{eq:t_test2} gl= \frac {\left( \frac{s_1^{2}}{n_1}+ \frac{s_2^{2}}{n_2} \right )^{2}}{ \frac{s_1^{2}}{n_1-1}+\frac{s_2^{2}}{n_2-1}} \end{equation}\]

  • Números de Tukey
fivenum(Fert$IE)
## [1] 0.56 0.78 0.91 1.04 1.16

De acuerdo con el ejercicio de auto-aprendizaje se encargo verificar si la muestra Fert proviene de una distribución normal. Para continuar con el ejercicio y como forma de control de la actividad, los resultados de la muestra Fert son los siguientes: Grupo Fert μ = 0.91; σ = 0.12; Cinco números de Tukey (fivenum) = 0.56, 0.78, 0.91, 1.04, 1.16; La prueba de Shapiro-Wilk: P = 0.39 y la prueba de Kolmogorov-Smirnov: P =0.97; la normalidad de las muestras fueron verificadas con las dos pruebas. La figura muestra gráficamente los datos de ambas muestras ctrly Fert.

op <- par(mfrow =c(1,2), cex.axis=.7, cex.lab=.9 )

boxplot(plantas$IE ~ plantas$Tratamiento, col="grey", main="A"  )
barplot(tapply(plantas$IE, list(plantas$Tratamiento), mean ), beside = T, main="B")

Representación del comportamiento del IE mediante un boxplot (A) y gráfico de barras con desviación estándar (B).

Prueba de Normalidad de varianzas

  • También se le conoce como prueba F

Para comprobar la homogeneidad de las varianzas se emplea la prueba de varianzas, en R se utiliza la función var.test. En esta prueba se busca que se acepte la H0 que implica que las varianzas de ambas muestras son iguales. Para este ejemplo tenemos los siguientes resultados

var.test(Ctrl$IE, Fert$IE)
## 
##  F test to compare two variances
## 
## data:  Ctrl$IE and Fert$IE
## F = 0.41068, num df = 20, denom df = 20, p-value = 0.05304
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.1666376 1.0121038
## sample estimates:
## ratio of variances 
##          0.4106757

La prueba de F arroja para nuestras muestras Ctrl y Fert un valor de P = 0.053, mayor al α establecido (0.05) para nuestro experimento, por lo tanto se acepta la H0 y ambas varianzas son iguales.

Prueba de T student

Como se confirmo anteriormente, la normalidad de los datos y la homogeneidad de las varianzas son iguales, por lo tanto se puede aplicar una prueba de t de muestras independientes de acuerdo con la siguiente función t.test:

# var.equal = T, las varianzas son iguales u Homogéneas 
t.test( Ctrl$IE, Fert$IE, var.equal = T, )
## 
##  Two Sample t-test
## 
## data:  Ctrl$IE and Fert$IE
## t = -2.9813, df = 40, p-value = 0.004868
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -0.23331192 -0.04478332
## sample estimates:
## mean of x mean of y 
## 0.7676190 0.9066667

Los datos relevantes del obtenidos de la prueba de t son los siguientes: los grados de libertad (df)= 40; los grados de libertad se pueden comprobar con la formula . El parámetro que debemos revisar para comprobar si aceptamos o rechazamos la H0 es el valor de P, para esta prueba fue de 0.0049 por lo cual al ser menor que α 0.5 rechazamos la H0 y aceptamos la H1, es decir, existen diferencias entre las plántulas Ctrl y las plántulas que fueron fertilizadas Fert.

Para el caso que las varianzas no sean iguales, R tiene una ajuste para la fórmula anterior: Para este ejemplo el ajuste se puede notar en los grados de libertad 34.056 y el valor de P obtenido = 0.00527.

t.test(Ctrl$IE, Fert$IE  )
## 
##  Welch Two Sample t-test
## 
## data:  Ctrl$IE and Fert$IE
## t = -2.9813, df = 34.056, p-value = 0.00527
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -0.23382707 -0.04426816
## sample estimates:
## mean of x mean of y 
## 0.7676190 0.9066667

De acuerdo con el valor de P obtenido es menor que 0.05, aceptamos la H1 es decir aún existen diferencias significativas entre ambos grupos Ctrl y Fert.

La asignacion individual 7 es: https://youtu.be/NE8aSXUxIDU