UNIDAD 3: INFERENCIAS ESTADÍSTICAS

setwd("~/Documents/pye1pm")
library(pacman)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc","readr", "knitr","DT","dplyr", "ggplot2")

Pruebas de hipótesis

Nuestro conocimiento solo puede ser finito, mientras que nuestra ignorancia debe ser necesariamente infinita. ~Karl Popper

Reductio ad absurdum

Reductio ad absurdum, expresión latina que significa literalmente ‘reducción al absurdo’, es uno de los métodos lógicos de demostración más usado en matemáticas para demostrar la validez (o invalidez) de proposiciones categóricas.

Se parte por suponer como hipotética la veracidad o falsedad de la tesis de la proposición a demostrar y, mediante una concatenación de inferencias lógicas válidas, se pretende llegar a una contradicción lógica, un absurdo. De llegar a una contradicción, se concluye que la hipótesis de partida (que se había supuesto verdadera al principio) ha de ser falsa (o viceversa).

Para demostrar la invalidez de una proposición, se supone como punto de partida que la proposición es cierta. Si la derivación final es una contradicción, se concluye que la proposición original es falsa y el argumento es inválido.

A este método también se le conoce como prueba por contradicción o prueba ad absurdum. Parte de la base es el cumplimiento del principio de exclusión de intermedios: una proposición que no puede ser falsa es necesariamente verdadera, y una proposición que no puede ser verdadera es necesariamente falsa.

Inferencia estadística

La inferencia estadística es el conjunto de métodos que permiten inducir, a través de una muestra estadística, el comportamiento de una determinada población. La inferencia estadística, estudia entonces como, a través de la aplicación de dichos métodos sobre los datos de una muestra, se pueden extraer conclusiones sobre los parámetros de la población de datos. De la misma manera estudia también el grado de fiabilidad de los resultados extraídos del estudio.

Para entender el concepto es importante entender tres conceptos:

  1. Inferencia: Inferir significa, literalmente, extraer juicios o conclusiones a partir de ciertos supuestos, sean estos generales o particulares.

  2. Población: Una población de datos, es el conjunto total de datos que existen sobre un variable.

  3. Muestra estadística: Una muestra es una parte de la población de datos.

Teniendo claro a lo que nos referimos con el concepto de inferir, una de las dudas fundamentales recae en el hecho de elegir una muestra en lugar de una población.

  • Métodos de la inferencia estadística Los métodos y técnicas de la inferencia estadística se pueden dividir en dos: métodos de estimación de parámetros y métodos de contraste de hipótesis.

  • Métodos de estimación de parámetros: Se encarga de asignar un valor al parámetro o al conjunto de parámetros que caracterizan el campo sujeto a estudio. Claro que al ser una estimación existe cierto error. Para obtener estimaciones adaptadas a esa realidad, se crean intervalos de confianza.

  • Métodos de contraste de hipótesis: Su objetivo es comprobar si una estimación corresponde con los valores poblacionales. En todo contraste de hipótesis existen dos supuestos. La hipótesis nula (H0) que recoge la idea de que un valor tiene un valor predeterminado. Si se rechaza la hipótesis nula (H0), entonces se acepta la hipótesis alternativa (H1).

Muestreo

Normalmente, en estadística, se trabaja con muestras debido a la gran cantidad de datos que tiene una población. Por ejemplo, si queremos sacar conclusiones, esto es, inferir, los resultados de las elecciones generales, es imposible preguntar a toda la población del país. Para solventar ese problema se escoge una muestra variada y representativa. Gracias a la cual se puedan extraer una estimación del resultado final. Escoger una muestra adecuada corre a cargo de las distintas técnicas de muestreo.

En la referencia estadística se conoce como muestreo a la técnica para la selección de una muestra a partir de una población estadística.

Al elegir una muestra aleatoria se espera conseguir que sus propiedades sean extrapolables a la población. Este proceso permite ahorrar recursos, y a la vez obtener resultados parecidos a los que se alcanzarían si se realizase un estudio de toda la población. En las investigaciones llevadas por empresarios y de la medicina se usa muestreo extensivamente en recoger información sobre poblaciones.

Muestreo aleatorio simple

Utilizando la base de datos “crimtab” que son datos de crimenes de UK.

crime <- data.frame(crimtab)
dim(crime)
## [1] 924   3
  • Visualización de los datos de forma interactiva
datatable(crime)
  • Se determina una muestra de 30 (n) para la población
set.seed(123)
n <- 30
muestramia <- sample(1:nrow(crime), size=n, replace=FALSE )
muestramia
##  [1] 415 463 179 526 195 818 118 299 229 244  14 374 665 602 603 768 709  91 348
## [20] 649 355 840  26 519 426 905 766 211 590 593
  • Asignar los elementos de la muestra al marco de datos
crimemuestramia <- crime[muestramia, ]
datatable(crimemuestramia)
  • Ahora haremos lo mismo (muestrear una n de 30 usando dplyr) del conjunto de herramientas “tidyverse”

  • Muestreo aleatorio simple sin reemplazo con dplyr

crimemuestramia2a <- crime %>% #Este simbolo se llama pipe 
  sample_n(size=n, replace=FALSE)
datatable(crimemuestramia2a)
  • Muestreo aleatorio simple con reemplazo con dplyr (repite los datos)
crimemuestramia2b <- crime %>% #Este simbolo se llama pipe 
  sample_n(size=n, replace=TRUE)
head(crimemuestramia2b)
##   Var1   Var2 Freq
## 1  9.4 170.18    0
## 2 13.4 142.24    0
## 3 10.4 167.64    0
## 4  9.9 147.32    1
## 5 11.5 160.02   17
## 6 10.6 154.94    5

Muestro ponderado (con pesos )

  • Queremos que los datos que mayor probabilidad tengan de ser elegidos al azar sean aquellos que tengan una freq más alta
crimemuestramia3 <- crime %>% #Este simbolo se llama pipe 
  sample_n(size=n, weight=Freq)
head(crimemuestramia3)
##   Var1   Var2 Freq
## 1 11.1  165.1   26
## 2 11.3 154.94    5
## 3   12 160.02    4
## 4 11.9 172.72   19
## 5 10.9 162.56   27
## 6 11.6  165.1   39

Muestreo con poderación usando la fracción

crimenes <-data.frame(crimtab)
n <-50
crime <- sample(1:nrow(crimenes), size=n, replace=FALSE)
head(crime)
## [1] 362 236 610 330 726 127
  • Ahora si queremos muestrear por ejemplo una fracción de la población que corresponda al 0.04 de la población, procedemos de la siguiente manera:
crime.pesos <- crimenes %>%
  sample_frac(0.04)
head(crime.pesos); dim(crime.pesos)
##   Var1   Var2 Freq
## 1 12.1  152.4    0
## 2 10.6 187.96    0
## 3 10.1 182.88    0
## 4 12.7 157.48    0
## 5 11.1  177.8    0
## 6 13.1 170.18    1
## [1] 37  3

Muestreo estratificado

Para esto usaremos una base de datos llamada “iris”, estos datos tienen su fuente original aquí: https://archive.ics.uci.edu/ml/datasets/iris

  • conociendo las dimensiones del conjunto de datos “iris”
dim(iris)
## [1] 150   5
  • Tabla con los datos de iris
datatable(iris)
  • Conociendo la estructura de los datos
str(iris)
## 'data.frame':    150 obs. of  5 variables:
##  $ Sepal.Length: num  5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
##  $ Sepal.Width : num  3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
##  $ Petal.Length: num  1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
##  $ Petal.Width : num  0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
##  $ Species     : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...
  • Ahora vamos a convertir esto para poder realizar muestreos dentrod e las categorías, en el caso de estos datos tenemos 3 especies de flores (y cada una de las especies tiene 50 muestras): setosa, versicolor, virginica
levels(as.factor(iris$Species))
## [1] "setosa"     "versicolor" "virginica"
  • Ahora, construiremos un nuevo conjunto de datos llamado “lirios” que incluirá una nueva columna llamada “id” esta columna va a enumerar los lirios del 1 a 150
lirios <- iris 
lirios$id <- 1:150 
lirios[1:5, 4:6]
##   Petal.Width Species id
## 1         0.2  setosa  1
## 2         0.2  setosa  2
## 3         0.2  setosa  3
## 4         0.2  setosa  4
## 5         0.2  setosa  5
  • Muestreo Aleatorio Simple(MAS) sin reemplazamiento
#set.seed(123)
sample(lirios$id, size=6, replace=FALSE)
## [1]  36 142  16 125  33  40
  • En este caso solamente muestreamos 6 flores de lirio de un total de 150 sin darle posibilidad de repetirse (es decir, cada flor puede ser seleccionada una sola vez)

  • Ahora, si lo que queremos es que por ejemplo muestree 10 flores por especie (estrato), se haría de esta forma:

set.seed(1)
sample_iris <- iris %>%
  group_by(Species) %>%
  sample_n(10)
sample_iris
## # A tibble: 30 x 5
## # Groups:   Species [3]
##    Sepal.Length Sepal.Width Petal.Length Petal.Width Species
##           <dbl>       <dbl>        <dbl>       <dbl> <fct>  
##  1          4.6         3.1          1.5         0.2 setosa 
##  2          4.4         3            1.3         0.2 setosa 
##  3          5.1         3.5          1.4         0.2 setosa 
##  4          5.5         4.2          1.4         0.2 setosa 
##  5          4.6         3.6          1           0.2 setosa 
##  6          4.4         3.2          1.3         0.2 setosa 
##  7          4.3         3            1.1         0.1 setosa 
##  8          5.1         3.5          1.4         0.3 setosa 
##  9          5.2         4.1          1.5         0.1 setosa 
## 10          5.4         3.4          1.7         0.2 setosa 
## # … with 20 more rows

Prueba de hipótesis

  • Para esto usaremos este conjunto de datos, el cual tiene el índice de esbeltez de plántulas (plantas en una etapa temprana) de invernadero de una UANL, el cual podemos descargar aquí mismo

  • Formulación de hipótesis y pruebas para 1 y 2 muestras

Normalmente, para iniciar con la resolución de un problema se aplica el método científico. De acurdo con Risk (2003), éste es un proceso con el cual se investiga de forma sistemática las observaciones, se resuelven problemas y se prueban hipótesis. Como parte del método científico la propuesta de una hipótesis y luego su comprobación, son temas bien definidos, y a pesar de la incertidumbre asociada al problema es posible cuantificar el error de la conclusión planteada por la hipótesis.

Los pasos del método científico son:

  1. Plantear un problema a resolver.
  2. Colectar una serie de observaciones.
  3. Formular una o más hipótesis.
  4. Probar dichas hipótesis.
  5. Declarar las conclusiones.

La estadística nos puede ayudar en los pasos 2 (diseño y colecta de las observaciones) y 4 (prueba de hipótesis). Una hipótesis se puede definir de la siguiente manera: Una explicación tentativa que cuenta con un conjunto de hechos que pueden ser probados con una investigación posterior.

  • Ejemplo 1:

Un problema a resolver podría ser la importancia del efecto de las fertilizaciones de plántulas producidas en viveros forestales; ya contamos con el paso 1 del método científico. Luego efectuamos observaciones en dos grupos de plántulas, uno control (Sin fertilización, llamados de aquí en adelante Control) y otro de plántulas fertilizadas con un complejo complejo N:P:K (denominados de aquí en adelante como Fertilizados). El tamaño de dichas muestras se basa en estudios similares ya publicados como por ejemplo Fraysse and Crémière (1998) y también es valido de acuerdo con la experiencia del investigador.

Uno de los indicadores más comunes que miden el efecto de la fertilización de una plántula es el Índice de esbeltez (IE). Dicho índice relaciona la altura y el diámetro del tallo y se define con la siguiente ecuación (Olivo and Buduba 2006)

$$

\[\begin{equation}\label{eq:IE} IE = \frac{\varnothing_{tallo}}{(h_{tallo}/10)+2} \end{equation}\]

$$

El índice de Esbeltez (IE) alcanza valores máximos de 1.2 lo que indica que la plántulas tienen mayor probabilidad de éxito al llevarse a campo. Valores cercanos a 1 indica que la planta tendrá menos problemas en el establecimiento y valores por abajo de 0.5 son plántulas de mala calidad (Olivo and Buduba 2006).

  • Conociendo los datos
plantas <- read_csv("plantas.csv")
## 
## ── Column specification ────────────────────────────────────────────────────────
## cols(
##   planta = col_double(),
##   IE = col_double(),
##   Tratamiento = col_character()
## )
datatable(plantas)

Estimación de parámetros descriptivos

Mediante la observación del cuadro y utilizando métodos de estadística descriptiva y representación gráfica (Fig. ), podríamos aventurarnos a decir que el IE en el tratamiento fertilizadas es más alto con respecto al grupo Control, a este punto es seguro plantear que el IE es distinto en lugar de mayor, aquí es donde formulamos la hipótesis:

boxplot(plantas$IE  ~ plantas$Tratamiento, col= "pink" )

Para esto hacemos un gráfico de caja y bigote

El Índice de Esbeltez (IE) en plántulas con fertilizante (Fert) es diferente con respecto a las plántulas del tratamiento (Ctrl).

La formulación de una hipótesis en el método científico se inicia definiendo la hipótesis nula (H0)

y la hipótesis alternativa (H1)

; generalmente la H0 establece que no hay diferencias entre los grupos a compararse, en este caso Ctrl y el grupo Fert.

La hipótesis alternativa (H1) por otra parte, se indica como el complemento de la H0, por lo tanto H1 establecerá que si existen diferencias significativas entre los grupos en estudio (Zar 2010; A. Field, Miles, and Field 2012). Por lo tanto mediante procedimientos estadísticos que veremos en esta clase, se tratará rechazar nuestra hipótesis H0.

H0: IE Ctrl = IE Fert; H1= IE Ctrl ≠ IE Fert

Normalmente cuando se toma la decisión final sobre la hipótesis nula, surgen situaciones que nos pueden llegar a cometer diferentes errores. Así, una vez realizadas las técnicas para probar esta hipótesis, puede que lleguemos a la conclusión de que el enunciado de nuestra H0 no se rechace (acepta) o bien que sea falso y se rechace la H0. En esta situación puede que hayamos rechazado la H0 cuando en realidad era cierta, o que la evidencia colectada para nuestro análisis no haya sido suficiente para rechazarla siendo falsa (Risk 2003). Estas diferentes situaciones plantean la existencia de diferentes tipos de errores (Köhler, Schachtel, and Voleske 2007) que se muestran a continuación:

Situaciones y conclusiones posibles en la prueba de hipótesis.

Error de tipo I y tipo II

Ninguna prueba de hipótesis es 100% cierta. Puesto que la prueba se basa en probabilidades, siempre existe la posibilidad de llegar a una conclusión incorrecta. Cuando usted realiza una prueba de hipótesis, puede cometer dos tipos de error: tipo I y tipo II. Los riesgos de estos dos errores están inversamente relacionados y se determinan según el nivel de significancia y la potencia de la prueba. Por lo tanto, usted debe determinar qué error tiene consecuencias más graves para su situación antes de definir los riesgos.

  • Error de tipo I: Si usted rechaza la hipótesis nula cuando es verdadera, comete un error de tipo I. La probabilidad de cometer un error de tipo I es α, que es el nivel de significancia que usted establece para su prueba de hipótesis. Un α de 0.05 indica que usted está dispuesto a aceptar una probabilidad de 5% de estar equivocado al rechazar la hipótesis nula. Para reducir este riesgo, debe utilizar un valor menor para α. Sin embargo, usar un valor menor para alfa significa que usted tendrá menos probabilidad de detectar una diferencia si esta realmente existe.

  • Error de tipo II Cuando la hipótesis nula es falsa y usted no la rechaza, comete un error de tipo II. La probabilidad de cometer un error de tipo II es β, que depende de la potencia de la prueba. Puede reducir el riesgo de cometer un error de tipo II al asegurarse de que la prueba tenga suficiente potencia. Para ello, asegúrese de que el tamaño de la muestra sea lo suficientemente grande como para detectar una diferencia práctica cuando esta realmente exista.

La probabilidad de rechazar la hipótesis nula cuando es falsa es igual a 1–β. Este valor es la potencia de la prueba.

Fuente: https://support.minitab.com/es-mx/minitab/18/help-and-how-to/statistics/basic-statistics/supporting-topics/basics/type-i-and-type-ii-error/

Pruebas de normalidad

Antes de iniciar con el análisis y probar una hipótesis se debe determinar la distribución de las variables consideradas en la muestra. La importancia de verificar la normalidad de las muestras en un estudio es fundamental en estadística porque si las muestras son normales se pueden aplicar métodos estadísticos parámetricos, en el caso contrario se deben o bien transformar los datos o bien utilizar métodos no parámetricos (Risk 2003). El paso inicial entonces, es determinar si las variables en estudio pueden ser representadas por una distribución normal. Es decir, si las variables medidas en la muestra pueden ser descritas con parámetros de tendencia central y dispersión alrededor de dichos parámetros.

Diferencia entre estadística paramétrica y no paramétrica

La diferencia entre estadística paramétrica y no paramétrica está basada en el conocimiento o desconocimiento de la distribución de probabilidad de la variable que se pretende estudiar.

La estadística paramétrica utiliza cálculos y procedimientos asumiendo que conoce cómo se distribuye la variable aleatoria a estudiar. Por el contrario, la estadística no paramétrica utiliza métodos para conocer cómo se distribuye un fenómeno para, más tarde, utilizar técnicas de estadística paramétrica.

Estadística paramétrica: Hace referencia a una parte de la inferencia estadística que utiliza estadísticos y criterios de resolución fundamentados en distribuciones conocidas.

Estadística no paramétrica: Se trata de una rama de la inferencia estadística cuyos cálculos y procedimientos están fundamentados en distribuciones desconocidas.

Dividiremos los datos en 2 subconjuntos (Ctrl y Fert)

Ctrl <- subset(plantas, Tratamiento == "Ctrl")
Fert <- subset(plantas, Tratamiento == "Fert")

Histograma y medidas de tendencia central para plántulas Fertilizadas

*Histograma de frecuencias absolutas

hist(Fert$IE)

summary(Fert$IE)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.5600  0.7800  0.9100  0.9067  1.0400  1.1600

Desviación estándar

sd(Fert$IE)
## [1] 0.1799537

Histograma y medidas de tendencia central para plántulas control (solo agua)

*Histograma de frecuencias absolutas

hist(Ctrl$IE)

summary(Ctrl$IE)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.5500  0.7000  0.7700  0.7676  0.8700  0.9500

Desviación estándar

sd(Ctrl$IE)
## [1] 0.1153215

Las pruebas de normalidad más formales son las pruebas de Shapiro-Wilk y de Kolmogorov-Smirnov (Dalgaard 2008; Zar 2010). En las pruebas de normalidad se busca aceptar la H0 dado que la mayoría de los métodos estadísticos es necesaria la suposición de la distribución normal de la variable de interés. Púes siendo así es posible conocer los parámetros que describen por completo (la media, su desviación estándar). Un valor de P≥ 0.05 en los tests de normalidad indican que no hay prueba suficiente para rechazar la normalidad de la variable.

Valor de significancia: P>0.05

Pruebas de normalidad para los plántulas control

  • Prueba de normalidad de Shapiro-Wilk
shapiro.test(Ctrl$IE)
## 
##  Shapiro-Wilk normality test
## 
## data:  Ctrl$IE
## W = 0.9532, p-value = 0.3908
  • Dado que P>0.05, entonces los datos pasan la prueba de normalidad

  • Prueba de Prueba de normalidad de Kolmogorov-Smirnov

ks.test(Ctrl$IE, "pnorm", mean=mean(Ctrl$IE), sd=sd(Ctrl$IE)           )
## Warning in ks.test(Ctrl$IE, "pnorm", mean = mean(Ctrl$IE), sd = sd(Ctrl$IE)):
## ties should not be present for the Kolmogorov-Smirnov test
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  Ctrl$IE
## D = 0.11991, p-value = 0.9233
## alternative hypothesis: two-sided
  • Dado que P>0.05, entonces los datos pasan la prueba de normalidad
  • Asignación: Realizar pruebas de normalidad para Fert

Prueba sobre una sola muestra

Una vez que se asume la normalidad de los datos, se puede proceder con la aplicación de la prueba estadística para verificar la H0, esto es, que la media del IE de ambas muestras son iguales.

La población y la muestra

Para este ejemplo vamos a considerar al grupo 1 Ctrl los valores para las plántulas de un vivero forestal y las del grupo 2 Fert una muestra de la población. Para este caso existe una prueba estadística que permite comparar la media de la muestra con la media poblacional. Una de las principales pruebas más robustas es la basada en la distribución normal, para la misma se debe calcular el estadistico z con la siguiente ecuación

\[ \begin{equation}\label{eq:normal} z=\frac{\bar{x} - \mu_0 }{ \sigma/\sqrt{n}} \end{equation} \]

Donde x¯ es la media de la muestra, μ0 es la media de la población y σ es la desviación estándar de la población y n es el tamaño de la muestra.

Para los datos del grupo Ctrl (muestra) y comparándolos con la muestra Fert (población) con μ = 0.91, σ = 0.18 y un valor de z = -3.54.

El cuadro muestra los valores críticos de la distribución normal para distintos niveles de significancia (α). Como la H0 dice que la muestra es igual a la población , utilizamos la columna de dos colas; el valor de z obtenido es -3.54, el valor de P esta entre 0.0005 y 0.00005, por lo cual al ser P < 0.05 rechazamos la H0 y concluimos diciendo que la media de la muestra es distinta a la de la población.

Tabla con los valores de Z Para las pruebas

valores de z

Pruebas sobre dos muestras independientes

Para esta prueba vamos a considerar que las plántulas del grupo Ctrly Fert corresponden ambos a muestras de una población. El test implicado intentará probar si ambas medias no difieren (H0) lo que implica que ambas muestras provienen de la misma población y caso contrario si difieren (H1).

La prueba de t es la prueba paramétrica más utilizada; la misma esta basada en el cálculo del estadístico t y de los grados de libertad (gl), con estos dos resultados y utilizando una tabla o bien un cálculo de la distribución t se puede determinar el valor de P.

Para poder utilizar una prueba de t de student se tiene que cumplir tres supuestos: a) Que se ajuste a una distribución normal, b) La independencia de los datos y c) La homogeneidad de varianzas, considerando este como el más importante. La ecuación

La ecuación muestra como calcular el estadístico t:

\[ \begin{equation}\label{eq:t_test} t= \frac{\bar{x}_{1}- \bar{x}_{2}}{\sqrt{\frac{s_1^{2}}{n_1}+ \frac{s_2^{2}}{n_2}}} \end{equation} \]

donde x¯1 y x¯2 son las medias de cada muestra (grupos); Donde $s_1^{2} $ y $ s_2^{2}$ on las varianzas de las muestras; n1 y n2 son los tamaños de las muestras.

Los grados de libertad se pueden calcular con la siguiente ecuación

\[ \begin{equation}\label{eq:t_test2} gl= \frac {\left( \frac{s_1^{2}}{n_1}+ \frac{s_2^{2}}{n_2} \right )^{2}}{ \frac{s_1^{2}}{n_1-1}+\frac{s_2^{2}}{n_2-1}} \end{equation} \]

método de Tukey para comparaciones múltiples

El método de Tukey se utiliza en ANOVA para crear intervalos de confianza para todas las diferencias en parejas entre las medias de los niveles de los factores mientras controla la tasa de error por familia en un nivel especificado. Es importante considerar la tasa de error por familia cuando se hacen comparaciones múltiples, porque la probabilidad de cometer un error de tipo I para una serie de comparaciones es mayor que la tasa de error para cualquier comparación individual. Para contrarrestar esta tasa de error más elevada, el método de Tukey ajusta el nivel de confianza de cada intervalo individual para que el nivel de confianza simultáneo resultante sea igual al valor que usted especifique.

fivenum(Fert$IE)
## [1] 0.56 0.78 0.91 1.04 1.16

Un resumen de cinco números es un resumen de un grupo de datos estadístico. El resumen de cinco números consiste en el punto medio, la primera cuartila (Q1), la tercera cuartila (Q3), el valor mínimo, y el valor máximo del grupo de datos. El resumen de cinco números del grupo de datos 2, 4, 5, 6, 6, 8, 9 es:

Mínimo: 2 Q1: 4 Punto medio: 6 Q3: 8 Máximo 9

De acuerdo con el ejercicio de auto-aprendizaje se encargo verificar si la muestra Fert proviene de una distribución normal. Para continuar con el ejercicio y como forma de control de la actividad, los resultados de la muestra Fert son los siguientes: Grupo Fert μ = 0.91; σ = 0.12; Cinco números de Tukey (fivenum) = 0.56, 0.78, 0.91, 1.04, 1.16; La prueba de Shapiro-Wilk: P = 0.39 y la prueba de Kolmogorov-Smirnov: P =0.97; la normalidad de las muestras fueron verificadas con las dos pruebas. La figura muestra gráficamente los datos de ambas muestras ctrly Fert.

op <- par(mfrow =c(1,2), cex.axis=.7, cex.lab=.9 )
boxplot(plantas$IE ~ plantas$Tratamiento, col="grey", main="A"  )
barplot(tapply(plantas$IE, list(plantas$Tratamiento), mean ), beside = T, main="B" )

Representación del comportamiento del IE mediante un boxplot (A) y gráfico de barras con desviación estándar (B).

Prueba de normalidad de varianzas

También se le conoce como prueba F Para comprobar la homogeneidad de las varianzas se emplea la prueba de varianzas, en R se utiliza la función var.test. En esta prueba se busca que se acepte la H0 que implica que las varianzas de ambas muestras son iguales. Para este ejemplo tenemos los siguientes resultados

var.test(Ctrl$IE, Fert$IE)
## 
##  F test to compare two variances
## 
## data:  Ctrl$IE and Fert$IE
## F = 0.41068, num df = 20, denom df = 20, p-value = 0.05304
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.1666376 1.0121038
## sample estimates:
## ratio of variances 
##          0.4106757

La prueba de F arroja para nuestras muestras Ctrl y Fert un valor de P = 0.053, mayor al α establecido (0.05) para nuestro experimento, por lo tanto se acepta la H0 y ambas varianzas son iguales.

Prueba de T de student

Como se confirmo anteriormente, la normalidad de los datos y la homogeneidad de las varianzas son iguales, por lo tanto se puede aplicar una prueba de t de muestras independientes de acuerdo con la siguiente función t.test:

# var.equal = T, las varianzas son iguales u Homogéneas 
t.test( Ctrl$IE, Fert$IE, var.equal = T, )
## 
##  Two Sample t-test
## 
## data:  Ctrl$IE and Fert$IE
## t = -2.9813, df = 40, p-value = 0.004868
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -0.23331192 -0.04478332
## sample estimates:
## mean of x mean of y 
## 0.7676190 0.9066667

Los datos relevantes del obtenidos de la prueba de t son los siguientes: los grados de libertad (df)= 40; los grados de libertad se pueden comprobar con la formula . El parámetro que debemos revisar para comprobar si aceptamos o rechazamos la H0 es el valor de P, para esta prueba fue de 0.0049 por lo cual al ser menor que α 00.5 rechazamos la H0 y aceptamos la H1, es decir, existen diferencias entre las plántulas Ctrl y las plántulas que fueron fertilizadas Fert.

Conclusión

El fertilizante SI sirve

Descargas

  • Código
xfun::embed_file("A13U3.Rmd")

Download A13U3.Rmd

  • Datos de plas plantas de la UANL
xfun::embed_file("plantas.csv")

Download plantas.csv