library(pacman)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc","readr", "knitr","DT","dplyr", "ggplot2")

Inferencia estadistica

La inferencia estadística es el conjunto de métodos que permiten inducir, a través de una muestra estadística, el comportamiento de una determinada población. La inferencia estadística, estudia entonces como, a través de la aplicación de dichos métodos sobre los datos de una muestra, se pueden extraer conclusiones sobre los parámetros de la población de datos. De la misma manera estudia también el grado de fiabilidad de los resultados extraídos del estudio.

  1. Inferencia: Inferir significa, literalmente, extraer juicios o conclusiones a partir de ciertos supuestos, sean estos generales o particulares.

  2. Población: Una población de datos, es el conjunto total de datos que existen sobre un variable.

  3. Muestra estadística: Una muestra es una parte de la población de datos.

Teniendo claro a lo que nos referimos con el concepto de inferir, una de las dudas fundamentales recae en el hecho de elegir una muestra en lugar de una población.

Normalmente, en estadística, se trabaja con muestras debido a la gran cantidad de datos que tiene una población. Por ejemplo, si queremos sacar conclusiones, esto es, inferir, los resultados de las elecciones generales, es imposible preguntar a toda la población del país. Para solventar ese problema se escoge una muestra variada y representativa. Gracias a la cual se puedan extraer una estimación del resultado final. Escoger una muestra adecuada corre a cargo de las distintas técnicas de muestreo.

Métodos de la inferencia estadística Los métodos y técnicas de la inferencia estadística se pueden dividir en dos: métodos de estimación de parámetros y métodos de contraste de hipótesis.

Muestreo

Usando el set de datos incluidos en R llamados “crimtab”, haremos el ejercicio de muestreo

crime<- data.frame(crimtab)
dim(crime)
## [1] 924   3

Muestreo simple aleatorio

Si queremos muestrear una n de 30

set.seed(123) #numero semilla para obtener los mismos resultados 
n <- 30
muestramia <- sample(1:nrow(crime), size = n, replace = FALSE)
#replace sirve para indicar si las muestras se repetiran o no
muestramia
##  [1] 415 463 179 526 195 818 118 299 229 244  14 374 665 602 603 768 709  91 348
## [20] 649 355 840  26 519 426 905 766 211 590 593

Ordenar los datos

sort(muestramia, decreasing = FALSE)
##  [1]  14  26  91 118 179 195 211 229 244 299 348 355 374 415 426 463 519 526 590
## [20] 593 602 603 649 665 709 766 768 818 840 905

Tabla de datos

datatable(crime)

Muestreo de datos con dplyr

Esta es una herramienta del tidyverse

Muestreo aleatorio simple sin reemplazo con dplyr

crimemuestramia2 <- crime %>%
  sample_n(size=n, replace = FALSE)
head(crimemuestramia2)
##   Var1   Var2 Freq
## 1 10.2 175.26    0
## 2 12.4 193.04    0
## 3   13 162.56    0
## 4  9.7 193.04    0
## 5   11 149.86    2
## 6 13.3 172.72    0

Muestreo aleatorio simple con reemplazo usando dplyr

crimemuestramia2 <- crime %>%
  sample_n(size=n, replace = TRUE)
head(crimemuestramia2)
##   Var1   Var2 Freq
## 1  9.4 170.18    0
## 2 13.4 142.24    0
## 3 10.4 167.64    0
## 4  9.9 147.32    1
## 5 11.5 160.02   17
## 6 10.6 154.94    5

muestreo ponderado (con pesos)

crimemuestramia3 <- crime %>%
    sample_n(size=n, weight = Freq)
head(crimemuestramia3)
##   Var1   Var2 Freq
## 1 11.1  165.1   26
## 2 11.3 154.94    5
## 3   12 160.02    4
## 4 11.9 172.72   19
## 5 10.9 162.56   27
## 6 11.6  165.1   39

Muestreo con ponderacion usando la fraccion

crimenes <- data.frame(crimtab)
n <- 50
crime <- sample(1:nrow(crimenes), size=n, replace=FALSE)
head(crime)
## [1] 362 236 610 330 726 127
  • Para muestrear una fraccion de 0.04 de la poblacion
crime.pesos <- crimenes %>%
  sample_frac(0.04)
head(crime.pesos); dim(crime.pesos)
##   Var1   Var2 Freq
## 1 12.1  152.4    0
## 2 10.6 187.96    0
## 3 10.1 182.88    0
## 4 12.7 157.48    0
## 5 11.1  177.8    0
## 6 13.1 170.18    1
## [1] 37  3

Muestreo estratificado

Para este muestro usaremos datos estratificados de 3 especies de lirios iris de la base de datos “iris” de Edgar Anderson.

Referencia: https://archive.ics.uci.edu/ml/datasets/iris

dim(iris)
## [1] 150   5
head(iris)
##   Sepal.Length Sepal.Width Petal.Length Petal.Width Species
## 1          5.1         3.5          1.4         0.2  setosa
## 2          4.9         3.0          1.4         0.2  setosa
## 3          4.7         3.2          1.3         0.2  setosa
## 4          4.6         3.1          1.5         0.2  setosa
## 5          5.0         3.6          1.4         0.2  setosa
## 6          5.4         3.9          1.7         0.4  setosa
  • Establecer las variables categoricas de los subconjutos (especies) o estratos para hacer un muestreo aleatorio dentro.
levels(as.factor(iris$Species))
## [1] "setosa"     "versicolor" "virginica"
lirios <- iris
lirios$id <- 1:150
lirios [1:5, 4:6]
##   Petal.Width Species id
## 1         0.2  setosa  1
## 2         0.2  setosa  2
## 3         0.2  setosa  3
## 4         0.2  setosa  4
## 5         0.2  setosa  5
  • MAS sin remplazamiento
sample(lirios$id, size=6, replace=FALSE)
## [1]  36 142  16 125  33  40
  • Muestreo estratificado
#set.seed(1)
sample_iris <- iris %>%
  group_by(Species) %>%
  sample_n(10)
datatable(sample_iris)

Prueba de hipotesis

  • Para fines de reproducibilidad practica, se incluye una opción de descarga de los datos aqui utilizados, los cuales son datos de un experimento realizado en la UANL, de plantas con y sin fertilizante.
xfun::embed_file("plantas.csv")

Download plantas.csv

xfun::embed_file("AI3UC1_4.Rmd")

Download AI3UC1_4.Rmd

  • Y tambien para descargar este codigo completo
xfun::embed_file("AI3UC1_4.Rmd")                      

Download AI3UC1_4.Rmd

Formulacion de hipotesis para pruebas de 1 y 2 muestras

Normalmente, para iniciar con la resolución de un problema se aplica el método científico. De acurdo con Risk (2003), éste es un proceso con el cual se investiga de forma sistemática las observaciones, se resuelven problemas y se prueban hipótesis. Como parte del método científico la propuesta de una hipótesis y luego su comprobación, son temas bien definidos, y a pesar de la incertidumbre asociada al problema es posible cuantificar el error de la conclusión planteada por la hipótesis.

Los pasos del método científico son:

  1. Plantear un problema a resolver.
  2. Colectar una serie de observaciones.
  3. Formular una o más hipótesis.
  4. Probar dichas hipótesis.
  5. Declarar las conclusiones.

La estadística nos puede ayudar en los pasos 2 (diseño y colecta de las observaciones) y 4 (prueba de hipótesis). Una hipótesis se puede definir de la siguiente manera: Una explicación tentativa que cuenta con un conjunto de hechos que pueden ser probados con una investigación posterior.

Caso de estudio para prueba de hipotesis: efectividad de fertilizante en plantas

Un problema a resolver podría ser la importancia del efecto de las fertilizaciones de plántulas producidas en viveros forestales;

ya contamos con el paso 1 del método científico. Luego efectuamos observaciones en dos grupos de plántulas, uno control (Sin fertilización, llamados de aquí en adelante Control) y otro de plántulas fertilizadas con un complejo complejo N:P:K (denominados de aquí en adelante como Fertilizados). El tamaño de dichas muestras se basa en estudios similares ya publicados como por ejemplo Fraysse and Crémière (1998) y también es valido de acuerdo con la experiencia del investigador.

Uno de los indicadores más comunes que miden el efecto de la fertilización de una plántula es el Índice de esbeltez (IE). Dicho índice relaciona la altura y el diámetro del tallo y se define con la siguiente ecuación (Olivo and Buduba 2006)

\[ \begin{equation}\label{eq:IE} IE = \frac{\varnothing_{tallo}}{(h_{tallo}/10)+2} \end{equation} \]

El índice de Esbeltez (IE) alcanza valores máximos de 1.2 lo que indica que la plántulas tienen mayor probabilidad de éxito al llevarse a campo. Valores cercanos a 1 indica que la planta tendrá menos problemas en el establecimiento y valores por abajo de 0.5 son plántulas de mala calidad (Olivo and Buduba 2006).

  • Importar datos
setwd("~/Documents/APLICADA")
plantas <- read_csv("plantas.csv")
## 
## ── Column specification ────────────────────────────────────────────────────────
## cols(
##   planta = col_double(),
##   IE = col_double(),
##   Tratamiento = col_character()
## )
datatable(plantas)

Mediante la observación del cuadro y utilizando métodos de estadística descriptiva y representación gráfica (Fig. ), podríamos aventurarnos a decir que el IE en el tratamiento fertilizadas es más alto con respecto al grupo Control, a este punto es seguro plantear que el IE es distinto en lugar de mayor, aquí es donde formulamos la hipótesis:

Estimación de parámetros descriptivos

  • Para describir la diferencia entre los datos usaremos un gráfico de caja y bigote
boxplot(plantas$IE ~ plantas$Tratamiento, col="pink")

Representación del comportamiento del IE mediante un boxplot

El Índice de Esbeltez (IE) en plántulas con fertilizante (Fert) es diferente con respecto a las plántulas del tratamiento (Ctrl).

La formulación de una hipótesis en el método científico se inicia definiendo la hipótesis nula \((H0)\) y la hipótesis alternativa \((H1)\)

; generalmente la H0 establece que no hay diferencias entre los grupos a compararse, en este caso Ctrl y el grupo Fert.

La hipótesis alternativa (H1) por otra parte, se indica como el complemento de la H0, por lo tanto H1 establecerá que si existen diferencias significativas entre los grupos en estudio (Zar 2010; A. Field, Miles, and Field 2012). Por lo tanto mediante procedimientos estadísticos que veremos en esta clase, se tratará rechazar nuestra hipótesis H0.

H0: IE Ctrl = IE Fert; H1= IE Ctrl ≠ IE Fert

Normalmente cuando se toma la decisión final sobre la hipótesis nula, surgen situaciones que nos pueden llegar a cometer diferentes errores. Así, una vez realizadas las técnicas para probar esta hipótesis, puede que lleguemos a la conclusión de que el enunciado de nuestra H0 no se rechace (acepta) o bien que sea falso y se rechace la H0. En esta situación puede que hayamos rechazado la H0 cuando en realidad era cierta, o que la evidencia colectada para nuestro análisis no haya sido suficiente para rechazarla siendo falsa (Risk 2003). Estas diferentes situaciones plantean la existencia de diferentes tipos de errores (Köhler, Schachtel, and Voleske 2007) que se muestran a continuación:

Situaciones y conclusiones posibles en la prueba de hipótesis.

Error tipo I y error tipo II

Ninguna prueba de hipótesis es 100% cierta. Puesto que la prueba se basa en probabilidades, siempre existe la posibilidad de llegar a una conclusión incorrecta. Cuando usted realiza una prueba de hipótesis, puede cometer dos tipos de error: tipo I y tipo II. Los riesgos de estos dos errores están inversamente relacionados y se determinan según el nivel de significancia y la potencia de la prueba. Por lo tanto, usted debe determinar qué error tiene consecuencias más graves para su situación antes de definir los riesgos.

  • Error de tipo I Si usted rechaza la hipótesis nula cuando es verdadera,

comete un error de tipo I. La probabilidad de cometer un error de tipo I es α, que es el nivel de significancia que usted establece para su prueba de hipótesis. Un α de 0.05 indica que usted está dispuesto a aceptar una probabilidad de 5% de estar equivocado al rechazar la hipótesis nula. Para reducir este riesgo, debe utilizar un valor menor para α. Sin embargo, usar un valor menor para alfa significa que usted tendrá menos probabilidad de detectar una diferencia si esta realmente existe.

  • Error de tipo II Cuando la hipótesis nula es falsa y usted no la rechaza,

comete un error de tipo II. La probabilidad de cometer un error de tipo II es β, que depende de la potencia de la prueba. Puede reducir el riesgo de cometer un error de tipo II al asegurarse de que la prueba tenga suficiente potencia. Para ello, asegúrese de que el tamaño de la muestra sea lo suficientemente grande como para detectar una diferencia práctica cuando esta realmente exista.

La probabilidad de rechazar la hipótesis nula cuando es falsa es igual a 1–β. Este valor es la potencia de la prueba.

¿Cómo sabemos si las diferencias son realmente representativas?

Antes de iniciar con el análisis y probar una hipótesis se debe determinar la distribución de las variables consideradas en la muestra. La importancia de verificar la normalidad de las muestras en un estudio es fundamental en estadística porque si las muestras son normales se pueden aplicar métodos estadísticos parámetricos, en el caso contrario se deben o bien transformar los datos o bien utilizar métodos no parámetricos (Risk 2003). El paso inicial entonces, es determinar si las variables en estudio pueden ser representadas por una distribución normal. Es decir, si las variables medidas en la muestra pueden ser descritas con parámetros de tendencia central y dispersión alrededor de dichos parámetros.

LA FORMA EN LA QUE SE DISTRIBUYEN LOS DATOS puede ser conocida por medio de tablas, histogramas y poligonos

Ctrl <- subset(plantas, Tratamiento == "Ctrl")
Fert <- subset(plantas, Tratamiento == "Fert")

Aqui va el EDA <- La asignacion 5

A partir de aqui seria la asignacion 6 AI5UC1_6

hist(Ctrl$IE)

Histograma de frecuencias absolutas segun Sturges

hist(Fert$IE)

Analisis cuantilico

summary(Ctrl$IE)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.5500  0.7000  0.7700  0.7676  0.8700  0.9500
summary(Fert$IE)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.5600  0.7800  0.9100  0.9067  1.0400  1.1600

PRUEBAS DE NORMALIDAD

  • Prueba de normalidad de Shapiro-Wilk
shapiro.test(Ctrl$IE)
## 
##  Shapiro-Wilk normality test
## 
## data:  Ctrl$IE
## W = 0.9532, p-value = 0.3908
  • Prueba de normalidad de Smirnov-Kolmogorov
ks.test(Ctrl$IE, "pnorm", mean=mean(Ctrl$IE), sd=sd(Ctrl$IE))
## Warning in ks.test(Ctrl$IE, "pnorm", mean = mean(Ctrl$IE), sd = sd(Ctrl$IE)):
## ties should not be present for the Kolmogorov-Smirnov test
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  Ctrl$IE
## D = 0.11991, p-value = 0.9233
## alternative hypothesis: two-sided