Puedes seguir el tutorial por vídeo en YouTube

1 Introducción al diseño de experimentos.

2 Elementos de inferencia estadística.

2.1 Población y muestra, parámetros y estadísticos.

2.2 Distribuciones de probabilidad e inferencia.

2.2.1 Distribución normal.

2.2.2 Distribución T de Student.

2.2.3 Distribución Ji-cuadrada.

2.2.4 Distribución F.

2.2.5 Ejemplos de distribuciones.

Distribución de medias.

El teorema del límite central dice, de manera simplificada, que la distribución de las medias muestrales (aleatorias e independientes) sigue una distribución normal, siempre que el tamaño de las muestras sea lo suficientemente grande.

Esa distribución normal estará definida por la misma media que la poblacional y con una desviación típica igual al cociente entre la desviación típica poblacional divida por la raíz cuadrada del tamaño de la muestra (o la varianza poblacional dividida entre el tamaño de la muestra). \[\overline {X}\sim N(\mu ,\dfrac {\sigma} {\sqrt{n}})\]

Por ejemplo

Supongamos que una finca tiene 30.000 árboles y cada uno de éstos tiene entre 150 y 300 piezas de fruta.

set.seed(999) #Establezco una semilla para que R siempre saque las mismas muestras.
Poblacion <- round(runif(30000, min = 150, max = 300),0) #Creo un vector con para simular la población de 30000 árboles que pudiera tener una finca, con entre 150 y 300 piezas de fruta cada uno.
head(Poblacion, 10) #Mostramos los 10 primeros datos de los 30.000 creados.
##  [1] 208 237 164 278 268 168 241 162 209 243
n <- length(Poblacion) ; n
## [1] 30000
plot(density(Poblacion)) ; points(Poblacion, rep(0, n))

En la gráfica, la probabilidad de encontrar un árbol con determinado número de frutos (dentro del intervalo 150-300), es la misma. Esa distribución uniforme se definiría estadísticamente como: \[U(150, 300)\]

¿Cuáles son la media y la desviación típica esa poblacion?

MediaPoblacion <- mean(Poblacion) ; MediaPoblacion #Este dato no lo sabíamos en la realidad.
## [1] 224.7591
DesTipicaPoblacion <- sd(Poblacion) ; DesTipicaPoblacion #Este dato no lo sabíamos en la realidad.
## [1] 43.45211

Vamos a ver cómo es la distribución de cinco muestras, con un tamaño de 30 árboles cada una. Este dato lo podemos medir en campo.

#Tomo 5 muestras de 10 árboles cada una, de nuestra población.
Muestras_5_30 <- replicate(n = 5, sample(Poblacion, 30, replace = FALSE)) ; Muestras_5_30
##       [,1] [,2] [,3] [,4] [,5]
##  [1,]  194  261  268  232  171
##  [2,]  183  296  187  214  170
##  [3,]  152  266  267  300  231
##  [4,]  159  289  225  281  151
##  [5,]  290  205  181  162  205
##  [6,]  152  270  193  286  151
##  [7,]  261  209  274  171  243
##  [8,]  163  236  268  198  249
##  [9,]  231  174  164  292  163
## [10,]  220  298  239  279  150
## [11,]  165  242  276  259  277
## [12,]  272  227  164  185  181
## [13,]  274  198  222  289  164
## [14,]  164  249  273  269  229
## [15,]  272  263  279  195  159
## [16,]  233  209  162  224  256
## [17,]  217  230  176  190  222
## [18,]  230  212  274  219  213
## [19,]  236  275  297  265  155
## [20,]  168  212  214  198  287
## [21,]  244  178  289  249  265
## [22,]  172  229  249  251  206
## [23,]  204  263  157  153  255
## [24,]  279  160  225  198  268
## [25,]  181  287  215  275  299
## [26,]  196  266  288  233  257
## [27,]  235  229  193  175  257
## [28,]  184  223  186  195  215
## [29,]  235  268  270  195  168
## [30,]  180  212  227  293  199
#Averiguo las medias de cada muestra.
Medias_5_30 <- colMeans(Muestras_5_30) ; Medias_5_30 
## [1] 211.5333 237.8667 230.0667 230.8333 213.8667
TamanoMuestra_5_30 <- 30 ; TamanoMuestra_5_30 #¡No confundir con el número de muestras!
## [1] 30
#Represento la distribución de las medias, para mostrar que se aproxima a una distribución normal.
num_5_30 <- length(Medias_5_30)
plot(density(Medias_5_30)) ; points(Medias_5_30, rep(0, num_5_30))

¿Qué características tiene esta distribución? ¿Coincidirá con la distribución de las muestras que se puede predecir según el TLC?

¿Cómo se definiría la distribución de nuestras muestras?

MediaMuestral_5_30 <- mean(Medias_5_30) ; MediaMuestral_5_30
## [1] 224.8333
DesTipicaMuestral_5_30 <- sd(Medias_5_30) ; DesTipicaMuestral_5_30
## [1] 11.51535

La distribución muestral, con sólo 5 muestras de tamaño 30, queda definida de la siguiente manera: \[\overline {X}\sim N(224.83, 11.51)\]

Calculamos los estadísticos de una muestra teórica, según el TLC, a partir de los estadísticos de la población. Según el TLC, la distribución de las medias muestrales es una distribución normal con la misma media que la poblacional con una desviación típica igual al cociente entre la desviación típica poblacional, divida por la raíz cuadrada del tamaño de la muestra.

Hacemos los cálculos.

MediaMuestral_5_30_TLC <- MediaPoblacion ; MediaMuestral_5_30_TLC
## [1] 224.7591
DesTipicaMuestral_5_30_TLC <- DesTipicaPoblacion/sqrt(TamanoMuestra_5_30) ; DesTipicaMuestral_5_30_TLC
## [1] 7.933234

La distribución que tendrían que tener las muestras (de tamaño 30) que se sacasen de esa población, según el TLC sería; \[\overline {X}\sim N(224.76, 7.93)\] Se constata que el TLC “vaticina” con bastante aproximación como es una muestra de la población, cuando ésta es de una tamaño determinado.

Veamos como quedan las distribuciones de la población y de la muestra, cuando las solapamos.

plot(density(Poblacion), col = "red", ylim = c(0, 0.03), xlim = c(125, 325), lwd = 2, main = "Distribuciones solapadas") 
abline(v = MediaPoblacion, col = "red", lty = 4, lwd = 2)
lines(density(Medias_5_30), col = "blue", lwd = 2)
abline(v = MediaMuestral_5_30, col = "blue", lty = 2, lwd = 2)
abline(v = MediaMuestral_5_30 - DesTipicaMuestral_5_30, col = "blue", lty = 3, lwd = 3)
abline(v = MediaMuestral_5_30 + DesTipicaMuestral_5_30, col = "blue", lty = 3, lwd = 3)

Aunque la distribución de la población es uniforme, vemos como la de las medias muestrales se asemeja a una distribución normal.

En una situación real tendríamos sólo los estadísticos de nuestra muestra: \[\overline {X}\sim N(224.83, 11.51)\]

Y a partir de él, basándonos en el TLC, calcuaríamos los estadísticos de la población de la siguiente manera.

MediaPoblacionTLC <- MediaMuestral_5_30 ; MediaPoblacionTLC
## [1] 224.8333
DesTipicaPoblacionTLC <- DesTipicaMuestral_5_30 * sqrt(TamanoMuestra_5_30) ; DesTipicaPoblacionTLC
## [1] 63.07218

Según el TLC diríamos que nuestra población se define: \[\overline {X}\sim N(221.74, 63.07)\]

Sabiendo nosotros que la muestra se podría definir (ojo que no es una distribución normal):

MediaPoblacion
## [1] 224.7591
DesTipicaPoblacion
## [1] 43.45211

\[\overline {X}\sim N(224.76, 43.45)\]

Gracias a TLC podemos acercarnos a conocer las características de la población, mediante la toma de muestras.