Puedes seguir el tutorial por vídeo en YouTube
Distribución de medias.
El teorema del límite central dice, de manera simplificada, que la distribución de las medias muestrales (aleatorias e independientes) sigue una distribución normal, siempre que el tamaño de las muestras sea lo suficientemente grande.
Esa distribución normal estará definida por la misma media que la poblacional y con una desviación típica igual al cociente entre la desviación típica poblacional divida por la raíz cuadrada del tamaño de la muestra (o la varianza poblacional dividida entre el tamaño de la muestra). \[\overline {X}\sim N(\mu ,\dfrac {\sigma} {\sqrt{n}})\]
Por ejemplo
Supongamos que una finca tiene 30.000 árboles y cada uno de éstos tiene entre 150 y 300 piezas de fruta.
set.seed(999) #Establezco una semilla para que R siempre saque las mismas muestras.
Poblacion <- round(runif(30000, min = 150, max = 300),0) #Creo un vector con para simular la población de 30000 árboles que pudiera tener una finca, con entre 150 y 300 piezas de fruta cada uno.
head(Poblacion, 10) #Mostramos los 10 primeros datos de los 30.000 creados.## [1] 208 237 164 278 268 168 241 162 209 243
n <- length(Poblacion) ; n## [1] 30000
plot(density(Poblacion)) ; points(Poblacion, rep(0, n))En la gráfica, la probabilidad de encontrar un árbol con determinado número de frutos (dentro del intervalo 150-300), es la misma. Esa distribución uniforme se definiría estadísticamente como: \[U(150, 300)\]
¿Cuáles son la media y la desviación típica esa poblacion?
MediaPoblacion <- mean(Poblacion) ; MediaPoblacion #Este dato no lo sabíamos en la realidad.## [1] 224.7591
DesTipicaPoblacion <- sd(Poblacion) ; DesTipicaPoblacion #Este dato no lo sabíamos en la realidad.## [1] 43.45211
Vamos a ver cómo es la distribución de cinco muestras, con un tamaño de 30 árboles cada una. Este dato lo podemos medir en campo.
#Tomo 5 muestras de 10 árboles cada una, de nuestra población.
Muestras_5_30 <- replicate(n = 5, sample(Poblacion, 30, replace = FALSE)) ; Muestras_5_30## [,1] [,2] [,3] [,4] [,5]
## [1,] 194 261 268 232 171
## [2,] 183 296 187 214 170
## [3,] 152 266 267 300 231
## [4,] 159 289 225 281 151
## [5,] 290 205 181 162 205
## [6,] 152 270 193 286 151
## [7,] 261 209 274 171 243
## [8,] 163 236 268 198 249
## [9,] 231 174 164 292 163
## [10,] 220 298 239 279 150
## [11,] 165 242 276 259 277
## [12,] 272 227 164 185 181
## [13,] 274 198 222 289 164
## [14,] 164 249 273 269 229
## [15,] 272 263 279 195 159
## [16,] 233 209 162 224 256
## [17,] 217 230 176 190 222
## [18,] 230 212 274 219 213
## [19,] 236 275 297 265 155
## [20,] 168 212 214 198 287
## [21,] 244 178 289 249 265
## [22,] 172 229 249 251 206
## [23,] 204 263 157 153 255
## [24,] 279 160 225 198 268
## [25,] 181 287 215 275 299
## [26,] 196 266 288 233 257
## [27,] 235 229 193 175 257
## [28,] 184 223 186 195 215
## [29,] 235 268 270 195 168
## [30,] 180 212 227 293 199
#Averiguo las medias de cada muestra.
Medias_5_30 <- colMeans(Muestras_5_30) ; Medias_5_30 ## [1] 211.5333 237.8667 230.0667 230.8333 213.8667
TamanoMuestra_5_30 <- 30 ; TamanoMuestra_5_30 #¡No confundir con el número de muestras!## [1] 30
#Represento la distribución de las medias, para mostrar que se aproxima a una distribución normal.
num_5_30 <- length(Medias_5_30)
plot(density(Medias_5_30)) ; points(Medias_5_30, rep(0, num_5_30))¿Qué características tiene esta distribución? ¿Coincidirá con la distribución de las muestras que se puede predecir según el TLC?
¿Cómo se definiría la distribución de nuestras muestras?
MediaMuestral_5_30 <- mean(Medias_5_30) ; MediaMuestral_5_30## [1] 224.8333
DesTipicaMuestral_5_30 <- sd(Medias_5_30) ; DesTipicaMuestral_5_30## [1] 11.51535
La distribución muestral, con sólo 5 muestras de tamaño 30, queda definida de la siguiente manera: \[\overline {X}\sim N(224.83, 11.51)\]
Calculamos los estadísticos de una muestra teórica, según el TLC, a partir de los estadísticos de la población. Según el TLC, la distribución de las medias muestrales es una distribución normal con la misma media que la poblacional con una desviación típica igual al cociente entre la desviación típica poblacional, divida por la raíz cuadrada del tamaño de la muestra.
Hacemos los cálculos.
MediaMuestral_5_30_TLC <- MediaPoblacion ; MediaMuestral_5_30_TLC## [1] 224.7591
DesTipicaMuestral_5_30_TLC <- DesTipicaPoblacion/sqrt(TamanoMuestra_5_30) ; DesTipicaMuestral_5_30_TLC## [1] 7.933234
La distribución que tendrían que tener las muestras (de tamaño 30) que se sacasen de esa población, según el TLC sería; \[\overline {X}\sim N(224.76, 7.93)\] Se constata que el TLC “vaticina” con bastante aproximación como es una muestra de la población, cuando ésta es de una tamaño determinado.
Veamos como quedan las distribuciones de la población y de la muestra, cuando las solapamos.
plot(density(Poblacion), col = "red", ylim = c(0, 0.03), xlim = c(125, 325), lwd = 2, main = "Distribuciones solapadas")
abline(v = MediaPoblacion, col = "red", lty = 4, lwd = 2)
lines(density(Medias_5_30), col = "blue", lwd = 2)
abline(v = MediaMuestral_5_30, col = "blue", lty = 2, lwd = 2)
abline(v = MediaMuestral_5_30 - DesTipicaMuestral_5_30, col = "blue", lty = 3, lwd = 3)
abline(v = MediaMuestral_5_30 + DesTipicaMuestral_5_30, col = "blue", lty = 3, lwd = 3)Aunque la distribución de la población es uniforme, vemos como la de las medias muestrales se asemeja a una distribución normal.
En una situación real tendríamos sólo los estadísticos de nuestra muestra: \[\overline {X}\sim N(224.83, 11.51)\]
Y a partir de él, basándonos en el TLC, calcuaríamos los estadísticos de la población de la siguiente manera.
MediaPoblacionTLC <- MediaMuestral_5_30 ; MediaPoblacionTLC## [1] 224.8333
DesTipicaPoblacionTLC <- DesTipicaMuestral_5_30 * sqrt(TamanoMuestra_5_30) ; DesTipicaPoblacionTLC## [1] 63.07218
Según el TLC diríamos que nuestra población se define: \[\overline {X}\sim N(221.74, 63.07)\]
Sabiendo nosotros que la muestra se podría definir (ojo que no es una distribución normal):
MediaPoblacion## [1] 224.7591
DesTipicaPoblacion## [1] 43.45211
\[\overline {X}\sim N(224.76, 43.45)\]
Gracias a TLC podemos acercarnos a conocer las características de la población, mediante la toma de muestras.