2 Elementos de inferencia estadística.

2.1 Población y muestra, parámetros y estadísticos.

2.2 Distribuciones de probabilidad e inferencia.

2.2.1 Distribución normal.

2.2.2 Distribución T de Student.

2.2.3 Distribución Ji-cuadrada.

2.2.4 Distribución F.

2.2.5 Ejemplos de distribuciones.

2.2.6 Ejemplo de tipificación.

Puedes seguir el tutorial por vídeo en YouTube

2.2.7 Cómo afecta el tamaño de la muestra a la distribución de las medias.

Volvemos a trabajar con la población que habíamos creado para simular datos de una finca con 30000 árboles, los cuales tenían entre 150 y 300 piezas de fruta.

set.seed(999)
Poblacion <- round(runif(30000, min = 150, max = 300),0)

Vamos a simular tres tomas de muestras con distinto número de repeticiones y tamaños.

par(mfrow = c(1,3)) #Dividimos el dispositivo gráfico en 4

#Primera configuración 10 muestras de 10 árboles cada una.

Interacciones <- 10 #Número de muestras. Aumentando el número, más se aproxima a la distribución normal.
n = 10 #Tamaño de la muestra. Aumentando el tamaño, disminuyo la varibilidad.
almacendemedias_10_10 <- rep(NA, Interacciones)

for (i in 1:Interacciones) {
     muestratemp <- sample(Poblacion, n) #lugar donde almaceno temporalmente las muestras.
     almacendemedias_10_10[i] <- mean(muestratemp) #almaceno las medias de las muestras temporales.
}

hist(almacendemedias_10_10, main = "10 interacciones, tamaño muestra 10")
abline(v = mean(Poblacion), lty = 2, lwd = 3, col = "red") #Línea para marcar la media de mi población.

#Segunda configuración 100 muestras de 10 árboles cada una.

Interacciones <- 100 #Número de muestras. Aumentando el número, más se aproxima a la distribución normal.
n = 10 #Tamaño de la muestra. Aumentando el tamaño, disminuyo la varibilidad.
almacendemedias_100_10 <- rep(NA, Interacciones)

for (i in 1:Interacciones) {
     muestratemp <- sample(Poblacion, n) #lugar donde almaceno temporalmente las muestras.
     almacendemedias_100_10[i] <- mean(muestratemp) #almaceno las medias de las muestras temporales.
}

hist(almacendemedias_100_10, main = "100 interacciones, tamaño muestra 10")
abline(v = mean(Poblacion), lty = 2, lwd = 3, col = "red") #Línea para marcar la media de mi población.

#Tercera configuración 10 muestras de 100 árboles cada una.

Interacciones <- 10 #Número de muestras. Aumentando el número, más se aproxima a la distribución normal.
n = 100 #Tamaño de la muestra. Aumentando el tamaño, disminuyo la varibilidad.
almacendemedias_10_100 <- rep(NA, Interacciones)

for (i in 1:Interacciones) {
     muestratemp <- sample(Poblacion, n) #lugar donde almaceno temporalmente las muestras.
     almacendemedias_10_100[i] <- mean(muestratemp) #almaceno las medias de las muestras temporales.
}

hist(almacendemedias_10_100, main = "10 interacciones, tamaño muestra 100")
abline(v = mean(Poblacion), lty = 2, lwd = 3, col = "red") #Línea para marcar la media de mi población.

Se puede observar como aumentando en número de muestras (interacciones), es más definida la distribución normal. Por otra parte, al aumentar el tamaño de las muestras se reduce la dispersión. Hay fórmulas que relacionan estos parámetros, pero esta es una forma visual de hacerlo y experimentar cambiando parámetros.

Esta parte no aparece en el vídeo

Solapamos las distribuciones de la población y de las distintas muestras.

par(mfrow = c(1,1))
plot(density(Poblacion), col = "black", ylim = c(0, 0.12), xlim = c(125, 325), lty = 1, lwd = 2, main = "Distribuciones solapadas")
abline(v = mean(Poblacion), lty = 3, lwd = 2, col = "black")
lines(density(almacendemedias_10_10), lty = 1, lwd = 2, col = "red")
abline(v = mean(almacendemedias_10_10), lty = 3, lwd = 2, col = "red")
lines(density(almacendemedias_100_10), lty = 1, lwd = 2, col = "blue")
abline(v = mean(almacendemedias_100_10), lty = 3, lwd = 2, col = "blue")
lines(density(almacendemedias_10_100), lty = 1, lwd = 2, col = "orange")
abline(v = mean(almacendemedias_10_100), lty = 3, lwd = 2, col = "orange")
lines(density(Poblacion), lty = 1, lwd = 2, col = "black")
abline(v = mean(Poblacion), lty = 3, lwd = 2, col = "black")
legend(240, 0.12, legend = c("Población","10_10", "100_10", "10_100"), 
       col = c("black","red","blue","orange"), lty = 1, cex = 0.75)

Observamos como todas las configuraciones de muestreo dan una media que se aproxima mucho a la media poblacional. Cabe resaltar que la configuración de 10 repeticiones y tamaño 100 (10_100), necesitando el mismo número de árboles (1000) que la configuración de 100 repeticiones y tamaño 10, es más eficiente, al ser su distribucion típica mucho menor.

Estadística básica agronómica

Raúl Ortiz

25 de octubre de 2017

1 Introducción al diseño de experimentos.