Puedes seguir el tutorial por vídeo en YouTube

1 Introducción al diseño de experimentos.

2 Elementos de inferencia estadística.

2.1 Población y muestra, parámetros y estadísticos.

2.2 Distribuciones de probabilidad e inferencia.

2.2.1 Distribución normal.

2.2.2 Distribución T de Student.

2.2.3 Distribución Ji-cuadrada.

2.2.4 Distribución F.

2.2.5 Ejemplos de distribuciones.

2.2.6 Ejemplo de tipificación.

Tipificar no es más que buscar el equivalente de un valor X en una distribución normal cualquiera \[ X(\mu , \sigma)\] al de una distribución normal estándar, que llamaremos Z \[ Z(0, 1)\]

Seguimos con el ejemplo anterior.

Supongamos que el propietario de la finca dió al técnico la instrucción de que se aclarasen los árboles, de manera que quedasen ente 180 y 300 piezas de fruta por árbol. El técnico se confundió y al final los árboles de la finca tienen entre 150 y 300, tal como se definió en el ejemplo anterior.

El jefe va a ir a campo y va a comprobar si el técnico siguó correctamente sus intrucciones. El técnico sabe que su jefe va a muestrear sólo una vez, es decir sólo una media de 10 árboles ¿Qué probabilidad hay de que procediendo de esa manera, el jefe saque una muestra cuya media sea inferior a 180 frutas/árbol?

La Población:

set.seed(999) #Establezco una semilla para que R siempre saque las mismas muestras.
Poblacion <- round(runif(30000, min = 150, max = 300),0) #Creo un vector con para simular la población de 30000 árboles que pudiera tener una finca, con entre 150 y 300 piezas de fruta cada uno.
head(Poblacion, 10) #Mostramos los 10 primeros datos de los 30.000 creados.
##  [1] 208 237 164 278 268 168 241 162 209 243
n <- length(Poblacion) ; n
## [1] 30000
plot(density(Poblacion)) ; points(Poblacion, rep(0, n)) #Gráfico de distribución poblacional

Recordad del vídeo anterior cual era la distribución muestral cuando cogíamos 5 muestras, de 10 árboles cada una.

#Tomo 5 muestras de 10 árboles cada una, de nuestra población.
Muestras_5_10 <- replicate(n = 5, sample(Poblacion, 10, replace = FALSE))

#Averiguo las medias de cada muestra.
Medias_5_10 <- colMeans(Muestras_5_10)

num <- length(Medias_5_10)

#Represento la distribución de las medias, para mostrar que se aproxima a una distribución normal.
plot(density(Medias_5_10)) ; points(Medias_5_10, rep(0, num))

Y la distribución quedaba definida de la siguiente manera. Estos cálculos están hechos con las muestras que el técnico tiene, tras el trabajo de campo. Él no cuenta con los datos de la población.

MediaMuestras <- mean(Medias_5_10) ; MediaMuestras
## [1] 221.74
Des_Est_Muestra <- sd(Medias_5_10) ; Des_Est_Muestra #La calculamos con los datos de campo.
## [1] 24.7296

\[180\sim N(221.74, 24.73)\]

if (!require(visualize)) {install.packages("visualize")}
## Loading required package: visualize
library(visualize)
n <- 10 #Tamaño de la muestra
X <- 180 #Media de referencia

curve(dnorm(x, mean = MediaMuestras, sd = Des_Est_Muestra), from = 150, to = 300) #Esta sería la curva de la distribución normal N(221,74, 24,73)   N(media, des.est)

visualize.norm(stat = X, mu = MediaMuestras, sd = Des_Est_Muestra, section = "lower")

Prob_n_X <- pnorm(X, mean = MediaMuestras, sd = Des_Est_Muestra, lower.tail = TRUE) ; Prob_n_X #Probabilidad de que se encuentre una muestra con las características dadas, según la distirbución normal asociada a la muestra. 
## [1] 0.04571944

La probabilidad según este método de que la media de la muestra sea menor de 180 frutos por árbol es del 4.57% (0.0457194).

Esta no es la fómula habitual para hacer ésto. Pero está bien hacerlo, por probar nuevas cosas.

Por comodidad, para no trabajar con una tabla de probabilidades para cada distribución normal, lo que se hace es tipificar los datos \[Z\sim N(0, 1)\] para poder buscar la probabilidad en una distribución normal estándar, mediante la siguiente conversión \[Z=\dfrac {X-\mu } {\sigma }\].

Donde Z es el nuevo valor de la muestra en la distribución normal estándar y X es el valor de la muestra para la cual queremos averiguar la porbabilidad. Mu es la media muestral y sigma la desviación típica.

\[P\left( x\leq 180\right) =P\left( z\leq \dfrac {180-221.74} { 24.73}\right) = P\left( z\leq \dfrac {-41.74} {24.73}\right) =P(Z\leq -1.69) = 0.0455\]

Mirando en la tabla las probabilidades de la distribución normal estándar, el valor asociado a Z = -1,69, obtenemos 0.0455, que es la probabilidad acumulada hasta ese punto. Hay un 4,55% de probabilidades de que la media de la muestra sea menor de 180 frutos por árbol. Prácticamente la misma probabilidad que hayamos sin tipificar.

\[P\left( x\leq 180\right) =P(Z\leq -1.69) = 0.0455\]

Lo mismo, pero con R. Sin tener que consultar la tabla de distribución normal.

MediaMuestras
## [1] 221.74
Des_Est_Muestra
## [1] 24.7296
MediaReferencia <- 180

pnorm(MediaReferencia, MediaMuestras, Des_Est_Muestra, lower.tail = TRUE)
## [1] 0.04571944
z <- (MediaReferencia - MediaMuestras) / Des_Est_Muestra ; z
## [1] -1.687856
visualize.norm(stat = z, mu = 0, sd = 1, section = "lower")

El técnico piensa que la probabilidad de que descubran su fallo es menor al 5% y eso no le deja demasiado tranquilo, piensa que es un 5% es aún una probabilidad alta. Sin embargo, cuando el dueño va a la finca, cuenta las frutas en los diez árboles y hace la media, ésta sale por encima de 180. ¿Ha tenido el técnico mucha suerte o realmente no tanta como él piensa?

En realidad no ha tenido tanta como él cree, porque ya vimos que tomando 5 muestras, la media muestral se acercaba mucho a la poblacional, pero no así la desviación típica, que era mucho menor (13.98 en lugar de 24.73) Recordemos cual era la distribución muestral cuando simulábamos muestrear toda la finca (3000 muestras): \[\overline {X}\sim N(225.07, 13.98)\]

Con esta distribución, ¿cuál es la probabilidad real de que la media de la muestra que se tome, sea inferior a 180 piezas de frutas por árbol?

MediasMuestras_3000_10 <- 225.07
Des_Tip_Muestra_3000_10 <- 13.98
MediaReferencia <- 180

pnorm(MediaReferencia, MediasMuestras_3000_10, Des_Tip_Muestra_3000_10, lower.tail = TRUE)
## [1] 0.000632307

La probabilidad es realmente baja, del 0.06%. De cada 10000 muestras que tomase, sólo 6 tendrían una media inferior a 180 frutos por árbol.

Vemos la representación gráfica.

visualize.norm(stat = MediaReferencia, mu = MediasMuestras_3000_10, sd = Des_Tip_Muestra_3000_10, section = "lower")

Recordad que este porcentaje se refiere a muestras con media de 180 frutas por árbol, no a el porcentaje de encontrar un árbol con 180 piezas de fruta. Ésta probabilidad es de:

sum(Poblacion <= 180)/length(Poblacion)
## [1] 0.2078333

Por último vamos a ver como se averigua la probabilidad de que la media de una muestra, se encuentre en un intervalo ente 220 y 240 piezas de fruta por árbol. En una \[N(221.74, 24.73) ; P\left( 220\leq X \leq 240\right)\]

visualize.norm(stat = c(220, 240), mu = MediaMuestras, sd = Des_Est_Muestra, section = "bounded")

Normalizamos para averiguar \[N(0, 1) ; P(\dfrac {220-221.74} {24.73}\leq z \leq \dfrac {240-221.74} { 24.73}) = P\left( {-0.07}\leq z\leq {0.74}\right) = P\left( z\leq 0.74\right) - P\left( z\leq -0.07\right) = 0.7704 - 0.4721 = 0.2983\]

z1 <- (220 - MediaMuestras) / Des_Est_Muestra ; z1
## [1] -0.07036103
z2 <- (240 - MediaMuestras) / Des_Est_Muestra ; z2
## [1] 0.7383865
pnorm(240, MediaMuestras, Des_Est_Muestra, lower.tail = TRUE) - pnorm(220, MediaMuestras, Des_Est_Muestra, lower.tail = TRUE)
## [1] 0.297907
visualize.norm(stat = c(-0.07, 0.74), mu = 0, sd = 1, section = "bounded")

La probabilidad es por lo tanto de cerca del 30% (29.79%)