Puedes seguir el tutorial por vídeo en YouTube
Puntos anteriores
Se trata de calcular el rango en el que, con un determinado nivel de confianza, se encuentre un estadístico. Por ejemplo, podríamos estimar un intervalo en el que, 90 de cada 100 veces, estaría la media de una población.
Es un intervalo numérico (L - U), en el la media poblacional \(\mu\) se encuentre con una confianza determinada (\(1-\alpha\)):
\[P\left( L\leq \mu \leq U\right) =1-\alpha\] A alfa se le llama nivel de significación. No se debe confundir con nivel de confianza, que ese es 1-alfa.
Al desglosar la fórmula, nos quedaría de la siguiente manera:
\[P\left( \overline {X}-t_{\alpha / 2}\dfrac {S} {\sqrt {n}}\leq \mu \leq \overline {X}+t_{\alpha / 2}\dfrac {S} {\sqrt {n}} \right) =1-\alpha\]
“X” es la media de la muestra.
“t alfa/2” es un valor que sale de la distribución T (de Student) si tenemos datos muestrales y de la distribución Normal Estándar (“z” en ese caso), si tenemos datos poblacionales. Representa el número de desviaciones stándar alejadas la media de la distribución. Nivel de confianza 0.9 = 1 - alfa -> alfa = 0.1
La desviación estándar dividida por la raíz del tamaño de las muestras, es a lo que se llama el Error Estándar (SE).
if (!require(visualize)) {install.packages("visualize")}## Loading required package: visualize
library(visualize)visualize.t(stat = c(-2,2),df = 124,section = "tails")# Para que me quede un 90% de superficie sin colorear, tengo que dejar un 5% (alfa/2) a cada lado de la curva, así que tengo que averiguar el estadístico que marca el valor t(alfa/2).Ejemplo de intervalo de confianza para una media.
En una cadena de confección de fruta se quiere comprobar que ésta cumple con las especificacioines del mercado, es decir, que el calibre medio sea de 70 mm con una tolerancia de $$5mm, esto no quiere decir que la fruta más pequeña tenga un diámetro de 65mm y la mayor de 75 mm, sino que de media la fruta tenga entre 65 y 75 mm. Para ello se obtienen 150 medias de muestras de 10 frutas cada una.
set.seed(555)
MuestraCalibre <- round(rnorm(n = 150, mean = 72, sd = 8), 2) ; MuestraCalibre## [1] 69.36 76.03 74.99 87.11 57.76 79.09 70.75 82.92 72.29 76.95 69.77
## [12] 66.66 64.01 65.18 66.60 71.35 74.08 65.84 60.45 76.09 77.57 75.68
## [23] 62.72 82.22 63.53 72.34 77.39 71.26 70.42 83.53 70.35 69.60 74.12
## [34] 70.00 69.61 73.43 68.42 76.51 67.24 64.23 89.72 83.36 79.09 69.06
## [45] 64.75 74.65 75.14 69.31 90.06 47.00 81.19 72.71 74.28 70.23 70.67
## [56] 64.36 80.79 66.75 63.10 72.55 74.97 77.18 61.42 80.07 83.45 66.87
## [67] 71.36 78.66 88.51 64.35 62.89 68.72 78.21 70.75 60.08 66.03 74.69
## [78] 74.60 82.12 71.40 57.27 82.39 76.87 63.05 73.39 82.73 73.71 62.07
## [89] 65.05 73.78 72.60 59.60 74.77 81.67 73.37 78.07 78.10 69.58 59.74
## [100] 80.06 65.58 59.90 72.25 77.11 99.37 65.83 71.02 72.59 76.39 72.92
## [111] 74.11 67.50 77.92 58.08 61.70 73.33 81.45 77.07 73.15 58.51 71.43
## [122] 67.82 77.46 81.87 80.71 66.39 64.01 77.27 73.71 70.93 88.33 70.62
## [133] 82.37 66.28 65.94 56.81 60.97 74.66 70.86 80.40 63.86 53.41 64.88
## [144] 71.29 66.67 66.80 90.95 79.89 64.99 64.71
Recordamos la fórmula para calcular la media por intervalos: \[P\left( \overline {X}-t_{\alpha / 2}\dfrac {S} {\sqrt {n}}\leq \mu \leq \overline {X}+t_{\alpha / 2}\dfrac {S} {\sqrt {n}} \right) =1-\alpha\]
Calculamos la media y la varianza.
MediaCalibre_X <- round(mean(MuestraCalibre), 2) ; MediaCalibre_X## [1] 71.95
DesEstandar_S <- round(sd(MuestraCalibre), 2) ; DesEstandar_S## [1] 8.14
La estimación del error estándar “SE” de la media se calcula dividiendo la desviación estándar entre la raíz cuadrada del número de muestras.
\[SE = \dfrac {S} {\sqrt {n}}\]
n <- length(MuestraCalibre) ; n #Número de muestras.## [1] 150
nivel.conf <- 0.9 #Nivel de confianza con el que quiero trabajar. El nivel de significación "alfa" sería entonces de 1 - 0.9 = 0.1
ErrorEstandar_SE <- round(DesEstandar_S/sqrt(n), 2) ; ErrorEstandar_SE## [1] 0.66
#ErrorEstandar_SE <- sd(MuestraCalibre)/sqrt(n) # La raíz cuadrada de la varianza es la desviación estándar.Veamos como llevamos la fórmula: \[P\left( 71.75-(t_{\alpha / 2} · 0.66)\leq \mu \leq 71.75+(t_{\alpha / 2} · 0.66) \right) =1-\alpha\]
Valor t alfa/2 de según distribución de T de Student (porque estamos tratando con datos muestrales).
Puedo buscar en las tablas de distribución T de Student el valor correspondiente, cruzando al número de grados de libertad de mi muestra (n-1), con el nivel de confianza con el que quiera trabajar (dividido entre dos poque es una distribución de dos colas). Yo optaré por pedir a R que me de ese valor, en lugar de buscarlo en la tabla.
t_alfa_0_5 <- qt((1 + nivel.conf)/2, df = n - 1); t_alfa_0_5## [1] 1.655145
t_alfa_0_5 equivale en la fórmula a \[t_{\alpha / 2}\]
Llamamos error de la estimación al producto de t_alfa_0_5 por el error estándar (SE).
ErrorEstimacion <- round(t_alfa_0_5 * ErrorEstandar_SE, 2) ; ErrorEstimacion## [1] 1.09
Veamos como llevamos la fórmula: \[P\left( 71.75-1.09\leq \mu \leq 71.75+1.09 \right) =0.90\]
Ahora ya estamos en condiciones de decir que con un 90% de confianza, la media de nuestra población será algún valor que no se aleje en valor absoluto, más de 1.09 mm de nuestra media muestral, que era de 71.95 mm. También expresado como 71.95 \(\pm\) 1.09
Si queremos podemos simplemente dar nuestro intervalo de confianza (para un nivel de confianza del 90%).
Int.inf <- MediaCalibre_X - ErrorEstimacion ; Int.inf## [1] 70.86
Int.sup <- MediaCalibre_X + ErrorEstimacion ; Int.sup## [1] 73.04
[70.86, 73.04]
También
MediaCalibre_X + c(-ErrorEstimacion, +ErrorEstimacion)## [1] 70.86 73.04
Cumplimos pues con que el requisito impuesto por el comercio de que la fruta un calibre medio de entre 65 y 75 mm.
Ejemplo 2, resumido, de intervalo de confianza para una media. ¿Cuál sería el intervalo de confianza de la media, con un nivel de significación alfa de 0.05? Resumimos todas las operaciones.
alfa <- 0.05
MediaCalibre_X <- mean(MuestraCalibre) ; MediaCalibre_X## [1] 71.94993
DesEstandar_S <- sd(MuestraCalibre) ; DesEstandar_S## [1] 8.142845
n <- length(MuestraCalibre) ; n #Número de muestras.## [1] 150
nivel.conf <- 1 - alfa ; nivel.conf #Nivel de confianza con el que quiero trabajar.## [1] 0.95
ErrorEstandar_SE <- DesEstandar_S/sqrt(n) ; ErrorEstandar_SE## [1] 0.6648605
#ErrorEstandar_SE <- sd(MuestraCalibre)/sqrt(n) # La raíz cuadrada de la varianza es la desviación estándar.
t_alfa_0_5 <- qt((1 + nivel.conf)/2, df = n - 1); t_alfa_0_5## [1] 1.976013
ErrorEstimacion <- t_alfa_0_5 * ErrorEstandar_SE ; ErrorEstimacion## [1] 1.313773
MediaCalibre_X + c(-ErrorEstimacion, +ErrorEstimacion) #Intervalo de confianza.## [1] 70.63616 73.26371
Calcular los intervarlos utilizando el comando t.test.
Test.Muestra <- t.test(MuestraCalibre, conf.level = 0.95) ; Test.Muestra##
## One Sample t-test
##
## data: MuestraCalibre
## t = 108.22, df = 149, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 70.63616 73.26371
## sample estimates:
## mean of x
## 71.94993
Si necesitásemos sólo los intervalos de confianza, los podríamos obtener de la siguiente manera.
Test.Muestra$conf.int## [1] 70.63616 73.26371
## attr(,"conf.level")
## [1] 0.95
Tamaño de la muestra. Si se quiere calcular el tamaño de la muestra n, que es necesario para estimar la media de una población \(\mu\) con un error máximo de E (cuando n sea mayor que 30):
\[\eta =\dfrac {4S^{2}} {E^{2}}\]
Siguiendo con el ejemplo anterior, ahora queremos saber cuanta fruta tenemos que muestrear, para conocer el calibre medio de la fruta con un error máximo de (1mm).
n <- 4 * var(MuestraCalibre) / 1^2 ; n## [1] 265.2237