En el capítulo anterior explicamos sobre la distribución de las probabilidades discretas, en este capítulo hablaremos de la distribución de probabilidades continuas, y nos centraremos en las distribuciones normales.
| Parámetro | Muestra | Población |
|---|---|---|
| Proporción | \(\hat{p}\) | \(p\) |
| Media | \(\bar{x}\) | \(\mu\) |
| Desviación estandar | \(s\) | \(\sigma\) |
| Varianza | \(s^2\) | \(\sigma^2\) |
La estimación puntual es un valor único, por eso es puntual, para describir un parámetro de la población. La proporción es un estimador puntual, se representta como \(\hat{p}\), es un estimador no sesgado (es decir que la media de las proporciones muestral es la misma que la proporción poblacional) y la proporción muestral es el mejor estimador de la proporción poblacional.
Como vimos en la clase pasada, las medias muestrales se acercan mucho a la muestra poblacional pero no siempre son exactamente la misma. Una forma de valorar que tan bueno es el cálculo de este parámetro muestral para estimar su correspondiente parámetro poblacional se usa el intervalo de confianza. El intervalo de confianza se define como un rango de valores, calculados a partir de datos muestrales, entre los cuales se ubica el valor real del parámetro poblacional. Normalmente usamos una probabilidad del 95% para definir estos parámetros, esto corresponde al nivel de confianza, tambien llamado como grado de confianza o coeficiente de confianza. Usualmente los niveles de confianza más usados son:
| Nivel de confianza | Valor de \(\alpha\) ambas colas | Valor de \(\alpha\) por cola |
|---|---|---|
| Nivel de confianza del 90% | \(\alpha = 0.10\) | \(\alpha = 0.050\) |
| Nivel de confianza del 95% | \(\alpha = 0.05\) | \(\alpha = 0.025\) |
| Nivel de confianza del 99% | \(\alpha = 0.01\) | \(\alpha = 0.005\) |
La distribución de estos parámetros la podemos aproximar a la distribución normal z antes vista. Los valores de z que limitan las fronteras de nuestro intervalo de confianza se llaman valor crítico. En R, es fácil obtener el valor crítico usando las funciones qnorm(). A esta función le debemos dar el valor del área bajo la curva a la izquierda o derecha y nos devuelve el valor crítico.
Por ejemplo para definir los valores críticos para un intervalo de confianza de 90%, el área bajo la curva a la izquierda debe ser de 0.05, entonces
qnorm(0.05)
## [1] -1.644854
Y si deseamos saber el valor crítico a la derecha cambiamos el parámetro lower.tail=
qnorm(p = 0.05, lower.tail = FALSE)
## [1] 1.644854
Como vemos los valores críticos para un intervalo de confianza de 90% son: [-1.644854, 1.644854].
Calcular los valores críticos para los otros dos niveles de confianza más utilizados
Calcule los valores de z para las siguientes areas bajo la curva: 0.5, 0.75, 0.125
Calcule el valor de z para una \(x = 123\) si la media muestral es 148 y la desviación estandar es 12.
Con un intervalo de confianza del 99%, Ud. diría que este valor se encuntra dentro del intervalo de confianza.
Si bien es cierto, el valor crítico nos sirve para determinar el intervalo de confianza, debemos recordar que escalamos los datos originales a una distribución z. Si quisieramos reportar estos valores críticos en los valores normales de nuestra muestra, podemos multiplicar los valores críticos por la desbiación estandar de la pobación cuya fórmula es: \[sd = \sqrt{\frac{\hat{p}.\hat{q}}{n}}\] Entoncecs el valor del Error, respresentado por la letra \(E\) se calcularía con la siguiente fórmula: \[E = z_{\alpha/2}. \sqrt{\frac{\hat{p}.\hat{q}}{n}}\] Por ejemplo, si tenemos que las personas usan el 43% de su tiempo libre en redes sociales, luego de haber entrevistado a 25123. Determinemos el error con un \(\alpha = 0.05\), el intervalo de confianza y veamos si es que podemos asegurar que el 50% del tiempo libre de las personas lo usan en redes sociales. Para determinar el error con un \(\alpha = 0.05\) podemos usar la función qnorm() y luego la fórmula anterior
E <- qnorm(0.025)*sqrt((0.43*(1-0.43))/25123)
E
## [1] -0.006121869
El cálculo muestra que el error es de 0.006. Para cálcular el intervalo debemos sumar y restar el error a la proporción \(\hat{p}\)
0.43 + abs(E)
## [1] 0.4361219
0.43 - abs(E)
## [1] 0.4238781
Entonces observamos que el intervalo va entre 0.424 a 0.436,en otras palabras, el intervalo está entre el 42.39% al 43.61%. En cuanto a la afirmación que la población invierte el 50% de su tiempo en redes sociales podemos concluir que esta afirmación es incorrecta basada en la encuesta de 25123, porque el límite superior de nuestro intervalo de confianza es 43.61%.
Uno de los problemas frecuentes en investigación es determinar cual debería ser el tamaño de la muestra para nuestros ensayos. Algunas veces podemos podemos hacer un ensayo piloto y determinar cuales son las proporciones de exito y fracaso para un procedimiento dado. En muchas ocasiones, esto no es posible para cual asumimos que la proporción muestral es \(\hat{p} = 0.5\). El cálculo del tamaño muestral se puede calcular con la siguiente fórmula: \[n = \frac{(z_\alpha/2)^2.\hat{p}.\hat{q}}{E^2}\]
Supongamos que debido a la pandemia, el 73% de nuestros amigos compra en linea en vez de ir a las tiendas. Nosotros queremos saber cuantas personas debemos entrevistar para tener resultados significativos, en un intervalo de confianza del 95% con un margen de error del 3% Primero definamos nuestra variables, definamos \(z_\alpha/2\) para un intervalo de econfianza de 95%
z.2 <- qnorm(0.025)
z.2
## [1] -1.959964
Ahora calculemos las proporciones de \(\hat{p}\) y \(\hat{q}\)
p <- 0.73
q <- 1 - p
Ahora definamos el error \(E\)
E <- 0.03
Definidas nuestras variables aplicamoms la fórmula para obtener la n necesaria
n <- ((z.2^2)*p*q)/(E^2)
n
## [1] 841.2795
Necesitamos entrevistar a 842 personas para tener resultados significativos.
R nos permite calcular el tamaño de la muestra utilizando la función #pwr.t.test()# del paquete “pwr”. Esta función tiene 4 parámetros:
Comom ejemplo usaremos la base de datos anterior y determinaremos la “n” de muestras requerida para evaluar el efecto del medio de cultivo en las dos especies de bacterias analizadas. Primero cargamos la libería
# install.packages("pwr", dependencies = T)
library(pwr)
Luego cargamos la base de datos
db <- read.delim(paste0(dirname(getwd()),"/chp4/data/curva de crecimiento final.txt"))
Ahora definimos los valores de nuestra función
media1 <- mean(db$Medio.BG.11[db$sp=="Chlorella"])
media2 <- mean(db$Medio.BG.11[db$sp=="Chloridium"])
var <- var(db$Medio.BG.11[db$sp=="Chloridium"])
efec.tam <- (media1-media2)/var
efec.tam
## [1] 0.0005867195
pwr::pwr.t.test(d = efec.tam,sig.level = .05, power = .9,type = "two.sample")
##
## Two-sample t test power calculation
##
## n = 61047106
## d = 0.0005867195
## sig.level = 0.05
## power = 0.9
## alternative = two.sided
##
## NOTE: n is number in *each* group
En este caso la “n” es muy grande porque el valor de d(efecto de tamaño) es muy pequeño. El efecto de tamaño es una forma de expresar la diferencia de las medias de los grupos en “veces” de lal varianza. Si nuestra muestra está muy dispersa, la varianza será muy grande y necesitaré que la diferencia de las medias sea muy grande para que la n se deduzca.
Cálcule la n necesaria para un experimento cuyo grupo control tiene una media de 12 y una varianza de 1.5, y se desea comparar versus el grupo tratamiento que tiene una media de 16. ¿Cuál es la n necesaria, si queremos una pontencia del 0.8 y una significancia del 0.05?
que pasaría si queremos obtener una potencia de 0.9 y una significancia del 99%
ahora imagine que la diferencia de las medias no es 3 sino de 6, que pasa con la n necesaria
ahora imagine que la diferencia de la varianza aumenta de 1.5 a 6 pero la diferencia de las medias sigue siendo de 3, que pasa con la n necesaria
Basado en estos reesultados, que podría decir sobre la diferencia de las medias y la varianza con relación al número de muestras necesarias
La media muestras definida por el símbolo \(\bar{x}\) es el mejor estimador insesgado de la media poblacional \(\mu\). Para la distribución de la media muestral, usaremos una aproximación a la distribución de \(t\) de student. De la misma forma que vimos en la distribución normal estandar, R tiene funciones basadas en la distribución de t de student como las funciones dt(), qt(), rt() y pt(); que son equivalentes a las funciones dnorm(), qnorm(), rnorm() y pnorm(). Sin embargo, es importante recordar que para las funciones basadas en la distribución de t de student es impresindible definir los grados de libertad en el parámetro df= de las funciones. Los grados de libertad se calculan restando 1 a la n de elementos: \(df = n -1\) La distribución de t de student difiere de la distribución normal estandar, se asemeja a este último cuando se aumenta la n
t1 <- numeric()
t2 <- numeric()
t3 <- numeric()
n1 <- numeric()
cnt <- 1
for(i in seq(-4,4, by = 0.1)){
t1[cnt] <- dt(i, df= 2)
t2[cnt] <- dt(i, df= 6)
t3[cnt] <- dt(i, df= 12)
n1[cnt] <- dnorm(i)
cnt <- cnt + 1
}
plot(n1, col = colores1[1], type = "l")
lines(t1, col = colores1[2])
lines(t2, col = colores1[3])
lines(t3, col = colores1[4])
legend("topright", legend = c("normal","t-student(n=2)","t-student(n=6)","t-student(n=12)"), col = colores1, pch = 16)
Para determinar el error se aplica la siguiente fórmula: \[E = t_{\alpha/2}.\frac{s}{\sqrt{n}}\] Como ejemplo, determinemos el valor crítico de \(t_{\alpha/2}\) correspondiente a un nivel de confianza de 95%, considerando que la n es 15. Podemoms usar las tablas de distribución de t de student o podemos usar la función qt()
qt(0.025, df = 15-1)
## [1] -2.144787
Ahora construyamos el intervalo de confianza del 95% de una muestra que tiene una media \(\bar{x} = 30.9\), con una \(n=15\) si es que tiene una desviación estandar \(s = 2.9\). Para ello aplicamos la fórmula antes vista: \[E = t_{\alpha/2}.\frac{s}{\sqrt{n}}\] usando R para hacer dicho cálculo
E <- qt(0.025, df = 15-1) * (2.9/sqrt(15))
E
## [1] -1.605966
Con el error calculado, ahora podemos definir los límites del rango
30.9 - E
## [1] 32.50597
30.9 + E
## [1] 29.29403
Con este resultado, podemos decir que con un 95% de seguridad la media poblacional se encuntr entre 29.29 a 32.51
El mejor estimador la desviación estandar poblacional \(\sigma\) es la desviación estandar muestral \(s\) aunque esta ese un