CLASE 7

ESTIMACIÓN DE PARÁMETROS Y DETERMINACIÓN DEL TAMAÑO DE LA MUESTRA

1. OBJETIVO

En el capítulo anterior explicamos sobre la distribución de las probabilidades discretas, en este capítulo hablaremos de la distribución de probabilidades continuas, y nos centraremos en las distribuciones normales.

2. PUNTOS CLAVE

Parámetro Muestra Población
Proporción \(\hat{p}\) \(p\)
Media \(\bar{x}\) \(\mu\)
Desviación estandar \(s\) \(\sigma\)
Varianza \(s^2\) \(\sigma^2\)

3. TEMARIO

4. ESTIMACIÓN DE UNA PROPORCIÓN POBLACIONAL

4.1 Estimación puntual

La estimación puntual es un valor único, por eso es puntual, para describir un parámetro de la población. La proporción es un estimador puntual, se representta como \(\hat{p}\), es un estimador no sesgado (es decir que la media de las proporciones muestral es la misma que la proporción poblacional) y la proporción muestral es el mejor estimador de la proporción poblacional.

4.2 Intervalo de confianza

Como vimos en la clase pasada, las medias muestrales se acercan mucho a la muestra poblacional pero no siempre son exactamente la misma. Una forma de valorar que tan bueno es el cálculo de este parámetro muestral para estimar su correspondiente parámetro poblacional se usa el intervalo de confianza. El intervalo de confianza se define como un rango de valores, calculados a partir de datos muestrales, entre los cuales se ubica el valor real del parámetro poblacional. Normalmente usamos una probabilidad del 95% para definir estos parámetros, esto corresponde al nivel de confianza, tambien llamado como grado de confianza o coeficiente de confianza. Usualmente los niveles de confianza más usados son:

Nivel de confianza Valor de \(\alpha\) ambas colas Valor de \(\alpha\) por cola
Nivel de confianza del 90% \(\alpha = 0.10\) \(\alpha = 0.050\)
Nivel de confianza del 95% \(\alpha = 0.05\) \(\alpha = 0.025\)
Nivel de confianza del 99% \(\alpha = 0.01\) \(\alpha = 0.005\)

La distribución de estos parámetros la podemos aproximar a la distribución normal z antes vista. Los valores de z que limitan las fronteras de nuestro intervalo de confianza se llaman valor crítico. En R, es fácil obtener el valor crítico usando las funciones qnorm(). A esta función le debemos dar el valor del área bajo la curva a la izquierda o derecha y nos devuelve el valor crítico.

Por ejemplo para definir los valores críticos para un intervalo de confianza de 90%, el área bajo la curva a la izquierda debe ser de 0.05, entonces

qnorm(0.05)
## [1] -1.644854

Y si deseamos saber el valor crítico a la derecha cambiamos el parámetro lower.tail=

qnorm(p = 0.05, lower.tail = FALSE)
## [1] 1.644854

Como vemos los valores críticos para un intervalo de confianza de 90% son: [-1.644854, 1.644854].

ejercicio 1:

Calcular los valores críticos para los otros dos niveles de confianza más utilizados

ejercicio 2:

Calcule los valores de z para las siguientes areas bajo la curva: 0.5, 0.75, 0.125

ejercicio 4:

Calcule el valor de z para una \(x = 123\) si la media muestral es 148 y la desviación estandar es 12.

ejercicio 5:

Con un intervalo de confianza del 99%, Ud. diría que este valor se encuntra dentro del intervalo de confianza.

4.3 Error

Si bien es cierto, el valor crítico nos sirve para determinar el intervalo de confianza, debemos recordar que escalamos los datos originales a una distribución z. Si quisieramos reportar estos valores críticos en los valores normales de nuestra muestra, podemos multiplicar los valores críticos por la desbiación estandar de la pobación cuya fórmula es: \[sd = \sqrt{\frac{\hat{p}.\hat{q}}{n}}\] Entoncecs el valor del Error, respresentado por la letra \(E\) se calcularía con la siguiente fórmula: \[E = z_{\alpha/2}. \sqrt{\frac{\hat{p}.\hat{q}}{n}}\] Por ejemplo, si tenemos que las personas usan el 43% de su tiempo libre en redes sociales, luego de haber entrevistado a 25123. Determinemos el error con un \(\alpha = 0.05\), el intervalo de confianza y veamos si es que podemos asegurar que el 50% del tiempo libre de las personas lo usan en redes sociales. Para determinar el error con un \(\alpha = 0.05\) podemos usar la función qnorm() y luego la fórmula anterior

E <- qnorm(0.025)*sqrt((0.43*(1-0.43))/25123)
E
## [1] -0.006121869

El cálculo muestra que el error es de 0.006. Para cálcular el intervalo debemos sumar y restar el error a la proporción \(\hat{p}\)

0.43 + abs(E)
## [1] 0.4361219
0.43 - abs(E)
## [1] 0.4238781

Entonces observamos que el intervalo va entre 0.424 a 0.436,en otras palabras, el intervalo está entre el 42.39% al 43.61%. En cuanto a la afirmación que la población invierte el 50% de su tiempo en redes sociales podemos concluir que esta afirmación es incorrecta basada en la encuesta de 25123, porque el límite superior de nuestro intervalo de confianza es 43.61%.

ejercicio 6: Actualmente se han reportardo 1366 muertes por COVID de 42314 casos reportados. Un periodista asegura que la tasa de muerte en Arequipa es del 4%. Use los conocimientos adquiridos actualmente para determinar si esta afirmación es correcta, usando un intervalo de confianza del 90%.

4.3 Tamaño de la muestra

a) Manual

Uno de los problemas frecuentes en investigación es determinar cual debería ser el tamaño de la muestra para nuestros ensayos. Algunas veces podemos podemos hacer un ensayo piloto y determinar cuales son las proporciones de exito y fracaso para un procedimiento dado. En muchas ocasiones, esto no es posible para cual asumimos que la proporción muestral es \(\hat{p} = 0.5\). El cálculo del tamaño muestral se puede calcular con la siguiente fórmula: \[n = \frac{(z_\alpha/2)^2.\hat{p}.\hat{q}}{E^2}\]

Supongamos que debido a la pandemia, el 73% de nuestros amigos compra en linea en vez de ir a las tiendas. Nosotros queremos saber cuantas personas debemos entrevistar para tener resultados significativos, en un intervalo de confianza del 95% con un margen de error del 3% Primero definamos nuestra variables, definamos \(z_\alpha/2\) para un intervalo de econfianza de 95%

z.2 <- qnorm(0.025)
z.2
## [1] -1.959964

Ahora calculemos las proporciones de \(\hat{p}\) y \(\hat{q}\)

p <- 0.73
q <- 1 - p

Ahora definamos el error \(E\)

E <- 0.03

Definidas nuestras variables aplicamoms la fórmula para obtener la n necesaria

n <- ((z.2^2)*p*q)/(E^2)
n
## [1] 841.2795

Necesitamos entrevistar a 842 personas para tener resultados significativos.

b) Usando R

R nos permite calcular el tamaño de la muestra utilizando la función #pwr.t.test()# del paquete “pwr”. Esta función tiene 4 parámetros:

  • d= donde se define el efecto de tamaño. Este se calcula a partir de la diferencia de las medias muestrales (de las dos muestras que se quieren comparar) dividido entre la varianza
  • sig.level= donde se define el nivel de significancia expresado como valor crítico de z. Los valores usualmente usados son: 0.90 (\(\alpha=1.645\)), 0.95 (\(\alpha=2.326\)) y 0.99 (\(\alpha=2.576\)).
  • power= donde se define la potencia, la probabilidad de cometer el error tipo beta (es decir de fallar en rechazar la hipotesis nula cuando la alternativa es verdadera), Se expresa como valor crítico de z. El valor usualmente usado es de : 0.20, es decir tener una chance de fallar en 20%, entonces la probailidad es \(1-\beta\), es decir, 0.80 donde el valor de (\(\beta=1.28\)).
  • type= donde se define el tipo de comparación. Tiene tres parámetros:
    • “two.sample” : si compararmos dos muestras independientes
    • “one.sample” : si solo estamos analizando una muestra
    • “paired” : si analizamos muestras pareadas

Comom ejemplo usaremos la base de datos anterior y determinaremos la “n” de muestras requerida para evaluar el efecto del medio de cultivo en las dos especies de bacterias analizadas. Primero cargamos la libería

# install.packages("pwr", dependencies = T)
library(pwr)

Luego cargamos la base de datos

db <- read.delim(paste0(dirname(getwd()),"/chp4/data/curva de crecimiento final.txt"))

Ahora definimos los valores de nuestra función

media1 <- mean(db$Medio.BG.11[db$sp=="Chlorella"])
media2 <- mean(db$Medio.BG.11[db$sp=="Chloridium"])
var <- var(db$Medio.BG.11[db$sp=="Chloridium"])
efec.tam <- (media1-media2)/var
efec.tam
## [1] 0.0005867195
pwr::pwr.t.test(d = efec.tam,sig.level = .05, power = .9,type = "two.sample")
## 
##      Two-sample t test power calculation 
## 
##               n = 61047106
##               d = 0.0005867195
##       sig.level = 0.05
##           power = 0.9
##     alternative = two.sided
## 
## NOTE: n is number in *each* group

En este caso la “n” es muy grande porque el valor de d(efecto de tamaño) es muy pequeño. El efecto de tamaño es una forma de expresar la diferencia de las medias de los grupos en “veces” de lal varianza. Si nuestra muestra está muy dispersa, la varianza será muy grande y necesitaré que la diferencia de las medias sea muy grande para que la n se deduzca.

ejercicio 7:

Cálcule la n necesaria para un experimento cuyo grupo control tiene una media de 12 y una varianza de 1.5, y se desea comparar versus el grupo tratamiento que tiene una media de 16. ¿Cuál es la n necesaria, si queremos una pontencia del 0.8 y una significancia del 0.05?

ejercicio 8:

que pasaría si queremos obtener una potencia de 0.9 y una significancia del 99%

ejercicio 9:

ahora imagine que la diferencia de las medias no es 3 sino de 6, que pasa con la n necesaria

ejercicio 10:

ahora imagine que la diferencia de la varianza aumenta de 1.5 a 6 pero la diferencia de las medias sigue siendo de 3, que pasa con la n necesaria

Basado en estos reesultados, que podría decir sobre la diferencia de las medias y la varianza con relación al número de muestras necesarias

5. ESTIMACIÓN DE UN PROMEDIO POBLACIONAL

La media muestras definida por el símbolo \(\bar{x}\) es el mejor estimador insesgado de la media poblacional \(\mu\). Para la distribución de la media muestral, usaremos una aproximación a la distribución de \(t\) de student. De la misma forma que vimos en la distribución normal estandar, R tiene funciones basadas en la distribución de t de student como las funciones dt(), qt(), rt() y pt(); que son equivalentes a las funciones dnorm(), qnorm(), rnorm() y pnorm(). Sin embargo, es importante recordar que para las funciones basadas en la distribución de t de student es impresindible definir los grados de libertad en el parámetro df= de las funciones. Los grados de libertad se calculan restando 1 a la n de elementos: \(df = n -1\) La distribución de t de student difiere de la distribución normal estandar, se asemeja a este último cuando se aumenta la n

t1 <- numeric()
t2 <- numeric()
t3 <- numeric()
n1 <- numeric()
cnt <- 1
for(i in seq(-4,4, by = 0.1)){
  t1[cnt] <- dt(i, df= 2)
  t2[cnt] <- dt(i, df= 6)
  t3[cnt] <- dt(i, df= 12)
  n1[cnt] <- dnorm(i)
  cnt <- cnt + 1
}
plot(n1, col = colores1[1], type = "l")
lines(t1, col = colores1[2])
lines(t2, col = colores1[3])
lines(t3, col = colores1[4])
legend("topright", legend = c("normal","t-student(n=2)","t-student(n=6)","t-student(n=12)"), col = colores1, pch = 16)

Para determinar el error se aplica la siguiente fórmula: \[E = t_{\alpha/2}.\frac{s}{\sqrt{n}}\] Como ejemplo, determinemos el valor crítico de \(t_{\alpha/2}\) correspondiente a un nivel de confianza de 95%, considerando que la n es 15. Podemoms usar las tablas de distribución de t de student o podemos usar la función qt()

qt(0.025, df = 15-1)
## [1] -2.144787

Ahora construyamos el intervalo de confianza del 95% de una muestra que tiene una media \(\bar{x} = 30.9\), con una \(n=15\) si es que tiene una desviación estandar \(s = 2.9\). Para ello aplicamos la fórmula antes vista: \[E = t_{\alpha/2}.\frac{s}{\sqrt{n}}\] usando R para hacer dicho cálculo

E <- qt(0.025, df = 15-1) * (2.9/sqrt(15))
E
## [1] -1.605966

Con el error calculado, ahora podemos definir los límites del rango

30.9 - E
## [1] 32.50597
30.9 + E
## [1] 29.29403

Con este resultado, podemos decir que con un 95% de seguridad la media poblacional se encuntr entre 29.29 a 32.51

6. ESTIMACIÓN DE UNA DESVIACIÓN ESTANDAR O VARIANZA POBLACIONAL

El mejor estimador la desviación estandar poblacional \(\sigma\) es la desviación estandar muestral \(s\) aunque esta ese un

7. BOOTSTRAP