- Considere la base de datos relacionada aquí https://drive.google.com/file/d/ 1tGLD6qWqAy1MX3saGfkYSHm_MZVRHwr7/view?usp=sharing. Suponga que usted está interesado en sacar una muestra con el fin de estimar el promedio de longitud de las plantas (debemos suponer que no existen los registros de las columnas P y Q, salvo para los elementos que estarán en nuestra muestra y para los cuales usted ha calculado las coordenadas de ubicación). Usted está dispuesto a tolerar un margen de error de 0.02 grados de longitud.
Cargamos el dataset y vemos el nombre de las variables:
Primero véamos cuántos registros tienen NA
any(is.na(data$Longitud))## [1] FALSE
Como toma la variable Longitud como caracter debemos pasarla al tipo numérico
data$Longitud = gsub(",", ".", data$Longitud)
class(data$Longitud)## [1] "character"
suppressWarnings(data$Longitud <- as.numeric(data$Longitud))- Calcule el tamaño de la muestra necesario para garantizar ese margen de error (tenga en cuenta el factor de correción)
De acuerdo a la ecuación del error
\(\varepsilon = z_{\alpha/2}\sqrt{1-\frac{n}{N}}\frac{S}{\sqrt{n}}\)
Obtenemos:
\(n = \frac{z^2_{\alpha/2} N S^2}{N \varepsilon^2+z^2_{\alpha/2}S^2}\)
Donde: \(N\) =
N=nrow(data)
N## [1] 12787
Varianza de la población \(S^2\) =
S_2 = var(data$Longitud)
S_2## [1] 0.03935991
\(\varepsilon = 0.02\)
E= 0.02\(\alpha = 0.05\) entonces \(z_{\alpha/2} =\)
z_a_med = qnorm(p=0.05/2, lower.tail = F)
z_a_med## [1] 1.959964
Reemplazamos:
\(n = \frac{z^2_{\alpha/2} N S^2}{N \varepsilon^2+z^2_{\alpha/2}S^2} = \frac{1.96^2 * 12787 * 0.03935991}{12787*0.02^2+1.96^2*0.03935991}\)
n = (z_a_med^2*N*S_2)/(N*E^2+z_a_med^2*S_2)
n## [1] 367.1455
n = ceiling(n)
n## [1] 368
Obtenemos una muestra de tamaño 368.
- Haga un MAS con el tamaño de muestra encontrado en el punto anterior.
set.seed(1234)
vec_muestra = sample(1:nrow(data), n)
muestra = data[vec_muestra, ]- Calcule un intervalo de confianza del 95%
Para este caso sólo necesitamos sumar y restar el error con el promedio de la muestra
long_barra = mean(muestra$Longitud)
long_barra## [1] -74.10335
ERROR = z_a_med*E
lim_inf = long_barra-ERROR
lim_sup = long_barra+ERROR
IC = c(lim_inf, lim_sup)
IC## [1] -74.14255 -74.06416
Así que con un nivel de significancia del 5% la media de la longitud en coordenada estará en el intervalo de confianza que comprende los límites (-74.14255, -74.06416)
- Una Universidad tiene 807 profesores. Por cada profesor, se registró el número de publicaciones arbitradas. Ese número no está disponible directamente en la base de datos, así que se requiere que el investigador los examine cada registro por separado. Para una muestra de 50 profesores se obtiene la siguiente tabla de frecuencia:
| Refereed Publications | Faculty Members |
|---|---|
| 0 | 28 |
| 1 | 4 |
| 2 | 3 |
| 3 | 4 |
| 4 | 4 |
| 5 | 2 |
| 6 | 1 |
| 7 | 0 |
| 8 | 2 |
| 9 | 1 |
| 10 | 1 |
- Estime el número de publicaciones por profesor y encuentre el error estándar para su estimación
Como nos describe que es por profesor entonces debemos determinar el estimador puntual para el promedio poblacional
pub_prof = c(28,4,3,4,4,2,1,0,2,1,1)
mean_pub = mean(pub_prof)
mean_pub## [1] 4.545455
- Estime la proporción del número de miembros sin publicaciones y dé un intervalo de confianza del 95%. (Utilice las siguientes ecuaciones para estimación de proporciones de la tabla siguiente)
| Refereed Publications | Faculty Members | Standard Error of Estimator |
|---|---|---|
| Population proportion, p | \(\widehat{p}\) | \(\sqrt{(1-\frac{n}{N})\frac{\widehat{p}(1-\widehat{p})}{n-1}}\) |
Entonces tenemos que
Proporción muestral \(\widehat{p}=\frac{"número\ de\ profesores\ sin\ publicaciones\ en\ la\ muestra"}{total\ de\ profesores\ en\ la\ muestra}\)
\(\widehat{p} =\)
p_est = 28/sum(pub_prof)
p_est## [1] 0.56
Ahora estimador puntual \(\pm\) margen de error,
\(\widehat{p}\pm z_{\alpha/2}*SE(\widehat{p})\),
\(\widehat{p}\pm z_{\alpha/2}\sqrt{(1-\frac{n}{N})\frac{\widehat{p}(1-\widehat{p})}{n-1}}\)
Tenemos:
N = 807
n = sum(pub_prof)
z_alfa_medio = qnorm(p = 0.05/2, lower.tail = FALSE)
error = z_alfa_medio*sqrt((1-n/N)*((p_est*(1-p_est))/(n-1)))
lim_inf = p_est-error
lim_sup = p_est+error
IC = c(lim_inf, lim_sup)
IC## [1] 0.4253887 0.6946113
Con una significancia del 5% se tiene que la proporción de miembros sin publicaciones está en el intervalo (0.4253887 0.6946113)