Taller Muestreo

Parte Teorica

Pregunta 1

La expresión \(Z_{1−\frac{𝛼}{2}}\sqrt{𝑉(\hat{𝜃})}\), donde \(\hat{𝜃}\) es un parámetro y el valor \(Z\) el percentil de la normal es:

El margen de error La expresión Z_{1−}, donde es un parámetro y el valor Z el percentil de la normal, representa el margen de error en un intervalo de confianza. En este contexto, Z_{1−} es el valor crítico de la distribución normal estándar que se utiliza para construir un intervalo de confianza, donde es el nivel de significancia dividido entre dos para un intervalo de confianza bilateral. Por otro lado, representa la raíz cuadrada de la varianza del parámetro estimado . Por lo tanto, la expresión dada calcula el margen de error basado en el nivel de confianza y la variabilidad del parámetro estimado.

Pregunta 2

Se dice que un estadístico \(\hat{𝜃}\) es insesgado para un parámetro \(𝜃\) cuando:

La esperanza \(E_{p](\hat{𝜃}) = 𝜃\).

Un estadístico se considera insesgado para un parámetro 𝜃 cuando la esperanza de , denotada como E_{p}(), es igual al valor del parámetro 𝜃. Esta propiedad es fundamental en estadística, ya que garantiza que el estimador no tiene sesgo y proporciona estimaciones imparciales del parámetro de interés. En resumen, un estadístico se considera insesgado cuando su esperanza coincide con el valor real del parámetro que se está estimando, lo que asegura que las estimaciones sean lo más cercanas posible al verdadero valor.

Pregunta 3

Bajo cualquier diseño de muestreo, la suma poblacional de las probabilidades de inclusión de primer orden es siempre igual al:

El tamaño de muestra

Bajo cualquier diseño de muestreo, la suma poblacional de las probabilidades de inclusión de primer orden siempre es igual al tamaño de la muestra. Esta propiedad es fundamental en estadística de muestreo, ya que garantiza que la suma de las probabilidades de inclusión de primer orden de todos los elementos de la población sea igual al tamaño de la muestra seleccionada. En resumen, esta igualdad asegura que al sumar las probabilidades de inclusión de primer orden de todos los elementos de la población, se obtiene como resultado el tamaño de la muestra utilizada en el estudio.

Pregunta 4

Se llama diseño de muestreo a:

A la forma como se selecciona un elemento de la muestra

El diseño de muestreo se refiere a la forma en que se seleccionan los elementos que formarán parte de la muestra en un estudio estadístico. Es el plan detallado que establece cómo se va a llevar a cabo la selección de los elementos de la población para formar la muestra. Este diseño incluye decisiones sobre el tamaño de la muestra, el método de selección de los elementos, la estratificación (si es necesario), y otros aspectos relacionados con la recolección de datos.

En este contexto, cuando se menciona que el diseño de muestreo se refiere a “la forma como se selecciona un elemento de la muestra”, se hace referencia a la metodología específica utilizada para elegir los individuos o elementos que representarán a la población en el estudio. Esta selección puede realizarse de diversas maneras, como muestreo aleatorio simple, muestreo estratificado, muestreo por conglomerados, entre otros métodos, y cada uno de ellos tiene implicaciones en la validez y representatividad de los resultados obtenidos.

Parte Practica

Pregunta 1

(30%) Tome la muestra adjuntada en Moodle, la cual fue tomada usando un muestreo aleatorio simple, lleve a cabo las estimaciones del puntaje promedio en matemáticas, junto con su cve y un intervalo de confianza al 95%. Interprete los resultados. La población de este estudio es de N = 12184 estudiantes.

##   Estimacion Valor
## 1         HT 46.23
## 2        CVe  0.50

Nuestro estimador HT para el valor del puntaje promedio poblacional para el area de matematicas es cercano a 50 y apoyado en un coeficente de variacion de alrededor de 0.5 nos permite concluir que contamos con una estimacion con una calidad excelente que nos da a conocer, con gran fiabilidad, esta caracteristica de la poblacion. Asumiendo que estos resultados esten siendo calificados segun un maximo puntaje de 100, como la expuesta en las pruebas estandarizadas ICFES, los estudiantes se ubicarian dentro de una categoria en la cual se les exaltaria la capacidad por reconocer e interpretar, segun los contextos, el significado y uso de diversos terminos matematicos asi como graficos que les permitan llegar a conclusiones aceptables dentro del ambito matematico. Por lo que, su ubicacion promedio poblacional nos daria a entender que es un area de mejora en la enseñanza de la educacion primaria en aras de buscar un mejoramiento en los conocimientos, terminos y herramientas aplicables a esta area del conocimiento.

## Intervalos de confianza para el promedio
Li<- ybar_est - 1.96*sqrt(var_ybar)
Ls<- ybar_est + 1.96*sqrt(var_ybar)
round(cbind(Li, Ls),1)

##        Li   Ls
## [1,] 45.8 46.7

# Tabla de Intervalos
tabla_resultados <- data.frame(
  "Limite Inferior" = c(round(Li,2)),
  "Promedio" = c(round(ybar_est,2)),
  "Limite Superior" =round(Ls,2))
print(tabla_resultados)

##   Limite.Inferior Promedio Limite.Superior
## 1           45.78    46.23           46.69

La anterior tabla demuestra, con una confianza del 95%, el intervalo en el que podriamos encontrar realmente el parametro poblacional del puntaje promedio en las pruebas de matematicas. Esto implica, apoyado en el anterior analisis del estimador HT, que los estudiantes siempre tendran un puntaje promedio dentro de la misma categoria de puntuacion, por lo que los estudiantes promedio, solo serian capaces de enfrentarse a problemas que contengan contextos familiares o personales con escala explicita, algo que de nuevo da a entender la oportunidad de mejora en el ambito de enseñanza en la poblacion.

Pregunta 2

library(dplyr)

Oficiales

Muestra1 <- filter(Muestra, naturaleza == "OFICIAL")
  
N1<- 8250
n1<-length(Muestra1$matematica)
pi_k1<-n1/N1


ty_pi1<-sum(Muestra1$matematica/pi_k1)
ybar_est1<- ty_pi1/N1

## estimando la varianza y el Cve para el total
var_t1<- (N1^2/n1)*(1-(n1/N1))*var(Muestra1$matematica)
Cve_t1<- (sqrt(var_t1)/ty_pi1)*100

## Varianza y Cve para el promedio
var_ybar1<- (1/N1^2)*var_t1
Cve_ybar1<- 100*sqrt(var_ybar1)/ybar_est1
 
## Intervalos de confianza para el promedio
Li1<- ybar_est1 - 1.96*sqrt(var_ybar1)
Ls1<- ybar_est1 + 1.96*sqrt(var_ybar1)

Para los colegios oficiales, podriamos concluir que, su estimacion total del puntaje para las pruebas de matematica ronda los y su estimacion promedio ronda los . Para estas estimaciones se podrian clasificar como (buenas, excelentes, malas) debido a sus CVe cercanos a . En colegios oficiales esto es bueno ya que el valor es mayor que en los colegios no oficiales e implica mejores enseñanzas en los saberes y metodos matematicas en contextos quizas no tan familiares y con informacion implicita.

No Oficiales

Muestra2 <- filter(Muestra, naturaleza == "NO OFICIAL")
  
N2<- 3934
n2<-length(Muestra2$matematica)
pi_k2<-n2/N2


ty_pi2<-sum(Muestra2$matematica/pi_k2)
ybar_est2<- ty_pi2/N2

## estimando la varianza y el Cve para el total
var_t2<- (N2^2/n2)*(1-(n2/N2))*var(Muestra2$matematica)
Cve_t2<- (sqrt(var_t2)/ty_pi2)*100

## Varianza y Cve para el promedio
var_ybar2<- (1/N2^2)*var_t2
Cve_ybar2<- 100*sqrt(var_ybar2)/ybar_est2

## Intervalos de confianza para el promedio
Li2<- ybar_est2 - 1.96*sqrt(var_ybar2)
Ls2<- ybar_est2 + 1.96*sqrt(var_ybar2)

Tabla de Resultados

tabla_resultados <- data.frame(
  "NATURALEZA" = c("OFICIALES","NO OFICIALES"),
  "Total Estimado" = c(round(ty_pi1,2),round(ty_pi2,2)),
  "Cve %" = c(round(Cve_t1,2),round(Cve_t2,2)),
  "AVG Cve %" = c(round(Cve_ybar1,2),round(Cve_ybar2,2)))
print(tabla_resultados)

##     NATURALEZA Total.Estimado Cve.. AVG.Cve..
## 1    OFICIALES       363532.7  0.44      0.44
## 2 NO OFICIALES       190603.3  0.80      0.80

Estos valores representan el total estimado, el coeficiente de variación (Cve), y el coeficiente de variación promedio (AVG Cve) para las categorías de “OFICIALES” y “NO OFICIALES”. Los datos muestran que el total estimado y los coeficientes de variación son diferentes entre las dos categorías, siendo más alto tanto en términos absolutos como relativos para la categoría de colegios “NO OFICIALES” en comparación con el panorama de los “OFICIALES”.La disparidad en los totales estimados se refiere a la diferencia o variabilidad existente entre las estimaciones totales de diferentes categorías o mas bien en este caso de los grupos en un análisis.

Taller Muestreo

Jose Santiago Pinto Morales, Daniela Murcia e Ingrid Umbacía

2024-03-13

Parte Teorica

Pregunta 1

Pregunta 2

Pregunta 3

Pregunta 4

Parte Practica

Pregunta 1

Pregunta 2

Oficiales

No Oficiales

Tabla de Resultados