Muestreo no probabilístico intencional

El investigador elige los casos que considera más representativos o informativos.
Se usa en estudios cualitativos o en investigaciones donde se busca un perfil específico.

Muestra

Participantes

La muestra de este estudio será tomada del Estudio “Secuelas cognitivas, comportamentales y emocionales con relación a la funcionalidad endocrina en el paciente con Trauma Craneoencefálico moderado y severo ocasionado por accidentes de tránsito”, este estudio complementa la limitación respecto a la validación en esta condición clínica. Un total de 104 participantes: 34 con diagnóstico de TCE y 70 controles cognitivamente sanos, se tuvieron en cuenta los siguientes criterios clínicos:

Criterios de exclusión para los dos grupos TCE y controles:

  • Mujeres en estado de gestación.

  • Consumo activo de sustancias psicoactivas (SPA).

  • Historial neurológico y/o psiquiátrico.

  • Comorbilidades (diabetes, hipertensión arterial, dislipidemia) y/o alteraciones hormonales.

  • Historia clínica pre-mórbida de aprendizaje (se tendrá en cuenta la resistencia escolar).

  • Trastornos perceptivos visuales, auditivos o motores que imposibilitan el desarrollo de la evaluación.

Criterios de inclusión grupo clínico TCE - Hombres y mujeres entre los 18 a 50 años de edad.

  • Traumatismo craneoencefálico (TCE) secundario a accidente de tránsito, con puntuación en la escala de Glasgow en el rango moderado a severo.

  • Criterios de inclusión grupo control

  • Hombres y mujeres entre los 18 a 50 años de edad.

Cargar de Base de datos

# Leer el archivo datos.csv
datos <- read.csv("datos.csv", 
                  sep = ";",              
                  fileEncoding = "latin1", 
                  header = TRUE)          

Estimadores

Es importante dejar claro que, para este ejercicio únicamente haremos uso del grupo clínico.

TCE = 34 participantes, grupo clínico con TCE moderado y severo

Variables a trabajar:

1. Media Poblacional (μ):

edad <- datos$edad
media_estimada <- mean(edad)
media_estimada
## [1] 29.5
escolaridad <- datos$escolaridad
media_estimada <- mean(escolaridad)
media_estimada
## [1] 8.794118

La edad media de los participantes con traumatismo craneoencefálico y su promedio de años de escolaridad se muestran en los resultados anteriores.

2. Varianza Poblacional (σ2)

varianza_estimada <- var(edad)
desviacion_estandar <- sd(edad)

cat("Varianza de la edad:", varianza_estimada, "años²\n")
## Varianza de la edad: 87.04545 años²
cat("Desviación estándar:", desviacion_estandar, "años\n")
## Desviación estándar: 9.329815 años

La varianza de la edad muestra qué tan dispersos están los datos respecto a la media. La desviación estándar indica que, en promedio, las edades de los participantes se alejan de la media en aproximadamente la cantidad mostrada arriba.

3. Proporción Poblacional (p)

proporcion_por_Sexo <- table(datos$sexo) / nrow(datos)
proporcion_por_Sexo
## 
##  Femenino Masculino 
## 0.2058824 0.7941176

De acuerdo con los resultados, la mayoría de los participantes con TCE son de sexo masculino, mientras que una menor proporción corresponde al sexo femenino.

proporcion_por_Clasificación_TCE <- table(datos$clasificacion_tce) / nrow(datos)
proporcion_por_Clasificación_TCE
## 
##  Moderado    Severo 
## 0.5588235 0.4411765

De los participantes con TCE, una mayor proporción fueron clasificados como casos moderados, mientras que el resto correspondieron a casos severos, según la Escala de Coma de Glasgow (GCS).

proporcion_declive_moderado <- sum(datos$clasificacion_tce == "Moderado" & 
                                   datos$deterioro_clinico == "S?") /
                               sum(datos$clasificacion_tce == "Moderado")

proporcion_declive_moderado
## [1] 0

Algunos pacientes con TCE moderado presentaron deterioro clínico y pasaron a clasificarse como TCE severo, según la GCS.

4. Diferencia de Medias (μ1−μ2)

media_moderado <- mean(datos$edad[datos$clasificacion_tce == "Moderado"], na.rm = TRUE)
media_severo   <- mean(datos$edad[datos$clasificacion_tce == "Severo"], na.rm = TRUE)
diferencia_medias <- media_moderado - media_severo
media_moderado
## [1] 28.78947
media_severo
## [1] 30.4
diferencia_medias
## [1] -1.610526

Los resultados muestran las edades promedio de los pacientes con TCE moderado y severo. La diferencia de edad entre ambos grupos es pequeña, siendo los casos severos ligeramente mayores que los moderados.

media_moderado <- mean(datos$escolaridad
[datos$clasificacion_tce == "Moderado"], na.rm = TRUE)
media_severo   <- mean(datos$escolaridad
[datos$clasificacion_tce == "Severo"], na.rm = TRUE)
diferencia_medias <- media_moderado - media_severo
media_moderado
## [1] 9.263158
media_severo
## [1] 8.2
diferencia_medias
## [1] 1.063158

Los resultados muestran que los pacientes con TCE moderado tienen, en promedio, más años de escolaridad que aquellos con TCE severo. Esta diferencia podría sugerir una posible relación entre el nivel educativo y la gravedad del TCE.

5. Diferencia de Proporciones (p1−p2)

hombres_moderado <- sum(datos$clasificacion_tce == "Moderado" & datos$sexo == "Masculino", na.rm = TRUE)
hombres_severo   <- sum(datos$clasificacion_tce == "Severo"   & datos$sexo == "Masculino", na.rm = TRUE)
total_moderado <- sum(datos$clasificacion_tce == "Moderado", na.rm = TRUE)
total_severo   <- sum(datos$clasificacion_tce == "Severo", na.rm = TRUE)
p1 <- hombres_moderado / total_moderado
p2 <- hombres_severo   / total_severo
diferencia_p <- p1 - p2

# Mostrar proporciones
cat("Proporción de hombres en TCE moderado:", p1, "\n")
## Proporción de hombres en TCE moderado: 0.7368421
cat("Proporción de hombres en TCE severo:", p2, "\n")
## Proporción de hombres en TCE severo: 0.8666667
cat("Diferencia de proporciones (p1 - p2):", diferencia_p, "\n\n")
## Diferencia de proporciones (p1 - p2): -0.1298246
# Crear tabla de contingencia
tabla <- matrix(c(hombres_moderado, total_moderado - hombres_moderado,
                  hombres_severo, total_severo - hombres_severo),
                nrow = 2, byrow = TRUE,
                dimnames = list(c("Moderado", "Severo"), c("Masculino", "Femenino")))

print(tabla)
##          Masculino Femenino
## Moderado        14        5
## Severo          13        2
# Test Exacto de Fisher (más apropiado para muestras pequeñas)
fisher.test(tabla)
## 
##  Fisher's Exact Test for Count Data
## 
## data:  tabla
## p-value = 0.4263
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
##  0.03600613 3.30318204
## sample estimates:
## odds ratio 
##  0.4411833

En el análisis de la distribución por sexo, se observó que la proporción de hombres fue mayor entre los casos severos que en los moderados. Sin embargo, el test estadístico indica que esta diferencia no es significativa. Esto significa que, en esta muestra, la distribución por sexo es similar entre los pacientes con TCE moderado y severo.

Propiedades de estimadores

Variable: Estado_Civil

estado_civil <- as.factor(datos$estado_civil)
table(estado_civil)
## estado_civil
##     Casados    Solteros Unión_libre 
##           3          21          10

1. Sesgo

Un estimador insesgado de una proporción p es la proporción muestral (p̂ = x/n)

prop_civil <- prop.table(table(estado_civil))
cat("\n=== INSESGADEZ ===\n")
## 
## === INSESGADEZ ===
cat("Proporciones muestrales por categoría:\n")
## Proporciones muestrales por categoría:
print(prop_civil)
## estado_civil
##     Casados    Solteros Unión_libre 
##  0.08823529  0.61764706  0.29411765
cat("→ Las proporciones muestrales son estimadores insesgados de las proporciones poblacionales.\n")
## → Las proporciones muestrales son estimadores insesgados de las proporciones poblacionales.

Las proporciones calculadas de Estado_Civil no tienen sesgo, es decir, no sobreestiman ni subestiman las proporciones reales de la población. Los resultados de la muestra reflejan correctamente la realidad.

2. Eficiencia

En variables categóricas, la eficiencia se evalúa por la varianza del estimador de proporción: Var(p̂) = [p * (1 - p)] / n

n <- length(estado_civil)
varianza_prop <- prop_civil * (1 - prop_civil) / n

cat("\n=== EFICIENCIA ===\n")
## 
## === EFICIENCIA ===
cat("Varianza de los estimadores de proporción (menor = más eficiente):\n")
## Varianza de los estimadores de proporción (menor = más eficiente):
print(varianza_prop)
## estado_civil
##     Casados    Solteros Unión_libre 
## 0.002366171 0.006945858 0.006106249
cat("→ Las categorías con proporciones extremas tienen menor varianza.\n")
## → Las categorías con proporciones extremas tienen menor varianza.

Las categorías con proporciones más altas o más bajas tienen menor varianza, lo que significa que son estimaciones más precisas y estables.

3. Consistencia

La proporción muestral es consistente: al aumentar n, se aproxima a p real.

set.seed(123)
n_vals <- seq(10, n, by = 10)
prop_evol <- sapply(n_vals, function(k) {
  muestra <- sample(estado_civil, k, replace = TRUE)
  prop.table(table(muestra))["Solteros"]
})

plot(n_vals, prop_evol, type = "b", pch = 19, col = "darkblue",
     main = "Consistencia del estimador de proporción (Solteros)",
     xlab = "Tamaño de muestra", ylab = "Proporción estimada de Solteros")
abline(h = prop_civil["Solteros"], col = "red", lty = 2)

cat("\n=== CONSISTENCIA ===\n")
## 
## === CONSISTENCIA ===
cat("Observa el gráfico: la proporción estimada de Solteros se estabiliza conforme aumenta n.\n")
## Observa el gráfico: la proporción estimada de Solteros se estabiliza conforme aumenta n.

El gráfico muestra que cuando aumenta el tamaño de la muestra, la proporción estimada se acerca al valor real. Esto demuestra que el estimador es consistente.

4. Suficiencia

En una distribución binomial/multinomial, el conteo de éxitos (o frecuencias) es un estimador suficiente para p.

cat("\n=== SUFICIENCIA ===\n")
## 
## === SUFICIENCIA ===
cat("Para una variable categórica (multinomial), las frecuencias observadas son suficientes para estimar las proporciones poblacionales.\n")
## Para una variable categórica (multinomial), las frecuencias observadas son suficientes para estimar las proporciones poblacionales.
cat("→ La tabla de frecuencias contiene toda la información necesaria sobre p.\n")
## → La tabla de frecuencias contiene toda la información necesaria sobre p.

La tabla de frecuencias contiene toda la información necesaria para estimar las proporciones. No necesitamos datos adicionales para hacer estas estimaciones.

5. Robustez

Para categorías, la robustez se interpreta como estabilidad frente a errores de clasificación.

cat("\n=== Robustez ===\n")
## 
## === Robustez ===
cat("La proporción muestral es moderadamente robusta.\n")
## La proporción muestral es moderadamente robusta.
cat("Si existen pocos errores de clasificación en 'Estado_Civil', las proporciones cambian poco.\n")
## Si existen pocos errores de clasificación en 'Estado_Civil', las proporciones cambian poco.

El estimador de proporciones es robusto cuando pequeños errores en la clasificación no cambian mucho los resultados.

Simulación de cambiar aleatoriamente un 5% de respuestas

set.seed(123)
estado_mod <- estado_civil
indices <- sample(1:n, size = 0.05*n)
estado_mod[indices] <- sample(levels(estado_civil), length(indices), replace = TRUE)

prop_original <- prop.table(table(estado_civil))
prop_modificada <- prop.table(table(estado_mod))

cat("\nProporciones originales:\n")
## 
## Proporciones originales:
print(prop_original)
## estado_civil
##     Casados    Solteros Unión_libre 
##  0.08823529  0.61764706  0.29411765
cat("Proporciones con 5% de errores:\n")
## Proporciones con 5% de errores:
print(prop_modificada)
## estado_mod
##     Casados    Solteros Unión_libre 
##  0.08823529  0.61764706  0.29411765
cat("→ Cambios pequeños indican robustez del estimador.\n")
## → Cambios pequeños indican robustez del estimador.

Al introducir 5% de errores aleatorios, se puede observar si el estimador es robusto. Si las proporciones cambian poco, el estimador es robusto; si cambian mucho, no lo es. En este caso, los cambios observados permiten evaluar la estabilidad del estimador frente a errores de clasificación.