Identificación de variables
data1 <- read_csv("LAPOP.csv")
# Preparación de variables categóricas como factor
# Variable respuesta: 0 = No sufrió extorsión, 1 = Sí sufrió extorsión
data1$extorsion <- factor(data1$extorsion,
levels = c(0, 1),
labels = c("No", "Sí"))
# Nivel de referencia para genero: "Mujer"
data1$genero <- factor(data1$genero,
levels = c("Mujer", "Hombre"))
# Nivel de referencia para educacion: "Primaria"
data1$educacion <- factor(data1$educacion,
levels = c("Primaria",
"Secundaria",
"Universitaria"))
# Verificar que los factores quedaron correctamente definidos
str(data1)
## spc_tbl_ [1,000 × 7] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
## $ edad : num [1:1000] 63 20 46 52 56 35 37 60 40 51 ...
## $ genero : Factor w/ 2 levels "Mujer","Hombre": 2 2 1 2 2 1 1 2 2 2 ...
## $ educacion : Factor w/ 3 levels "Primaria","Secundaria",..: 3 3 1 1 2 3 3 2 1 2 ...
## $ ingreso_mensual : num [1:1000] 2470 400 1654 2396 2486 ...
## $ contactos_policia : num [1:1000] 1 2 3 4 4 4 0 2 2 3 ...
## $ percepcion_corrupcion: num [1:1000] 2 5 3 1 2 2 3 3 5 1 ...
## $ extorsion : Factor w/ 2 levels "No","Sí": 2 2 2 2 2 1 1 1 2 2 ...
## - attr(*, "spec")=
## .. cols(
## .. edad = col_double(),
## .. genero = col_character(),
## .. educacion = col_character(),
## .. ingreso_mensual = col_double(),
## .. contactos_policia = col_double(),
## .. percepcion_corrupcion = col_double(),
## .. extorsion = col_double()
## .. )
## - attr(*, "problems")=<externalptr>
La base de datos contiene 1,000 observaciones y
7 variables. Su clasificación es la siguiente:
extorsion |
Cualitativa nominal dicotómica |
factor |
Variable respuesta |
edad |
Cuantitativa continua |
numeric |
Predictor numérico |
ingreso_mensual |
Cuantitativa continua |
numeric |
Predictor numérico |
contactos_policia |
Cuantitativa discreta |
numeric |
Predictor numérico |
percepcion_corrupcion |
Cuantitativa ordinal (1–5) |
numeric |
Predictor numérico |
genero |
Cualitativa nominal |
factor |
Predictor categórico |
educacion |
Cualitativa ordinal |
factor |
Predictor categórico |
tabla_gen <- data.frame(
Género = names(table(data1$genero)),
n = as.integer(table(data1$genero)),
Porcentaje = paste0(round(prop.table(table(data1$genero)) * 100, 1), "%")
)
knitr::kable(tabla_gen, align = "lcc",
caption = "**Distribución de encuestados por género**")
Distribución de encuestados por
género
| Mujer |
493 |
49.3% |
| Hombre |
507 |
50.7% |
tabla_educ <- data.frame(
Educación = names(table(data1$educacion)),
n = as.integer(table(data1$educacion)),
Porcentaje = paste0(round(prop.table(table(data1$educacion)) * 100, 1), "%")
)
knitr::kable(tabla_educ, align = "lcc",
caption = "**Distribución de encuestados por nivel educativo**")
Distribución de encuestados por nivel
educativo
| Primaria |
364 |
36.4% |
| Secundaria |
370 |
37% |
| Universitaria |
266 |
26.6% |
tabla_ext <- data.frame(
Extorsión = names(table(data1$extorsion)),
n = as.integer(table(data1$extorsion)),
Porcentaje = paste0(round(prop.table(table(data1$extorsion)) * 100, 1), "%")
)
knitr::kable(tabla_ext, align = "lcc",
caption = "**Distribución de la variable respuesta: Extorsión**")
Distribución de la variable respuesta:
Extorsión
| No |
196 |
19.6% |
| Sí |
804 |
80.4% |
Extorsión (variable respuesta): El
80.4% de los encuestados (n = 804) reportó haber sido víctima de
extorsión policial, mientras que solo el 19.6% (n = 196) no lo fue. Esta
marcada asimetría es un dato central del análisis: la extorsión es el
resultado predominante en la muestra, lo que tendrá implicaciones
directas en la interpretación de los odds.
Visualización de los datos
# Gráfico 1: Edad vs. Ingreso mensual coloreado por Extorsión
ggplot(data1, aes(x = ingreso_mensual, y = edad,
color = extorsion)) +
geom_point(size = 3, alpha = 0.6) +
scale_color_manual(values = c("red", "green3"),
labels = c("No sufrió extorsión",
"Sí sufrió extorsión"),
name = "Extorsión") +
labs(title = "Encuestados según edad e ingreso mensual",
x = "Ingreso mensual (en dólares)",
y = "Edad (años)") +
theme_minimal(base_size = 12)

Hallazgos — Gráfico 1
El diagrama de dispersión muestra que los casos de extorsión (verde) están distribuidos en prácticamente todos los rangos de edad e ingreso, sin una separación clara entre grupos. No se aprecia un patrón lineal evidente que sugiera que la edad o el ingreso por sí solos expliquen bien la extorsión, lo que es consistente con la naturaleza multivariable del fenómeno. La densidad de puntos verdes supera ampliamente a los rojos en todas las regiones del gráfico, reflejando la alta prevalencia de extorsión observada (80.4%).
# Gráfico 2: Contactos con la policía vs. Percepción de corrupción
ggplot(data1, aes(x = contactos_policia,
y = percepcion_corrupcion,
color = extorsion)) +
geom_point(size = 3, alpha = 0.6) +
scale_color_manual(values = c("red", "green3"),
labels = c("No sufrió extorsión",
"Sí sufrió extorsión"),
name = "Extorsión") +
labs(title = "Contactos con la policía vs. Percepción de corrupción",
x = "Número de contactos con la policía (último año)",
y = "Percepción de corrupción (1 = baja, 5 = alta)") +
theme_minimal(base_size = 12)

Hallazgos — Gráfico 2
Se observa que, a medida que aumentan los contactos con la policía, la proporción de víctimas de extorsión (verde) tiende a ser mayor. Del mismo modo, los encuestados con mayor percepción de corrupción (valores 4 y 5) concentran una mayor presencia de casos de extorsión. Estas tendencias visuales anticipan que ambas variables serán predictores relevantes en el modelo logístico, una hipótesis que será confirmada formalmente en la sección siguiente.