El presente trabajo tiene como propósito la elaboración y análisis de dos modelos de predicción basados en técnicas de aprendizaje supervisado, con el objetivo de que este modelo pueda determinar si una persona se siente insegura o no. Para ello, se emplean variables para entrenar el modelo relacionadas con el tiempo de desplazamiento a pie hacia distintos puntos de interés como paraderos de transporte público, establecimientos educativos, hospitales o centros de salud, supermercados y estaciones de policía; así como la suficiencia de los ingresos del hogar para cubrir los gastos mínimos.
El estudio de la percepción de inseguridad resulta fundamental para comprender las condiciones sociales y urbanas que afectan el bienestar de la población. A menudo, la sensación de inseguridad no depende únicamente de la ocurrencia real de delitos, sino también de factores asociados al entorno físico, la accesibilidad a servicios básicos y la situación económica del hogar. Comprender estos elementos puede facilitar la toma de decisiones para políticas públicas orientadas a mejorar la calidad de vida y la percepción de seguridad en comunidades vulnerables.
Además, los modelos desarrollados podrían aplicarse como herramientas predictivas en el diseño urbano y en la planificación de intervenciones sociales, contribuyendo a estrategias más efectivas para reducir la sensación de inseguridad. Para el desarrollo de estos modelos se emplean técnicas de machine learnig, evaluándose su desempeño a través de métricas específicas que permitan validar su capacidad predictiva.
Para la elaboración de este trabajo se seleccionó la base de datos correspondiente a los resultados de la Encuesta Nacional de Calidad de Vida (ECV) 2018, la cual recopila información sobre las condiciones socioeconómicas de los hogares colombianos.
Se eligió como variable categórica dependiente la percepción que tienen las personas encuestadas sobre cómo se sienten en su barrio, pueblo o vereda, categorizada en dos niveles: 1 para seguro y 2 para inseguro.
Las variables independientes cuantitativas se refieren al tiempo de desplazamiento caminando, medido en minutos, hacia los siguientes puntos mas cercanos:
Paradero o estación de transporte público.
Establecimiento educativo o de cuidado de niños y niñas (colegio, jardín infantil, hogar comunitario o centro de desarrollo infantil).
Hospital o centro de salud
Supermercado, plaza de mercado o tienda
Estación de policía o CAI
Ademas, se añade una variable independiente categórica corresponde a la suficiencia de los ingresos del hogar para cubrir los gastos mínimos, con las siguientes categorías:
No alcanzan para cubrir los gastos mínimos.
Sólo alcanzan para cubrir los gastos mínimos.
Cubren más que los gastos mínimos.
Con el fin de poder llevar a cabo este ejercicio académico se seleccionó una submuestra estratificada de 5.000 individuos donde estuvieran balanceadas las dos categorias de la variable dependiente.
Los modelos a realizar son modelos de predicción de tipo aprendizaje supervisado, los cuales consisten en entrenar un algoritmo utilizando un conjunto de datos previamente etiquetado, es decir, un conjunto en el que se conoce el valor de la variable que se desea predecir (variable dependiente o de salida) que en nuestro caso es una variable categórica.
En este tipo de aprendizaje, el modelo recibe como entrada un conjunto de variables independientes o predictoras, junto con la variable objetivo. El objetivo es que el modelo aprenda la relación o patrón existente entre las variables independientes y la variable dependiente.
Una vez entrenado, el modelo puede aplicarse sobre nuevos datos,en los cuales solo se conocen las variables independientes, para predecir o estimar la categoria de la variable dependiente.
Para este caso donde la variable dependiente es categorica se emplean dos algoritmos de entrenamiento que son: k-Nearest Neighbors (kNN) y Regresión Logística (fit logit). El kNN clasifica nuevas observaciones según las categorías más frecuentes entre sus k vecinos más cercanos, determinados mediante una medida de distancia. Es un método no paramétrico basado en la similitud entre los datos. Por su parte, la Regresión Logística estima la probabilidad de pertenecer a una categoría específica a partir de una combinación lineal de las variables predictoras, utilizando la función logística para generar probabilidades entre 0 y 1. Ambos modelos se evalúan con métricas como la exactitud (accuracy) y el AUC, que permiten medir su capacidad de clasificación.
Ambos modelos utilizan una parte de los datos etiquetados para su entrenamiento y con la otra se evalúan utilizando métricas de desempeño como la exactitud (accuracy), la curva ROC y el área bajo la curva (AUC), que permiten medir su capacidad para clasificar correctamente las observaciones.
A continuación en la siguiente sección se presentan estadisticas descriptivas y gráficos de las variables independientes cuantitativas y de la variable independiente categorica:
Para conocer mejor la distribución de los tiempos para acceder a estos servicios a continuación en la Tabla 1 se presentan estadisticas descriptivas que dan información acerca del comportamiento de las variables.
| Lugar | Media | Mediana | Desv | Min | Max | CV | 
|---|---|---|---|---|---|---|
| Paradero o estación de transporte público | 14.51 | 5 | 23.73 | 1 | 120 | 163.54 | 
| Establecimiento educativo o de cuidado de niños y niñas | 16.07 | 10 | 19.01 | 1 | 120 | 118.27 | 
| Hospital o centro de salud | 37.33 | 25 | 35.24 | 1 | 120 | 94.39 | 
| Supermercado, plaza de mercado o tienda | 20.97 | 8 | 31.00 | 1 | 120 | 147.83 | 
| Estación de policía o CAI | 38.30 | 20 | 36.86 | 1 | 120 | 96.24 | 
El análisis de los tiempos de desplazamiento a servicios esenciales revela diferencias notables en su accesibilidad. Los trayectos más prolongados se registran para acceder a la estación de policía o CAI (37.96 min) y al hospital o centro de salud (37.55 min), mientras que los desplazamientos más cortos corresponden al paradero de transporte público (14.82 min) y a los establecimientos educativos (16.39 min).
Un hallazgo significativo es la marcada diferencia entre la media y la mediana en todos los casos, indicando una distribución sesgada positivamente. Esto significa que, aunque la mayoría de la población reporta tiempos de viaje relativamente bajos (como lo confirman las medianas entre 5 y 20 minutos), existe un segmento que enfrenta tiempos excepcionalmente largos, elevando el promedio general.
Esta desigualdad se ve reforzada por la alta variabilidad en los datos. Los elevados coeficientes de variación (superiores al 94% y hasta 163%) demuestran una heterogeneidad extrema en las experiencias de desplazamiento. En conclusión, los datos sugieren que el acceso a servicios esenciales no es equitativo, con un grupo de la población en clara desventaja al tener que destinar tiempos sustancialmente mayores para llegar a los mismos servicios que para otros son de fácil alcance.
El siguiente gráfico de radar visualiza de manera comparativa los tiempos promedio de caminata requeridos para acceder a cinco servicios esenciales en el área de estudio. Esta representación permite identificar patrones de accesibilidad peatonal y detectar qué servicios presentan mayores barreras de proximidad.
En este gráfico se puede observar como los paraderos y los centros educativos estan más cerca al centro lo que quiere decir es que las personas se demoran menos en acceder a ellos, en cambio, lo que son hospitales y CAI están mas alejados del centro lo que quiere decir es que las personas se demoran mas en ir caminando a ellos.
En cierta parte es positivo que las personas tengan cerca paraderos y esyablecimientos educativos pero es preocupante lo lejos que se pueden encontar los CAI y los Hospitales puesto que estos por lo general atienden situaciones de urgencia y para alguna persona que necesite acceder a estos servicios bajo esta situación va a representar un mayor peligro.
La SIGUIENTE tabla presenta la distribución de las respuestas frente a la percepción de los hogares sobre la suficiencia de sus ingresos:
| 
Resumen
 | ||
|---|---|---|
| P9090 | Frecuencia | Porcentaje | 
| 1 | 2318 | 46.4 | 
| 2 | 2419 | 48.4 | 
| 3 | 263 | 5.3 | 
De acuerdo con los resultados, el 45,9% de los encuestados afirma que sus ingresos no alcanzan para cubrir los gastos mínimos, mientras que el 48,3% señala que solo alcanzan para cubrirlos. Únicamente el 5,8% manifiesta que sus ingresos cubren más que los gastos mínimos.
Estos resultados evidencian que más del 94% de los hogares se encuentran en una situación económica ajustada o precaria, en la cual sus ingresos no superan el nivel necesario para cubrir los gastos básicos. Esto refleja una alta vulnerabilidad económica, lo que puede limitar la capacidad de ahorro, inversión o acceso a servicios financieros formales.
El bajo porcentaje (5,8%) de hogares con ingresos que exceden los gastos mínimos sugiere una desigualdad económica considerable, donde solo una minoría logra una situación financiera más holgada. Este panorama podría tener implicaciones importantes para las políticas de inclusión financiera, dado que la mayoría de la población podría no contar con la capacidad económica suficiente para acceder o hacer uso pleno de herramientas financieras.
El modelo KNN se aplicó para predecir si una persona se siente segura (1) o insegura (2) en su entorno, tomando como variables predictoras los tiempos de caminata hacia distintos servicios urbanos (paradero, hospital, supermercado, establecimiento educativo, CAI) y el nivel de ingreso del hogar dividido en tres categorias.
Los resultados para este modelo fueron los siguientes:
El modelo alcanzó una exactitud global del 57.28%, lo que indica que clasifica correctamente la percepción de seguridad de aproximadamente 6 de cada 10 personas.
Este nivel de precisión sugiere que el modelo tiene un rendimiento moderado, con capacidad para captar algunos patrones entre las variables de distancia y la percepción de seguridad, aunque todavía se observan errores notables en la clasificación.
Sensibilidad (0.5824): Indica que el modelo logra identificar correctamente el 58.2% de las personas que realmente se sienten
Esto significa que, aunque más de la mitad de los casos positivos se detectan correctamente, existe un 41.8% de falsos negativos, es decir, personas que se sienten seguras pero el modelo las clasificó como “inseguras”.
Especificidad (0.5632): Refleja la capacidad para detectar correctamente a las personas que se sienten inseguras. Con un valor de 56.3%, el modelo distingue de forma aceptable entre los grupos, aunque con un margen de error similar al de la sensibilidad.
Valores predictivos: El PPV (0.5714) y el NPV (0.5742) indican que el modelo es simétrico en su capacidad de predicción, con niveles de confiabilidad moderados tanto al clasificar a alguien como “seguro” como “inseguro”.
Esto sugiere que el modelo no presenta sesgo fuerte hacia ninguna clase, pero tampoco logra un nivel alto de discriminación.
Exactitud balanceada (0.5728): El valor de 0.57 refuerza que el modelo predice con precisión moderada ambas clases, incluso considerando que la muestra está balanceada (50% de seguros y 50% de inseguros). Esto es relevante porque muestra que el KNN no se sobre ajusta a una categoría dominante, sino que mantiene consistencia en ambas.
Coeficiente Kappa (0.1456): El valor positivo bajo del estadístico Kappa indica una ligera concordancia por encima del azar, pero sin alcanzar un nivel sólido de confiabilidad.
Esto refleja que las variables de distancia por sí solas no son suficientes para predecir con gran exactitud la percepción de seguridad, ya que esta también puede depender de factores no observados (iluminación, presencia policial, experiencias previas, etc.).
El modelo KNN ofrece un desempeño aceptable pero limitado, con exactitud moderada (57%) y baja fuerza de concordancia (Kappa = 0.14)
Aunque logra captar tendencias generales, muestra que las percepciones de seguridad son fenómenos complejos y multifactoriales, donde las variables espaciales (distancia a servicios) influyen, pero no explican completamente la sensación subjetiva de seguridad. La sensibilidad ligeramente mayor a la especificidad sugiere que el modelo tiende a identificar mejor los casos de seguridad percibida, lo que puede deberse a que las personas que se sienten seguras tienden a vivir en zonas con mejor accesibilidad general.
El modelo de regresión logística se ajustó para estimar la probabilidad de que una persona se sienta segura en función de los tiempos de caminata a distintos servicios y del nivel de ingresos. Los resultados para este modelo fueron:
En esta primera parte podemos obtener el efecto de cada variable predictora sobre la probabilidad de obtener la variable dependiente:
| Variable | Coeficiente | Significancia | Interpretación del efecto | 
| P1913S1 – Tiempo al paradero de transporte público | -0.000572 | 0.0151* | A medida que aumenta el tiempo hacia el paradero, disminuye la probabilidad de sentirse seguro. Efecto negativo y significativo. | 
| P1913S2 – Tiempo al establecimiento educativo | +0.000563 | 0.0835 | Relación leve, no significativa, aunque positiva: cercanía a colegios no influye claramente en la seguridad. | 
| P1913S3 – Tiempo al hospital | -0.000553 | 0.814 | Sin significancia. La cercanía a hospitales no parece afectar la seguridad percibida. | 
| P1913S4 – Tiempo al supermercado | -0.000681 | 0.0058 | Altamente significativo: a mayor distancia al comercio, menor percepción de seguridad. | 
| P1913S5 – Tiempo al CAI (policía) | -0.000621 | 0.168 | No significativa pero con tendencia negativa: a mayor distancia al CAI, menor sensación de seguridad. | 
| P90902 / P90903 – Nivel de ingreso del hogar | -0.549 / -0.844 | *** | Muy significativa: los ingresos más altos aumentan la probabilidad de sentirse seguro. | 
El análisis muestra que las personas que viven más lejos de servicios básicos, como el paradero o el supermercado, tienden a sentirse menos seguras. Los coeficientes negativos del modelo (−0.000572 para el paradero y significancia p = 0.0058 para el supermercado) confirman que a mayor distancia, menor es la percepción de seguridad. Esto demuestra que la facilidad para acceder a lugares cotidianos influye directamente en cómo las personas perciben su entorno.
Además, el nivel de ingresos del hogar (p < 0.001) también desempeña un papel importante: los hogares que logran cubrir o superar sus gastos mínimos tienden a sentirse más protegidos, posiblemente porque residen en zonas con mejores condiciones, transporte y presencia institucional.
En conjunto, el modelo presenta un AIC de 5091.2, lo que indica un buen ajuste y confirma que tanto la accesibilidad como la situación económica influyen significativamente en la manera en que las personas perciben la seguridad en su entorno diario.
| Métrica | Valor | Interpretación | 
| Accuracy (Exactitud) | 0.4032 (40.32%) | El modelo clasifica correctamente solo el 40% de los casos totales. Indica un rendimiento bajo, menor que el azar (50%). | 
| IC (95%) | (0.3759 – 0.431) | El intervalo de confianza muestra que la precisión real del modelo podría oscilar entre 37.6% y 43.1%, confirmando baja consistencia. | 
| Kappa | –0.1936 | El valor negativo indica que el modelo tiene un desempeño peor que la clasificación aleatoria, lo cual sugiere que las variables predictoras no separan claramente las clases. | 
| McNemar’s Test p-value | 3.43e–11 | Confirma diferencias significativas entre los errores tipo I y tipo II, es decir, el modelo tiene sesgo al clasificar una clase más que la otra. | 
| Sensitivity (Sensibilidad) | 0.2576 (25.76%) | El modelo solo logra identificar correctamente el 25.76% de las personas que realmente se sienten seguras. En términos prácticos, tiene dificultades para reconocer correctamente la seguridad percibida. | 
| Specificity (Especificidad) | 0.5488 (54.88%) | El modelo identifica con moderada precisión a las personas que se sienten inseguras. Es más eficaz detectando “inseguridad” que “seguridad”. | 
| Pos Pred Value (PPV) | 0.3634 (36.34%) | De todas las personas clasificadas como seguras, solo el 36.34% realmente lo son. Esto implica que más del 60% de las predicciones de seguridad son erróneas. | 
| Neg Pred Value (NPV) | 0.4250 (42.50%) | De las personas clasificadas como inseguras, solo el 42.5% realmente se sienten inseguras. Es decir, el modelo también comete errores importantes al clasificar la inseguridad. | 
| Prevalence | 0.5 (50%) | La muestra está equilibrada entre percepciones de seguridad e inseguridad, por lo que el modelo no debería estar afectado por desbalance de clases. | 
| Detection Rate | 0.1288 (12.88%) | Solo el 12.88% de los casos totales fueron correctamente identificados como “seguros”. Indica una baja capacidad de detección positiva real. | 
| Detection Prevalence | 0.3544 (35.44%) | El modelo tiende a clasificar más casos como “seguros” (35%) que los que realmente existen (25%), mostrando tendencia a sobreestimar la seguridad. | 
| Balanced Accuracy | 0.4032 (40.32%) | Promedio entre sensibilidad y especificidad. Confirma que el rendimiento general del modelo en ambas clases es bajo. | 
Los resultados muestran que la percepción de seguridad no depende solo de la distancia o del tiempo que tarda una persona en llegar a los servicios, sino que también intervienen factores subjetivos y comunitarios más difíciles de medir. Aspectos como la calidad del entorno urbano, incluyendo la iluminación, el mantenimiento de los espacios, la confianza entre vecinos, la presencia de ciertos grupos en el barrio influyen en cómo se percibe la seguridad.
Asimismo, las experiencias personales y las noticias locales pueden modificar la forma en que una persona evalúa su entorno, al igual que la situación económica: quienes tienen mayores recursos suelen sentirse más seguros, incluso en condiciones similares.
El desempeño moderado del modelo sugiere que la seguridad percibida es un fenómeno complejo en el que inciden múltiples factores. Las variables objetivas, como el tiempo de acceso a los servicios o el nivel de ingresos, ayudan a explicar parte del comportamiento, pero no logran captar del todo los componentes emocionales y simbólicos que influyen en el sentimiento de seguridad.
El análisis de significancia estadística reveló que las variables de accesibilidad P1913S1 (paradero) y P1913S4 (supermercado) son las únicas con efectos relevantes en la percepción de seguridad. Esto no resulta casual, ya que ambos servicios están estrechamente vinculados con la vida cotidiana y la interacción constante en el espacio público. En el caso de la proximidad al transporte, cuanto más cercana se encuentra una parada de bus o estación, mayor es el flujo peatonal y la presencia de personas, lo que genera una forma de vigilancia natural descrita por Jane Jacobs como el efecto de “los ojos en la calle”. En cambio, en barrios donde el transporte está más alejado, los habitantes deben recorrer trayectos largos, muchas veces por zonas solas o con poca iluminación, lo que incrementa su sensación de riesgo. De esta manera, el coeficiente negativo (−0.000572) adquiere pleno sentido: a mayor tiempo de desplazamiento hacia el paradero, menor es la percepción de seguridad.
Por otro lado, la proximidad al comercio también muestra un impacto significativo. Los supermercados y tiendas funcionan como centros de actividad social que atraen flujo constante de personas, promoviendo entornos activos y vigilados. Su nivel de significancia (p = 0.0058) evidencia que estos espacios comerciales operan como anclas de seguridad subjetiva, pues los residentes asocian la vitalidad del entorno con mayor tranquilidad y confianza. En contraste, la distancia al comercio caracteriza a los barrios periféricos o poco transitados, donde la sensación de aislamiento tiende a ser mayor.
Entre las variables con significancia marginal, la cercanía a instituciones educativas (P1913S2, p = 0.083) muestra un efecto leve pero no concluyente. Esto puede explicarse porque las escuelas y universidades generan diferentes dinámicas según el momento del día: durante las horas diurnas aportan flujo y vigilancia, mientras que en la noche, al quedar vacías, pueden percibirse como zonas solitarias. Esta dualidad temporal reduce su influencia estadística en el modelo general.
En cuanto a las variables no significativas (P1913S3, hospital, y P1913S5, CAI), aunque los coeficientes presentan la tendencia esperada, mayor distancia asociada a menor seguridad, no alcanzan niveles de significancia estadística. Esto puede deberse a tres razones complementarias. En primer lugar, la percepción de seguridad tiene un carácter cotidiano más que institucional: las personas no relacionan su sensación de protección con la distancia a un hospital o un CAI, sino con los espacios que transitan diariamente. En segundo lugar, la cobertura y visibilidad de estas instituciones influyen en su efecto psicológico; la cercanía física pierde valor si la comunidad no percibe una presencia efectiva o confiable de la autoridad. Finalmente, la posible colinealidad espacial entre estas variables, ya que las zonas periféricas suelen tener ambos servicios alejados, puede diluir su impacto individual en el modelo.
El nivel de ingresos (P9090) resultó ser la variable más influyente, con una alta significancia estadística (p < 0.001). Los coeficientes negativos (−0.549 y −0.844) indican que a medida que disminuyen los ingresos, también lo hace la probabilidad de sentirse seguro. Este hallazgo refleja una interpretación socioespacial clara: los hogares con mayores recursos económicos tienden a ubicarse en sectores con mejor infraestructura, alumbrado, transporte y presencia institucional, mientras que los de bajos ingresos se concentran en zonas periféricas o informales donde las condiciones urbanas refuerzan la sensación de inseguridad. En este sentido, el ingreso actúa como una variable estructural que determina no solo la localización geográfica del hogar, sino también el tipo de interacción social y la percepción de control sobre el entorno.
El modelo pone de manifiesto que la cercanía a servicios institucionales como hospitales o CAI no garantiza necesariamente una mayor sensación de seguridad. Este resultado es revelador, pues sugiere que la seguridad subjetiva depende más de las condiciones sociales y espaciales experimentadas en la vida diaria que de la infraestructura formal. Una comunidad puede tener presencia policial cercana, pero si las calles permanecen solas o sin actividad comercial, la sensación de inseguridad persiste.
De esta forma, la seguridad se entiende como un producto de la vitalidad urbana. Las políticas públicas, por tanto, no deberían centrarse únicamente en reforzar la infraestructura o la vigilancia institucional, sino en promover entornos mixtos, caminables y dinámicos que estimulen la convivencia y la vigilancia social espontánea. El nivel de ingresos cumple un papel multiplicador en esta relación: quienes poseen mayor capacidad económica disfrutan de más alternativas de movilidad, vivienda y recreación, lo que reduce su exposición al riesgo. Por el contrario, los hogares de bajos ingresos enfrentan desplazamientos más largos hacia servicios básicos, lo que implica no solo un esfuerzo físico mayor, sino también una exposición prolongada a espacios percibidos como inseguros.
En síntesis, los resultados del modelo confirman que la seguridad percibida está más asociada a la accesibilidad y la vitalidad del entorno urbano, especialmente al transporte y al comercio, que a la presencia institucional. Asimismo, el nivel de ingresos condiciona la forma en que las personas experimentan y comprenden su territorio, no solo por su poder adquisitivo, sino por la calidad del espacio urbano al que pueden acceder. La baja significancia de ciertas variables no implica falta de relevancia, sino que refleja la complejidad de los factores sociales y emocionales que influyen en la percepción de seguridad. Sin embargo, los datos arrojan que ambos modelos son pocos confiables, debido a que ambos tienen una predicción por debajo del 60%, siendo el más confiable el modelo KNN.
En conclusión, la seguridad subjetiva no se construye exclusivamente desde la infraestructura, sino desde la experiencia cotidiana del espacio: caminar menos para acceder a los servicios, observar movimiento constante y contar con estabilidad económica son, en última instancia, los elementos que más contribuyen a sentirse seguro.
https://www.juanbarrios.com/la-matriz-de-confusion-y-sus-metricas/> https://scielo.conicyt.cl/pdf/rchradiol/v21n4/art07.pdf> https://www.researchgate.net/publication/371506043_NullNo_Information_Rate_NIR_a_statistical_test_to_assess_if_a_classification_accuracy_is_significant_for_a_given_problem> https://bookdown.org/dparedesi/data-science-con-r/aprendizaje-supervisado.html> https://www.youtube.com/watch?v=v0pkdbZ4JAU&t=524s>