VARIABLES

Column

VARIABLE DEPENDIENTE

Column

Tabla descriptiva de la varible Percepción de Seguridad

MEDIA

[1] 1.887691

MODA


   Seguro No Seguro 
      125       988

La moda es: No Seguro

La inseguridad es uno de los principales problemas sociales que afecta al Perú, impactando tanto en el bienestar de la población como en el desarrollo económico y social del país.

Column {data-width=350}

ASALTOS

La percepción de inseguridad ha crecido significativamente entre los ciudadanos peruanos, quienes son testigos de robos, asaltos, extorsiones y delitos graves relacionados con el crimen organizado y no organizado en todas las regiones del país

ROBOS

En Perú, aproximadamente 3 de cada 10 personas han sido víctimas de robos

EXTORSIONES

En Perú, aproximadamente 1 de cada 10 personas ha sido víctima de extorsión

CRIMEN ORGANIZADO

En Perú, aproximadamente 1 de cada 10 personas ha sido víctima de delitos graves relacionados con el crimen organizado. Asaltos, narcotráfico y secuestros

ESTADÍSTICOS

Column {data-width=500}

ASOCIACIÓN 1

CON LA VARIABLE ZONA DE RESIDENCIA (ur)


    Pearson's Chi-squared test with Yates' continuity correction

data:  tabla_contingencia
X-squared = 9.5608e-31, df = 1, p-value = 1

El resultado de la prueba de chi-cuadrado muestra un valor de X-squared extremadamente bajo (9.5608e-31) y un valor p de 1, lo que indica que no hay evidencia significativa para rechazar la hipótesis nula. En otras palabras, no existe una relación estadísticamente significativa entre la zona de residencia (ur) y la percepción de seguridad (percepseg). Esto sugiere que, en el conjunto de datos analizado, la zona de residencia no influye en la percepción de seguridad.

GRÁFICO

ASOCIACIÓN 2

CON LA VARIABLE GÉNERO DEL CIUDADANO ENTREVISTADO (genero)


    Pearson's Chi-squared test with Yates' continuity correction

data:  tabla_contingencia2
X-squared = 5.0319, df = 1, p-value = 0.02488

El resultado de la prueba de chi-cuadrado muestra un valor p de 0.02488, lo que es menor que 0.05. Esto indica que hay una relación estadísticamente significativa entre las dos variables. Por lo tanto, se rechaza la hipótesis nula de independencia, sugiriendo que existe una asociación entre las categorías de las variables en la tabla de contingencia tabla_contingencia2.

GRÁFICO

ASOCIACIÓN 3

CON LA VARIABLE VÍCTIMA DEL CRÍMEN EN LOS ÚLTIMOS 12 MESES (victima)


    Pearson's Chi-squared test with Yates' continuity correction

data:  tabla_contingencia3
X-squared = 45.759, df = 1, p-value = 1.337e-11

El resultado de la prueba de chi-cuadrado muestra un valor p de 1.337e-11, que es mucho menor que 0.05. Esto indica que hay una relación estadísticamente significativa entre las dos variables en la tabla de contingencia tabla_contingencia3. Por lo tanto, se rechaza la hipótesis nula de independencia, sugiriendo que las variables están asociadas.

GRÁFICO

ASOCIACIÓN 4

CON LA VARIABLE CONFIANZA EN LA COMUNIDAD (confianzacom)


    Pearson's Chi-squared test with Yates' continuity correction

data:  tabla_contingencia4
X-squared = 78.768, df = 1, p-value < 2.2e-16

El resultado de la prueba de chi-cuadrado muestra un valor de X-cuadrado de 78.768 y un p-valor menor a 2.2e-16, lo que indica que hay una asociación estadísticamente significativa entre las variables analizadas. Dado que el p-valor es extremadamente bajo, podemos rechazar la hipótesis nula de independencia, lo que sugiere que las variables están relacionadas entre sí.

GRÁFICO

ASOCIACIÓN 5

CON LA VARIABLE CONFIANZA EN LA POLICIA (confianzapol)


    Pearson's Chi-squared test with Yates' continuity correction

data:  tabla_contingencia5
X-squared = 6.0423, df = 1, p-value = 0.01397

El resultado de la prueba de chi-cuadrado muestra un valor de X-cuadrado de 6.0423 con 1 grados de libertad y un p-valor de 0.01397, lo que indica una asociación estadísticamente significativa entre las variables. Dado que el p-valor es bajo, podemos rechazar la hipótesis nula de independencia, sugiriendo que las variables están fuertemente relacionadas entre sí.

ASOCIACIÓN 6

CON LA VARIABLE ÁREA GEOGRÁFICA DE RESIDENCIA DEL ENTREVISTADO (confianzapol)


    Pearson's Chi-squared test

data:  tabla_contingencia6
X-squared = 0.033521, df = 3, p-value = 0.9984

El resultado de la prueba de chi-cuadrado muestra que no existe una relación significativa entre las variables analizadas. El valor de X-squared es 0.033521 con 3 grados de libertad, y el p-value es 0.9984. Esto indica que la probabilidad de observar una diferencia tan grande o más grande entre las frecuencias observadas y esperadas, si las variables fueran independientes, es extremadamente alta. Dado que el p-value es considerablemente mayor que 0.05, no podemos rechazar la hipótesis nula de que las variables son independientes. En resumen, no hay evidencia estadística suficiente para afirmar que exista una relación entre las variables estudiadas.

MODELOS

Column {data-width=500}

MODELO 1

CON UR

H1: La Percepción de seguridad en el vecindario de ciudadanos peruanos en 2023 depende de la Zona de residencia del entrevistado.

Regresión Logística
	Modelo (I)
(Intercept)	2.072***
	(0.130)
urRERural	-0.010
	(0.190)
Num.Obs.	1113
AIC	786.0
BIC	796.1
Log.Lik.	-391.013
F	0.003
RMSE	0.32
+ p < 0.1, * p < 0.05, p < 0.01, * p < 0.001

El coeficiente de urRERural no es significativo, lo que indica que no hay una diferencia estadísticamente significativa en la percepción de seguridad entre las personas que viven en áreas rurales y urbanas. La deviance nula es 782.03 y la deviance residual también es 782.03, lo que indica que el modelo no ha mejorado con respecto al modelo nulo (modelo sin predictores), lo que coincide con la falta de significancia de la variable urRE. CONCLUSIONES: Zona de residencia (urbano vs. rural) no parece tener un impacto significativo sobre la percepción de seguridad. La variable urRE no es significativa en este modelo de regresión logística.

MODELO 2

H2: La Percepción de seguridad en el vecindario de ciudadanos peruanos en 2023 depende de la Zona de residencia, el género y la experiencia como víctima del entrevistado

Regresión Logística
	Modelo (II)
(Intercept)	3.260***
	(0.300)
urRERural	-0.010
	(0.196)
generoREMujer	0.725***
	(0.201)
victimaRENO	-1.975***
	(0.303)
Num.Obs.	1113
AIC	721.0
BIC	741.1
Log.Lik.	-356.509
F	16.668
RMSE	0.31
+ p < 0.1, * p < 0.05, p < 0.01, * p < 0.001

CONCLUSIONES: Se muestra que el género y la experiencia como víctima de un delito influyen en la percepción de seguridad. Ser mujer aumenta significativamente la percepción de seguridad (coeficiente positivo y significativo), mientras que no haber sido víctima de un delito también tiene un efecto inverso significativo.

MODELO 3

CON UR, GENERO, VICTIMA Y CONFIANZACOM

H3: La Percepción de seguridad en el vecindario de ciudadanos peruanos en 2023 depende de la Zona de residencia, Género, si ha sido víctima del crimen en los últimos 12 meses (2023) y de la confianza en la comunidad por parte de ciudadanos peruanos.

Primero reescalamos las variables

Regresión Logística
	Modelo (III)
(Intercept)	2.556***
	(0.308)
urRERural	-0.013
	(0.206)
generoREMujer	0.718***
	(0.211)
victimaRENO	-1.984***
	(0.309)
confianzacomrNo confiable	1.978***
	(0.253)
Num.Obs.	1113
AIC	642.2
BIC	667.3
Log.Lik.	-316.094
F	26.047
RMSE	0.29
+ p < 0.1, * p < 0.05, p < 0.01, * p < 0.001

En conjunto, todas las variables incluidas son predictores significativos del modelo menos la zona de residencia del entrevistado. El modelo iene un AIC de 642.2, lo que sugiere un buen ajuste relativo.

MODELO 4

CON UR, GENERO, VICTIMA ,CONFIANZACOM Y CONFIANZAPOL

H5: La Percepción de seguridad en el vecindario de ciudadanos peruanos en 2023 depende de la zona de residencia, género del individuo, si ha sido víctima del crimen en los últimos 12 meses (2023), de la confianza en la comunidad y la confianza en la policía nacional por parte de ciudadanos peruanos.

Regresión Logística
	Modelo (IV)
(Intercept)	2.335***
	(0.345)
urRERural	-0.013
	(0.206)
generoREMujer	0.739***
	(0.212)
victimaRENO	-1.991***
	(0.310)
confianzacomrNo confiable	1.960***
	(0.253)
confianzapolrNo confiable	0.309
	(0.226)
Num.Obs.	1113
AIC	642.4
BIC	672.4
Log.Lik.	-315.178
F	20.920
RMSE	0.29
+ p < 0.1, * p < 0.05, p < 0.01, * p < 0.001

Observamos que las variables genero, victima y confianzacom son significativas.

COMPARACIÓN DE MODELOS

Comparando modelos
	modelo (I)	modelo (II)	modelo (III)	modelo (IV)
(Intercept)	7.940298***	26.050951***	12.884835***	10.326465***
	[6.207973, 10.32753]	[15.0669466, 49.20226]	[7.3145057, 24.675098]	[5.4286031, 21.16091]
urRERural	0.990148	0.989623	0.987500	0.987430
	[0.682169, 1.44091]	[ 0.6741548, 1.45624]	[0.6596893, 1.481385]	[0.6592888, 1.48207]
generoREMujer		2.064684***	2.050541***	2.094215***
		[ 1.3967842, 3.08190]	[1.3609614, 3.119946]	[1.3868194, 3.19467]
victimaRENO		0.138768***	0.137487***	0.136624***
		[ 0.0731368, 0.24247]	[0.0717206, 0.243316]	[0.0711416, 0.24227]
confianzacomrNo confiable			7.226349***	7.101479***
			[4.4933830, 12.149246]	[4.4115122, 11.94813]
confianzapolrNo confiable				1.361984
				[0.8687813, 2.10972]
Num.Obs.	1113	1113	1113	1113
AIC	786.0	721.0	642.2	642.4
BIC	796.1	741.1	667.3	672.4
RMSE	0.32	0.31	0.29	0.29
Log.Lik.	-391.013	-356.509	-316.094	-315.178
+ p < 0.1, * p < 0.05, p < 0.01, * p < 0.001

El modelo (IV) es el mejor modelo, ya que tiene la distribución de residuos más bajos, además de mantener significativas las principales variables explicativas (géneroREMujer, victimaRENO, confianzacomr). Por lo tanto, el modelo (IV) ofrece la mejor predicción de la percepción de seguridad en el vecindario.

GRÁFICO DE LA COMPARACIÓN

TABLA AME

Efectos Marginales Promedio (AME)- Modelo IV
factor	AME	SE	z	p	lower	upper
confianzacomrNo confiable	0.1587711	0.0182024	8.7225129	0.0000000	0.1230949	0.1944472
confianzapolrNo confiable	0.0273057	0.0206989	1.3191816	0.1871084	-0.0132635	0.0678748
generoREMujer	0.0627055	0.0176815	3.5463865	0.0003906	0.0280503	0.0973606
urRERural	-0.0010745	0.0175261	-0.0613105	0.9511119	-0.0354251	0.0332760
victimaRENO	-0.1344598	0.0156285	-8.6035244	0.0000000	-0.1650910	-0.1038286

Column

Tabla LRT

Tabla LRT para comparar modelos
#Df	LogLik	Df	Chisq	Pr(>Chisq)
2	-391.0133	NA	NA	NA
4	-356.5087	2	69.009261	0.0000000
5	-316.0943	1	80.828823	0.0000000
6	-315.1776	1	1.833221	0.1757475

Análisis

Podemos calcular los coeficientes estandarizados (IBM SPSS 2020) para saber cuál de los predictores del modelo IV tiene mayor efecto

Coeficientes Estandarizados (ordenar vía valores absolutos)
	LogitSt
ur	-0.0063094
genero	0.3692704
victima	-0.9692225
confianzacomre	-0.0063028
confianzapolre	0.3072961

Notamos cuál es el orden de importancia, en este caso victima es la que más efecto tiene

FACTORIZACIÓN

VEAMOS SI PODEMOS REALIZAR EL ANÁLISIS FACTORIAL

  percepseg confianzacom confianzapol
1         2            3            3
2         2            3            3
3         2            3            3
4         2            3            3
5         2            3            3
6         2            3            3

              percepseg confianzacom confianzapol
percepseg    1.00000000   0.32894703   0.01078491
confianzacom 0.32894703   1.00000000  -0.06543012
confianzapol 0.01078491  -0.06543012   1.00000000

$chisq
[1] 11.65871

$p.value
[1] 0.008648576

$df
[1] 3

Kaiser-Meyer-Olkin factor adequacy
Call: KMO(r = cor_matrix)
Overall MSA =  0.49
MSA for each item = 
   percepseg confianzacom confianzapol 
         0.5          0.5          0.4

CONCLUSIONES

Los resultados sugieren que el análisis factorial no es adecuado con estas variables debido al bajo valor de KMO. La baja correlación y la medida de adecuación indican que estas variables no comparten suficientes factores latentes.

CLUSTER

ANÁLISIS CON CLUSTER

PAM

AGNES

DIANA

---
title: "LA PERCEPCIÓN DE SEGURIDAD EN EL PERÚ: HALLAZGOS A TRAVÉS DE LA ENCUESTA LAPOP BAROMETER 2023"
output: 
  flexdashboard::flex_dashboard:
    theme: flatly
    social: menu
    source_code: embed
    orientation: columns
    vertical_layout: fill
editor_options: 
  chunk_output_type: console
---


    
```{r setup, include=FALSE}
library(flexdashboard)
library(ggplot2)
library(ggthemes)
library(dplyr)
library(rio)
library(stringr)
library(tidyverse)
library(modelsummary)
library(kableExtra)
library(cluster)

```



```{r}
library(rio)
data = import("dataf.xlsx")
```

```{r}
data$percepsegg <- as.factor(data$percepseg)
levels(data$percepsegg) <- c("Seguro", "No Seguro")
```



```{r , echo=FALSE}

library(car)
data$confianzacomr <- car::recode(data$confianzacom, "1:2=0 ; 3:4=100")

```


```{r}
library(Rmisc)
G1 <- summarySE(data = data, measurevar = "confianzacomr", groupvar = "percepsegg", na.rm = TRUE)

```






*VARIABLES* {data-icon="fa-signal"}
===================================== 


Column {data-width=500}
-----------------------------------------------------------------------

### VARIABLE DEPENDIENTE

```{r}

counts <- c(125, 988)
labels <- c("Seguro", "No Seguro")


percentages <- round(100 * counts / sum(counts), 1)  


labels_with_percent <- paste(labels, "\n", percentages, "%", sep = "")


pie(
  counts,
  labels = labels_with_percent,  
  col = c("blue", "red"),
  main = "Percepción de Seguridad en el vecindario
  de ciudadanos peruanos en 2023"
)

```

Column {data-width=300}
-----------------------------------------------------------------------

### Tabla descriptiva de la varible Percepción de Seguridad 

#### MEDIA

```{r}
mean(data$percepseg)
```



#### MODA 

```{r}
# Calcular la moda
frecuencia <- table(data$percepsegg)  # Calcula las frecuencias de cada categoría
moda <- names(frecuencia[which.max(frecuencia)])  # Encuentra la categoría con mayor frecuencia

frecuencia
cat("La moda es:", moda, "\n")
```

La inseguridad es uno de los principales problemas sociales que afecta al Perú, impactando tanto en el bienestar de la población como en el desarrollo económico y social del país.








Column {data-width=350} {.tabset}
-----------------------------------------------------------------------










### ASALTOS 

#### La percepción de inseguridad ha crecido significativamente entre los ciudadanos peruanos, quienes son testigos de robos, asaltos, extorsiones y delitos graves relacionados con el crimen organizado y no organizado en todas las regiones del país

```{r}
library(knitr)
knitr::include_graphics("R.jpg")
```

### ROBOS

#### En Perú, aproximadamente 3 de cada 10 personas han sido víctimas de robos

```{r}
knitr::include_graphics("R (1).jpg")
```


### EXTORSIONES

#### En Perú, aproximadamente 1 de cada 10 personas ha sido víctima de extorsión

```{r}
knitr::include_graphics("OIP.jpg")
```


### CRIMEN ORGANIZADO

#### En Perú, aproximadamente 1 de cada 10 personas ha sido víctima de delitos graves relacionados con el crimen organizado. Asaltos, narcotráfico y secuestros 


```{r}
knitr::include_graphics("R (2).jpg")
```


ESTADÍSTICOS {data-icon="fa-signal"}
===================================== 


Column {data-width=500} {.tabset}
-----------------------------------------------------------------------

### ASOCIACIÓN 1

##### CON LA VARIABLE ZONA DE RESIDENCIA (ur)

```{r}
data$percepsegRE <- factor(data$percepseg, levels = c(1, 2), labels = c("Seguro", "No seguro"))

data$urRE <- factor(data$ur, levels = c(1, 2), labels = c("Urbano", "Rural"))

tabla_contingencia <- table(data$percepsegRE, data$urRE)

# Realizar la prueba de chi-cuadrado
E1 <- chisq.test(tabla_contingencia)

# Ver los resultados
E1

```
El resultado de la prueba de chi-cuadrado muestra un valor de X-squared extremadamente bajo (9.5608e-31) y un valor p de 1, lo que indica que *no hay evidencia significativa* para rechazar la hipótesis nula. En otras palabras, *no existe una relación estadísticamente significativa* entre la zona de residencia (`ur`) y la percepción de seguridad (`percepseg`). Esto sugiere que, en el conjunto de datos analizado, la zona de residencia no influye en la percepción de seguridad.



GRÁFICO 
```{r}
library(ggplot2)
grafico <- as.data.frame(tabla_contingencia)
colnames(grafico) <- c("Percepcion_Seguridad", "Zona_Residencia", "Frecuencia")

# Crear un gráfico de barras
ggplot(grafico, aes(x = Percepcion_Seguridad, y = Frecuencia, fill = Zona_Residencia)) +
  geom_bar(stat = "identity", position = "dodge") +
  labs(title = "Relación entre Percepción de Seguridad y Zona de Residencia",
       x = "Percepción de Seguridad",
       y = "Frecuencia",
       fill = "Zona de Residencia") +
  theme_minimal()
```


### ASOCIACIÓN 2

##### CON LA VARIABLE GÉNERO DEL CIUDADANO ENTREVISTADO (genero)

```{r}
data$generoRE <- factor(data$genero, levels = c(1, 2), labels = c("Hombre", "Mujer"))

tabla_contingencia2 <- table(data$percepsegRE, data$generoRE)

# Realizar la prueba de chi-cuadrado
E2 <- chisq.test(tabla_contingencia2)

# Ver los resultados
E2
```
El resultado de la prueba de chi-cuadrado muestra un **valor p de 0.02488**, lo que es **menor que 0.05**. Esto indica que **hay una relación estadísticamente significativa** entre las dos variables. Por lo tanto, se rechaza la hipótesis nula de independencia, sugiriendo que existe una asociación entre las categorías de las variables en la tabla de contingencia `tabla_contingencia2`.


GRÁFICO

```{r}


grafico2 <- as.data.frame(tabla_contingencia2)
colnames(grafico2) <- c("Percepcion_Seguridad", "Genero", "Frecuencia")

# Crear un gráfico de barras
ggplot(grafico2, aes(x = Percepcion_Seguridad, y = Frecuencia, fill = Genero)) +
  geom_bar(stat = "identity", position = "dodge") +
  labs(title = "Relación entre Percepción de Seguridad y Género del individuo entrevistado",
       x = "Percepción de Seguridad",
       y = "Frecuencia",
       fill = "Género") +
  theme_minimal()
```

### ASOCIACIÓN 3

##### CON LA VARIABLE VÍCTIMA DEL CRÍMEN EN LOS ÚLTIMOS 12 MESES (victima)


```{r}
data$victimaRE <- factor(data$victima, levels = c(1, 2), labels = c("SÍ", "NO"))

tabla_contingencia3 <- table(data$percepsegRE, data$victimaRE)


E3 <- chisq.test(tabla_contingencia3)


E3
```
El resultado de la prueba de chi-cuadrado muestra un **valor p de 1.337e-11**, que es **mucho menor que 0.05**. Esto indica que **hay una relación estadísticamente significativa** entre las dos variables en la tabla de contingencia `tabla_contingencia3`. Por lo tanto, se rechaza la hipótesis nula de independencia, sugiriendo que las variables están asociadas.

GRÁFICO 
```{r}
grafico3 <- as.data.frame(tabla_contingencia3)
colnames(grafico3) <- c("Percepcion_Seguridad", "Victima", "Frecuencia")

# Crear un gráfico de barras apiladas
ggplot(grafico3, aes(x = Percepcion_Seguridad, y = Frecuencia, fill = Victima)) +
  geom_bar(stat = "identity", position = "dodge") +
  labs(title = "Relación entre Percepción de Seguridad y Haber Sido Víctima de Crimen",
       x = "Percepción de Seguridad",
       y = "Frecuencia",
       fill = "Víctima") +
  theme_minimal()
```


### ASOCIACIÓN 4

##### CON LA VARIABLE CONFIANZA EN LA COMUNIDAD (confianzacom)

```{r}


data <- data %>%
  mutate(confianzacomr = case_when(
    confianzacom <= 2 ~ "Confiable",      # Muy confiable o Algo confiable
    confianzacom > 2 ~ "No confiable"      # Poco confiable o Nada confiable
  ))

tabla_contingencia4 <- table(data$percepsegg, data$confianzacomr)
chisq.test(tabla_contingencia4)
```
El resultado de la prueba de chi-cuadrado muestra un **valor de X-cuadrado de 78.768** y un **p-valor menor a 2.2e-16**, lo que indica que **hay una asociación estadísticamente significativa** entre las variables analizadas. Dado que el p-valor es extremadamente bajo, podemos rechazar la hipótesis nula de independencia, lo que sugiere que las variables están **relacionadas** entre sí.

GRÁFICO 
```{r}
ggplot(as.data.frame(tabla_contingencia4), aes(x = Var1, y = Freq, fill = Var2)) +
  geom_bar(stat = "identity", position = "dodge") +
  labs(x = "Percepción de seguridad", y = "Frecuencia", 
       title = "Relación entre Percepción de seguridad y Confianza en la comunidad ",
       fill = "Confianza en la comunidad") +
  theme_minimal() +
  scale_fill_manual(values = c("lightblue", "orange", "pink", "green")) 
```


### ASOCIACIÓN 5

##### CON LA VARIABLE CONFIANZA EN LA POLICIA (confianzapol)


```{r}
data <- data %>%
  mutate(confianzapolr = case_when(
    confianzapol <= 5 ~ "No confiable",      
    confianzapol > 5 ~ "Confiable"      
  ))

tabla_contingencia5 <- table(data$percepsegg, data$confianzapolr)
chisq.test(tabla_contingencia5)
```
El resultado de la prueba de chi-cuadrado muestra un **valor de X-cuadrado de 6.0423** con **1 grados de libertad** y un **p-valor de 0.01397**, lo que indica una **asociación estadísticamente significativa** entre las variables. Dado que el p-valor es  bajo, podemos rechazar la hipótesis nula de independencia, sugiriendo que las variables están **fuertemente relacionadas** entre sí.

```{r}


ggplot(as.data.frame(tabla_contingencia5), aes(x = Var1, y = Freq, fill = Var2)) +
  geom_bar(stat = "identity", position = "dodge") +
  labs(x = "Percepción de seguridad", 
       y = "Frecuencia", 
       title = "Relación entre Percepción de Seguridad y Confianza en la Policía",
       fill = "Confianza en la Policía") +
  theme_minimal() +
  scale_fill_manual(values = c("lightblue", "orange"))


```

### ASOCIACIÓN 6

##### CON LA VARIABLE ÁREA GEOGRÁFICA DE RESIDENCIA DEL ENTREVISTADO (confianzapol)

```{r}
library(dplyr)


data <- data %>%
  mutate(estratopri = case_when(
    estratopri == 1101 | estratopri == 1102 ~ "Costa",            # Agrupar ambas costas en "Costa"
    estratopri == 1103 ~ "Lima",                                   # Cambiar a "Lima"
    estratopri == 1104 ~ "Selva",                                  # Mantener "Selva"
    estratopri == 1105 | estratopri == 1106 | estratopri == 1107 ~ "Sierra", # Agrupar todos los tipos de sierra en "Sierra"
    TRUE ~ NA_character_  # Asignar NA en caso de que haya algún valor inesperado
  ))


```


```{r}

tabla_contingencia6 <- table(data$percepsegg, data$estratopri)
chisq.test(tabla_contingencia6)

```
El resultado de la prueba de chi-cuadrado muestra que **no existe una relación significativa entre las variables analizadas**. El valor de X-squared es 0.033521 con 3 grados de libertad, y el **p-value es 0.9984**. Esto indica que la probabilidad de observar una diferencia tan grande o más grande entre las frecuencias observadas y esperadas, si las variables fueran independientes, es extremadamente alta. Dado que el p-value es considerablemente mayor que 0.05, no podemos rechazar la hipótesis nula de que las variables son independientes. En resumen, no hay evidencia estadística suficiente para afirmar que exista una relación entre las variables estudiadas.

```{r}
df <- as.data.frame(tabla_contingencia6)
ggplot(df, aes(x = Var1, y = Freq, fill = Var2)) +
  geom_bar(stat = "identity", position = "dodge") +
  labs(x = "Percepción de Seguridad", y = "Frecuencia", fill = "Área Geográfica") +
  theme_minimal() +
  ggtitle("Distribución de la Percepción de Seguridad por Área Geográfica") +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))
```


MODELOS  {data-icon="fa-signal"}
=====================================


Column {data-width=500} {.tabset}
-----------------------------------------------------------------------


### MODELO 1

CON UR 

#### H1: La Percepción de seguridad en el vecindario de ciudadanos peruanos en 2023 depende de la Zona de residencia del entrevistado.

```{r}
data$percepsegRE <- factor(data$percepseg, levels = c(1, 2), labels = c("Seguro", "No seguro"))
data$urRE <- factor(data$ur, levels = c(1, 2), labels = c("Urbano", "Rural"))




m1=glm(percepsegRE ~ urRE, data = data,family = binomial)
modelrl=list('Modelo (I)'=m1)
modelsummary(modelrl,
             title = "Regresión Logística",
             stars = TRUE,
             output = "kableExtra")
```


El coeficiente de urRERural no es significativo, lo que indica que no hay una diferencia estadísticamente significativa en la percepción de seguridad entre las personas que viven en áreas rurales y urbanas.
La deviance nula es 782.03 y la deviance residual también es 782.03, lo que indica que el modelo no ha mejorado con respecto al modelo nulo (modelo sin predictores), lo que coincide con la falta de significancia de la variable urRE.
CONCLUSIONES:
*Zona de residencia (urbano vs. rural) no parece tener un impacto significativo sobre la percepción de seguridad*. La variable urRE no es significativa en este modelo de regresión logística.


### MODELO 2

#### H2: La Percepción de seguridad en el vecindario de ciudadanos peruanos en 2023 depende de la Zona de residencia, el género y la experiencia como víctima del entrevistado 

```{r}
data$victimaRE <- factor(data$victima, levels = c(1, 2), labels = c("SÍ", "NO"))
```
```{r}

m3=glm(percepsegRE ~ urRE + generoRE + victimaRE, data = data,family = binomial)
modelrl=list('Modelo (II)'=m3)
modelsummary(modelrl,
             title = "Regresión Logística",
             stars = TRUE,
             output = "kableExtra")
```
CONCLUSIONES: 
Se muestra que el género y la experiencia como víctima de un delito influyen en la percepción de seguridad. Ser mujer aumenta significativamente la percepción de seguridad (coeficiente positivo y significativo), mientras que no haber sido víctima de un delito también tiene un efecto inverso significativo.

### MODELO 3

CON  UR, GENERO, VICTIMA Y CONFIANZACOM

#### H3: La Percepción de seguridad en el vecindario de ciudadanos peruanos en 2023 depende de la Zona de residencia, Género, si ha sido víctima del crimen en los últimos 12 meses (2023) y de la confianza en la comunidad por parte de ciudadanos peruanos.

Primero reescalamos las variables 



```{r}


m4=glm(percepsegRE ~ urRE + generoRE + victimaRE + confianzacomr, data = data,family = binomial)
modelrl=list('Modelo (III)'=m4)
modelsummary(modelrl,
             title = "Regresión Logística",
             stars = TRUE,
             output = "kableExtra")
```
En conjunto, todas las variables incluidas son predictores significativos del modelo menos la zona de residencia del entrevistado. El modelo iene un AIC de 642.2, lo que sugiere un buen ajuste relativo.


### MODELO 4

CON UR, GENERO, VICTIMA ,CONFIANZACOM Y CONFIANZAPOL 

H5: La Percepción de seguridad en el vecindario de ciudadanos peruanos en 2023 depende de la zona de residencia, género del individuo, si ha sido víctima del crimen en los últimos 12 meses (2023), de la confianza en la comunidad y la confianza en la policía nacional por parte de ciudadanos peruanos.

```{r}


m5=glm(percepsegRE ~ urRE + generoRE + victimaRE + confianzacomr + confianzapolr, data = data,family = binomial)
modelrl=list('Modelo (IV)'=m5)
modelsummary(modelrl,
             title = "Regresión Logística",
             stars = TRUE,
             output = "kableExtra")
```
Observamos que las variables genero, victima y confianzacom son significativas.








### *COMPARACIÓN DE MODELOS*

```{r}
formatoNumero <- function(x) {
  format(x, digits = 6, scientific = FALSE)
}
```

```{r}
# Librerías necesarias
library(kableExtra)
library(modelsummary)

# Definir modelos
modelsrl <- list(
  'modelo (I)' = m1,
  'modelo (II)' = m3,
  'modelo (III)' = m4,
  'modelo (IV)' = m5
  )

# Definir la función de formato
formatoNumero <- function(x) {
  format(x, digits = 6, scientific = FALSE)
}

# Generar el resumen de modelos
modelsummary(
  modelsrl,
  fmt = formatoNumero,
  exponentiate = TRUE,
  statistic = 'conf.int',
  title = "Comparando modelos",
  stars = TRUE,
  gof_map = c("nobs", "aic", "bic", "rmse", "logLik"), # Indicadores de bondad de ajuste
  gof_omit = c("F"),
  output = "kableExtra"
)

```

El modelo (IV) es el mejor modelo, ya que tiene la distribución de residuos más bajos, además de mantener significativas las principales variables explicativas (géneroREMujer, victimaRENO, confianzacomr). Por lo tanto, el modelo (IV) ofrece la mejor predicción de la percepción de seguridad en el vecindario.



### GRÁFICO DE LA COMPARACIÓN

```{r}
library(ggplot2)
library(dotwhisker)
dotwhisker::dwplot(list(Logit_I=m1,Logit_II=m3,Logit_III=m4,Logit_IV=m5),
                   exp=T) + #exponenciados!
            scale_y_discrete(labels=c("urRE",
                                      "generoRE",
                                      "victimaRE",
                                      "confianzacomr",
                                      "confianzapolr")) +
            scale_color_discrete(name="Modelos para: percepseg") +
            geom_vline(xintercept = 1,
                       colour = "grey60",
                       linetype = 2)
```

### TABLA AME 

```{r}
library(margins)
marginalsData=summary(margins(m5))
marginalsData%>% kable(caption = "Efectos Marginales Promedio (AME)- Modelo IV") %>%kableExtra::kable_styling(full_width = T)
```



Column {data-width=300}
-----------------------------------------------------------------------
### Tabla LRT

```{r}


library(lmtest)

lrtest(m1,m3, m4, m5) %>%
kable(caption = "Tabla LRT para comparar modelos")%>%kableExtra::kable_styling(full_width = FALSE)

```

### Análisis
 Podemos calcular los coeficientes estandarizados (IBM SPSS 2020) para saber cuál de los predictores del modelo IV tiene mayor efecto
 
```{r}

data$confianzacomre <- ifelse(data$confianzacomr == 'Confiable', 1, 2)
data$confianzapolre <- ifelse(data$confianzapolr == 'Confiable', 1, 2)

sdVIs=apply(data[,c("ur","genero", "victima", "confianzacomre", "confianzapolre")],2,sd)
DF=list(LogitSt=sdVIs*coef(m5)[c(2,3,4)])%>%
       data.frame()

# DF tiene los coeficientes estandarizados

DF%>% kable(caption = "Coeficientes Estandarizados (ordenar vía valores absolutos)")%>%
          kableExtra::kable_styling(full_width = F)

```
 
Notamos cuál es el orden de importancia, en este caso victima es la que más efecto tiene




FACTORIZACIÓN  {data-icon="fa-signal"}
===================================== 




```{r}
library(psych)
library(GPArotation)
library(readxl)
```


VEAMOS SI PODEMOS REALIZAR EL ANÁLISIS FACTORIAL
```{r}
library(rio)
dataf = import("dataf.xlsx")
# Selección de variables ordinales
variablesor <- dataf[, c("percepseg", "confianzacom", "confianzapol")]

# Verificar las primeras filas
head(variablesor)
```


```{r}
# Matriz de correlación
cor_matrix <- cor(variablesor, use = "pairwise.complete.obs")
print(cor_matrix)

# Prueba de esfericidad de Bartlett
cortest.bartlett(cor_matrix)

# Medida de adecuación muestral KMO
KMO(cor_matrix)

```

#### CONCLUSIONES

Los resultados sugieren que el análisis factorial no es adecuado con estas variables debido al bajo valor de KMO. La baja correlación y la medida de adecuación indican que estas variables no comparten suficientes factores latentes.


CLUSTER  {data-icon="fa-signal"}
===================================== 

#### ANÁLISIS CON CLUSTER


```{r}
data2<-import("dataf.xlsx")
```


```{r}
#ANALISIS CLUSTER

# Selección de las variables para el análisis
variables <- data2[, c("percepseg", "confianzapol", 
                       "confianzacom")]
```




```{r}
# Eliminar las filas con valores faltantes (NA)
variables <- na.omit(variables)
```


```{r}
# Estandarizar las variables con la función scale()
variables_scaled <- scale(variables)
```


```{r}
# Cargar las librerías necesarias
library(cluster)
library(factoextra)
library(kableExtra)
```


```{r}
# Crear un subconjunto limpio del dataset con las filas utilizadas en el análisis
dataClus <- na.omit(data[, c("percepseg", "confianzapol", "confianzacom")])
```

```{r}
# Calcular la matriz de distancia con Gower
g.dist <- daisy(dataClus, metric = "gower")

```
PAM



```{r}
# Aplicar PAM con el número óptimo de clusters 
set.seed(123)
res.pam <- pam(g.dist, 2, cluster.only = FALSE)
```


```{r}
# Asignar los clusters generados por PAM al subconjunto limpio
dataClus$pam_cluster <- res.pam$cluster



# Visualizar la silueta para PAM
fviz_silhouette(res.pam, print.summary = FALSE)
```



AGNES

```{r}
# Aplicar AGNES
agnes_res <- agnes(g.dist)

# Convertir a objeto hclust
agnes_hclust <- as.hclust(agnes_res)


```

```{r}
set.seed(123)
res.agnes <- hcut(g.dist, k = 3, hc_func = "agnes", hc_method = "ward.D")
```


```{r}
# Asignar los clusters generados por AGNES al subconjunto limpio
dataClus$agnes_cluster <- res.agnes$cluster
```




```{r}
# Visualizar la silueta para AGNES
fviz_silhouette(res.agnes, print.summary = FALSE)
```

DIANA 
```{r}
# Aplicar DIANA
diana_res <- diana(g.dist)

# Convertir a objeto hclust
diana_hclust <- as.hclust(diana_res)


```

```{r}
set.seed(123)
res.diana <- hcut(g.dist, k = 2, hc_func = "diana", hc_method = "ward.D2")

# Asignar los clusters generados por DIANA al subconjunto limpio
dataClus$diana_cluster <- res.diana$cluster
```




```{r}
# Visualizar la silueta para DIANA
fviz_silhouette(res.diana, print.summary = FALSE)
```