Entrega 3

Lectura de Archivo de Datos

Los datos han sido obtenidos de las bases de datos de ENDES (Encuesta Demográfica y de Salud Familiar). Particularmente las del 2022

library(readxl)
datos <- read_excel("D:/R/data_clean.xlsx")

Paquetes

library(rio)
library(dplyr)

## 
## Adjuntando el paquete: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

library(tidyr)
library(ggplot2)
library(polycor)
library(modelsummary)

## `modelsummary` 2.0.0 now uses `tinytable` as its default table-drawing
##   backend. Learn more at: https://vincentarelbundock.github.io/tinytable/
## 
## Revert to `kableExtra` for one session:
## 
##   options(modelsummary_factory_default = 'kableExtra')
##   options(modelsummary_factory_latex = 'kableExtra')
##   options(modelsummary_factory_html = 'kableExtra')
## 
## Silence this message forever:
## 
##   config_modelsummary(startup_message = FALSE)

library(psych)

## 
## Adjuntando el paquete: 'psych'

## The following object is masked from 'package:modelsummary':
## 
##     SD

## The following object is masked from 'package:polycor':
## 
##     polyserial

## The following objects are masked from 'package:ggplot2':
## 
##     %+%, alpha

Limpieza y Transformacion

data_clean <- datos %>% 
  mutate(
    nivel_educativo = factor(nivel_educativo),
    acceso_edu_sexual = factor(acceso_edu_sexual),
    ingreso_familiar = factor(ingreso_familiar),
    num_em = factor(num_em)
  )

Analisis Univariado : Cantidad de Embarazos de Niñas y Adolescentes

Distribución

table(datos$num_em)

## 
##    0    1 
## 7991  149

barplot(table(data_clean$num_em), main = "Distribución de la variable dependiente", 
        xlab = "Valores", ylab = "Frecuencia", col = "blue")

Medidas de Tendencia Central

Media

mean(datos$num_em)

## [1] 0.01830467

Mediana

median(datos$num_em)

## [1] 0

Moda

names(sort(table(datos$num_em), decreasing = TRUE))[1]

## [1] "0"

Medidas de Dispersión

Rango

range(datos$num_em)

## [1] 0 1

Desviación Estándar

sd(datos$num_em)

## [1] 0.134059

Varianza

var(datos$num_em)

## [1] 0.01797182

Forma de Distribución

Simetria

library(e1071)

skewness(datos$num_em)

## [1] 7.185436

Curtosis

kurtosis(datos$num_em)

## [1] 49.63658

Analisis Multivariado

Regresion

modelo<- lm(datos$num_em ~ datos$nivel_educativo+ datos$acceso_edu_sexual+datos$ingreso_familiar,data=datos)

summary(modelo)

## 
## Call:
## lm(formula = datos$num_em ~ datos$nivel_educativo + datos$acceso_edu_sexual + 
##     datos$ingreso_familiar, data = datos)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.03209 -0.03209 -0.02029 -0.00704  0.99296 
## 
## Coefficients:
##                                            Estimate Std. Error t value Pr(>|t|)
## (Intercept)                               -0.036372   0.006258  -5.812 6.41e-09
## datos$nivel_educativoSecundaria Completa   0.043416   0.005027   8.637  < 2e-16
## datos$nivel_educativoUniversidad Completa  0.056662   0.009525   5.949 2.82e-09
## datos$acceso_edu_sexualSi                  0.033798   0.005887   5.741 9.73e-09
## datos$ingreso_familiarBajo                 0.025043   0.004464   5.610 2.09e-08
## datos$ingreso_familiarMedio                0.007939   0.005049   1.572    0.116
##                                              
## (Intercept)                               ***
## datos$nivel_educativoSecundaria Completa  ***
## datos$nivel_educativoUniversidad Completa ***
## datos$acceso_edu_sexualSi                 ***
## datos$ingreso_familiarBajo                ***
## datos$ingreso_familiarMedio                  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.1334 on 8134 degrees of freedom
## Multiple R-squared:  0.0108, Adjusted R-squared:  0.01019 
## F-statistic: 17.76 on 5 and 8134 DF,  p-value: < 2.2e-16

Análisis Factorial

data_clean <- data_clean %>%
  mutate(
    nivel_educativo = as.factor(nivel_educativo),
    acceso_edu_sexual = as.factor(acceso_edu_sexual),
    ingreso_familiar = as.factor(ingreso_familiar),
    num_em = as.numeric(num_em)
  )

sum(is.na(data_clean))

## [1] 0

str(data_clean)

## tibble [8,140 × 4] (S3: tbl_df/tbl/data.frame)
##  $ nivel_educativo  : Factor w/ 3 levels "Primaria Completa",..: 1 1 1 1 1 1 1 1 1 1 ...
##  $ acceso_edu_sexual: Factor w/ 2 levels "No","Si": 2 2 2 2 2 2 2 2 2 2 ...
##  $ ingreso_familiar : Factor w/ 3 levels "Alto","Bajo",..: 2 2 2 2 2 2 2 2 2 2 ...
##  $ num_em           : num [1:8140] 2 2 2 2 2 2 2 2 2 2 ...

#corMatrix <- hetcor(data_clean)

Conclusiones

Analisis Univarable

Sobre el análisis univariado se tienen diferentes puntos :

1.Distribución : En los datos hay 7991 casos de jóvenes que no están embarazadas y 149 de jóvenes que sí. Lo que significa que alrededor del 1.8% son de la muestra son jóvenes embarazadas

2.Media : La media es de 0.01830467. Esto refleja lo mismo que en la distribución, y es que por cada 100 jóvenes hay aproximadamente 2 que están embarazadas.

2.Mediana y Moda : Es de 0. Esto significa que lo usual es que las jóvenes no estén embarazadas

3.Rango : El rango es de 0 a 1. En la base de datos no hay ejemplos de casos en que la jóven tenga más de 1 embarazo.

4.Desviación Estándar : 0.134. Esto indica que los datos están relativamente muy concentrados en la media (0.018).

5.Varianza : 0.0179.Esto indica que los datos están relativamente muy concentrados en la media (0.018).

6.Simetría : 7.1854. Esto significa que hay una distribución altamente sesgada hacia la derecha, lo que implica que la mayoría de los valores se encuentran con valor 0.

7.Curtosis : 49.63. El valor es muy alto, lo que indica que los datos tienen valores atípicos. Lo cual es correcto, pues no es atípico el embarazo de jóvenes.

Analisis Multivaraible - Regresión

Sobre el análisis univariado se tienen diferentes puntos :

1.Regresión : 1.1. Residuos : - Mínimo : -0.03209 - Primer Cuartil : -0.03209 - Mediana : -0.02029 - Tercer Cuartil : -0.00704 - Máximo : 0.99296

Los residuos están bastante cercanos a cero y entre el tercer cuartil y el máximo hay un salto muy grande. Esto indica la gran presencia de valores atípicos.

1.2.Coeficientes :

-Intercepto: El valor estimado del intercepto es -0.036372. El p asociado es muy bajo. Esto indica que el intercepto es estadísticamente significativo

-Nivel Educativo :

El coeficiente de secundaria completa es 0.043416, lo que indica que, en comparación con no tener educación secundaria, tener la secundaria completa aumenta el número de embarazos en 0.043416.Es estadísticamente significativo (p < 2e-16)

El coeficiente de universidad completa es 0.056662, indicando un efecto aún mayor que tener secundaria completa.Es estadísticamente significativo (p = 2.82e-09)

-Acceso a Educación :

El coeficiente estimado de tener acceso a educación sexual es 0.033798, lo que significa que tener acceso a educación sexual está asociado con un aumento de 0.033798 unidades en el número de embarazos.

-Ingreso Familiar :

El coeficiente estimado de ingreso familiar bajo es 0.025043 , lo que sugiere que tener un ingreso familiar bajo aumenta en 0.025043 unidades el número de embarazos. Tiene un coeficiente significativo (p = 2.09e-08)

El coeficiente estimado de ingreso familiar medio es 0.007939, pero este valor no es significativo (p = 0.116). No hay una relación clara enter el ingreso familiar medio y el número de embarazos

1.3.Estadísticas del Modelo :

Error Estándar :

-R cuadrado : 0.0108. Solo el 1.08% de la variabilidad es explicada por las variables independientes, lo cual es muy bajo.

-Estadístico F : 17.76. El valor p es muy pequeño. Sugiere que el modelo es estadísticamente significativo, pero el R-cuadrado bajo sugiere que hay variables importantes que no se incluyen en el modelo.

1.4.Conclusión :

Las variables nivel educativo (secundaria completa y universidad completa) , acceso a educación sexual y ingreso familiar bajo están asociados al número de embarazos.
Sin embargo, el modelo tiene un bajo poder explicativo (R-cuadrado bajo). Esto sugiere que faltan aun muchas más variables para poder explicar el número de embarazos.