PARTE TEÓRICA

1) C.

2) A.

Parte PRÁCTICA

library(readxl)
library(ggplot2)

## Warning: package 'ggplot2' was built under R version 4.3.3

library (rio)

## Warning: package 'rio' was built under R version 4.3.2

data<-import("GII_PC3.xlsx")

##1) Existe mucha curiosidad por la relación entre los niveles de incidencia de madres adolescentes (AdolBCat) y los niveles de población con secundaria (SecundariaCat). Para atender dicha preocupación realice lo siguiente:

str(data$AdolBCat)

##  chr [1:166] "Bajo" "Bajo" "Bajo" "Bajo" "Bajo" "Bajo" "Bajo" "Bajo" "Bajo" ...

str(data$AdolBCat)

##  chr [1:166] "Bajo" "Bajo" "Bajo" "Bajo" "Bajo" "Bajo" "Bajo" "Bajo" "Bajo" ...

a)Explore gráficamente la distribución de las categorías de la variable SecundariaCat en los grupos de AdolBCat. Comente. (2 puntos) REALZIAMOS LA TABLA DE CONTINGENCIA

tabla1=table(data$SecundariaCat,data$AdolBCat)
tabla1

##        
##         Alto Bajo
##   Alto    19   64
##   Bajo    38    3
##   Medio   27   15

tablapor1=tabla1 |>
  prop.table(2) |>
  round(2)
tablapor1

##        
##         Alto Bajo
##   Alto  0.23 0.78
##   Bajo  0.45 0.04
##   Medio 0.32 0.18

toPlot1 = as.data.frame(tablapor1) 
names(toPlot1) = c("nivel_secundaria", "indice_madresadol", "Porcentaje")

toPlot1

##   nivel_secundaria indice_madresadol Porcentaje
## 1             Alto              Alto       0.23
## 2             Bajo              Alto       0.45
## 3            Medio              Alto       0.32
## 4             Alto              Bajo       0.78
## 5             Bajo              Bajo       0.04
## 6            Medio              Bajo       0.18

GRÁFICO DE DISTRIBUCIÓN

ggplot(toPlot1, aes(x= indice_madresadol, y=Porcentaje*100, fill= nivel_secundaria)) +
  geom_bar(position="stack", stat="identity")+
  geom_text(aes(label=paste0(Porcentaje*100,"%")), 
            position = position_stack(), 
            vjust=1, size = 3)+
  labs(x="Indice de madres Adolencetes", y="Porcentaje", fill="Nivel de población con secundaria")+
  theme_bw()

#INTERPRETACIÓN: tras observar el gráfico podemos concluir que, en priemr lugar, los altos índices de embarazo adolescente están más relacionados con niveles de población media y baja. A pesar de ello, un dato relevante es que aproximadamente el 23%, es decir, casi una cuarta parte del total de mujeres adolescentes, queda embarazada incluso teniendo un nivel educativo alto. Segundo, los bajos índices de embarazo adolescente se observan mayormente en niveles de población con educación alta, alcanzando un 78%. En este contexto, las disparidades son notables, ya que solo un 4% de las adolescentes con educación media no experimentan un embarazo. Además, es destacable que un 18% de las adolescentes con educación baja no quedan embarazadas, lo cual desafía el estereotipo persistente en la sociedad.

Aplique la prueba respectiva para si existe asociación estadísticamente significativa entre estas dos variables y presente su interpretación. (2 puntos)

library(gtsummary)

## Warning: package 'gtsummary' was built under R version 4.3.3

chisq.test(tabla1)

## 
##  Pearson's Chi-squared test
## 
## data:  tabla1
## X-squared = 57.688, df = 2, p-value = 2.972e-13

#INTERPRETACIÓN: al analizar la prueba chi cuadrado, a un 95% de confianza, obtuvimos que el p-valor es de 0.0000000000002972, siendo menor que 0.095, por lo que podemos rechazar la hipótesis nula. Tras esto,concluimos que Sí existe una asociación estadísticamente significativa entre el nivel de embarazo adolecente y los niveles de educación de la población.

2)

a)

cor.test(data$FuerzaLab, data$Parla)

## 
##  Pearson's product-moment correlation
## 
## data:  data$FuerzaLab and data$Parla
## t = 4.0746, df = 164, p-value = 7.165e-05
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.1581775 0.4354071
## sample estimates:
##       cor 
## 0.3031939

modelo1=lm(FuerzaLab~Parla,data=data)
summary(modelo1)

## 
## Call:
## lm(formula = FuerzaLab ~ Parla, data = data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -40.842  -6.716   1.054   7.866  34.216 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  41.2114     2.5342  16.262  < 2e-16 ***
## Parla         0.3602     0.0884   4.075 7.16e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 13.84 on 164 degrees of freedom
## Multiple R-squared:  0.09193,    Adjusted R-squared:  0.08639 
## F-statistic:  16.6 on 1 and 164 DF,  p-value: 7.165e-05

INTERPRETACIÓN: Debido a que el p-value valor es 0.00007165, entonces podemos afirmar, a un 95% de confianza,que hay suficiente evidencia para rechazar la H0, por lo que concluimos que el modelo sí es válido como modelo de predicción. Es decir, podemos decir que hay evidencia estadística suficiente para afirmar que existe una relación significativa entre la “Tasa de participación de la fuerza laboral de las mujeres” y el “% de mujeres en el parlamento”.

Gráfico:

data %>%
 ggplot(aes (x=Parla*100, y=FuerzaLab)) +
  geom_point(colour="skyblue4") +  
 xlab( "% de mujeres en el parlamento") +  
  ylab("Tasa de participación de la fuerza laboral de las mujeres")+ theme_light() + 
  geom_smooth(method="lm", se = T, colour="green4")

## `geom_smooth()` using formula = 'y ~ x'

INTERPRETACIÓN: para complementar el análisis, al observar el gráfico, podemos decir que tiene una fuerza media, y la relación entre nuestras variables se perfila como positiva, siendo directamente proporcional. Además, observando la recta, el “% de mujeres en el parlamento” explica mucho la “Tasa de participación de la fuerza laboral de las mujeres”.

3)

a)

modelo2 <- lm(FuerzaLab~MatMor+ AdolB+Parla+Secundaria, data=data)

summary(modelo2)

## 
## Call:
## lm(formula = FuerzaLab ~ MatMor + AdolB + Parla + Secundaria, 
##     data = data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -37.081  -7.483   0.521   8.391  33.673 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 20.477603   5.092144   4.021 8.87e-05 ***
## MatMor       0.021603   0.008317   2.597   0.0103 *  
## AdolB        0.093425   0.045665   2.046   0.0424 *  
## Parla        0.363595   0.086511   4.203 4.36e-05 ***
## Secundaria   0.223685   0.052297   4.277 3.24e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 13.08 on 161 degrees of freedom
## Multiple R-squared:  0.2031, Adjusted R-squared:  0.1833 
## F-statistic: 10.26 on 4 and 161 DF,  p-value: 1.999e-07

#INTERPRETACIÓN:Ttras realizar el modelo, podemos observar que en este caso, según el test ANOVA el p-valor es 0.0000001999, siendo menor a 0.05, podemos rechazar la hipótesis nula, concluyendo que nuestro modelo sí es válido. Además, nos explica que el modelo tiene un BAJO nivel explicativo, dado que el R2 ajustado es de 0.1833 (18.33% de la variabilidad). Al tener cuatro variables independientes (Ratio de mortalidad materna, Tasa de madres adolescentes, % de mujeres en el parlamento y % de mujeres con educación secundaria), tenemos cuatro pruebas de significancia, una por cada variable. En este caso, las cuatro variables, al obtener un p-valor menor al alpha (0.05), podemos rechazar la hipótesis nula, concluyendo que efectivamente que SÍ aportan poder explicativo al modelo para explicar la Tasa de participación de la fuerza laboral de las mujeres. En adición, la variable más importante es Secundaria, debido a su mayor t-value y menor p-valor, indicando una fuerte relación con FuerzaLab.

b)

Ecuación: Tasa de participación de la fuerza laboral de las mujeres = 0.0000887+(0.0103* MatMor)+(0.0424* AdolB)+(0.0000436* Parla) + (0.0000324*Secundaria)

#INTERPRTEACIÓN: Utilizando el R como calculadora,la participación de la fuerza laboral de las mujeres (FuerzaLab) que tendría un pais con las caracaterísticas mencionadas seria de 0.1832991.

PC3

Henry Joel Merino Navarro

2024-06-19