El formato de respuesta es el siguiente:
Abajo del encabezado, debe estar escrita la pregunta. Agregar los códigos en chunks e incluir el output de ser necesario.
La explicación de las respuestas (si es que hay análisis) debe ir como texto, fuera del chunk.
El título del informe debe ser “Tarea 3” y el nombre de los integrantes debe ir en autor. La actividad deberá ser entregado en link de rpubs.
También debe enviar su archivo en formato R Markdown como respaldo.
Recuerde que puede usar todo el material visto para apoyarse.
Todos los integrantes del grupo deben enviar el archivo de Rmarkdown
Tienen hasta el domingo 19 de septiembre a las 23:55 hrs para enviar la tarea.
El formato tiene puntaje.(3 ptos)
Suprimir warning y mensajes(3 ptos)
Cargue las librerias data.table y ggplot2. Además cargue la bases de datos del ive, a este objeto llamelo ive
library(data.table)
library(ggplot2)
library(janitor)
library(plotly)
library(RColorBrewer)
library(tidyverse)
Primero cargamos la base de datos:
path <- "C:/Users/matir/OneDrive/Escritorio/Mati/Universidad/2021/Segundo Semestre/Data Science/Tarea 3/"
ive <- fread(paste0(path,"ive.csv"), encoding = "UTF-8")
Corra este código después de cargar la base de datos, pero antes de partir respondiendo la tarea:
ive[MES=="1.ENERO",MES:="01"]
ive[MES=="2.FEBRERO",MES:="02"]
ive[MES=="3.MARZO",MES:="03"]
ive[MES=="4.ABRIL",MES:="04"]
ive[MES=="5.MAYO",MES:="05"]
ive[MES=="6.JUNIO",MES:="06"]
ive[MES=="7.JULIO",MES:="07"]
ive[MES=="8.AGOSTO",MES:="08"]
ive[MES=="9.SEPTIEMBRE",MES:="09"]
ive[MES=="10.OCTUBRE",MES:="10"]
ive[MES=="11.NOVIEMBRE",MES:="11"]
ive[MES=="12.DICIEMBRE",MES:="12"]
ive <- ive[MES!="SIN INFORMACIÓN"]
ive$AÑO <- as.character(ive$AÑO)
ive[,fecha:=as.Date(paste0(AÑO,"-",MES,"-01"))]
Cree una nueva variable llamada tipo_causal donde:
ive[CAUSAL== "Causal 1", tipo_causal := "Peligro Mujer"]
ive[CAUSAL== "Causal 2", tipo_causal := "Inviabilidad fetal"]
ive[CAUSAL== "Causal 3", tipo_causal:= "Violación"]
Realice un análisis descriptivo de la variable edad, esto es, cuál es la edad promedio de las mujeres que hayan abortado, la edad minima, edad máxima.
edad <- ive[,.(EDAD_MUJER, HITO2_DECISION_MUJER_IVE)]
edad2 <- edad[HITO2_DECISION_MUJER_IVE== "INTERRUMPIR EL EMBARAZO"]
summary(edad2)
## EDAD_MUJER HITO2_DECISION_MUJER_IVE
## Min. :11.00 Length:2124
## 1st Qu.:24.00 Class :character
## Median :30.00 Mode :character
## Mean :29.51
## 3rd Qu.:36.00
## Max. :48.00
## NA's :8
Para realizar un analisis descriptivo unicamente de las edades de las muejeres que han abortado, es necesario filtrar la base de datos (con ambas variables) y luego crear una nueva solo con las edades de las mujeres que cumplan con la condicion de aborto.
Haciendo un analisis descriptivo a la base creada, vemos que la edad minima de la mujer que decide abortar es de 11 años, la edad maxima es de 48 años y la edad promedio se encuentra entre los 29 y 30 años (29,51).
Realice un histograma con la edad de las mujeres que deciden interrumpir su embarazo independiente de la causal:
emba <- edad2[,.N,(EDAD_MUJER)]
ggplot (emba, aes(x = EDAD_MUJER, y = N)) + geom_col(color="black", fill="lightblue", width = 1)+ scale_y_continuous(n.breaks = 15)+scale_x_continuous(n.breaks = 25)+ labs(x="Edad de la Mujer", y="Numero de Mujeres", title= "Cantidad de Mujeres que interrumpen su embarazo", subtitle= "Por Edad")
¿Cuántas mujeres tienen cada tipo de previsión? Agrupe las mujeres que no informaron que previsión tenian, SIN PREVISIÓN y DESCONOCIDO como NINGUNA, SISTEMA PREVISIONAL DE LAS FFAA como CAPREDENA
ive[PREVISION_SALUD=="SIN PREVISIÓN" | PREVISION_SALUD=="DESCONOCIDO" | PREVISION_SALUD=="NINGUNA" | PREVISION_SALUD=="SIN INFORMACIÓN",tipo_prevision:="NINGUNA"]
ive[PREVISION_SALUD=="CAPREDENA" | PREVISION_SALUD== "SISTEMA PREVISIONAL DE LAS FFAA",tipo_prevision:="CAPREDENA"]
ive[PREVISION_SALUD=="FONASA",tipo_prevision:="FONASA"]
ive[PREVISION_SALUD=="ISAPRE",tipo_prevision:="ISAPRE"]
ive[PREVISION_SALUD=="SISA",tipo_prevision:="SISA"]
ive[PREVISION_SALUD=="DIPRECA",tipo_prevision:="DIPRECA"]
ive[,.N,by=tipo_prevision]
## tipo_prevision N
## 1: FONASA 2152
## 2: ISAPRE 299
## 3: NINGUNA 73
## 4: SISA 4
## 5: CAPREDENA 6
## 6: DIPRECA 14
prevision <- ive[,.N,(tipo_prevision)]
ggplot (prevision, aes(x = tipo_prevision, y = N, fill = tipo_prevision)) + geom_col() +scale_y_continuous(name="N", limits=c(0, 2200)) + scale_y_continuous(n.breaks = 15)
¿Cuántas mujeres por causal hay en cada previsión? Muestre un grafico de barras de todos los tipos vistos en clases.
Una forma:
previsiones <- c("FONASA", "ISAPRE", "NINGUNA", "SISA", "CAPREDENA", "DIPRECA")
ive <- ive[tipo_prevision %in% previsiones]
ggplot(ive,aes(x=tipo_causal, fill=tipo_prevision)) + geom_bar(position = "dodge") + labs(x="Causal de Aborto", y="Numero de Mujeres", title= "Causal de Aborto", subtitle= "por Prevision", fill= "Tipo de Prevision") + scale_y_continuous(n.breaks = 15)
Otro tipo de forma, si bien este tipo de grafico no da los causales por prevision en cifras, los da en porcentaje. Esta manera tambien permite visualizar facilmente las proporciones de cada variable.
ggplot(ive,aes(x=tipo_causal, fill=tipo_prevision)) + geom_bar(position = "fill") + scale_color_brewer(palette="Dark2") + labs(x="Causal de Aborto", y="Cantidad %", title= "Causal de Aborto", subtitle= "por Prevision") + scale_y_continuous(n.breaks = 11)
Elija alguno de los gráficos hechos anteriormente y muestre esta información por tipo_causal. Además agregue etiquetas a los ejes, títulos y subtítulos, además de que el eje x sea lejible.
ggplot(ive,aes(x=tipo_causal, fill=tipo_prevision)) + geom_bar(position = "dodge") + labs(x="Causal de Aborto", y="Numero de Mujeres", title= "Causal de Aborto", subtitle= "por Prevision", fill= "Tipo de Prevision") + scale_y_continuous(n.breaks = 15)
Creemos que este grafico representa de buena manera lo que se pide, pues es facil de visualizar y el eje “y” permite ver las cifras de los causales de aborto por prevision.
Cree un nuevo objeto ive1 donde cuente la cantidad de abortos por la variable fecha y tipo_causal. Tenga en cuenta que debe filtrar la base donde HITO2_DECISION_MUJER_IVE sea igual a INTERRUMPIR EL EMBARAZO.
Luego realice un gráfico donde muestre la cantidad de abortos por fecha y causa.
ive1 <- ive[(HITO2_DECISION_MUJER_IVE== "INTERRUMPIR EL EMBARAZO"),.N,by=.(fecha,tipo_causal)]
ggplot(ive1, aes(x=fecha, y=N,color=tipo_causal)) + geom_point() + facet_wrap(facets="tipo_causal") + scale_y_continuous(n.breaks = 16)+ geom_smooth(colour="black", size=0.7)+ scale_color_brewer(palette="Set1") + labs(x="Fecha", y="Numero de Abortos", title= "Cantidad de Abortos", subtitle= "por Fecha y Causal", fill= "Tipo de Causal")
fecha <- ggplot(ive1, aes(x=fecha, y=N,color=tipo_causal, text=paste("Fecha:",fecha))) +
geom_point() + facet_wrap(facets="tipo_causal") +
scale_y_continuous(n.breaks = 16)+ geom_smooth(colour="black", size=0.7)+
scale_color_brewer(palette="Set1") +
labs(x="Fecha", y="Numero de Abortos", title= "Cantidad de Abortos", subtitle= "por Fecha y Causal", fill= "Tipo de Causal")
ggplotly(fecha, tooltip = "text")
Vemos que tanto en Inviabilidad Fetal como en Peligro Mujer la cantidad de abortos ha disminuido entre el año 2019 y 2020. En cambio, entre el año 2018 a 2019 aumentaron. Siguen un patron similar.A diferencia de las demas, en el causal de violacion, la cantidad de abortos a partir del año 2020 ha disminuido considerablemente respecto a años anteriores.
Agregar etiquetas a los ejes, títulos y subtítulos al gráfico de la pregunta 6.
ggplot(ive,aes(x=tipo_causal, fill=tipo_prevision)) + geom_bar(position = "dodge") + labs(x="Causal de Aborto", y="Numero de Mujeres", title= "Causal de Aborto", subtitle= "por Prevision", fill= "Tipo de Prevision") + scale_y_continuous(n.breaks = 15)
¿Existe alguna relación entre la edad de la mujer con la edad gestacional diferenciando por la causal?
ive_pregunta9 <- ive[(HITO2_DECISION_MUJER_IVE== "INTERRUMPIR EL EMBARAZO"),.(EDAD_MUJER,HITO1_EDAD_GESTACIONAL_SEMANAS, tipo_causal)]
ggplot(ive_pregunta9, aes(x=EDAD_MUJER, y=HITO1_EDAD_GESTACIONAL_SEMANAS,color=tipo_causal)) + geom_point() + facet_wrap(facets="tipo_causal") + geom_smooth(colour="black", size=1) + scale_y_continuous(n.breaks = 19)+ scale_color_brewer(palette="Set1") + labs(x="Edad de la Mujer", y="Edad Gestacional Feto (Semanas)", title= "Relacion entre edad mujer y edad gestacional", subtitle= "por causal", fill= "Tipo de Causal")
Claramente, vemos que independiente de la edad de la mujer, al ser un causal de violacion, la edad gestacional del feto (en semanas) al abortarlo es mucho menor en relacion a los otros dos causales (Peligro Mujer y Inviabilidad Fetal). Además, viendo la edad de la mujer, hay mujeres que son violadas a temprana edad (desde los 11 años). Por lo tanto, hace sentido que acudan a centros hospitalarios en una fase temprana de edad gestacional del feto.
Para el caso de que el causal sea Inviabilidad Fetal, segun el grafico existe una tendencia donde las mujeres que abortan, deciden hacerlo a una edad gestacional superior (en promedio) a las 10 semanas (hay un par de salvedades).
Finalmente, para el caso del causal de que la mujer este peligrando (Peligro Mujer), se ve que gran parte de las edades gestacionales son entre 14 y 24 semanas, habiendo una mayor concentracion en este intervalo. En cuanto a la relacion con la edad de la mujer, esta mayor concentracion comprende desde los 20 a los 40 años.