| Atributo | nombre del campo | descripción |
|---|---|---|
| Causa de defunción | |
En el catalogo de causas exiten 3966 |
| Sexo | |
Rango de datos 1=Hombre 2=Mujer 9= No especificado |
| edad | |
Rango de Datos 01..30 |
| Entidad de la defunción | |
Rango de las claves 01..32,99 |
####creo el dataframe con el archivo cvs del inegi
df=read.csv('C:/Users/Admin/OneDrive - Instituto Politecnico Nacional/Desktop/CURSO R/defunciones2020.csv')
###hago un nuevo dataframe con los unicos datos que voy a analizara partir de dataframe principal
datos=(data.frame(df['sexo'],df['edad_agru'],df['causa_def'],df['ent_ocurr']))
#creo un dataframe desde el catalogo de sexo
dfsexo=read.csv('C:/Users/Admin/OneDrive - Instituto Politecnico Nacional/Desktop/CURSO R/sexo.csv')
#creo un dataframe desde el catalogo de edad
dfedad=read.csv('C:/Users/Admin/OneDrive - Instituto Politecnico Nacional/Desktop/CURSO R/edad_agrupada.csv')
#creo un dataframe desde el catalogo de entidad
dfentidad=read.csv('C:/Users/Admin/OneDrive - Instituto Politecnico Nacional/Desktop/CURSO R/entidades.csv')
dfentidad32=read.csv('C:/Users/Admin/OneDrive - Instituto Politecnico Nacional/Desktop/CURSO R/entidades32.csv')
#creo un dataframe desde el catalogo de causa de defuncion
dfcausa=read.csv('C:/Users/Admin/OneDrive - Instituto Politecnico Nacional/Desktop/CURSO R/causa.csv')
head(datos, 10)
dim(datos)
## [1] 1086743 4
library(dplyr)
##
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
datosmuestra=data.frame(arrange(datos,sample(datos$causa_def)))
datos=datosmuestra[1:500000,] #recortar el df a menos lineas y guardar en dfn
write.csv(datosmuestra,'C:/Users/Admin/OneDrive - Instituto Politecnico Nacional/Desktop/CURSO R/datos.csv')
write.csv(datos,'C:/Users/Admin/OneDrive - Instituto Politecnico Nacional/Desktop/CURSO R/muestra.csv')
head(datosmuestra,6)
dim.data.frame(datos)
## [1] 500000 4
# j=1
# cont=1
# for(cont in cont:3966){
# datos$sexo[datos$sexo==cont]<-dfsexo$DESCRIP[cont]
# datos$edad_agru[datos$edad_agru==cont]<-dfedad$DESCRIP[cont]
# datos$ent_ocurr[datos$ent_ocurr==cont]<-dfentidad$NOMBRE.ENTIDAD[cont]
# for (j in j:500000) {
# if(datos$causa_def[j]==dfcausa$cve[cont]){
# datos$causa_def[j]<-dfcausa$descrip[cont]
# }
# j=j+1
# }
# j=1
# cont=cont+1
# }
#
# head(datos,10)
#Instalo libreria oa sacar la moda y sustituir los valores de defunciones no definidas por la moda
#install.packages("modeest")
library( modeest)
mlv(datosmuestra$ent_ocurr)# la moda es el estado 9
## [1] 9
datosmuestra$ent_ocurr[datosmuestra$ent_ocurr>=99]<-mlv(datosmuestra$ent_ocurr)
#df$edad_madn[df$edad_madn>=70]<-median(df$edad_madn)
hist(datosmuestra$ent_ocurr,breaks = seq(min(datosmuestra$ent_ocurr), max(datosmuestra$ent_ocurr),1) ,
main = "Estado con más defunciones", ylab = "frecuencia", xlab = "estados", col = "red")
grid(nx = NA, ny = NULL, lty = 2, col = "red", lwd = 1)
mlv(datosmuestra$ent_ocurr)# la moda es el estado 9
## [1] 9
mlv(datos$edad_agru)# la moda es el grupo de edad
## [1] 19
mlv(datos$causa_def)
## [1] "I219"
summary(datosmuestra)
## sexo edad_agru causa_def ent_ocurr
## Min. :1.000 Min. : 1.00 Length:1086743 Min. : 1.00
## 1st Qu.:1.000 1st Qu.:15.00 Class :character 1st Qu.: 9.00
## Median :1.000 Median :18.00 Mode :character Median :15.00
## Mean :1.417 Mean :17.48 Mean :16.15
## 3rd Qu.:2.000 3rd Qu.:21.00 3rd Qu.:22.00
## Max. :9.000 Max. :30.00 Max. :32.00
hist(datosmuestra$edad_agru,
breaks = seq(min(datosmuestra$edad_agru), max(datosmuestra$edad_agru),1),
main = "Edades con más defunciones", ylab = "frecuencia", xlab = "grupos de edad", col = "red" )
grid(nx = NA, ny = NULL, lty = 2, col = "red", lwd = 1)
datosmuestra <- mutate(datosmuestra, sexo_factor = factor(datosmuestra$sexo,
labels = c("Hombre", "Mujer","no especificado")))
plot(datosmuestra$sexo_factor, main = "Defunciones por Genero",
xlab = "Género", ylab = "Frecuencia" , col = "red" )
pairs(datosmuestra[,1:2], pch=19, col=datosmuestra$sexo)
library(ggplot2)
#gra=(data.frame(datos['edad_agru'],datos['ent_ocurr']))
ggplot(datosmuestra, aes(x = edad_agru, y = ent_ocurr)) +
geom_point(colour = 4)
De los datos enteriores podemos concluir los siguiente:
El estado con más defunciones es el Distrito Federal
Hay mas muertes registradas de Hombres que de mujeres
el Rango de edad con más muertes es 70 a 74 años
La causa de muerte mas cómun en 2022 fue :
"Infarto agudo del miocardio, sin otra especificación"
Fuente:
https://www.inegi.org.mx/app/descarga/ficha.html?tit=610186&ag=0&f=csv