Activando data.table y tidyverse

Para este ejemplo, utilizaremos el paquete data.table y el paquete tidyverse, ambos se pueden activar mediante la función library.

1. Resumen estadístico de las actas de defunción del registro civil de la Ciudad de México

Importaremos los datos del portal de datos abiertos de la CDMX con la función fread y obtendremos el resumen estadístico con summary:

actas<-fread("https://datos.cdmx.gob.mx/dataset/19e094a0-f1c0-4544-bac6-dd1d5cb8a4de/resource/d683ec6e-171a-4825-a523-2cdbf30f9894/download/actas_defunciones.csv") #Con `fread` podremos importar archivos `.csv` de gran tamaño
summary(actas) #Obtenemos el resumen estadístico
##       edad            sexo           fec_defuncion           estado         
##  Min.   :  0.00   Length:390261      Min.   :2017-01-01   Length:390261     
##  1st Qu.: 55.00   Class :character   1st Qu.:2018-04-06   Class :character  
##  Median : 68.00   Mode  :character   Median :2019-07-19   Mode  :character  
##  Mean   : 65.37                      Mean   :2019-05-19                     
##  3rd Qu.: 81.00                      3rd Qu.:2020-07-05                     
##  Max.   :115.00                      Max.   :2021-01-31                     
##  NA's   :151                                                                
##     causa             alcaldia         LugarMuerte        num_consecutivo 
##  Length:390261      Length:390261      Length:390261      Min.   :     1  
##  Class :character   Class :character   Class :character   1st Qu.: 97566  
##  Mode  :character   Mode  :character   Mode  :character   Median :195131  
##                                                           Mean   :195131  
##                                                           3rd Qu.:292696  
##                                                           Max.   :390261  
## 

Si observamos el resumen con detenimiento, podemos notar que existen valores faltantes NA en la columna edad.

A continuación seleccionamos todos aquellos datos en los que la edad sea diferente != a NA y obtenemos un nuevo resumen estadístico de la edad:

actas<-filter(actas, edad != "NA") #Filtramos los datos
summary(actas$edad) #Obtenemos un resumen estadístico únicamente de la edad
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00   55.00   68.00   65.37   81.00  115.00

Con la función table podemos crear una tabla de frecuencias de los elementos de la columna sexo; aquella frecuencia que más se repita corresponderá a la moda:

table(actas$sexo) 
## 
##     Hombre Indefinido      Mujer 
##     214151         91     175868

Una vez que conocemos el número de defunciones de mujeres y hombres, podemos filtrar los datos por sexo y saber cuál es la edad media de defunción en mujeres y cuál es la edad media de defunción en hombres.

2. Resumen estadístico de las actas de defunción de mujeres

Con la función filter seleccionaremos todos aquellos datos de las actas en los que el sexo sea igual == a Mujer. Una vez hecho esto, obtendremos el resumen estadístico de la columna edad mediante la función summary:

actas_mujeres<-filter(actas, sexo == "Mujer") #Filtramos los datos
summary(actas_mujeres$edad) #Obtenemos el resumen estadístico
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00   59.00   73.00   69.03   84.00  113.00

3. Resumen estadístico de las actas de defunción de hombres

Tal y como hicimos en el caso anterior, con la función filter seleccionaremos todos aquellos datos de las actas en los que el sexo sea igual == a Hombre, posteriormente, obtendremos el resumen estadístico de la columna edad:

actas_hombres<-filter(actas, sexo == "Hombre") #Filtramos los datos
summary(actas_hombres$edad) #Obtenemos el resumen estadístico
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00   51.00   65.00   62.37   77.00  115.00

4. Obteniendo la mediana con la función median y la media con la función mean

Otra forma de obtener la mediana de una serie de datos con la función median:

mediana_edad<-median(actas$edad)
mediana_edad
## [1] 68

Así mismo, podemos obtener la media de una serie de datos con la función mean:

media_edad<-mean(actas$edad)
media_edad
## [1] 65.36884

5. Actividad propuesta

Calcula la edad media y la mediana de las actas de defunción con sexo == "Indefinido".


Esta obra fue generada mediante R en March 10, 2021 y forma parte de las actividades realizadas en las materias de Estadística y Taller IV, Facultad de Economía, UNAM.
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 4.0 Internacional. Creative Commons (CC).Licencia de Creative Commons