data.table y tidyversePara este ejemplo, utilizaremos el paquete data.table y el paquete tidyverse, ambos se pueden activar mediante la función library.
Importaremos los datos del portal de datos abiertos de la CDMX con la función fread y obtendremos el resumen estadístico con summary:
actas<-fread("https://datos.cdmx.gob.mx/dataset/19e094a0-f1c0-4544-bac6-dd1d5cb8a4de/resource/d683ec6e-171a-4825-a523-2cdbf30f9894/download/actas_defunciones.csv") #Con `fread` podremos importar archivos `.csv` de gran tamaño
summary(actas) #Obtenemos el resumen estadístico
## edad sexo fec_defuncion estado
## Min. : 0.00 Length:390261 Min. :2017-01-01 Length:390261
## 1st Qu.: 55.00 Class :character 1st Qu.:2018-04-06 Class :character
## Median : 68.00 Mode :character Median :2019-07-19 Mode :character
## Mean : 65.37 Mean :2019-05-19
## 3rd Qu.: 81.00 3rd Qu.:2020-07-05
## Max. :115.00 Max. :2021-01-31
## NA's :151
## causa alcaldia LugarMuerte num_consecutivo
## Length:390261 Length:390261 Length:390261 Min. : 1
## Class :character Class :character Class :character 1st Qu.: 97566
## Mode :character Mode :character Mode :character Median :195131
## Mean :195131
## 3rd Qu.:292696
## Max. :390261
##
Si observamos el resumen con detenimiento, podemos notar que existen valores faltantes NA en la columna edad.
A continuación seleccionamos todos aquellos datos en los que la edad sea diferente != a NA y obtenemos un nuevo resumen estadístico de la edad:
actas<-filter(actas, edad != "NA") #Filtramos los datos
summary(actas$edad) #Obtenemos un resumen estadístico únicamente de la edad
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00 55.00 68.00 65.37 81.00 115.00
Con la función table podemos crear una tabla de frecuencias de los elementos de la columna sexo; aquella frecuencia que más se repita corresponderá a la moda:
table(actas$sexo)
##
## Hombre Indefinido Mujer
## 214151 91 175868
Una vez que conocemos el número de defunciones de mujeres y hombres, podemos filtrar los datos por sexo y saber cuál es la edad media de defunción en mujeres y cuál es la edad media de defunción en hombres.
Con la función filter seleccionaremos todos aquellos datos de las actas en los que el sexo sea igual == a Mujer. Una vez hecho esto, obtendremos el resumen estadístico de la columna edad mediante la función summary:
actas_mujeres<-filter(actas, sexo == "Mujer") #Filtramos los datos
summary(actas_mujeres$edad) #Obtenemos el resumen estadístico
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00 59.00 73.00 69.03 84.00 113.00
Tal y como hicimos en el caso anterior, con la función filter seleccionaremos todos aquellos datos de las actas en los que el sexo sea igual == a Hombre, posteriormente, obtendremos el resumen estadístico de la columna edad:
actas_hombres<-filter(actas, sexo == "Hombre") #Filtramos los datos
summary(actas_hombres$edad) #Obtenemos el resumen estadístico
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00 51.00 65.00 62.37 77.00 115.00
median y la media con la función meanOtra forma de obtener la mediana de una serie de datos con la función median:
mediana_edad<-median(actas$edad)
mediana_edad
## [1] 68
Así mismo, podemos obtener la media de una serie de datos con la función mean:
media_edad<-mean(actas$edad)
media_edad
## [1] 65.36884
Calcula la edad media y la mediana de las actas de defunción con sexo == "Indefinido".
Esta obra fue generada mediante R en March 10, 2021 y forma parte de las actividades realizadas en las materias de Estadística y Taller IV, Facultad de Economía, UNAM. Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 4.0 Internacional. Creative Commons (CC).