Ejercicio 2: EDA Análisis Exploratorio de datos (Utilizando VADeaths Dataset)
Conociendo el conjunto de datos de VADeaths (Death Rates in Virginia (1940))
Este conjunto de datos nos indica las tasas de mortalidad por 1000 en Virginia en 1940.
Virginia
Paquetes
library(pacman)
p_load("datasets","DT", "fdth","prettydoc","xfun")
Datos
data ("VADeaths")
dim(VADeaths)
## [1] 5 4
Conociendo los datos, tabla interactiva
datatable(VADeaths)
Tabla de información
table(VADeaths)
## VADeaths
## 8.4 8.7 11.7 13.6 15.4 18.1 19.3 20.3 24.3 26.9 30.9 35.1 37 41 50 54.3
## 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1
## 54.6 66 71.1
## 1 1 1
Conociendo las medidad de tendencia central
summary(VADeaths)
## Rural Male Rural Female Urban Male Urban Female
## Min. :11.70 Min. : 8.70 Min. :15.40 Min. : 8.40
## 1st Qu.:18.10 1st Qu.:11.70 1st Qu.:24.30 1st Qu.:13.60
## Median :26.90 Median :20.30 Median :37.00 Median :19.30
## Mean :32.74 Mean :25.18 Mean :40.48 Mean :25.28
## 3rd Qu.:41.00 3rd Qu.:30.90 3rd Qu.:54.60 3rd Qu.:35.10
## Max. :66.00 Max. :54.30 Max. :71.10 Max. :50.00
Gráfico de caja y bigote
# boxplot para comparar los datos
boxplot(VADeaths)
# Linea roja que represente la media
abline(h = mean(VADeaths), col="red")
Histrogramas
Histograma de frecuencia absoluta
hist(VADeaths)
Histograma con granularidad de clases más distribuidas
hist(VADeaths, breaks=100, col="pink")
Análisis de distribucion de frecuencia, tablas e histogramas
Tabla de frecuencias
<- fdt(VADeaths, breaks = "Sturges")
tabla tabla
## Rural Male
## Class limits f rf rf(%) cf cf(%)
## [11.583,25.352) 2 0.4 40 2 40
## [25.352,39.121) 1 0.2 20 3 60
## [39.121,52.891) 1 0.2 20 4 80
## [52.891,66.66) 1 0.2 20 5 100
##
## Rural Female
## Class limits f rf rf(%) cf cf(%)
## [8.613,20.17) 2 0.4 40 2 40
## [20.17,31.728) 2 0.4 40 4 80
## [31.728,43.285) 0 0.0 0 4 80
## [43.285,54.843) 1 0.2 20 5 100
##
## Urban Male
## Class limits f rf rf(%) cf cf(%)
## [15.246,29.387) 2 0.4 40 2 40
## [29.387,43.528) 1 0.2 20 3 60
## [43.528,57.67) 1 0.2 20 4 80
## [57.67,71.811) 1 0.2 20 5 100
##
## Urban Female
## Class limits f rf rf(%) cf cf(%)
## [8.316,18.86) 2 0.4 40 2 40
## [18.86,29.41) 1 0.2 20 3 60
## [29.41,39.95) 1 0.2 20 4 80
## [39.95,50.5) 1 0.2 20 5 100
Medidas de dispersión
Varianza
var(VADeaths)
## Rural Male Rural Female Urban Male Urban Female
## Rural Male 466.3930 397.091 479.9835 366.0935
## Rural Female 397.0910 339.452 405.2070 310.2070
## Urban Male 479.9835 405.207 509.9670 382.1820
## Urban Female 366.0935 310.207 382.1820 291.1570
Desviacion estándar
sd(VADeaths)
## [1] 19.5006
Gráfico de dispersión
plot(VADeaths)
Histogramas
Histograma de frecuencia absoluta
plot(tabla, type="fh")
Histograma de frecuencia relativa
plot(tabla, type="rfh")
Histograma de frecuencia acumulada
plot(tabla, type="cfh")
Polígono
Polígono de frecuencia absoluta
plot(tabla, type="fp")
Polígono de frecuencia relativa
plot(tabla, type="rfp")
Polígono de frecuencia acumulada
plot(tabla, type="cfp")