A2U1

Daniel Acedo

03/2/2022

Ejercicio 2: EDA Análisis Exploratorio de datos (Utilizando VADeaths Dataset)

Conociendo el conjunto de datos de VADeaths (Death Rates in Virginia (1940))

Este conjunto de datos nos indica las tasas de mortalidad por 1000 en Virginia en 1940.

Virginia

Paquetes

library(pacman)
p_load("datasets","DT", "fdth","prettydoc","xfun")

Datos

data ("VADeaths")
dim(VADeaths)
## [1] 5 4

Conociendo los datos, tabla interactiva

datatable(VADeaths)

Tabla de información

table(VADeaths)
## VADeaths
##  8.4  8.7 11.7 13.6 15.4 18.1 19.3 20.3 24.3 26.9 30.9 35.1   37   41   50 54.3 
##    1    1    2    1    1    1    1    1    1    1    1    1    1    1    1    1 
## 54.6   66 71.1 
##    1    1    1

Conociendo las medidad de tendencia central

summary(VADeaths)
##    Rural Male     Rural Female     Urban Male     Urban Female  
##  Min.   :11.70   Min.   : 8.70   Min.   :15.40   Min.   : 8.40  
##  1st Qu.:18.10   1st Qu.:11.70   1st Qu.:24.30   1st Qu.:13.60  
##  Median :26.90   Median :20.30   Median :37.00   Median :19.30  
##  Mean   :32.74   Mean   :25.18   Mean   :40.48   Mean   :25.28  
##  3rd Qu.:41.00   3rd Qu.:30.90   3rd Qu.:54.60   3rd Qu.:35.10  
##  Max.   :66.00   Max.   :54.30   Max.   :71.10   Max.   :50.00

Gráfico de caja y bigote

# boxplot para comparar los datos 
boxplot(VADeaths)
# Linea roja que represente la media
abline(h = mean(VADeaths), col="red")

Histrogramas

Histograma de frecuencia absoluta

hist(VADeaths)

Histograma con granularidad de clases más distribuidas

hist(VADeaths, breaks=100, col="pink")

Análisis de distribucion de frecuencia, tablas e histogramas

Tabla de frecuencias

tabla <- fdt(VADeaths, breaks = "Sturges")
tabla
## Rural Male 
##     Class limits f  rf rf(%) cf cf(%)
##  [11.583,25.352) 2 0.4    40  2    40
##  [25.352,39.121) 1 0.2    20  3    60
##  [39.121,52.891) 1 0.2    20  4    80
##   [52.891,66.66) 1 0.2    20  5   100
## 
## Rural Female 
##     Class limits f  rf rf(%) cf cf(%)
##    [8.613,20.17) 2 0.4    40  2    40
##   [20.17,31.728) 2 0.4    40  4    80
##  [31.728,43.285) 0 0.0     0  4    80
##  [43.285,54.843) 1 0.2    20  5   100
## 
## Urban Male 
##     Class limits f  rf rf(%) cf cf(%)
##  [15.246,29.387) 2 0.4    40  2    40
##  [29.387,43.528) 1 0.2    20  3    60
##   [43.528,57.67) 1 0.2    20  4    80
##   [57.67,71.811) 1 0.2    20  5   100
## 
## Urban Female 
##   Class limits f  rf rf(%) cf cf(%)
##  [8.316,18.86) 2 0.4    40  2    40
##  [18.86,29.41) 1 0.2    20  3    60
##  [29.41,39.95) 1 0.2    20  4    80
##   [39.95,50.5) 1 0.2    20  5   100

Medidas de dispersión

Varianza

var(VADeaths)
##              Rural Male Rural Female Urban Male Urban Female
## Rural Male     466.3930      397.091   479.9835     366.0935
## Rural Female   397.0910      339.452   405.2070     310.2070
## Urban Male     479.9835      405.207   509.9670     382.1820
## Urban Female   366.0935      310.207   382.1820     291.1570

Desviacion estándar

sd(VADeaths)
## [1] 19.5006

Gráfico de dispersión

plot(VADeaths)

Histogramas

Histograma de frecuencia absoluta

plot(tabla, type="fh")

Histograma de frecuencia relativa

plot(tabla, type="rfh")

Histograma de frecuencia acumulada

plot(tabla, type="cfh")

Polígono

Polígono de frecuencia absoluta

plot(tabla, type="fp")

Polígono de frecuencia relativa

plot(tabla, type="rfp")

Polígono de frecuencia acumulada

plot(tabla, type="cfp")