A2U1

Alfredo Valenzuela

03/2/2022

Ejercicio 2: EDA, análisis exploratorio de datos

Paquetes

library(pacman)
p_load("datasets","DT","fdth","prettydoc","xfun")

Datos

data(cars)
dim(cars)
## [1] 50  2

Conociendo los datos, tabla interactiva

datatable(cars)

Contando los datos en sus clases

table(cars$speed)
## 
##  4  7  8  9 10 11 12 13 14 15 16 17 18 19 20 22 23 24 25 
##  2  2  1  1  3  2  4  4  4  3  2  3  4  3  5  1  1  4  1

Conociendo las medidas de tendencia central

Gráfico de caja y bigote

summary(cars)
##      speed           dist       
##  Min.   : 4.0   Min.   :  2.00  
##  1st Qu.:12.0   1st Qu.: 26.00  
##  Median :15.0   Median : 36.00  
##  Mean   :15.4   Mean   : 42.98  
##  3rd Qu.:19.0   3rd Qu.: 56.00  
##  Max.   :25.0   Max.   :120.00
boxplot(cars)
# Linea roja que representa la media del largo del pétalo
abline(h=mean(iris$Petal.Length),col="red")

Histograma

Histograma de frecuenccias absolutas

hist(cars$dist)

Histograma con granularidad de clases más distribuidas

hist(cars$dist,breaks=100,col="green")

Análisis de distribución de frecuencias, tablas e histogramas

Análisis para el largo del pétalo del conjunto de datos

Tablas de frecuencia

tabla <- fdt(cars$dist,breaks = "Sturges")
tabla
##     Class limits  f   rf rf(%) cf cf(%)
##    [1.98,19.011)  8 0.16    16  8    16
##  [19.011,36.043) 18 0.36    36 26    52
##  [36.043,53.074)  8 0.16    16 34    68
##  [53.074,70.106)  9 0.18    18 43    86
##  [70.106,87.137)  4 0.08     8 47    94
##  [87.137,104.17)  2 0.04     4 49    98
##   [104.17,121.2)  1 0.02     2 50   100

Medidas de dispersión

Varianza

var(cars$dist)
## [1] 664.0608

Desviación estandar

sd(cars$dist)
## [1] 25.76938

Gráfico de disperción

plot(cars$dist)

Histogramas

Histograma de frecuencia absoluta

plot(tabla,type = "fh")

Histograma de frecuencia relativa

plot(tabla,type = "rfh")

Histograma de frecuencia acumulada

plot(tabla,type = "cfh")

Polígonos

Polígono de frecuencia absoluta

plot(tabla,type = "fp")

Polígono de frecuencia relativa

plot(tabla,type = "rfp")

Polígono de frecuencia acumulada

plot(tabla,type = "cfp")

Descarga este código

xfun::embed_file("A2U1.rmd")

Download A2U1.rmd