Ejercicio 2: EDA (Exploratory Data Aanalysis)

A continuación utilizaremos los datos “InsectSprays” el cual hace un conteo de los insectos en unidades experimentales agricolas tratadas con diferentes insecticidas.

Paquetes

library(pacman)
p_load("datasets","DT","fdth")

Datos

data("iris")
dim(iris)
## [1] 150   5

Conociendo los datos por medio de una tabla interactiva

datatable(iris)

Contando los datos en sus clases

table(iris$Species)
## 
##     setosa versicolor  virginica 
##         50         50         50

Medidas de tendencia central del conjunto de datos

summary(iris)
##   Sepal.Length    Sepal.Width     Petal.Length    Petal.Width   
##  Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100  
##  1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300  
##  Median :5.800   Median :3.000   Median :4.350   Median :1.300  
##  Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199  
##  3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800  
##  Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500  
##        Species  
##  setosa    :50  
##  versicolor:50  
##  virginica :50  
##                 
##                 
## 

Ilustrando las MTC con un gráfico de caja y bigote

boxplot(iris)
# Para dibujar una linea roja de la media del largo del pétalo
abline(h = mean(iris$Petal.Length), col = "red")

Varianza

var(iris$Sepal.Length)
## [1] 0.6856935

Desviación estándar

sd(iris$Sepal.Length)
## [1] 0.8280661

Tabla de frecuencia, histogramas y polígonos

Tabla de frecuencia

tabla <- fdt(iris$Sepal.Length, breaks = "Sturges")
tabla
##   Class limits  f   rf rf(%)  cf  cf(%)
##  [4.257,4.671)  9 0.06  6.00   9   6.00
##  [4.671,5.084) 23 0.15 15.33  32  21.33
##  [5.084,5.498) 20 0.13 13.33  52  34.67
##  [5.498,5.911) 31 0.21 20.67  83  55.33
##  [5.911,6.325) 25 0.17 16.67 108  72.00
##  [6.325,6.738) 22 0.15 14.67 130  86.67
##  [6.738,7.152)  9 0.06  6.00 139  92.67
##  [7.152,7.565)  5 0.03  3.33 144  96.00
##  [7.565,7.979)  6 0.04  4.00 150 100.00

Histogramas

Histograma de frecuencia absoluta

plot(tabla, type="fh")

Histograma de frecuencia relativa

plot(tabla, type="rfh")

Histograma de frecuencia acumulada

plot(tabla, type="cfh")

# polígonos Polígono de frecuencia absoluta

plot(tabla, type="fp")

Polígono de frecuencia relativa

plot(tabla, type="rfp")

Polígono de frecuencia acumulada

plot(tabla, type="cfp")