Ejercicio 2: EDA (Exploratory Data Aanalysis)

Utilizando el conjunto de datos conocido como “IRIS DATASET”

El conjunto de datos de iris es un famoso conjunto de datos de flores que se introdujo en 1936. Es una clasificación multivariada. Este dato proviene de: UCI Irvine Machine Learning Repository. (https://archive.ics.uci.edu/ml/datasets/Iris )

Imagen ilustrativa del conjunto de datos El conjunto de datos de Iris se toma de Sir R.A. Papel Fisher para literatura de reconocimiento de patrones. También se conoce como conjunto de datos de iris de Anderson, ya que Edge Anderson recopiló originalmente los datos para cuantificar la variación de las flores de iris de su clase diferente. Estas clases son clase Iris-Setosa, Iris-Versicolor, Iris-Virginica con atributos como Longitud del sépalo, Ancho del sépalo, Longitud del pétalo y Ancho del pétalo en centímetros.

Paquetes

library(pacman)
p_load("datasets","DT","fdth")

Datos

data("iris")
dim(iris)
## [1] 150   5

Conociendo los datos por medio de una tabla interactiva

datatable(iris)

Contando los datos en sus clases

table(iris$Species)
## 
##     setosa versicolor  virginica 
##         50         50         50

Medidas de tendencia central del conjunto de datos

summary(iris)
##   Sepal.Length    Sepal.Width     Petal.Length    Petal.Width   
##  Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100  
##  1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300  
##  Median :5.800   Median :3.000   Median :4.350   Median :1.300  
##  Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199  
##  3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800  
##  Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500  
##        Species  
##  setosa    :50  
##  versicolor:50  
##  virginica :50  
##                 
##                 
## 

Ilustrando las MTC con un gráfico de caja y bigote

boxplot(iris)
# Para dibujar una linea roja de la media del largo del pétalo
abline(h = mean(iris$Petal.Length), col = "red")

## Medidas de dispersión

Varianza

var(iris$Sepal.Length)
## [1] 0.6856935

Desviación estándar

sd(iris$Sepal.Length)
## [1] 0.8280661

Tabla de frecuencia, histogramas y polígonos

Tabla de frecuencia

tabla <- fdt(iris$Sepal.Length, breaks = "Sturges")
tabla
##   Class limits  f   rf rf(%)  cf  cf(%)
##  [4.257,4.671)  9 0.06  6.00   9   6.00
##  [4.671,5.084) 23 0.15 15.33  32  21.33
##  [5.084,5.498) 20 0.13 13.33  52  34.67
##  [5.498,5.911) 31 0.21 20.67  83  55.33
##  [5.911,6.325) 25 0.17 16.67 108  72.00
##  [6.325,6.738) 22 0.15 14.67 130  86.67
##  [6.738,7.152)  9 0.06  6.00 139  92.67
##  [7.152,7.565)  5 0.03  3.33 144  96.00
##  [7.565,7.979)  6 0.04  4.00 150 100.00
#Donde
#f= frecuencia absoluta
#rf= frecuencia relativa
#rf(%) frecuencia relativa porcentual
#cf= frecuencia acumulada
#cf(%)=frecuencia acumulada porcentual

histogramas

Histograma de frecuencia absoluta

plot(tabla, type="fh")

Histograma de frecuencia relativa

plot(tabla, type="rfh")

Histograma de frecuencia acumulada

plot(tabla, type="cfh")

polígonos

Polígono de frecuencia absoluta

plot(tabla, type="fp")

Polígono de frecuencia relativa

plot(tabla, type="rfp")

Polígono de frecuencia acumulada

plot(tabla, type="cfp")