Ejercicio2

Daniel Acedo

31/1/2022

Ejercicio 2: EDA Análisis Exploratorio de datos (Utilizando Iriss Dataset)

Conociendo el conjunto de datos de IRIS

El conjunto de datos iris es un famoso conjunto de datos de flores que se introdujo en 1936. Es una clasificacion multivariada. Este dato proviene de: UCI Irvine Machine Learning Repository.(https://archive.ics.uci.edu/ml/datasets/Iris)

Iris Sepa

Paquetes

library(pacman)
p_load("datasets","DT", "fdth","prettydoc","xfun")

Datos

data ("iris")
dim(iris)
## [1] 150   5

Conociendo los datos, tabla interactiva

datatable(iris)

Conta

table(iris$Species)
## 
##     setosa versicolor  virginica 
##         50         50         50

Conociendo las medidad de tendencia central

summary(iris)
##   Sepal.Length    Sepal.Width     Petal.Length    Petal.Width   
##  Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100  
##  1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300  
##  Median :5.800   Median :3.000   Median :4.350   Median :1.300  
##  Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199  
##  3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800  
##  Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500  
##        Species  
##  setosa    :50  
##  versicolor:50  
##  virginica :50  
##                 
##                 
## 

Gráfico de caja y bigote

# boxplot para comparar los datos 
boxplot(iris)
# Linea roja que represente la media del largo del pétalo
abline(h = mean(iris$Petal.Length), col="red")

Histrogramas

Histograma de frecuencia absoluta

hist(iris$Petal.Length)

Histograma con granularidad de clases más distribuidas

hist(iris$Petal.Length, breaks=100, col="pink")

Análisis de distribucion de frecuencia, tablas e histogramas

análisis para el largo del pétalo del conjunto de datos

Tabla de frecuencias

tabla <- fdt(iris$Petal.Length, breaks = "Sturges")
tabla
##   Class limits  f   rf rf(%)  cf  cf(%)
##   [0.99,1.654) 44 0.29 29.33  44  29.33
##  [1.654,2.319)  6 0.04  4.00  50  33.33
##  [2.319,2.983)  0 0.00  0.00  50  33.33
##  [2.983,3.647)  6 0.04  4.00  56  37.33
##  [3.647,4.312) 19 0.13 12.67  75  50.00
##  [4.312,4.976) 29 0.19 19.33 104  69.33
##   [4.976,5.64) 27 0.18 18.00 131  87.33
##   [5.64,6.305) 14 0.09  9.33 145  96.67
##  [6.305,6.969)  5 0.03  3.33 150 100.00

Medidas de dispersión

Varianza

var(iris$Petal.Length)
## [1] 3.116278

Desviacion estándar

sd(iris$Petal.Length)
## [1] 1.765298

Gráfico de dispersión

plot(iris$Petal.Length)

Histogramas

Histograma de frecuencia absoluta

plot(tabla, type="fh")

Histograma de frecuencia relativa

plot(tabla, type="rfh")

Histograma de frecuencia acumulada

plot(tabla, type="cfh")

Polígono

Polígono de frecuencia absoluta

plot(tabla, type="fp")

Polígono de frecuencia relativa

plot(tabla, type="rfp")

Polígono de frecuencia acumulada

plot(tabla, type="cfp")

Descarga este código

xfun::embed_file("ejercicio2.Rmd")

Download ejercicio2.Rmd

??'datasets-package'
## starting httpd help server ... done