ejercicio2

Vanessa Castilla Padilla

1/31/2022

Ejercico 2: EDA, Analisis Exploratorio de Datos (Utilizando Iriss Dataset)

Conociendo el conjunto d datos de IRIS

El conjunto de datos de iris es un famoso conjunto de datos de flores que se introdujo en 1936. Es un clasificacion multivariada. Este dato proviene de: UCI Irvine Machine Learning Repository

Paquetes

library(pacman)
p_load("datasets", "DT", "fdth","prettydoc", "xfun")

Datos

data("iris")
dim(iris)
## [1] 150   5

Conociendo los datos, tabla interactiva

datatable(iris)

Contando lo datos en sus clases

table(iris$Species)
## 
##     setosa versicolor  virginica 
##         50         50         50

Conociendo las medidas de tendencia central y distribución del conjunto de datos

summary(iris)
##   Sepal.Length    Sepal.Width     Petal.Length    Petal.Width   
##  Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100  
##  1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300  
##  Median :5.800   Median :3.000   Median :4.350   Median :1.300  
##  Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199  
##  3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800  
##  Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500  
##        Species  
##  setosa    :50  
##  versicolor:50  
##  virginica :50  
##                 
##                 
## 

Gráfico de caja y bigote

boxplot(iris)
#Linea roja que representa la media del largo del petalo
abline(h=mean(iris$Petal.Length), col= "red")

Medidas de dispersión

Varianza

var(iris$Petal.Length)
## [1] 3.116278

Desviación estándar

sd(iris$Petal.Length)
## [1] 1.765298

Gráfico de dispersión

plot(iris$Petal.Length)

Histograma

Histograma de frencuencias absolutas

hist(iris$Petal.Length)

Histograma con granularidad de clases mas distribuida

hist(iris$Petal.Length, breaks=100, col="green")

tabla <- fdt(iris$Petal.Length, breaks = "Sturges")
tabla
##   Class limits  f   rf rf(%)  cf  cf(%)
##   [0.99,1.654) 44 0.29 29.33  44  29.33
##  [1.654,2.319)  6 0.04  4.00  50  33.33
##  [2.319,2.983)  0 0.00  0.00  50  33.33
##  [2.983,3.647)  6 0.04  4.00  56  37.33
##  [3.647,4.312) 19 0.13 12.67  75  50.00
##  [4.312,4.976) 29 0.19 19.33 104  69.33
##   [4.976,5.64) 27 0.18 18.00 131  87.33
##   [5.64,6.305) 14 0.09  9.33 145  96.67
##  [6.305,6.969)  5 0.03  3.33 150 100.00

Histogramas

Histograma de frecuencia absoluta

plot(tabla, type="fh")

#### Histograma de frecuencia relativa

plot(tabla, type="rfh")

#### Histograma de frecuencia acumulada

plot(tabla, type="cfh")

Polígonos

Polígono de frecuencia absoluta

plot(tabla, type="fp")

Polígono de frecuencia relativa

plot(tabla, type="rfp")

Polígono de frecuencia acumulada

plot(tabla, type="cfp")

Descarga este código

xfun::embed_file("ejercicio2.Rmd")

Download ejercicio2.Rmd