Introducción al análisis exploratorio de datos (EDA)
Espacio de trabajo
setwd("~/Documents/CURSOR_1")
Paquetes
library(rmdformats) # Para formatos de documentos profesionales
library(DT) # Librería para crear tablas de datos
library(xfun)
##
## Attaching package: 'xfun'
## The following objects are masked from 'package:base':
##
## attr, isFALSE
Conjunto de datos iris
El conjunto de datos iris (dataset) tiene 150 flores, de las cuales:
- 50 son setosa
- 50 son versicolor
- 50 son virginica
Conjunto de datos IRIS
Conociendo los datos
- La variable Lirios contiene el conjunto de datos “iris”
lirios <- iris
- Tabla interactiva del conjunto de datos
datatable(lirios)
Contando datos en sus respectivas clases (especies )
table(lirios$Species)
##
## setosa versicolor virginica
## 50 50 50
Estadísticas básicas de tendencia central
summary(lirios)
## Sepal.Length Sepal.Width Petal.Length Petal.Width
## Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100
## 1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300
## Median :5.800 Median :3.000 Median :4.350 Median :1.300
## Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199
## 3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800
## Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500
## Species
## setosa :50
## versicolor:50
## virginica :50
##
##
##
Ilustrando las MTC con un gráfico de caja y bigote
boxplot(lirios)
## Mediddas de dispersión
- Varianza
var(lirios$Sepal.Length)
## [1] 0.6856935
- Desviación estándar
sd(lirios$Sepal.Length)
## [1] 0.8280661
Gráfico de dispersión
plot(lirios$Sepal.Length)
## Histograma de frecuencia absoluto
hist(lirios$Sepal.Length)