Ejercicio 2

Badouin

4/28/2022

Introducción al análisis exploratorio de datos (EDA)

Espacio de trabajo

setwd("~/Documents/CURSOR_1")

Paquetes

library(rmdformats) # Para formatos de documentos profesionales 
library(DT) # Librería para crear tablas de datos 
library(xfun)
## 
## Attaching package: 'xfun'
## The following objects are masked from 'package:base':
## 
##     attr, isFALSE

Conjunto de datos iris

El conjunto de datos iris (dataset) tiene 150 flores, de las cuales:

  • 50 son setosa
  • 50 son versicolor
  • 50 son virginica

Conjunto de datos IRIS

Conociendo los datos

  • La variable Lirios contiene el conjunto de datos “iris”
lirios <- iris
  • Tabla interactiva del conjunto de datos
datatable(lirios)

Contando datos en sus respectivas clases (especies )

table(lirios$Species)
## 
##     setosa versicolor  virginica 
##         50         50         50

Estadísticas básicas de tendencia central

summary(lirios)
##   Sepal.Length    Sepal.Width     Petal.Length    Petal.Width   
##  Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100  
##  1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300  
##  Median :5.800   Median :3.000   Median :4.350   Median :1.300  
##  Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199  
##  3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800  
##  Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500  
##        Species  
##  setosa    :50  
##  versicolor:50  
##  virginica :50  
##                 
##                 
## 

Ilustrando las MTC con un gráfico de caja y bigote

boxplot(lirios)

## Mediddas de dispersión

  • Varianza
var(lirios$Sepal.Length)
## [1] 0.6856935
  • Desviación estándar
sd(lirios$Sepal.Length)
## [1] 0.8280661

Gráfico de dispersión

plot(lirios$Sepal.Length)

## Histograma de frecuencia absoluto

hist(lirios$Sepal.Length)

Descarga este código

xfun::embed_file("ejercicio2.Rmd")

Download ejercicio2.Rmd