Ejercicio 2: EDA (Exploratory Data Analysis)
Para este análisis se utilizará el set de datos ‘Palmer Penguins’ para el análisis de 3 especies de pinguinos provinientes de 3 islas del Archipiélago Palmer. Nombrados Chinstrap, Gentoo y Adelie.
Palmer Penguins
Paquetes
library(pacman)
p_load("datasets","DT","fdth","palmerpenguins")
Datos
data('penguins')
dim(penguins)
## [1] 344 8
Conociendo los datos por medio de una tabla interactiva.
datatable(penguins)
Podemos observar la lista de pinguinos con sus atributos, para este analisis utilizaremos bill_length_mm para revisar el largo del pico del pinguino.
Contando los datos en sus clases
table(penguins$species)
##
## Adelie Chinstrap Gentoo
## 152 68 124
Medidas de tendencia central del conjunto de datos
summary(penguins)
## species island bill_length_mm bill_depth_mm
## Adelie :152 Biscoe :168 Min. :32.10 Min. :13.10
## Chinstrap: 68 Dream :124 1st Qu.:39.23 1st Qu.:15.60
## Gentoo :124 Torgersen: 52 Median :44.45 Median :17.30
## Mean :43.92 Mean :17.15
## 3rd Qu.:48.50 3rd Qu.:18.70
## Max. :59.60 Max. :21.50
## NA's :2 NA's :2
## flipper_length_mm body_mass_g sex year
## Min. :172.0 Min. :2700 female:165 Min. :2007
## 1st Qu.:190.0 1st Qu.:3550 male :168 1st Qu.:2007
## Median :197.0 Median :4050 NA's : 11 Median :2008
## Mean :200.9 Mean :4202 Mean :2008
## 3rd Qu.:213.0 3rd Qu.:4750 3rd Qu.:2009
## Max. :231.0 Max. :6300 Max. :2009
## NA's :2 NA's :2
Ilustrando las MTC con un gráfico de caja y bigote
boxplot(penguins$bill_length_mm, penguins$bill_depth_mm,
notch = TRUE, main = "Ancho y largo de los picos",
names = c("Largo del pico","Ancho del pico"))
# Para dibujar una linea roja de la media del largo del pétalo
abline(h = mean(penguins$bill_length_mm), col = "red")
Varianza
var(penguins$bill_length_mm, na.rm=TRUE)
## [1] 29.80705
Desviación estándar
sd(penguins$bill_length_mm, na.rm=TRUE)
## [1] 5.459584
Tabla de frecuencia, histogramas y poligonos
Tabla de frecuencia
tabla <- fdt(penguins$bill_length_mm, breaks = "Sturges")
tabla
## Class limits f rf rf(%) cf cf(%)
## [31.78,34.62) 9 0.03 2.63 9 2.63
## [34.62,37.46) 38 0.11 11.11 47 13.74
## [37.46,40.3) 59 0.17 17.25 106 30.99
## [40.3,43.15) 49 0.14 14.33 155 45.32
## [43.15,45.99) 49 0.14 14.33 204 59.65
## [45.99,48.83) 59 0.17 17.25 263 76.90
## [48.83,51.67) 59 0.17 17.25 322 94.15
## [51.67,54.51) 15 0.04 4.39 337 98.54
## [54.51,57.35) 3 0.01 0.88 340 99.42
## [57.35,60.2) 2 0.01 0.58 342 100.00
Histogramas
Histograma de frecuencia absoluta
plot(tabla, type="fh")
Histograma de frecuencia relativa
plot(tabla, type = "rfh")
Histograma de frecuencia acumulada
plot(tabla, type="cfh")
Polígonos
Polígono de frecuencia absoluta
plot(tabla, type="fp")
Polígono de frecuencia relativa
plot(tabla, type="rfp")
Polígono de frecuencia acumulada
plot(tabla, type = "cfp")