A2U1

Oscar Roman

2/2/2022

Ejercicio 2: EDA (Exploratory Data Analysis)

Para este análisis se utilizará el set de datos ‘Palmer Penguins’ para el análisis de 3 especies de pinguinos provinientes de 3 islas del Archipiélago Palmer. Nombrados Chinstrap, Gentoo y Adelie.

Palmer Penguins

Paquetes

library(pacman)
p_load("datasets","DT","fdth","palmerpenguins")

Datos

data('penguins')
dim(penguins)
## [1] 344   8

Conociendo los datos por medio de una tabla interactiva.

datatable(penguins)

Podemos observar la lista de pinguinos con sus atributos, para este analisis utilizaremos bill_length_mm para revisar el largo del pico del pinguino.

Contando los datos en sus clases

table(penguins$species)
## 
##    Adelie Chinstrap    Gentoo 
##       152        68       124

Medidas de tendencia central del conjunto de datos

summary(penguins)
##       species          island    bill_length_mm  bill_depth_mm  
##  Adelie   :152   Biscoe   :168   Min.   :32.10   Min.   :13.10  
##  Chinstrap: 68   Dream    :124   1st Qu.:39.23   1st Qu.:15.60  
##  Gentoo   :124   Torgersen: 52   Median :44.45   Median :17.30  
##                                  Mean   :43.92   Mean   :17.15  
##                                  3rd Qu.:48.50   3rd Qu.:18.70  
##                                  Max.   :59.60   Max.   :21.50  
##                                  NA's   :2       NA's   :2      
##  flipper_length_mm  body_mass_g       sex           year     
##  Min.   :172.0     Min.   :2700   female:165   Min.   :2007  
##  1st Qu.:190.0     1st Qu.:3550   male  :168   1st Qu.:2007  
##  Median :197.0     Median :4050   NA's  : 11   Median :2008  
##  Mean   :200.9     Mean   :4202                Mean   :2008  
##  3rd Qu.:213.0     3rd Qu.:4750                3rd Qu.:2009  
##  Max.   :231.0     Max.   :6300                Max.   :2009  
##  NA's   :2         NA's   :2

Ilustrando las MTC con un gráfico de caja y bigote

boxplot(penguins$bill_length_mm, penguins$bill_depth_mm,
        notch = TRUE, main = "Ancho y largo de los picos",
        names = c("Largo del pico","Ancho del pico"))
# Para dibujar una linea roja de la media del largo del pétalo
abline(h = mean(penguins$bill_length_mm), col = "red")

Varianza

var(penguins$bill_length_mm, na.rm=TRUE)
## [1] 29.80705

Desviación estándar

sd(penguins$bill_length_mm, na.rm=TRUE)
## [1] 5.459584

Tabla de frecuencia, histogramas y poligonos

Tabla de frecuencia

tabla <- fdt(penguins$bill_length_mm, breaks = "Sturges")
tabla
##   Class limits  f   rf rf(%)  cf  cf(%)
##  [31.78,34.62)  9 0.03  2.63   9   2.63
##  [34.62,37.46) 38 0.11 11.11  47  13.74
##   [37.46,40.3) 59 0.17 17.25 106  30.99
##   [40.3,43.15) 49 0.14 14.33 155  45.32
##  [43.15,45.99) 49 0.14 14.33 204  59.65
##  [45.99,48.83) 59 0.17 17.25 263  76.90
##  [48.83,51.67) 59 0.17 17.25 322  94.15
##  [51.67,54.51) 15 0.04  4.39 337  98.54
##  [54.51,57.35)  3 0.01  0.88 340  99.42
##   [57.35,60.2)  2 0.01  0.58 342 100.00

Histogramas

Histograma de frecuencia absoluta

plot(tabla, type="fh")

Histograma de frecuencia relativa

plot(tabla, type = "rfh")

Histograma de frecuencia acumulada

plot(tabla, type="cfh")

Polígonos

Polígono de frecuencia absoluta

plot(tabla, type="fp")

Polígono de frecuencia relativa

plot(tabla, type="rfp")

Polígono de frecuencia acumulada

plot(tabla, type = "cfp")