Ejercicio 2: EDA (Exploratory Data Analisis)

Utilizando el conjunto conocido como “TOOTHGROWTH DATASET”

El conjunto de datos proviene del R Dataset “Tooth Growth: The Effect of Vitamin C on Tooth Growth in Guinea Pigs” (Crecimiento de Dientes: El Efecto de la Vitamina C en el Crecimiento de Dientes de los Conejillos de Indias).

Conejillos de Indias

Los datos comparan el tamaño del odontoblast (celulas encargadas de generar dentina) en 60 conejillos de indias. Cada animal recibió una de tres dosis de vitamina C (0.5 , 1 y 2 mg/dia) por una de dos vías (Jugo de Naranja o Ácido Ascorbico)

Paquetes

library(pacman)
p_load("datasets" , "DT" , "fdth")

Datos

data("ToothGrowth")
dim(ToothGrowth)
## [1] 60  3

Conociendo los datos por medio de una tabla interactiva

datatable(ToothGrowth)

Donde:

  • len es Tamaño del Odontoblast (Célula responsable del crecimiento de los dientes).
  • supp es la forma en la que se suplementa (OJ = Jugo de Naranja) (VC = Vitamina C).
  • dose es el nivel de vitamina C medidos en mg/dia.

Contando los datos en sus clases

table(ToothGrowth$dose)
## 
## 0.5   1   2 
##  20  20  20

Medidas de tendencia central del conjunto de datos

summary(ToothGrowth)
##       len        supp         dose      
##  Min.   : 4.20   OJ:30   Min.   :0.500  
##  1st Qu.:13.07   VC:30   1st Qu.:0.500  
##  Median :19.25           Median :1.000  
##  Mean   :18.81           Mean   :1.167  
##  3rd Qu.:25.27           3rd Qu.:2.000  
##  Max.   :33.90           Max.   :2.000

Ilustrando las medidas de tendencia central con un grafico de caja y bigotes

boxplot(ToothGrowth)

#Dibujado de una línea roja en la media del largo del Odontoblast
abline (h = mean(ToothGrowth$len) , col = "red")

Medidas de dispersión

Varianza

var(ToothGrowth$len)
## [1] 58.51202

Desviación estándar

sd(ToothGrowth$len)
## [1] 7.649315

Tabla de frecuencia, histogramas y polígonos

Tabla de frecuencia

tabla <- fdt(ToothGrowth$len , breaks = "Sturges")
tabla
##     Class limits  f   rf rf(%) cf  cf(%)
##   [4.158,8.4553)  7 0.12 11.67  7  11.67
##  [8.4553,12.753)  8 0.13 13.33 15  25.00
##   [12.753,17.05) 10 0.17 16.67 25  41.67
##   [17.05,21.347)  8 0.13 13.33 33  55.00
##  [21.347,25.644) 14 0.23 23.33 47  78.33
##  [25.644,29.942) 10 0.17 16.67 57  95.00
##  [29.942,34.239)  3 0.05  5.00 60 100.00
#Donde
#f= frecuencia absoluta
#rf= frecuencia relativa
#rf(%) frecuencia relativa porcentual
#cf= frecuencia acumulada
#cf(%)=frecuencia acumulada porcentual

Histogramas

Histograma de frecuencias absolutas

plot(tabla , type = "fh")

Histograma de frecuencias relativa

plot(tabla , type = "rfh")

Histograma de frecuencias acumulada

plot(tabla , type = "cfh")

Polígonos

Polígonos de frecuencia absoluta

plot(tabla , type = "fp")

Polígonos de frecuencia relativa

plot(tabla , type = "rfp")

Polígonos de frecuencia acumulada

plot(tabla , type = "cfp")