A2U1

Ejercicio 3: EDA (Exploratory Data Analysis)

Utilizando el conjunto de datos conocido como “New York Air Quality Measurements” (airquality - dataset).

El conjunto de datos de Airquality es un conjunto de datos de las mediciones de la calidad de aire en Nueva York de Mayo a Septiembre de 1973.(https://rstudio-pubs-static.s3.amazonaws.com/371944_93cd0f143b20460c8acf21919a729122.html)

Paquetes

library(pacman)
p_load("datasets","DT","fdth","rmdformats")

Datos

data("airquality")
dim(airquality)
## [1] 153   6

Conociendo los datos

datatable(airquality)

Contando los datos en sus clases

table(airquality$Solar.R)
## 
##   7   8  13  14  19  20  24  25  27  31  36  37  44  47  48  49  51  59  64  65 
##   1   1   1   1   1   1   2   1   1   1   1   1   1   1   1   1   1   1   1   1 
##  66  71  77  78  81  82  83  91  92  95  98  99 101 112 115 118 120 127 131 135 
##   1   1   1   1   1   1   1   1   2   1   1   1   1   1   1   1   1   2   1   1 
## 137 138 139 145 148 149 150 153 157 167 175 183 186 187 188 189 190 191 192 193 
##   2   1   2   1   1   1   1   1   1   1   3   1   1   1   1   1   2   2   1   1 
## 194 197 201 203 207 212 213 215 220 222 223 224 225 229 230 236 237 238 242 244 
##   1   1   1   1   1   1   1   1   3   1   3   1   1   1   1   2   2   4   1   1 
## 248 250 252 253 254 255 256 258 259 260 264 266 267 269 272 273 274 275 276 279 
##   1   2   2   1   1   2   1   1   4   1   2   1   1   1   1   2   2   1   1   1 
## 284 285 286 287 290 291 294 295 299 307 313 314 320 322 323 332 334 
##   1   1   1   1   1   2   1   1   1   1   1   1   1   2   1   1   1

Medidas de tendencia central del conjunto de datos

summary(airquality)
##      Ozone           Solar.R           Wind             Temp      
##  Min.   :  1.00   Min.   :  7.0   Min.   : 1.700   Min.   :56.00  
##  1st Qu.: 18.00   1st Qu.:115.8   1st Qu.: 7.400   1st Qu.:72.00  
##  Median : 31.50   Median :205.0   Median : 9.700   Median :79.00  
##  Mean   : 42.13   Mean   :185.9   Mean   : 9.958   Mean   :77.88  
##  3rd Qu.: 63.25   3rd Qu.:258.8   3rd Qu.:11.500   3rd Qu.:85.00  
##  Max.   :168.00   Max.   :334.0   Max.   :20.700   Max.   :97.00  
##  NA's   :37       NA's   :7                                       
##      Month            Day      
##  Min.   :5.000   Min.   : 1.0  
##  1st Qu.:6.000   1st Qu.: 8.0  
##  Median :7.000   Median :16.0  
##  Mean   :6.993   Mean   :15.8  
##  3rd Qu.:8.000   3rd Qu.:23.0  
##  Max.   :9.000   Max.   :31.0  
## 

Ilustrando las MTC con un gráfico de caja de bigote

boxplot(airquality)
# Para dibujar una línea roja de la media de la capa de ozono
abline(h = mean(airquality$Temp), col = "red")

### Medidas de dispersión

Varianza

var(airquality)
##         Ozone Solar.R        Wind       Temp      Month         Day
## Ozone      NA      NA          NA         NA         NA          NA
## Solar.R    NA      NA          NA         NA         NA          NA
## Wind       NA      NA  12.4115385 -15.272136 -0.8897532   0.8488519
## Temp       NA      NA -15.2721362  89.591331  5.6439628 -10.9574303
## Month      NA      NA  -0.8897532   5.643963  2.0065359  -0.0999742
## Day        NA      NA   0.8488519 -10.957430 -0.0999742  78.5797214

Deviación estándar

sd(airquality$Temp)
## [1] 9.46527

Tabla de frecuencia, histogramas y polígonas

Tablas de frecuencia

tabla <- fdt(airquality$Wind, breaks = "Sturges")

#Donde
#f= frecuencia absoluta
#rf= frecuencia relativa
#rf(%) frecuencia relativa porcentual
#cf= frecuencia acumulada
#cf(%)=frecuencia acumulada porcentual

Histogramas

Histograma de frecuencia absoluta

plot(tabla, type="fh")

Histograma de frecuencia relativa

plot(tabla, type = "rfh")

Histograma de frecuencia acumulada

plot(tabla, type = "cfh")

Polígonos

Polígonos de frecuencia absoluta

plot(tabla, type="fp")

Polígonos de frecuencia relativa

plot(tabla, type = "rfp")

Polígonos de frecuencia acumulada

plot(tabla, type = "cfp")