A2U1
Ejercicio 3: EDA (Exploratory Data Analysis)
Utilizando el conjunto de datos conocido como “New York Air Quality Measurements” (airquality - dataset).
El conjunto de datos de Airquality es un conjunto de datos de las mediciones de la calidad de aire en Nueva York de Mayo a Septiembre de 1973.(https://rstudio-pubs-static.s3.amazonaws.com/371944_93cd0f143b20460c8acf21919a729122.html)
Paquetes
library(pacman)
p_load("datasets","DT","fdth","rmdformats")Datos
data("airquality")
dim(airquality)## [1] 153 6
Conociendo los datos
datatable(airquality)Contando los datos en sus clases
table(airquality$Solar.R)##
## 7 8 13 14 19 20 24 25 27 31 36 37 44 47 48 49 51 59 64 65
## 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1
## 66 71 77 78 81 82 83 91 92 95 98 99 101 112 115 118 120 127 131 135
## 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 2 1 1
## 137 138 139 145 148 149 150 153 157 167 175 183 186 187 188 189 190 191 192 193
## 2 1 2 1 1 1 1 1 1 1 3 1 1 1 1 1 2 2 1 1
## 194 197 201 203 207 212 213 215 220 222 223 224 225 229 230 236 237 238 242 244
## 1 1 1 1 1 1 1 1 3 1 3 1 1 1 1 2 2 4 1 1
## 248 250 252 253 254 255 256 258 259 260 264 266 267 269 272 273 274 275 276 279
## 1 2 2 1 1 2 1 1 4 1 2 1 1 1 1 2 2 1 1 1
## 284 285 286 287 290 291 294 295 299 307 313 314 320 322 323 332 334
## 1 1 1 1 1 2 1 1 1 1 1 1 1 2 1 1 1
Medidas de tendencia central del conjunto de datos
summary(airquality)## Ozone Solar.R Wind Temp
## Min. : 1.00 Min. : 7.0 Min. : 1.700 Min. :56.00
## 1st Qu.: 18.00 1st Qu.:115.8 1st Qu.: 7.400 1st Qu.:72.00
## Median : 31.50 Median :205.0 Median : 9.700 Median :79.00
## Mean : 42.13 Mean :185.9 Mean : 9.958 Mean :77.88
## 3rd Qu.: 63.25 3rd Qu.:258.8 3rd Qu.:11.500 3rd Qu.:85.00
## Max. :168.00 Max. :334.0 Max. :20.700 Max. :97.00
## NA's :37 NA's :7
## Month Day
## Min. :5.000 Min. : 1.0
## 1st Qu.:6.000 1st Qu.: 8.0
## Median :7.000 Median :16.0
## Mean :6.993 Mean :15.8
## 3rd Qu.:8.000 3rd Qu.:23.0
## Max. :9.000 Max. :31.0
##
Ilustrando las MTC con un gráfico de caja de bigote
boxplot(airquality)
# Para dibujar una línea roja de la media de la capa de ozono
abline(h = mean(airquality$Temp), col = "red") ### Medidas de dispersión
Varianza
var(airquality)## Ozone Solar.R Wind Temp Month Day
## Ozone NA NA NA NA NA NA
## Solar.R NA NA NA NA NA NA
## Wind NA NA 12.4115385 -15.272136 -0.8897532 0.8488519
## Temp NA NA -15.2721362 89.591331 5.6439628 -10.9574303
## Month NA NA -0.8897532 5.643963 2.0065359 -0.0999742
## Day NA NA 0.8488519 -10.957430 -0.0999742 78.5797214
Deviación estándar
sd(airquality$Temp)## [1] 9.46527
Tabla de frecuencia, histogramas y polígonas
Tablas de frecuencia
tabla <- fdt(airquality$Wind, breaks = "Sturges")
#Donde
#f= frecuencia absoluta
#rf= frecuencia relativa
#rf(%) frecuencia relativa porcentual
#cf= frecuencia acumulada
#cf(%)=frecuencia acumulada porcentualHistogramas
Histograma de frecuencia absoluta
plot(tabla, type="fh")Histograma de frecuencia relativa
plot(tabla, type = "rfh")Histograma de frecuencia acumulada
plot(tabla, type = "cfh")Polígonos
Polígonos de frecuencia absoluta
plot(tabla, type="fp")Polígonos de frecuencia relativa
plot(tabla, type = "rfp")Polígonos de frecuencia acumulada
plot(tabla, type = "cfp")