setwd("~/Documents/ica_modelacion")
#Primer script de R
#Leer y dar formato basico a la primer tabla
datos <- read.csv("2020-01-ERNO_hora_L1_caire.csv", skip=7)
datos <- datos[-1,]
#Seleccionar nuestras columnas de interes
datos <- datos[, c("Time", "O3", "PM10")]
#cambiamos el nombre de Time a tiempo
colnames(datos)[1] <- "tiempo"
#ver la estructura de nuesta tabla
str(datos)
## 'data.frame': 744 obs. of 3 variables:
## $ tiempo: chr "2020-01-01 00:00:00" "2020-01-01 01:00:00" "2020-01-01 02:00:00" "2020-01-01 03:00:00" ...
## $ O3 : chr "7.87" "16.03" "16.61" "15.84" ...
## $ PM10 : chr "26.47" "26.94" "13.08" "13.1" ...
#convertimos la columna time de tipo chr a formato tiempo
datos$tiempo <- as.POSIXct(datos$tiempo, format = "%Y-%m-%d %H:%M:%S" )
#Convertimos las columnas O3 y PM10
datos$O3 <- as.numeric(datos$O3)
datos$PM10 <- as.numeric(datos$PM10)
# estadistica descriptiva basica usando medidas de tendencia central
summary(datos$O3)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.000 4.425 12.370 16.045 25.835 48.580
# histograma de frecuencias absolutas
hist(datos$O3)

# grafico de caja y bigote
boxplot(datos$O3)

# Grafico de dispersion (scatterplot)
plot(datos$O3)

sd(datos$O3)
## [1] 13.28159
# Correlacion
# existe entre PM10 y el O3 ?
plot(datos$PM10, datos$O3)

cor(datos$PM10, datos$O3)
## [1] -0.2771579