setwd("~/Documents/ica_modelacion")
#Primer script de R 

#Leer y dar formato basico a la primer tabla 
datos <- read.csv("2020-01-ERNO_hora_L1_caire.csv", skip=7)
datos <- datos[-1,]

#Seleccionar nuestras columnas de interes 

datos <- datos[, c("Time", "O3", "PM10")]

#cambiamos el nombre de Time a tiempo
colnames(datos)[1] <- "tiempo"

#ver la estructura de nuesta tabla 
str(datos)
## 'data.frame':    744 obs. of  3 variables:
##  $ tiempo: chr  "2020-01-01 00:00:00" "2020-01-01 01:00:00" "2020-01-01 02:00:00" "2020-01-01 03:00:00" ...
##  $ O3    : chr  "7.87" "16.03" "16.61" "15.84" ...
##  $ PM10  : chr  "26.47" "26.94" "13.08" "13.1" ...
#convertimos la columna time de tipo chr a formato tiempo

datos$tiempo <- as.POSIXct(datos$tiempo, format = "%Y-%m-%d %H:%M:%S"  )

#Convertimos las columnas O3 y PM10 

datos$O3 <- as.numeric(datos$O3)
datos$PM10 <- as.numeric(datos$PM10)

# estadistica descriptiva basica usando medidas de tendencia central

summary(datos$O3)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   4.425  12.370  16.045  25.835  48.580
# histograma de frecuencias absolutas
hist(datos$O3)

# grafico de caja y bigote
boxplot(datos$O3)

# Grafico de dispersion (scatterplot)
plot(datos$O3)

sd(datos$O3)
## [1] 13.28159
# Correlacion 
# existe entre PM10 y el O3 ?

plot(datos$PM10, datos$O3)

cor(datos$PM10, datos$O3)
## [1] -0.2771579