Examen de la unidad 1: Contaminación del aire del año 2019 - 2020 en la ciudad de Hermosillo, Sonora

Hermosillo

Caso de trabajo.

El objetivo de este proyecto es graficar, y medir como ha cambiado la contaminación en la ciudad de Hermosillo, Sonora, esto también con el objetivo de descubrir como afecto la pandemia a la ciudad de Hermosillo.

  1. ¿Qué es la estadística y que aplicaciones tiene en la ingeniería?

La estadística es una herramienta matemática que permite ver como se comportan los datos, ademas de ordenarlos y graficar los, su mejor uso en la ingeniería es saber como se comportan algo, ademas de poder predecir su comportamiento, y solucionar problemas de una manera fundamentada.

  1. Enliste y define los tipos de variables usados en estadística, de 2 ejemplos de cada uno. Defina distribución de frecuencia y explique que es la distribución normal.

Existen 2 tipos de variables usadas en estadística, las cuantitativas y las cualitativas.

  • Cuantitativas: Son todas aquellas variables que se pueden medir con números. Ejemplo: El números de estudiantes de un salón de clases, El número de calificaciones que tiene un alumno de manera semestral.

  • Cualitativas: Son todas aquellas que no se pueden medir con números. Ejemplo: sexos, si el agua de un pozo es ácida o alcalina.

Distribución de frecuencia: Es la manera de como se representa la frecuencia de los datos, esto se guarda de diferentes maneras, absoluta, relativa y acumulada, esto sirve principalmente para saber con que frecuencia se repiten los datos.

Distribución normal: Sirve para medir errores, esto es gracias a que comprueba cual es la normalidad de los datos, basándose en la media de los datos y la desviación estándar.

Importación

Importación de librerias

library(pacman)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc", "readr","knitr", "DT","scales",  "tidyverse","gridExtra","modeest","fdth")

En este caso se tomaran los datos de Enero, Marzo, Abril, Octubre. Esto debido a que se veran antes de la pandemia (Enero), cuando empezó (Marzo, Abril) y en un estado mas avanzado (Octubre)

Importación y filtración de datos

# Importación de datos del 2019
Enero19 <- read_csv("2019/2019-01-ERNO_hora_L1_caire.csv")
## Parsed with column specification:
## cols(
##   Time = col_character(),
##   O3 = col_double(),
##   O3_flag = col_character(),
##   SO2 = col_double(),
##   SO2_flag = col_character(),
##   NO2 = col_character(),
##   NO2_flag = col_character(),
##   NO = col_character(),
##   NO_flag = col_character(),
##   CO = col_double(),
##   CO_flag = col_character(),
##   PM10 = col_double(),
##   PM10_flag = col_character(),
##   PM2.5 = col_double(),
##   PM2.5_flag = col_character()
## )
Marzo19 <- read_csv("2019/2019-03-ERNO_hora_L1_caire.csv")
## Parsed with column specification:
## cols(
##   Time = col_character(),
##   O3 = col_double(),
##   O3_flag = col_character(),
##   SO2 = col_double(),
##   SO2_flag = col_character(),
##   NO2 = col_character(),
##   NO2_flag = col_character(),
##   NO = col_character(),
##   NO_flag = col_character(),
##   CO = col_double(),
##   CO_flag = col_character(),
##   PM10 = col_double(),
##   PM10_flag = col_character(),
##   PM2.5 = col_double(),
##   PM2.5_flag = col_character()
## )
Abril19 <- read_csv("2019/2019-04-ERNO_hora_L1_caire.csv")
## Parsed with column specification:
## cols(
##   Time = col_character(),
##   O3 = col_double(),
##   O3_flag = col_character(),
##   SO2 = col_double(),
##   SO2_flag = col_character(),
##   NO2 = col_character(),
##   NO2_flag = col_character(),
##   NO = col_character(),
##   NO_flag = col_character(),
##   CO = col_double(),
##   CO_flag = col_character(),
##   PM10 = col_double(),
##   PM10_flag = col_character(),
##   PM2.5 = col_double(),
##   PM2.5_flag = col_character()
## )
Octubre19 <- read_csv("2019/2019-10-ERNO_hora_L1_caire.csv")
## Parsed with column specification:
## cols(
##   Time = col_character(),
##   O3 = col_double(),
##   O3_flag = col_character(),
##   SO2 = col_double(),
##   SO2_flag = col_character(),
##   NO2 = col_character(),
##   NO2_flag = col_character(),
##   NO = col_character(),
##   NO_flag = col_character(),
##   CO = col_character(),
##   CO_flag = col_character(),
##   PM10 = col_double(),
##   PM10_flag = col_character(),
##   PM2.5 = col_character(),
##   PM2.5_flag = col_character()
## )
# Filtración de los datos
# Debido a que octubre del 2020 no esta completo se limitara para que estén a la par.
Octubre19 <- Octubre19[1:539,]


# Importación de datos del 2020
Enero20 <- read_csv("2020/2020-01-ERNO_hora_L1_caire.csv")
## Parsed with column specification:
## cols(
##   Time = col_character(),
##   O3 = col_double(),
##   O3_flag = col_character(),
##   SO2 = col_double(),
##   SO2_flag = col_character(),
##   NO2 = col_character(),
##   NO2_flag = col_character(),
##   NO = col_character(),
##   NO_flag = col_character(),
##   CO = col_character(),
##   CO_flag = col_character(),
##   PM10 = col_double(),
##   PM10_flag = col_character(),
##   PM2.5 = col_character(),
##   PM2.5_flag = col_character()
## )
Marzo20 <- read_csv("2020/2020-03-ERNO_hora_L1_caire.csv")
## Parsed with column specification:
## cols(
##   Time = col_character(),
##   O3 = col_double(),
##   O3_flag = col_character(),
##   SO2 = col_double(),
##   SO2_flag = col_character(),
##   NO2 = col_character(),
##   NO2_flag = col_character(),
##   NO = col_character(),
##   NO_flag = col_character(),
##   CO = col_character(),
##   CO_flag = col_character(),
##   PM10 = col_double(),
##   PM10_flag = col_character(),
##   PM2.5 = col_character(),
##   PM2.5_flag = col_character()
## )
Abril20 <- read_csv("2020/2020-04-ERNO_hora_L1_caire.csv")
## Parsed with column specification:
## cols(
##   Time = col_character(),
##   O3 = col_double(),
##   O3_flag = col_character(),
##   SO2 = col_double(),
##   SO2_flag = col_character(),
##   NO2 = col_character(),
##   NO2_flag = col_character(),
##   NO = col_character(),
##   NO_flag = col_character(),
##   CO = col_character(),
##   CO_flag = col_character(),
##   PM10 = col_double(),
##   PM10_flag = col_character(),
##   PM2.5 = col_character(),
##   PM2.5_flag = col_character()
## )
Octubre20 <- read_csv("2020/2020-10-ERNO_hora_L1_caire.csv")
## Parsed with column specification:
## cols(
##   Time = col_character(),
##   O3 = col_double(),
##   O3_flag = col_character(),
##   SO2 = col_double(),
##   SO2_flag = col_character(),
##   NO2 = col_character(),
##   NO2_flag = col_character(),
##   NO = col_character(),
##   NO_flag = col_character(),
##   CO = col_double(),
##   CO_flag = col_character(),
##   PM10 = col_double(),
##   PM10_flag = col_character(),
##   PM2.5 = col_character(),
##   PM2.5_flag = col_character()
## )
# Filtración de Febrero del 2020, debido a que se omitira el 29 de febrero

visualizacion de los datos

# Visualización de los datos del 2019
datatable(Enero19)
datatable(Marzo19)
datatable(Abril19)
datatable(Octubre19)
# Visualización de los datos del 2020
datatable(Enero20)
datatable(Marzo20)
datatable(Abril20)
datatable(Octubre20)

Creación de data frames

# Data frames del o3
o3Enero <- data.frame(Enero19$O3,Enero20$O3)
o3Marzo <- data.frame(Marzo19$O3,Marzo20$O3)
o3Abril <- data.frame(Abril19$O3,Abril20$O3)
o3Octubre <- data.frame(Octubre19$O3,Octubre20$O3)

# Data frames del pm10
pm10Enero <- data.frame(Enero19$PM10,Enero20$PM10)
pm10Marzo <- data.frame(Marzo19$PM10,Marzo20$PM10)
pm10Abril <- data.frame(Abril19$PM10,Abril20$PM10)
pm10Octubre <- data.frame(Octubre19$PM10,Octubre20$PM10)

Medidas de dispersion

Resumen O3

summary(o3Enero)
##    Enero19.O3       Enero20.O3    
##  Min.   :-0.400   Min.   : 0.000  
##  1st Qu.: 3.325   1st Qu.: 4.425  
##  Median :13.085   Median :12.370  
##  Mean   :16.391   Mean   :16.045  
##  3rd Qu.:27.090   3rd Qu.:25.835  
##  Max.   :61.060   Max.   :48.580
# Se puede ver que la media de enero del 2020 es menor a la del 2019, los valores son demasiados pequeños como para poder suponer cosas, probablemente simplemente fue un cambio normal.
summary(o3Marzo)
##    Marzo19.O3      Marzo20.O3   
##  Min.   : 0.24   Min.   : 0.27  
##  1st Qu.:14.71   1st Qu.:13.61  
##  Median :28.25   Median :24.39  
##  Mean   :28.95   Mean   :25.11  
##  3rd Qu.:41.99   3rd Qu.:36.23  
##  Max.   :71.77   Max.   :70.26
# Se puede ver que bajo un poco, esto es debido a que empezó la pandemia, no es una baja significativa, pero se puede ver que algo cambio en ese mes
summary(o3Abril)
##    Abril19.O3       Abril20.O3   
##  Min.   :  0.49   Min.   : 2.23  
##  1st Qu.: 25.38   1st Qu.:23.24  
##  Median : 36.72   Median :33.83  
##  Mean   : 36.64   Mean   :33.30  
##  3rd Qu.: 48.84   3rd Qu.:43.35  
##  Max.   :103.00   Max.   :64.34
# De igual manera en Abril del 2020 bajo un poco en comparación del 2019, pero tampoco es una baja significativa, en este mes suceden fiestas tales como semana santa, probablemente las personas salieron de sus casa para ir a la playa.
summary(o3Octubre)
##   Octubre19.O3    Octubre20.O3  
##  Min.   : 0.34   Min.   : 0.88  
##  1st Qu.: 8.55   1st Qu.: 8.99  
##  Median :14.60   Median :15.34  
##  Mean   :16.96   Mean   :17.62  
##  3rd Qu.:23.25   3rd Qu.:25.57  
##  Max.   :63.31   Max.   :53.99
# En este mes curiosamente subio, esto es debido a que las personas ya estan volviendo a la normalidad de sus vidas, y mucha gente ya vive de manera normal, los autos estan saliendo mas de casa

Resumen PM10

summary(pm10Enero)
##   Enero19.PM10     Enero20.PM10   
##  Min.   :-14.64   Min.   :-20.12  
##  1st Qu.: 17.62   1st Qu.: 15.32  
##  Median : 31.43   Median : 35.81  
##  Mean   : 37.23   Mean   : 47.27  
##  3rd Qu.: 50.12   3rd Qu.: 65.27  
##  Max.   :270.03   Max.   :355.60
# Se puede ver que en Enero se generaron mas PM10 que en 2019, esto seguramente es normal, debido a que no habia empezado la pandemia.
summary(pm10Marzo)
##   Marzo19.PM10     Marzo20.PM10    
##  Min.   : -7.35   Min.   :-27.990  
##  1st Qu.: 20.84   1st Qu.:  9.485  
##  Median : 30.73   Median : 21.100  
##  Mean   : 35.18   Mean   : 23.833  
##  3rd Qu.: 45.30   3rd Qu.: 35.835  
##  Max.   :240.61   Max.   :152.420
#En este mes empezó la pandemia, por ende hubo una baja en PM10, esta baja es visible, debido a que la gente en este mes dejo de salir tanto.
summary(pm10Abril)
##   Abril19.PM10     Abril20.PM10   
##  Min.   :-13.33   Min.   :-84.90  
##  1st Qu.: 21.61   1st Qu.: 16.02  
##  Median : 28.31   Median : 26.07  
##  Mean   : 31.81   Mean   : 27.30  
##  3rd Qu.: 39.55   3rd Qu.: 36.71  
##  Max.   :174.54   Max.   :213.19
# En este mes igual hubo una baja pero no es muy notable debido a que las personas siguieron saliendo, por la semana santa, pero las salidas obviamente bajaron.
summary(pm10Octubre)
##  Octubre19.PM10   Octubre20.PM10  
##  Min.   :  0.15   Min.   :-23.10  
##  1st Qu.: 22.18   1st Qu.: 34.67  
##  Median : 31.26   Median : 43.64  
##  Mean   : 33.47   Mean   : 46.09  
##  3rd Qu.: 41.06   3rd Qu.: 55.53  
##  Max.   :160.80   Max.   :171.98
# En este mes son mayores en 2020 que en 2019, esto probablemente es porque las personas ya se adaptaron y salen de una manera mas frecuente.

Medidas de dispersión

Varianza

Varianza O3

var(o3Enero)
##            Enero19.O3 Enero20.O3
## Enero19.O3   213.1417   145.6327
## Enero20.O3   145.6327   176.4007
#Se puede ver que la varianza es muy alta, esto probablemente porque es por hora, lo cual hace que los datos varien mucho entre ellos.
var(o3Marzo)
##            Marzo19.O3 Marzo20.O3
## Marzo19.O3   277.2209   149.7313
## Marzo20.O3   149.7313   207.1665
var(o3Abril)
##            Abril19.O3 Abril20.O3
## Abril19.O3   243.3558   141.4362
## Abril20.O3   141.4362   153.3479
var(o3Octubre)
##              Octubre19.O3 Octubre20.O3
## Octubre19.O3    124.16507     80.46845
## Octubre20.O3     80.46845    115.04307
# En esta época del año curiosamente es cuando los datos varían menos, probablemente es porque la gente se comporta como el año pasado o muy parecido.

Varianza PM10

var(pm10Enero)
##              Enero19.PM10 Enero20.PM10
## Enero19.PM10     863.8836     575.7829
## Enero20.PM10     575.7829    2438.2091
var(pm10Marzo)
##              Marzo19.PM10 Marzo20.PM10
## Marzo19.PM10    462.94844     51.86842
## Marzo20.PM10     51.86842    445.51473
var(pm10Abril)
##              Abril19.PM10 Abril20.PM10
## Abril19.PM10    267.04051    -25.54379
## Abril20.PM10    -25.54379    408.26461
var(pm10Octubre)
##                Octubre19.PM10 Octubre20.PM10
## Octubre19.PM10      313.38939       27.68673
## Octubre20.PM10       27.68673      339.91595

De manera similar a el O3 los datos si varían, especialmente en los meses de Enero y octubre, donde se puede ver que actuan de manera similar, pero en el mes de abril, donde esta en su punto la pandemia, es cuando baja mucho la PM10, esto debido a que las personas salen menos en auto.

Desviación estandar

Desviación estandar 2019

sd(Enero19$O3)
## [1] 14.59937
sd(Marzo19$O3)
## [1] 16.64995
sd(Abril19$O3)
## [1] 15.59987
sd(Octubre19$O3)
## [1] 11.14294
sd(Enero19$PM10)
## [1] 29.3919
sd(Marzo19$PM10)
## [1] 21.51624
sd(Abril19$PM10)
## [1] 16.34137
sd(Octubre19$PM10)
## [1] 17.70281

Desviación estandar 2020

sd(Enero20$O3)
## [1] 13.28159
sd(Marzo20$O3)
## [1] 14.39328
sd(Abril20$O3)
## [1] 12.38337
sd(Octubre20$O3)
## [1] 10.72581

La desviación estándar no es muy alta, seguramente los datos dentro de los meses no cambien mucho, exceptuando por Marzo, esto debido a que en este punto se empezó la pandemia, y probalemente muchas personas dejaron de salir, pero otras muchas ya no

sd(Enero20$PM10)
## [1] 49.37823
sd(Marzo20$PM10)
## [1] 21.10722
sd(Abril20$PM10)
## [1] 20.20556
sd(Octubre20$PM10)
## [1] 18.43681

Se puede ver que los datos varian mucho, esto se supone que es que algunas personas salen mucho en enero, sin embargo, este valor empieza a bajar, esto significa que las personas empiezan a comportarse de una manera muy parecida, como por ejemplo, en el ultimo mes sus salidad son parecidas, esto probablemente el regreso de trabajadores a sus oficinas

Gráficar los datos

Gráfico de caja y bigotes para O3

boxplot(o3Enero)

# Se puede confirmar todo lo dicho anterior mente, pero de una manera mas fácil se podría decir que: En enero bajo la máxima, pero la media no, lo cual es normal ya que no estabamos en cuarentena todavía.
boxplot(o3Marzo)

# Se puede ver que la media bajo y la máxima bajo, lo cual es bueno, ya que significa que al principio de la cuarentena la contaminación de O3 bajo
boxplot(o3Abril)

# En Abril no bajo mucho la media, sin embargo se puede ver que las emisiones de O3 bajaron mucho.
boxplot(o3Octubre)

# En octubre la media subio a comparación del año pasado, lo cual significa que las personas están saliendo mas de sus casas, probablemente esto ocurra por que las personas estan volviendo a la normalidad.

Gráfico de caja y bigotes para PM10

boxplot(pm10Enero)

# Curiosamente la contaminación por PM10 es mucho mayor en enero, con varios datos atipicos, esto seguramente sea por la actividad que hubo en este año por las personas que volvián de estados unidos. 
boxplot(pm10Marzo)

# Se puede ver que en marzo bajo la media, ademas del máximo, lo cual es bueno ya que se ve que al inicio de la pademia las personas empezaron a contaminar menos
boxplot(pm10Abril)

# En este mes no bajaron muchos los datos, sin embargo que bajen es bueno, pero no bajaron tando debido a la semana santa.
boxplot(pm10Octubre)

# De igual manera a O3 las personas en este mes estan volviendo a la normalidad, por ende estan saliendo mucho mas de su casa

Comparación con tablas

# Data frames del o3
o3Enero <- data.frame(Enero19$Time,Enero19$O3,Enero20$O3)
o3Marzo <- data.frame(Marzo19$Time,Marzo19$O3,Marzo20$O3)
o3Abril <- data.frame(Abril19$Time,Abril19$O3,Abril20$O3)
o3Octubre <- data.frame(Octubre19$Time,Octubre19$O3,Octubre20$O3)

# Data frames del pm10
pm10Enero <- data.frame(Enero19$Time,Enero19$PM10,Enero20$PM10)
pm10Marzo <- data.frame(Marzo19$Time,Marzo19$PM10,Marzo20$PM10)
pm10Abril <- data.frame(Abril19$Time,Abril19$PM10,Abril20$PM10)
pm10Octubre <- data.frame(Octubre19$Time,Octubre19$PM10,Octubre20$PM10)

plot(o3Enero)

# Ignorando las relaciones entre los datos que se puede ver que están ciertamente relacionados, se puede ver que la relación que existe la gráfica de los meses de enero en diferentes años, como se puede ver no cambia mucho, el cambio mas significativo en el la máxima, esto es debido a que la máxima en 2020 es menos, sin embargo el resto del mes presenta muchos mas valores altos, lo cual significa que este mes del 2020 estuvo un poco mas contaminado que el mismo mes del año pasado, esto en cuestión de O3.
plot(o3Marzo)

# En marzo se puede ver que baja bastante la contaminación por O3, esto debido a la baja de la pandemia, pero sin embargo existen picos, probablemente estos fueron ocasionados por las famosas compras de pánico que fueron hechas por las personas al principio de la pandemia.
plot(o3Abril)

# Se puede ver que la contaminación subió un poco, lo que puede significar que las personas empezaron salir, por este mes esta semana santa, donde las personas van a Guaymas, bahia de Kino, etc.
plot(o3Octubre)

# Se ve como la contaminación si aumento mucho, esto es debido a que las personas están volviendo a la normalidad, esto hace que la contaminación suba debido a que las personas están saliendo con mayor frecuencia.
plot(pm10Enero)

# Se puede ver que en este mes no cambia mucho en comparación con el año pasado, esto es porque no había pandemia todavía, sin embargo se ve que esta un poco mas alto que el año pasado. 
plot(pm10Marzo)

# En este mes empieza la pandemia, se puede ver que si baja, sin embargo no es una gran baja, sin embargo, ya se puede ver que las personas salen menos o usan menos sus autos.
plot(pm10Abril)

# Se puede ver que en este mes subieron las PM10, esto es debido a que este es un mes con fiestas, y las personas salen a divertirse a playas, restaurantes, etc.
plot(pm10Octubre)

# En este mes se puede ver que los datos suben un poco, esto ya fue hablado muchas veces anteriormente, esto es ocacionado porque las personas vuelven a una normalidad

Se puede ver que las PM10 no bajan demasiado en ni un mes, y ademas en Octubre las PM10 suben, esto obviamente es debido a que en este mes las personas vuelven a su normalidad.

Conteste lo siguiente:

Realice un análisis comparativo (únicamente use datos de o3 y de PM10 de este año y el año pasado para responder la siguiente pregunta:

  1. ¿Este año tiene menor cantidad de contaminantes atmosféricos que el año pasado?

No necesariamente al principio de año se puede ver como baja la contaminación atmosférica, sin embargo en meses resientes empieza a subir, ya que las personas empiezan a volver a su normalidad.

  1. ¿Cuál es la influencia de la pandemia sobre la calidad del aire ?

Debido a la pandemia las personas dejaron de salir mucho, sin embargo, las personas no siempre dejan de salir, las personas que dejaron de salir se vio como baja la contaminación, pero el cambio no es muy apreciable ya que las personas siguen saliendo, ademas de que en las fiestas siguen saliendo a divertirse, lo cual indica mayor contaminación.

  1. ¿Que periodos de este año están más contaminados que el año pasado?

En los meses mas recientes están mas contaminados, ademas de enero, esto probablemente a que toda la gente que no salio durante el año esta saliendo mas en estas fechas, y enero es debido a que las personas que salen de viaje empiezan a volver por esas fechas.

Plantee una hipótesis ¿Por qué un año está más contaminado que otro en ciertos periodos?

En comparación con el año pasado hay ciertos periodos en donde hay mas contaminación debido a que seguramente hay fiestas, y muchas personas aprovechan y salen, sin embargo no deberían de hacer esto, en comparación con el año pasado, si hay menos contaminación, pero en los últimos meses y en los primeros la contaminación si es mayor, debido a que al principio las personas salían de manera normal, y ahora la gente sale porque ya ven a esta enfermedad de manera normal, lo cual esta mal, ya que es muy peligrosa, y esta gente no es su culpa, el cambio de los semáforos también hace que se reactiven muchas cosas, y las personas empiezan a salir.

Pregunta de rescate (opcional): Mini ensayo de mínimo media y máximo una cuartilla contestando a la pregunta: ¿la gente realmente quiere ser feliz o es una fabricada que nos vendieron? (Use datos para fundamentarse)

Quizá la palabra fue inventada en la revolución industrial, pero sin embargo el ser humano es un ser social, y probablemente fue inventado el concepto para apoyar el consumismo, pero el ser humano reacciona a estímulos causados por las personas de su entorno o su mismo entorno, por ende la felicidad si existe, pero no de la manera de como se pinta, mas bien es como reacciona a que las personas que tu consideras seres queridos actúen o se comporten, o dicho de otra forma la felicidad esta relacionada como te tratan tus seres queridos, ademas cada uno puede ver la felicidad de diferente manera, ya que la interpretación de las emociones es definida por la sociedad, la moral y la familia, por ende cada persona puede tener un concepto de que lo haga feliz.

PD: Profe, disculpe me, pero quería hacer un ggplot, pero no supe como, quería que apareciera en una gráfica como se ve la contaminación, pero me aparecía una gráfica en blanco, lo intente de manera diferentes, así que al final opte por hacer un plot con los data frames, y así pude comparar los datos.