E1U1

Andrea Felix

23/10/2020

Preguntas

1.- ¿Qué es la estadística y que aplicaciones tiene en ingeniería (según su ingeniería)?

Ciencia que estudia la recolección, análisis e interpretación de datos, ya sea para ayudar en la resolución de la toma de decisiones o para explicar condiciones regulares o irregulares de algún fenómeno o estudio aplicado, de ocurrencia en forma aleatoria o condicional, es además, el vehículo que permite llevar a cabo el proceso relacionado con la investigación científica.

Afin con la Ing. en Software La estadística es importante en la vida de cualquier ciudadano para comprender, analizar y tomar decisiones ante la enorme cantidad de datos que aparecen a su alrededor. Pero de manera muy especial, en el trabajo que realiza un ingeniero, quién en su quehacer diario enfrenta situaciones en donde aparece la variabilidad, la incertidumbre. Los métodos estadísticos soy indispensables para reducir la variabilidad y tomar mejores decisiones en su mundo laboral.

Es indispensable que el ingeniero aplique correctamente el muestreo para recolectar datos, que aplique la teoría de probabilidades para modelar datos y calcular probabilidades, que aplique la teoría de confiabilidad para estimar tiempos de vida de productos y estimar tiempos de falla, que aplique los intervalos de confianza y las pruebas de hipótesis para estimar parámetros y probar supuestos acerca de ellos, que aplique las series de tiempo y la regresión lineal para estudiar el comportamiento de una variable en función de otras, que aplique el diseño de experimentos para determinar qué variables tienen mayor influencia en la variable de respuesta que interesa, etc.

Sin duda muchos temas de estadística son importantes para el trabajo de un ingeniero en Sistemas, pero, fundamentalmente aplica temas de estadística descriptiva, y una de las aplicaciones más importantes es en las pruebas de usabilidad que él realiza cotidianamente. El ingeniero en Sistemas aplica diversos temas de estadística, pero uno de los más importantes tiene que ver con las 7 herramientas de calidad fundamentales para monitorear la calidad en el proceso o al finalizar el proceso de cualquier programa.

2.- Enliste y define los tipos de variables usados en estadística, de 2 ejemplos de cada uno. Defina distribución de frecuencia y explique que es la distribución normal.

Tipos de variables La variable estadística, de acuerdo con las características que la definen, puede ser cualitativa o cuantitativa.

Variable cualitativa Las variables cualitativas son aquellas características o cualidades que no pueden ser calculadas con números, sino que son clasificadas con palabras.

Este tipo de variable, a su vez, se divide en:

  1. Cualitativa nominal: aquellas variables que no siguen ningún orden en específico. Por ejemplo, los colores, tales como el negro, naranja o amarillo.

  2. Cualitativa ordinal: aquellas que siguen un orden o jerarquía. Por ejemplo, el nivel socioeconómico alto, medio o bajo.

  3. Cualitativa binaria: variables que permiten tan solo dos resultados. Por ejemplo, sí o no; hombre o mujer.

Variable cuantitativa Las variables cuantitativas son aquellas características o cualidades que sí pueden expresarse o medirse a través de números.

Este tipo de variable, a su vez, se divide en:

  1. Cuantitativa discreta: aquella variable que utiliza valores enteros y no finitos. Por ejemplo, la cantidad de familiares que tiene una persona, tal como 2, 3, 4 o más.

  2. Cuantitativa continua: aquella variable que utiliza valores finitos y objetivos, y suele caracterizarse por utilizar valores decimales. Por ejemplo, el peso de una persona, tal como 64.3 kg, 72.3 kg, etc.

Ejemplos de variable estadística A continuación se exponen ejemplos de cada tipo de variable estadística:

Variables cualitativas

-Nominal: el color de pelo de una persona, tal como castaño, rubio o morocho. -Ordinal: la condición de un pasaporte, del tipo aprobado, denegado o en espera. -Binaria: ante la pregunta de si una persona posee hogar propio, la respuesta será sí o no.

Variables cuantitativas

-Discreta: la cantidad de primos que tienen una persona, tal como 2, 4, 6 u 8. -Continua: la estatura de una persona, tal como 1,65 cm.

Introduccion

La contaminación del aire representa un importante riesgo medioambiental para la salud. Mediante la disminución de los niveles de contaminación del aire los países pueden reducir la carga de morbilidad derivada de accidentes cerebrovasculares, cánceres de pulmón y neumopatías crónicas y agudas, entre ellas el asma. Cuanto más bajo sean los niveles de contaminación del aire, mejor será la salud cardiovascular y respiratoria de la población, tanto a largo como a corto plazo.

Para medir y evaluar el impacto de la contaminación del aire en la población y los recursos naturales, es indispensable contar con sistemas, redes y programas adecuados de medición de la calidad del aire.

Calidad del aire: Mexico

Antedecentes

Ozono (O3): El ozono es un oxidante potente, por lo que tiene la capacidad de afectar diversas estructuras del tracto respiratorio y membranas celulares.Ante este panorama resulta por demás necesario y conveniente mejorar el desempeño de los sistemas de monitoreo de la calidad del aire en México, ampliar su cobertura, difundir oportunamente la información que generan y establecer estrategias de mejora de la calidad del aire en nuestro país.

Particulas en suspension PM10: El término “partículas en suspensión” abarca un amplio espectro de sustancias orgánicas o inorgánicas, dispersas en el aire, procedentes de fuentes naturales y artificiales. La combustión de carburantes fósiles generada por el tráfico (una de las principales fuentes de contaminación por partículas en las ciudades) puede producir diversos tipos de partículas: partículas grandes, por la liberación de materiales inquemados (cenizas volátiles), partículas finas, formadas por la condensación de materiales vaporizados durante la combustión, y partículas secundarias, mediante reacciones atmosféricas de contaminantes desprendidos como gases.

IMPORTAR

Importar paquetes

library(pacman)
p_load("fdth","base64enc", "htmltools", "mime", "xfun", "prettydoc", "readr", "knitr", "DT", "tidyverse", "scales", "gridExtra")

setwd("~/PROBABILIDAD")

Importar datos

Se importan desde un archivo local .csv los datos de la calidad del aire por mes del año 2019 y 2020

#Datos 2019
A19 <- read_csv("2019-04-ERNO_hora_L1_caire.csv") #Inicio
## Parsed with column specification:
## cols(
##   Time = col_character(),
##   O3 = col_double(),
##   PM10 = col_double()
## )
O19 <- read_csv("2019-10-ERNO_hora_L1_caire.csv") #Actual
## Parsed with column specification:
## cols(
##   Time = col_character(),
##   O3 = col_double(),
##   PM10 = col_double()
## )
#Datos 2020
A20 <- read_csv("2020-04-ERNO_hora_L1_caire.csv") #Inicio
## Parsed with column specification:
## cols(
##   Time = col_character(),
##   O3 = col_double(),
##   PM10 = col_double()
## )
O20 <- read_csv("2020-10-ERNO_hora_L1_caire.csv") #Actual
## Parsed with column specification:
## cols(
##   Time = col_character(),
##   O3 = col_double(),
##   PM10 = col_double()
## )

TRANSFORMAR

Se realiza primeramente una seleccion de los datos hacia un datatable correspondiente con o3 y PM10

#ABRIL 2019
datosO3 <- t(A19$O3)
datosO3 <- as.vector(datosO3)
datosO3 <- datosO3[2:72]
datosO3 <- as.numeric(datosO3)
datosO3 <- as.vector(datosO3) #datos absolutos diarios
adatosO3<- cumsum(datosO3) #datos acumulados

datosPM10 <- t(A19$PM10)
datosPM10 <- as.vector(datosPM10)
datosPM10 <- datosPM10[2:72]
datosPM10 <- as.numeric(datosPM10)
datosPM10 <- as.vector(datosPM10) #datos absolutos diarios
adatosPM10<- cumsum(datosPM10) #datos acumulados

O3Abr <- data.frame(datosO3, datosPM10)
O3Abri <- data.frame(adatosO3, adatosPM10)

PM10Abr <- data.frame(datosPM10, datosO3)
PM10Abri <- data.frame(adatosPM10, adatosO3)


#ABRIL 2020
datoO3 <- t(A20$O3)
datoO3 <- as.vector(datoO3)
datoO3 <- datoO3[2:72]
datoO3 <- as.numeric(datoO3)
datoO3 <- as.vector(datoO3) #datos absolutos diarios
adatoO3<- cumsum(datoO3) #datos acumulados

datoPM10 <- t(A20$PM10)
datoPM10 <- as.vector(datoPM10)
datoPM10 <- datoPM10[2:72]
datoPM10 <- as.numeric(datoPM10)
datoPM10 <- as.vector(datoPM10) #datos absolutos diarios
adatoPM10<- cumsum(datoPM10) #datos acumulados

O3A <- data.frame(datoO3, datoPM10)
O3Ab <- data.frame(adatoO3, adatoPM10)

PM10A <- data.frame(datoPM10, datoO3)
PM10Ab <- data.frame(adatoPM10, adatoO3)

VISUALIZAR

Se muestra algunos graficos con el filtro anterior de O3 y PM10 para los dos años correspondientes

#Datos 2019
datatable(A19)
#Datos 2020
datatable(A20)

Observemos el 1 de Abril al 03 de Abril (2019)

plot(datosO3) #O3

plot(datosPM10) #PM10

Observemos el 1 de Abril al 03 de Abril (2020)

plot(datoO3) #O3

plot(datoPM10) #PM10

ANALIZAR

Como se pudo observar en los graficos anteriores, hay una ligera variacion, pero solo viendolos, no se sabe con exactitud la cantidad de variacion en sus valores entre ellos.

Veamos sus valores:

Periodo de Abril 2019

datosO3 #O3
##  [1] 31.68 18.68 20.88 19.95  5.73  7.65 14.64 32.98 49.70 53.80 59.32 56.65
## [13] 52.18 52.44 49.89 48.81 41.73 31.06 25.27 21.34 18.88  6.22  0.97  1.41
## [25]  9.52 37.45 39.21 22.58 10.85  9.22 22.45 35.01 44.84 52.59 52.83 49.15
## [37] 51.13 50.07 48.44 48.83 41.22 35.76 24.45 23.28 27.16 36.79 40.59 33.62
## [49] 28.70 30.76 29.35 28.86 16.19 14.87 25.88 44.06 46.82 47.78 46.40 46.08
## [61] 48.06 48.03 51.24 48.97 42.42 32.04 29.86 24.29 31.31 25.91 20.50
datosPM10 #PM10
##  [1] 20.72 37.75 40.35 38.39 45.81 74.54 57.67 53.32 48.49 35.40 39.79 37.43
## [13] 18.73 23.33 36.70 19.69 39.81 36.28 31.05 41.66 52.18 55.86 56.88 57.55
## [25] 43.69 23.32 18.37 13.43 34.20 51.56 51.54 36.80 25.40 32.32 33.61 19.96
## [37] 15.76 26.47 21.65 36.62 40.46 38.07 36.31 43.49 35.78 32.45 24.41 25.66
## [49] 31.36 33.83 28.17 23.17 19.67 27.21 45.89 34.59 27.39 22.18 41.44 16.93
## [61] 21.40 27.55 28.89 18.87 20.74 26.70 27.32 33.38 28.36 16.75 20.38

Periodo de Abril 2020

datoO3 #O3
##  [1] 28.02 24.70 25.60 21.28  5.51 16.77 29.39 35.50 45.42 50.15 49.46 47.06
## [13] 47.84 46.73 47.16 45.04 40.72 31.90 29.43 31.53 28.42 19.24 15.89 20.57
## [25] 23.24 19.36 17.41 19.05 20.82 22.85 35.59 37.41 37.67 43.43 48.80 45.99
## [37] 46.89 48.41 47.74 45.30 38.06 32.45 27.59 26.71 22.04 21.36 10.26 18.46
## [49] 17.08 10.36  7.60 12.14 13.98 15.81 19.61 29.12 35.40 39.61 43.36 40.64
## [61] 37.90 39.99 38.47 35.97 33.87 26.89 26.03 24.19 24.49 25.71 25.02
datoPM10 #PM10
##  [1]  29.20  16.39  22.64  18.33  54.78  49.08  13.30  -1.62  18.89  -2.52
## [11]  19.10  19.53  28.57  27.53  14.05  28.92  31.89  34.55  46.23  60.77
## [21]  33.56  52.73  56.41  52.50  16.89  25.42  26.58  29.25  14.11  10.14
## [31]  -0.04   8.06   6.46  18.52  27.33  19.84  22.16  25.07  29.71  31.85
## [41]  48.70  31.43  41.82  42.15  45.27  28.97  38.81  48.54  47.92  41.10
## [51]  31.08  15.20   2.52  10.25  32.33  33.87  46.46  17.55  36.82  36.82
## [61] 174.86  33.38  31.19  18.42  37.98  65.17  53.36  42.21  33.98  21.68
## [71]  20.08

MODELAR

Ya visto los valores anteriores, no es muy facil de comprender cual es la diferencia entre cada año, asi que haremos distintos tipos de distribuciones para detectarlos de mejor manera.

Distribuciones

Distribuciones de frecuencia

Medidas de tendencia O3 (ABRIL 2019 Y ABRIL 2020)

mAbril<- mean(datosO3)
paste("La media del periodo de Abril 2019 es: ", mAbril)
## [1] "La media del periodo de Abril 2019 es:  33.4828169014084"
mAbril2<- mean(datoO3)
paste("La media del periodo de Abril 2020 es: ", mAbril2)
## [1] "La media del periodo de Abril 2020 es:  30.4712676056338"
#Aqui se puede observar como la media tiene una diferencia bastante notable en un año, el cual no esta muy por debajo pero aun asi es una mejoria.
meAbril<- median(datosO3)
paste("La mediana del periodo de Abril 2019 es: ", meAbril)
## [1] "La mediana del periodo de Abril 2019 es:  32.98"
meAbril2<- median(datoO3)
paste("La mediana del periodo de Abril 2020 es: ", meAbril2)
## [1] "La mediana del periodo de Abril 2020 es:  29.12"
#Aqui tambien se puede ver que la mediana es casi 3 valores menor en el transcurso del año.
#Resumen de Abril 2019
sumAbril<- summary(datosO3)
sumAbril
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.97   22.52   32.98   33.48   48.05   59.32
#Resumen de Abril 2020
sumaAbril<- summary(datoO3)
sumaAbril
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    5.51   21.05   29.12   30.47   40.31   50.15

Medidas de dispersion

sdAbril<- sd(datosO3)
paste("La desviacion estandar del periodo de Abril 2019 es: ", sdAbril)
## [1] "La desviacion estandar del periodo de Abril 2019 es:  15.2320405895973"
sdAbril2<- sd(datoO3)
paste("La desviacion estandar del periodo de Abril 2020 es: ", sdAbril2)
## [1] "La desviacion estandar del periodo de Abril 2020 es:  11.9977271573265"
vAbril<- var(datosO3)
paste("La varianza del periodo de Abril 2019 es: ", vAbril)
## [1] "La varianza del periodo de Abril 2019 es:  232.015060523139"
vAbril2<- var(datoO3)
paste("La varianza del periodo de Abril 2020 es: ", vAbril2)
## [1] "La varianza del periodo de Abril 2020 es:  143.94545694165"
#Abril 2019
boxplot(datosO3)

#Abril 2020
boxplot(datoO3)

Tablas de distribucion de frecuencia

#Abril 2019
tdiste <-fdt(datosO3, breaks = "Sturges")
tdiste
##     Class limits  f   rf rf(%) cf  cf(%)
##  [0.9603,8.3294)  5 0.07  7.04  5   7.04
##  [8.3294,15.699)  5 0.07  7.04 10  14.08
##  [15.699,23.068)  9 0.13 12.68 19  26.76
##  [23.068,30.437) 11 0.15 15.49 30  42.25
##  [30.437,37.806) 11 0.15 15.49 41  57.75
##  [37.806,45.175)  7 0.10  9.86 48  67.61
##  [45.175,52.544) 18 0.25 25.35 66  92.96
##  [52.544,59.913)  5 0.07  7.04 71 100.00
#Abril 2019
tdista <-fdt(datoO3, breaks = "Sturges")
tdista
##     Class limits  f   rf rf(%) cf  cf(%)
##  [5.4549,11.104)  4 0.06  5.63  4   5.63
##  [11.104,16.754)  4 0.06  5.63  8  11.27
##  [16.754,22.404) 13 0.18 18.31 21  29.58
##  [22.404,28.053) 13 0.18 18.31 34  47.89
##  [28.053,33.703)  7 0.10  9.86 41  57.75
##  [33.703,39.352) 10 0.14 14.08 51  71.83
##  [39.352,45.002)  6 0.08  8.45 57  80.28
##  [45.002,50.651) 14 0.20 19.72 71 100.00

Medidas de tendencia PM10 (ABRIL 2019 Y ABRIL 2020)

meanAbril<- mean(datosPM10)
paste("La media del periodo de Abril 2019 es: ", meanAbril)
## [1] "La media del periodo de Abril 2019 es:  33.5616901408451"
mnAbril2<- mean(datoPM10)
paste("La media del periodo de Abril 2020 es: ", mnAbril2)
## [1] "La media del periodo de Abril 2020 es:  31.6349295774648"
#Aqui se puede observar como la media tiene una diferencia bastante notable en un año, el cual no esta muy por debajo pero aun asi es una mejoria.
medAbril<- median(datosPM10)
paste("La mediana del periodo de Abril 2019 es: ", medAbril)
## [1] "La mediana del periodo de Abril 2019 es:  33.38"
medianAbril2<- median(datoPM10)
paste("La mediana del periodo de Abril 2020 es: ", medianAbril2)
## [1] "La mediana del periodo de Abril 2020 es:  29.25"
#Aqui tambien se puede ver que la mediana es casi 2 valores menor en el transcurso del año.
#Resumen de Abril 2019
sumarAbril<- summary(datosPM10)
sumarAbril
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   13.43   23.32   33.38   33.56   40.08   74.54
#Resumen de Abril 2020
summaAbril<- summary(datoPM10)
sumaAbril
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    5.51   21.05   29.12   30.47   40.31   50.15

Tablas de distribucion de frecuencia

#Abril 2019
tdist <-fdt(datosPM10, breaks = "Sturges")
tdist
##     Class limits  f   rf rf(%) cf  cf(%)
##  [13.296,21.044) 13 0.18 18.31 13  18.31
##  [21.044,28.793) 17 0.24 23.94 30  42.25
##  [28.793,36.542) 14 0.20 19.72 44  61.97
##  [36.542,44.291) 15 0.21 21.13 59  83.10
##  [44.291,52.039)  5 0.07  7.04 64  90.14
##  [52.039,59.788)  6 0.08  8.45 70  98.59
##  [59.788,67.537)  0 0.00  0.00 70  98.59
##  [67.537,75.285)  1 0.01  1.41 71 100.00
#Abril 2019
tdisto <-fdt(datoPM10, breaks = "Sturges")
tdisto
##       Class limits  f   rf rf(%) cf  cf(%)
##   [-2.5452,19.849) 22 0.31 30.99 22  30.99
##   [19.849,42.2433) 34 0.48 47.89 56  78.87
##  [42.2433,64.6375) 13 0.18 18.31 69  97.18
##  [64.6375,87.0317)  1 0.01  1.41 70  98.59
##  [87.0317,109.426)  0 0.00  0.00 70  98.59
##   [109.426,131.82)  0 0.00  0.00 70  98.59
##   [131.82,154.214)  0 0.00  0.00 70  98.59
##  [154.214,176.609)  1 0.01  1.41 71 100.00

GRAFICAR

Grafica de elementos en la atmosfera en un periodo especifico

#ABRIL 2019
ggplot(data = O3Abr) + 
  ggtitle("Grafica de O3 y PM10 de 01-04-2019 a 03-04-2019") +
  geom_line(mapping = aes(x = datosPM10, y= datosO3))

#ABRIL 2020
ggplot(data = O3A) + 
  ggtitle("Grafica de O3 y PM10 de 01-04-2020 a 03-04-2020") +
  geom_line(mapping = aes(x = datoPM10, y= datoO3))

Graficas (poligonos) de distribucion de frecuencia ABRIL 2019 (O3)

plot(tdiste, type ="fp")

plot(tdiste, type ="rfp")

plot(tdiste, type ="cfp")

Graficas (poligonos) de distribucion de frecuencia ABRIL 2019 (PM10)

plot(tdist, type ="fp")

plot(tdist, type ="rfp")

plot(tdist, type ="cfp")

Graficas (poligonos) de distribucion de frecuencia ABRIL 2020 (O3)

plot(tdista, type ="fp")

plot(tdista, type ="rfp")

plot(tdista, type ="cfp")

Graficas (poligonos) de distribucion de frecuencia ABRIL 2020 (PM10)

plot(tdisto, type ="fp")

plot(tdisto, type ="rfp")

plot(tdisto, type ="cfp")

Grafica de O3 2019-2020

plot(datosO3, datoO3, xlab="Abril 2019 (O3)", ylab = "Abril 2020 (O3)", col = "purple")

Grafica de PM10 2019-2020

plot(datosPM10, datoPM10, xlab="Abril 2020 (PM10)", ylab = "Abril 2020 (PM10)", col = "purple")

CONCLUIR

Como conclusion, se contestaran las preguntas con la informacion obtenida al procesar los datos.

1.¿Este año tiene menor cantidad de contaminantes atmosféricos que el año pasado?

Con la informacion obtenida, se puede ver que si, hubo una menor cantidad de contaminantes atmosfericos. Esto podria darse por la cantidad de personas que decidieron quedarse en casa, evitando el uso de los automoviles.Pero si, las medidas de dispersion y las graficas nos dan a conocer que si hubo una menor cantidad y mejoria en la atmosfera.

2.¿Cuál es la influencia de la pandemia sobre la calidad del aire?

Se puede ver que la pandemia si afecto en la calidad del aire, de manera positiva, ya que se ve una mejoria en la calidad de aire, por medio de las medidas aplicadas con anterioridad. Y con estudios pasados, que muestra la movilidad que se ha hecho durante la pandemia.

3.¿Que periodos de este año están más contaminados que el año pasado?

Con la informacion de los csv, se puede observar lo siguiente:

Enero: hubo un promedio mayor en 2020. Febrero: hubo un promedio mayor en 2020. Marzo: hubo un promedio mayor en 2019. Abril: hubo un promedio mayor en 2019. Mayo: hubo un promedio mayor en 2020. Junio: hubo un promedio mayor en 2020. Julio: hubo un promedio mayor en 2019. Agosto: hubo un promedio mayor en 2020. Septiembre: hubo un promedio mayor en 2020. Octubre: hubo un promedio mayor en 2020.

Por lo tanto se puede ver que en la mayoria de los meses, realmente hubo un promedio mayor en 2020 que en año anterior, excepto por algunos meses como lo es Abril, el mes que yo seleccione como mi caso de estudio. Mi hipotesis es que realmente a las personas les comenzo a preocupar la pandemia a partir de Marzo-Abril, ya que esos meses son los de menor promedio que el año anterior asi como Junio, pero realmente sobrepasa el 2020 al 2019 en la mayoria del año.

Calidad del aire: Mexico # Pregunta de rescate (opcional)

Mini ensayo de mínimo media y máximo una cuartilla contestando a la pregunta: ¿la gente realmente quiere ser feliz o es una fabricada que nos vendieron? (Use datos para fundamentarse)

La felicidad es un paradigma bastante complicado de entender para un ser humano normal, como se ha mencionado en bastantes textos a lo largo de la historia, la felicidad es realmente relativa y personal hacia cada ser humano. Las emociones que presentamos son un misterio y generalmente no cuentan con un patrón especifico y predecible, ya que pueden tener tantas variables por casi cualquier cosa. Los humanos no fueron creados con la necesidad de ser felices, sino con las necesidades principales, como lo son sobrevivir, reproducirse, entre otras. Podemos llegar a desear o anhelar la satisfacción ,pero realmente se ha visto la posibilidad que tu naturaleza como humano desaliente este estado, porque podría llegar a dañar la sensación de guardia relacionada a nuestra supervivencia. Buscar la felicidad, es realmente un capricho para nuestra naturaleza, ya que no está en nuestras prioridades como humano. En mi opinión, estar feliz es realmente un privilegio, es algo muy difícil de alcanzar y no creo que nadie pueda ser feliz toda su vida, solo es sentimiento efímero, solo dura unos minutos y vuelves a la misma rutina de siempre.