Members:
York Antony Calvache Tabares
Nelson Andres Guerrero Jimenez
Daniela Aranzazu Medina
# Punto 1
library(readxl)
datos <- read_excel("Base de datos Proyecto.xlsx")
## New names:
## • `` -> `...13`
## • `` -> `...14`
x = datos$`PM2,5`
# IC para la media
t.test(x,coef.level = 0.95)$conf.int
## [1] 13.22141 17.13089
## attr(,"conf.level")
## [1] 0.95
El intervalo de confianza está dado por los valores 13.22141 y 17.13089, para un nivel de confianza del 95%. Esto significa que existe una gran probabilidad de que la media real de la población de la que se extrajo la muestra se encuentra dentro de este intervalo. La verdadera media de la variable “PM2.5” de la población podría estar comprendida entre esos dos valores. A partir de una concentración de 12.1 ug/m3 la calidad del aire es inferior a buena, como el intervalo es encerrado por los valores de 13.22141 y 17.13089, eso quiere decir que la concentracion desde la cual la calidad del aire no es buena esta dentro del intervalo, por tanto significa que la concentración de contaminantes en el aire puede ser inferior a buena en una gran cantidad de veces.
x1 = datos$PM10
# IC para la media
t.test(x1,coef.level = 0.95)$conf.int
## [1] 24.99643 33.26703
## attr(,"conf.level")
## [1] 0.95
El intervalo de confianza está dado por los valores 24.99643 y 33.26703. Esto significa que, con un nivel de confianza del 95%, existe una gran probabilidad de que la media real de la población de la que se extrajo la muestra se encuentra dentro de este intervalo. La verdadera media de la variable “PM10” de la población podría estar comprendida entre esos dos valores. o calculado. A partir de una concentración de 55 ug/m3 la calidad del aire es inferior a buena, como el intervalo es encerrado por los valores de 24.99643 y 33.26703, eso quiere decir que el promedio esta por debajo de 55, por tanto, en un 95% de las veces la calidad del aire va a ser buena.
#IC para la proporcion
m = length((datos$`Clasificacion PM2,5` ~ datos$`PM2,5`)[datos$`Clasificacion PM2,5` == "Buena"])
n = nrow(datos)
prop.test(m,n,conf.level=0.95)$conf.int
## [1] 0.1151608 0.3508672
## attr(,"conf.level")
## [1] 0.95
Esto significa que, con un nivel de confianza del 95%, podemos afirmar que la proporción verdadera de datos que tienen una clasificación de calidad del aire de “Buena” se encuentra entre 0.1151608 y 0.3508672. Lo anterior indica que menos de la mitad de mediciones cuentan con una clasificacion de calidad del aire menor a Buena, al estar la clasificacion Buena en una proporcion ubicada entre 0.1151608 y 0.3508672.
Hipótesis nula (H0): La media de concentración de PM2.5 en las estaciones de monitoreo de calidad del aire en Colombia es igual a 12.1 µg/m3. Hipótesis alternativa (Ha): La media de concentración de PM2.5 en las estaciones de monitoreo de calidad del aire en Colombia es mayor de 12.1 µg/m3.
#Prueba de hipotesis para la media
x = datos$`PM2,5`
t.test(x, mu = 12.1, alternative = "greater")
##
## One Sample t-test
##
## data: x
## t = 3.1593, df = 51, p-value = 0.001329
## alternative hypothesis: true mean is greater than 12.1
## 95 percent confidence interval:
## 13.54497 Inf
## sample estimates:
## mean of x
## 15.17615
Se realizó la prueba t de la muestra con un nivel de significancia del 0.05. El resultado de la prueba mostró un p-valor de 0.001329. Con base en este resultado, se rechaza la hipótesis nula a favor de la hipótesis alternativa. Por lo tanto, se concluye que hay suficiente evidencia estadística para afirmar que la media de concentración de PM2.5 en las estaciones de monitoreo de calidad del aire en Colombia es mayor que 12.1 µg/m3.
Hipótesis nula (H0): La concentración media de PM2.5 en Cundinamarca y Valle del Cauca es igual. Hipótesis alternativa (Ha): la concentración media de PM2.5 en Valle del Cauca es menor que en Cundinamarca.
valle <- datos$`PM2,5`[datos$UBICACIÓN == "Valle del cauca"]
cundinamarca <- datos$`PM2,5`[datos$UBICACIÓN == "Cundinamarca"]
t.test(cundinamarca, valle, alternative = "greater", var.equal = TRUE)
##
## Two Sample t-test
##
## data: cundinamarca and valle
## t = 1.2512, df = 14, p-value = 0.1157
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
## -2.285485 Inf
## sample estimates:
## mean of x mean of y
## 12.642308 7.036667
En este caso, se planteó la hipótesis alternativa de que la concentración de PM2.5 es mayor en Cundinamarca que en Valle del Cauca. El resultado del test t fue un p-valor de 0.1157, lo que indica que no hay suficiente evidencia estadística para rechazar la hipótesis nula de que las concentraciones son iguales o menores en Cundinamarca que en Valle del Cauca.