M = read.csv("SP2-TLA2021-1.csv")
names(M)
## [1] "X" "FECHA" "HORA" "CO" "CO2" "NO" "NO2" "NOX" "O3"
Se cuenta con 9 variables (columnas) y 7576 observaciones (filas): La fecha está como categórica (pero convertible a Date). Categóricas: 1, numéricas: 8
M1 = M[, c(-1,-2, -3)]
Mo = na.omit(M1)
# M1 = M[condicion_fila, condicion_columna]
M2 = Mo[, 1:4]
write.csv(M2,"Misdatos4.csv")
M2 = read.csv("Misdatos4.csv")
Nota: Muestreo de los datos con remplazo es que se pueden seleccionar los mismos resultados mas de una vez en cambio si no tiene remplazo los datos no se pueden repetir mas de una vez.
indice = sample(1:7576, 1000, replace = FALSE)
M3 = M2[indice,c(-1)]
summary(M3)
## CO CO2 NO NO2
## Min. :0.000 Min. : 0.000 Min. : 0.00 Min. : 5.00
## 1st Qu.:0.210 1st Qu.: 2.000 1st Qu.: 4.00 1st Qu.:19.00
## Median :0.350 Median : 3.000 Median : 9.00 Median :26.00
## Mean :0.432 Mean : 5.558 Mean : 18.84 Mean :27.63
## 3rd Qu.:0.580 3rd Qu.: 6.000 3rd Qu.: 21.00 3rd Qu.:34.00
## Max. :1.880 Max. :101.000 Max. :216.00 Max. :93.00
plot(M3, col = "blue")
plot(M3$NO,M3$CO,main="NO - CO",pch=19, col="red")
abline(lm(M3$CO~M3$NO),col="blue")
M4 = lm(M3$CO~M3$NO)
coeff = M4$coefficients
print(paste("La ecuacion de la linea de tendenia es y =", round(coeff[2],2),"x +",round(coeff[1],2)))
## [1] "La ecuacion de la linea de tendenia es y = 0.01 x + 0.25"
cor(M3)
## CO CO2 NO NO2
## CO 1.0000000 0.1365578 0.8249579 0.6996303
## CO2 0.1365578 1.0000000 0.1761005 0.2206404
## NO 0.8249579 0.1761005 1.0000000 0.4696932
## NO2 0.6996303 0.2206404 0.4696932 1.0000000
par(mfrow = c(2,2))
hist(M3$CO, col =2:8)
hist(M3$CO2, col =2:8)
hist(M3$NO, col =2:8)
hist(M3$NO2, col =2:8)
La variable NO2 muestral tiene una distribucion de probabilidad casi normal. Por esto mismo decidimos analizarla.
desv_pob = sd(M2$NO2)
n = 1000
alpha = 1 - 95/(100)
z = qnorm(1-(alpha/2))
ma_err = (z*(desv_pob))/sqrt(n)
media_mues = mean(M3$NO2)
cat("z =", round(z,3), "\n")
## z = 1.96
cat("La media es:", round(media_mues,3), "\n")
## La media es: 27.628
cat("Desviacion estandar poblacional =", round(desv_pob,3), "\n")
## Desviacion estandar poblacional = 12.803
cat("El intervalo de confianza es [", round(media_mues - ma_err,3), ",", round(media_mues + ma_err,3), "]\n")
## El intervalo de confianza es [ 26.834 , 28.422 ]
cat("La media de el NO2 encontrado es", round(media_mues,3), ", es decir, el 95% de confianza de las medidias de NO2 estan entre", round(media_mues - ma_err,3),"y",round(media_mues + ma_err,3))
## La media de el NO2 encontrado es 27.628 , es decir, el 95% de confianza de las medidias de NO2 estan entre 26.834 y 28.422
s = sd(M3$NO2)
n = 1000
alpha = 1 - 95/(100)
t = qt(1-(alpha/2),n-1)
ma_err = (t*(s))/sqrt(n)
media_mues = mean(M3$NO2)
cat("t =", round(t,3), "\n")
## t = 1.962
cat("La media es:", round(media_mues,3), "\n")
## La media es: 27.628
cat("Desviacione standar muestral =", round(s,3), "\n")
## Desviacione standar muestral = 12.414
cat("El intervalo de confianza es [", round(media_mues - ma_err,3), ",", round(media_mues + ma_err,3), "]\n")
## El intervalo de confianza es [ 26.858 , 28.398 ]
cat("La media de el NO2 encontrado es", round(media_mues,3), ", es decir, el 95% de confianza de las medidias de NO2 estan entre", round(media_mues - ma_err,3),"y",round(media_mues + ma_err,3))
## La media de el NO2 encontrado es 27.628 , es decir, el 95% de confianza de las medidias de NO2 estan entre 26.858 y 28.398
Se propone como candidato a media poblacional a 27.5. Para tener mayor seguridad se harán algunas pruebas de hipótesis. Primero se hacen dos pruebas de hipótesis de una cola y luego una de dos colas.
Primero se considera una prueba de hipótesis de cola inferior. En este caso, las hipótesis se proponen como sigue
\[ \begin{array}{l} H_0: \ \mu \geq 27.5\\ H_a: \ \mu < 27.5\\ \end{array} \]
# Declaramos las variables de la media poblacional , alpha, tamaño de la poblacion y la media poblacional propuesta
alpha = 0.01
mu_propuesta = 27.5
n = 1000
# EStadistico de Prueba
z = (media_mues - mu_propuesta)/(desv_pob/sqrt(n))
valor_p = pnorm(z)
cat("El valor de P es:", valor_p,"\n")
## El valor de P es: 0.6240582
cat("El valor de aplha es:", alpha ,"\n")
## El valor de aplha es: 0.01
Como no se cumple que \(valor_p \leq alpha\) no hay suficiente evidencia para rechazar \(H_0\).
Ahora se usa el método del valor crítico con el mismo valor de significancia \(\alpha = 1\%\).
z = (media_mues - mu_propuesta)/(desv_pob/sqrt(n))
z_alpha = qnorm(alpha)
cat("El valor de Z es:", z ,"\n")
## El valor de Z es: 0.3161567
cat("El valor de Z aplha es:", z_alpha ,"\n")
## El valor de Z aplha es: -2.326348
Como no se cumple que \(z \leq z_\alpha\) no hay suficiente evidencia para rechazar \(H_0\).
Ahora se considera una prueba de hipótesis de cola superior. En este caso, las hipótesis se proponen como sigue
\[ \begin{array}{l} H_0: \ \mu \leq 27\\ H_a: \ \mu > 27\\ \end{array} \]
Primero se usa el método del valor_p con un nivel de significancia \(\alpha = 1\% = 0.01\).
alpha = 0.01
mu_propuesta = 27
# Estadistico de prueba
z = (media_mues - mu_propuesta)/(desv_pob/sqrt(n))
# Valor de P
area_izquierda = pnorm(z)
valor_p2 = 1 - area_izquierda
cat("El valor de P es:", valor_p2,"\n")
## El valor de P es: 0.06043362
cat("El valor de aplha es:", alpha ,"\n")
## El valor de aplha es: 0.01
Como no se cumple que \(valor_p \leq alpha\) no hay suficiente evidencia para rechazar \(H_0\).
Ahora se usa el método del valor crítico con el mismo valor de significancia \(\alpha = 1\%\).
alpha = 0.01
z = (media_mues - mu_propuesta)/(desv_pob/sqrt(n))
z_alpha = qnorm(1-alpha)
cat("El valor de Z es:", z ,"\n")
## El valor de Z es: 1.551144
cat("El valor de Z aplha es:", z_alpha ,"\n")
## El valor de Z aplha es: 2.326348
Como no se cumple que \(z \geq z_\alpha\) no hay suficiente evidencia para rechazar \(H_0\).
Finalmente, se aplica una prueba de hipótesis de dos colas
En este caso, las hipótesis se proponen como sigue
\[ \begin{array}{l} H_0: \ \mu = 27\\ H_a: \ \mu \neq 27\\ \end{array} \]
Primero se usa el método del valor_p con un nivel de significancia \(\alpha = 1\% = 0.01\).
mu_propuesta = 27
# el estadistico de prueba es
z = (media_mues - mu_propuesta)/(desv_pob/sqrt(n))
cat("El estadístico de prueba es ",z)
## El estadístico de prueba es 1.551144
Como \(z > 0\) se calcula el área bajo la curva normal estandar a la derecha de z
z_alpha1 = pnorm(z)
valor_p3 = 1 - (z_alpha1/2)
cat("El valor de P es:", valor_p3,"\n")
## El valor de P es: 0.5302168
cat("El valor de aplha es:", alpha ,"\n")
## El valor de aplha es: 0.01
Como no se cumple que \(valor_p \leq alpha\) no hay suficiente evidencia para rechazar \(H_0\).
Ahora se usa el método del valor crítico con el mismo valor de significancia \(\alpha = 1\%\).
alpha_1 = 0.01
alpha_2 = alpha_1/2
z_alpha_2 = qnorm(alpha_2)
z = (media_mues - mu_propuesta)/(desv_pob/sqrt(n))
cat("El valor de Z es:",z,"\n")
## El valor de Z es: 1.551144
cat("El valor de -Z alpha es:",z_alpha_2,"\n")
## El valor de -Z alpha es: -2.575829
cat("El valor de Z alpha es:",-z_alpha_2,"\n")
## El valor de Z alpha es: 2.575829
Como no se cumple que \(z \geq z_\alpha\) O \(z \leq -z_\alpha\) no hay suficiente evidencia para rechazar \(H_0\).
Se propone como candidato a media poblacional a 27.5. Para tener mayor seguridad se harán algunas pruebas de hipótesis. Primero se hacen dos pruebas de hipótesis de una cola y luego una de dos colas.
Primero se considera una prueba de hipótesis de cola inferior. En este caso, las hipótesis se proponen como sigue
\[ \begin{array}{l} H_0: \ \mu \geq 27.5\\ H_a: \ \mu < 27.5\\ \end{array} \]
# Declaramos las variables de la media poblacional , alpha, tamaño de la poblacion y la media poblacional propuesta
alpha = 0.01
mu_propuesta = 27.5
n = 1000
# EStadistico de Prueba
t = (media_mues - mu_propuesta)/(s/sqrt(n))
valor_p = pt(t, n-1)
cat("El valor de P es:", valor_p,"\n")
## El valor de P es: 0.6277796
cat("El valor de aplha es:", alpha ,"\n")
## El valor de aplha es: 0.01
Como no se cumple que \(valor_p \leq alpha\) no hay suficiente evidencia para rechazar \(H_0\).
Ahora se usa el método del valor crítico con el mismo valor de significancia \(\alpha = 1\%\).
t = (media_mues - mu_propuesta)/(s/sqrt(n))
t_alpha = qt(alpha, n-1)
cat("El valor de t es:", t ,"\n")
## El valor de t es: 0.3260687
cat("El valor de t aplha es:", t_alpha ,"\n")
## El valor de t aplha es: -2.330086
Como no se cumple que \(t \leq t_\alpha\) no hay suficiente evidencia para rechazar \(H_0\).
Ahora se considera una prueba de hipótesis de cola superior. En este caso, las hipótesis se proponen como sigue
\[ \begin{array}{l} H_0: \ \mu \leq 27\\ H_a: \ \mu > 27\\ \end{array} \]
Primero se usa el método del valor_p con un nivel de significancia \(\alpha = 1\% = 0.01\).
alpha = 0.01
mu_propuesta = 27
# Estadistico de prueba
t = (media_mues - mu_propuesta)/(s/sqrt(n))
# Valor de P
area_izquierda = pt(t, n-1)
valor_p2 = 1 - area_izquierda
cat("El valor de P es:", valor_p2,"\n")
## El valor de P es: 0.05498242
cat("El valor de aplha es:", alpha ,"\n")
## El valor de aplha es: 0.01
Como no se cumple que \(valor_p \leq alpha\) no hay suficiente evidencia para rechazar \(H_0\).
Ahora se usa el método del valor crítico con el mismo valor de significancia \(\alpha = 1\%\).
alpha = 0.01
t = (media_mues - mu_propuesta)/(s/sqrt(n))
t_alpha = qt(1-alpha, n-1)
cat("El valor de t es:", t ,"\n")
## El valor de t es: 1.599774
cat("El valor de t aplha es:", t_alpha ,"\n")
## El valor de t aplha es: 2.330086
Como no se cumple que \(t \geq t_\alpha\) no hay suficiente evidencia para rechazar \(H_0\).
Finalmente, se aplica una prueba de hipótesis de dos colas
En este caso, las hipótesis se proponen como sigue
\[ \begin{array}{l} H_0: \ \mu = 29\\ H_a: \ \mu \neq 29\\ \end{array} \]
Primero se usa el método del valor_p con un nivel de significancia \(\alpha = 1\% = 0.01\).
# el estadistico de prueba es
t = (media_mues - mu_propuesta)/(s/sqrt(n))
cat("El estadístico de prueba es ",t)
## El estadístico de prueba es 1.599774
Como \(t > 0\) se calcula el área bajo la curva normal estandar a la derecha de t
t_alpha1 = pt(t, n-1)
valor_p3 = 1 - (t_alpha1/2)
cat("El valor de P es:", valor_p3,"\n")
## El valor de P es: 0.5274912
cat("El valor de aplha es:", alpha ,"\n")
## El valor de aplha es: 0.01
Como no se cumple que \(valor_p \leq alpha\) no hay suficiente evidencia para rechazar \(H_0\).
Ahora se usa el método del valor crítico con el mismo valor de significancia \(\alpha = 1\%\).
alpha_1 = 0.01
alpha_2 = alpha_1/2
t_alpha_2 = qt(alpha_2, n-1)
t = (media_mues - mu_propuesta)/(s/sqrt(n))
cat("El valor de t es:",t,"\n")
## El valor de t es: 1.599774
cat("El valor de -t alpha es:",t_alpha_2,"\n")
## El valor de -t alpha es: -2.58076
cat("El valor de t alpha es:",-t_alpha_2,"\n")
## El valor de t alpha es: 2.58076
Como no se cumple que \(z \geq z_\alpha\) O \(z \leq -z_\alpha\) no hay suficiente evidencia para rechazar \(H_0\).