Leyendo los datos

M = read.csv("SP2-TLA2021-1.csv")

Explorando los datos

names(M)
## [1] "X"     "FECHA" "HORA"  "CO"    "CO2"   "NO"    "NO2"   "NOX"   "O3"

Se cuenta con 9 variables (columnas) y 7576 observaciones (filas): La fecha está como categórica (pero convertible a Date). Categóricas: 1, numéricas: 8

Eliminando variables categoricas y omitimos los NA

M1 = M[, c(-1,-2, -3)]
Mo = na.omit(M1)

Subconjuntos de la base de datos

# M1 = M[condicion_fila, condicion_columna]
M2 = Mo[, 1:4]
write.csv(M2,"Misdatos4.csv")

Muestreo aleatorio de 1000

M2 = read.csv("Misdatos4.csv")

Nota: Muestreo de los datos con remplazo es que se pueden seleccionar los mismos resultados mas de una vez en cambio si no tiene remplazo los datos no se pueden repetir mas de una vez.

indice = sample(1:7576, 1000, replace = FALSE)
M3 = M2[indice,c(-1)]

Explorando los datos de M3

summary(M3)
##        CO             CO2                NO              NO2       
##  Min.   :0.000   Min.   :  0.000   Min.   :  0.00   Min.   : 5.00  
##  1st Qu.:0.210   1st Qu.:  2.000   1st Qu.:  4.00   1st Qu.:19.00  
##  Median :0.350   Median :  3.000   Median :  9.00   Median :26.00  
##  Mean   :0.432   Mean   :  5.558   Mean   : 18.84   Mean   :27.63  
##  3rd Qu.:0.580   3rd Qu.:  6.000   3rd Qu.: 21.00   3rd Qu.:34.00  
##  Max.   :1.880   Max.   :101.000   Max.   :216.00   Max.   :93.00

El estudio estadistico para la variable CO es el siguiente:

  1. El valor minimo de CO es de 0
  2. El valor maximo de CO es de 2.26
  3. La mediana de los datos es de 0.35
  4. El promedio de los datos es de 0.4425
  5. El 25% de los datos son menores o iguales al valor de 0.2
  6. El 75% de los datos son menores o iguales al valor de 0.58

El estudio estadistico para la variable Co2 es el siguiente:

  1. El valor minimo de CO es de 0
  2. El valor maximo de CO es de 99
  3. La mediana de los datos es de 2
  4. El promedio de los datos es de 5.589
  5. El 25% de los datos son menores o iguales al valor de 2
  6. El 75% de los datos son menores o iguales al valor de 5

El estudio estadistico para la variable NO es el siguiente:

  1. El valor minimo de CO es de 5
  2. El valor maximo de CO es de 4
  3. La mediana de los datos es de 9
  4. El promedio de los datos es de 20.18
  5. El 25% de los datos son menores o iguales al valor de 4
  6. El 75% de los datos son menores o iguales al valor de 22

El estudio estadistico para la variable NO2 es el siguiente:

  1. El valor minimo de CO es de 5
  2. El valor maximo de CO es de 110
  3. La mediana de los datos es de 25
  4. El promedio de los datos es de 27.17
  5. El 25% de los datos son menores o iguales al valor de 18
  6. El 75% de los datos son menores o iguales al valor de 34
plot(M3, col = "blue")

Linea de Tendencia

plot(M3$NO,M3$CO,main="NO - CO",pch=19, col="red")
abline(lm(M3$CO~M3$NO),col="blue") 

M4 = lm(M3$CO~M3$NO) 
coeff = M4$coefficients
print(paste("La ecuacion de la linea de tendenia es y =", round(coeff[2],2),"x +",round(coeff[1],2)))
## [1] "La ecuacion de la linea de tendenia es y = 0.01 x + 0.25"

Matriz de Correlaciones

cor(M3)
##            CO       CO2        NO       NO2
## CO  1.0000000 0.1365578 0.8249579 0.6996303
## CO2 0.1365578 1.0000000 0.1761005 0.2206404
## NO  0.8249579 0.1761005 1.0000000 0.4696932
## NO2 0.6996303 0.2206404 0.4696932 1.0000000
  1. La correlacion de CO con CO2:
  1. La correlacion de CO con NO:
  1. La correlacion de CO con NO2:
  1. La correlacion de CO2 con NO
  1. La correlacion de CO2 con NO2
  1. La correlacion de NO con NO2
  1. La correlacion de las variables con ellas mismas

Histogramas

par(mfrow = c(2,2))
hist(M3$CO, col =2:8)
hist(M3$CO2, col =2:8)
hist(M3$NO, col =2:8)
hist(M3$NO2, col =2:8)

La variable NO2 muestral tiene una distribucion de probabilidad casi normal. Por esto mismo decidimos analizarla.

Intervalo de confiabilidad

1. Intervalo de confianza de la variable NO2 a partir de la media muestral conociendo la desviacion estandar pobalcional
desv_pob = sd(M2$NO2)
n = 1000
alpha = 1 - 95/(100)
z = qnorm(1-(alpha/2))

ma_err = (z*(desv_pob))/sqrt(n)
media_mues = mean(M3$NO2)

cat("z =", round(z,3), "\n")
## z = 1.96
cat("La media es:", round(media_mues,3), "\n")
## La media es: 27.628
cat("Desviacion estandar poblacional =", round(desv_pob,3), "\n")
## Desviacion estandar poblacional = 12.803
cat("El intervalo de confianza es [", round(media_mues - ma_err,3), ",", round(media_mues + ma_err,3), "]\n")
## El intervalo de confianza es [ 26.834 , 28.422 ]
cat("La media de el NO2 encontrado es", round(media_mues,3), ", es decir, el 95% de confianza de las medidias de NO2 estan entre", round(media_mues - ma_err,3),"y",round(media_mues + ma_err,3))
## La media de el NO2 encontrado es 27.628 , es decir, el 95% de confianza de las medidias de NO2 estan entre 26.834 y 28.422
2. Intervalo de confianza de la variable NO2 a partir de la media muestral sin conocer la desviacion estandar pobalcional
s = sd(M3$NO2)
n = 1000
alpha = 1 - 95/(100)
t = qt(1-(alpha/2),n-1)

ma_err = (t*(s))/sqrt(n)
media_mues = mean(M3$NO2)

cat("t =", round(t,3), "\n")
## t = 1.962
cat("La media es:", round(media_mues,3), "\n")
## La media es: 27.628
cat("Desviacione standar muestral =", round(s,3), "\n")
## Desviacione standar muestral = 12.414
cat("El intervalo de confianza es [", round(media_mues - ma_err,3), ",", round(media_mues + ma_err,3), "]\n")
## El intervalo de confianza es [ 26.858 , 28.398 ]
cat("La media de el NO2 encontrado es", round(media_mues,3), ", es decir, el 95% de confianza de las medidias de NO2 estan entre", round(media_mues - ma_err,3),"y",round(media_mues + ma_err,3))
## La media de el NO2 encontrado es 27.628 , es decir, el 95% de confianza de las medidias de NO2 estan entre 26.858 y 28.398

Prueba de hipotesis de NO2 con desviacion estandar poblacional conocida

Aproximación de la media poblacional haciendo pruebas de hipótesis

Se propone como candidato a media poblacional a 27.5. Para tener mayor seguridad se harán algunas pruebas de hipótesis. Primero se hacen dos pruebas de hipótesis de una cola y luego una de dos colas.

Prueba de cola inferor con desviación estandar de la población conocida. El estadistico de prueba es \(z = \frac{\overline{x} - \mu_0}{\sigma /\sqrt{n}}\).

1. Prueba de hipotesis de cola inferior

Primero se considera una prueba de hipótesis de cola inferior. En este caso, las hipótesis se proponen como sigue

\[ \begin{array}{l} H_0: \ \mu \geq 27.5\\ H_a: \ \mu < 27.5\\ \end{array} \]

# Declaramos las variables de la media poblacional , alpha, tamaño de la poblacion y la media poblacional propuesta
alpha = 0.01
mu_propuesta = 27.5
n = 1000

# EStadistico de Prueba
z = (media_mues - mu_propuesta)/(desv_pob/sqrt(n))

valor_p = pnorm(z)
cat("El valor de P es:", valor_p,"\n")
## El valor de P es: 0.6240582
cat("El valor de aplha es:", alpha ,"\n")
## El valor de aplha es: 0.01

Como no se cumple que \(valor_p \leq alpha\) no hay suficiente evidencia para rechazar \(H_0\).

Ahora se usa el método del valor crítico con el mismo valor de significancia \(\alpha = 1\%\).

z = (media_mues - mu_propuesta)/(desv_pob/sqrt(n))
z_alpha = qnorm(alpha)
cat("El valor de Z es:", z ,"\n")
## El valor de Z es: 0.3161567
cat("El valor de Z aplha es:", z_alpha ,"\n")
## El valor de Z aplha es: -2.326348

Como no se cumple que \(z \leq z_\alpha\) no hay suficiente evidencia para rechazar \(H_0\).

2. Prueba de hipotesis de cola superiror

Ahora se considera una prueba de hipótesis de cola superior. En este caso, las hipótesis se proponen como sigue

\[ \begin{array}{l} H_0: \ \mu \leq 27\\ H_a: \ \mu > 27\\ \end{array} \]

Primero se usa el método del valor_p con un nivel de significancia \(\alpha = 1\% = 0.01\).

alpha = 0.01
mu_propuesta = 27


# Estadistico de prueba 
z = (media_mues - mu_propuesta)/(desv_pob/sqrt(n))

# Valor de P
area_izquierda = pnorm(z)

valor_p2 = 1 - area_izquierda

cat("El valor de P es:", valor_p2,"\n")
## El valor de P es: 0.06043362
cat("El valor de aplha es:", alpha ,"\n")
## El valor de aplha es: 0.01

Como no se cumple que \(valor_p \leq alpha\) no hay suficiente evidencia para rechazar \(H_0\).

Ahora se usa el método del valor crítico con el mismo valor de significancia \(\alpha = 1\%\).

alpha = 0.01
z = (media_mues - mu_propuesta)/(desv_pob/sqrt(n))
z_alpha = qnorm(1-alpha)
cat("El valor de Z es:", z ,"\n")
## El valor de Z es: 1.551144
cat("El valor de Z aplha es:", z_alpha ,"\n")
## El valor de Z aplha es: 2.326348

Como no se cumple que \(z \geq z_\alpha\) no hay suficiente evidencia para rechazar \(H_0\).

3. Prueba de hipotesis de dos colas

Finalmente, se aplica una prueba de hipótesis de dos colas

En este caso, las hipótesis se proponen como sigue

\[ \begin{array}{l} H_0: \ \mu = 27\\ H_a: \ \mu \neq 27\\ \end{array} \]

Primero se usa el método del valor_p con un nivel de significancia \(\alpha = 1\% = 0.01\).

mu_propuesta = 27
# el estadistico de prueba es
z = (media_mues - mu_propuesta)/(desv_pob/sqrt(n))
cat("El estadístico de prueba es ",z)
## El estadístico de prueba es  1.551144

Como \(z > 0\) se calcula el área bajo la curva normal estandar a la derecha de z

z_alpha1 = pnorm(z)
valor_p3 = 1 - (z_alpha1/2)
cat("El valor de P es:", valor_p3,"\n")
## El valor de P es: 0.5302168
cat("El valor de aplha es:", alpha ,"\n")
## El valor de aplha es: 0.01

Como no se cumple que \(valor_p \leq alpha\) no hay suficiente evidencia para rechazar \(H_0\).

Ahora se usa el método del valor crítico con el mismo valor de significancia \(\alpha = 1\%\).

alpha_1 = 0.01
alpha_2 = alpha_1/2
z_alpha_2 = qnorm(alpha_2)
z = (media_mues - mu_propuesta)/(desv_pob/sqrt(n))
cat("El valor de Z es:",z,"\n")
## El valor de Z es: 1.551144
cat("El valor de -Z alpha es:",z_alpha_2,"\n")
## El valor de -Z alpha es: -2.575829
cat("El valor de Z alpha es:",-z_alpha_2,"\n")
## El valor de Z alpha es: 2.575829

Como no se cumple que \(z \geq z_\alpha\) O \(z \leq -z_\alpha\) no hay suficiente evidencia para rechazar \(H_0\).

Prueba de hipotesis de NO2 con desviacion estandar poblacional desconocida

Aproximación de la media poblacional haciendo pruebas de hipótesis

Se propone como candidato a media poblacional a 27.5. Para tener mayor seguridad se harán algunas pruebas de hipótesis. Primero se hacen dos pruebas de hipótesis de una cola y luego una de dos colas.

Prueba de cola inferor con desviación estandar de la población desconocida. El estadistico de prueba es \(t = \frac{\overline{x} - \mu_0}{S/\sqrt{n}}\).

1. Prueba de hipotesis de cola inferior

Primero se considera una prueba de hipótesis de cola inferior. En este caso, las hipótesis se proponen como sigue

\[ \begin{array}{l} H_0: \ \mu \geq 27.5\\ H_a: \ \mu < 27.5\\ \end{array} \]

# Declaramos las variables de la media poblacional , alpha, tamaño de la poblacion y la media poblacional propuesta
alpha = 0.01
mu_propuesta = 27.5
n = 1000

# EStadistico de Prueba
t = (media_mues - mu_propuesta)/(s/sqrt(n))

valor_p = pt(t, n-1)
cat("El valor de P es:", valor_p,"\n")
## El valor de P es: 0.6277796
cat("El valor de aplha es:", alpha ,"\n")
## El valor de aplha es: 0.01

Como no se cumple que \(valor_p \leq alpha\) no hay suficiente evidencia para rechazar \(H_0\).

Ahora se usa el método del valor crítico con el mismo valor de significancia \(\alpha = 1\%\).

t = (media_mues - mu_propuesta)/(s/sqrt(n))
t_alpha = qt(alpha, n-1)
cat("El valor de t es:", t ,"\n")
## El valor de t es: 0.3260687
cat("El valor de t aplha es:", t_alpha ,"\n")
## El valor de t aplha es: -2.330086

Como no se cumple que \(t \leq t_\alpha\) no hay suficiente evidencia para rechazar \(H_0\).

2. Prueba de hipotesis de cola superiror

Ahora se considera una prueba de hipótesis de cola superior. En este caso, las hipótesis se proponen como sigue

\[ \begin{array}{l} H_0: \ \mu \leq 27\\ H_a: \ \mu > 27\\ \end{array} \]

Primero se usa el método del valor_p con un nivel de significancia \(\alpha = 1\% = 0.01\).

alpha = 0.01
mu_propuesta = 27


# Estadistico de prueba 
t = (media_mues - mu_propuesta)/(s/sqrt(n))

# Valor de P
area_izquierda = pt(t, n-1)

valor_p2 = 1 - area_izquierda

cat("El valor de P es:", valor_p2,"\n")
## El valor de P es: 0.05498242
cat("El valor de aplha es:", alpha ,"\n")
## El valor de aplha es: 0.01

Como no se cumple que \(valor_p \leq alpha\) no hay suficiente evidencia para rechazar \(H_0\).

Ahora se usa el método del valor crítico con el mismo valor de significancia \(\alpha = 1\%\).

alpha = 0.01
t = (media_mues - mu_propuesta)/(s/sqrt(n))
t_alpha = qt(1-alpha, n-1)
cat("El valor de t es:", t ,"\n")
## El valor de t es: 1.599774
cat("El valor de t aplha es:", t_alpha ,"\n")
## El valor de t aplha es: 2.330086

Como no se cumple que \(t \geq t_\alpha\) no hay suficiente evidencia para rechazar \(H_0\).

3. Prueba de hipotesis de dos colas

Finalmente, se aplica una prueba de hipótesis de dos colas

En este caso, las hipótesis se proponen como sigue

\[ \begin{array}{l} H_0: \ \mu = 29\\ H_a: \ \mu \neq 29\\ \end{array} \]

Primero se usa el método del valor_p con un nivel de significancia \(\alpha = 1\% = 0.01\).

# el estadistico de prueba es
t = (media_mues - mu_propuesta)/(s/sqrt(n))
cat("El estadístico de prueba es ",t)
## El estadístico de prueba es  1.599774

Como \(t > 0\) se calcula el área bajo la curva normal estandar a la derecha de t

t_alpha1 = pt(t, n-1)
valor_p3 = 1 - (t_alpha1/2)
cat("El valor de P es:", valor_p3,"\n")
## El valor de P es: 0.5274912
cat("El valor de aplha es:", alpha ,"\n")
## El valor de aplha es: 0.01

Como no se cumple que \(valor_p \leq alpha\) no hay suficiente evidencia para rechazar \(H_0\).

Ahora se usa el método del valor crítico con el mismo valor de significancia \(\alpha = 1\%\).

alpha_1 = 0.01
alpha_2 = alpha_1/2
t_alpha_2 = qt(alpha_2, n-1)
t = (media_mues - mu_propuesta)/(s/sqrt(n))
cat("El valor de t es:",t,"\n")
## El valor de t es: 1.599774
cat("El valor de -t alpha es:",t_alpha_2,"\n")
## El valor de -t alpha es: -2.58076
cat("El valor de t alpha es:",-t_alpha_2,"\n")
## El valor de t alpha es: 2.58076

Como no se cumple que \(z \geq z_\alpha\) O \(z \leq -z_\alpha\) no hay suficiente evidencia para rechazar \(H_0\).