Avance Evidencia 1

Leyendo los datos

M = read.csv("SP2-TLA2021-1.csv")

Explorando los datos

names(M)

## [1] "X"     "FECHA" "HORA"  "CO"    "CO2"   "NO"    "NO2"   "NOX"   "O3"

Se cuenta con 9 variables (columnas) y 7576 observaciones (filas): La fecha está como categórica (pero convertible a Date). Categóricas: 1, numéricas: 8

Eliminando variables categoricas y omitimos los NA

M1 = M[, c(-1,-2, -3)]
Mo = na.omit(M1)

Subconjuntos de la base de datos

# M1 = M[condicion_fila, condicion_columna]
M2 = Mo[, 1:4]
write.csv(M2,"Misdatos4.csv")

Muestreo aleatorio de 1000

M2 = read.csv("Misdatos4.csv")

Nota: Muestreo de los datos con remplazo es que se pueden seleccionar los mismos resultados mas de una vez en cambio si no tiene remplazo los datos no se pueden repetir mas de una vez.

indice = sample(1:7576, 1000, replace = FALSE)
M3 = M2[indice,c(-1)]

Explorando los datos de M3

summary(M3)

##        CO              CO2               NO              NO2       
##  Min.   :0.0000   Min.   : 0.000   Min.   :  0.00   Min.   : 5.00  
##  1st Qu.:0.2200   1st Qu.: 2.000   1st Qu.:  4.00   1st Qu.:18.00  
##  Median :0.3600   Median : 3.000   Median :  9.00   Median :26.00  
##  Mean   :0.4487   Mean   : 4.963   Mean   : 20.48   Mean   :27.83  
##  3rd Qu.:0.5700   3rd Qu.: 5.000   3rd Qu.: 23.00   3rd Qu.:34.00  
##  Max.   :2.2600   Max.   :77.000   Max.   :208.00   Max.   :80.00

El estudio estadistico para la variable CO es el siguiente:

El valor minimo de CO es de 0
El valor maximo de CO es de 2.26
La mediana de los datos es de 0.35
El promedio de los datos es de 0.4425
El 25% de los datos son menores o iguales al valor de 0.2
El 75% de los datos son menores o iguales al valor de 0.58

El estudio estadistico para la variable Co2 es el siguiente:

El valor minimo de CO es de 0
El valor maximo de CO es de 99
La mediana de los datos es de 2
El promedio de los datos es de 5.589
El 25% de los datos son menores o iguales al valor de 2
El 75% de los datos son menores o iguales al valor de 5

El estudio estadistico para la variable NO es el siguiente:

El valor minimo de CO es de 5
El valor maximo de CO es de 4
La mediana de los datos es de 9
El promedio de los datos es de 20.18
El 25% de los datos son menores o iguales al valor de 4
El 75% de los datos son menores o iguales al valor de 22

El estudio estadistico para la variable NO2 es el siguiente:

El valor minimo de CO es de 5
El valor maximo de CO es de 110
La mediana de los datos es de 25
El promedio de los datos es de 27.17
El 25% de los datos son menores o iguales al valor de 18
El 75% de los datos son menores o iguales al valor de 34

plot(M3, col = "blue")

Linea de Tendencia

Al escoger la realcion de Co y No por tener una tendencia lineal se grafica la linea de tendencia.

plot(M3$NO,M3$CO,main="NO - CO",pch=19, col="red")
abline(lm(M3$CO~M3$NO),col="blue")

M4 = lm(M3$CO~M3$NO) 
coeff = M4$coefficients
print(paste("La ecuacion de la linea de tendenia es y =", round(coeff[2],2),"x +",round(coeff[1],2)))

## [1] "La ecuacion de la linea de tendenia es y = 0.01 x + 0.26"

Matriz de Correlaciones

cor(M3)

##             CO        CO2        NO       NO2
## CO  1.00000000 0.07425456 0.8162176 0.7270577
## CO2 0.07425456 1.00000000 0.1357913 0.1499574
## NO  0.81621763 0.13579130 1.0000000 0.4642975
## NO2 0.72705767 0.14995736 0.4642975 1.0000000

La correlacion de CO con CO2:

La correlacion es positiva y muy baja casi nula.

La correlacion de CO con NO:

La correlacion es positiva y alta.

La correlacion de CO con NO2:

La correlacion es positiva y alta.

La correlacion de CO2 con NO

La correlacion es positiva y muy baja.

La correlacion de CO2 con NO2

La correlacion es positiva y muy baja casi nula.

La correlacion de NO con NO2

La correlacion es positiva y moderada.

La correlacion de las variables con ellas mismas

La correlacion es positiva y perfecta.

Histogramas

par(mfrow = c(2,2))
hist(M3$CO, col =2:8)
hist(M3$CO2, col =2:8)
hist(M3$NO, col =2:8)
hist(M3$NO2, col =2:8)

La variable NO2 muestral tiene una distribucion de probabilidad casi normal.

Intervalo de confiabilidad

Intervalo de CO

s = sd(M3$CO)
n = length(M3$CO)
alpha = 1 - 95/(100)
t = qt(1-(alpha/2),n-1)

ma_err = t*(s)/sqrt(n)
media = mean(M3$CO)

cat("t =", round(t,3), "\n")

## t = 1.962

cat("La media es:", round(media,3), "\n")

## La media es: 0.449

cat("S =", round(s,3), "\n")

## S = 0.334

cat("El intervalo de confianza es[", round(media - ma_err,3), ",", round(media + ma_err,3), "]\n")

## El intervalo de confianza es[ 0.428 , 0.469 ]

cat("La media de el CO encontrado es", round(media,3), ", es decir, el 95% de confianza de las medidias de CO estan entre", round(media - ma_err,3),"y",round(media + ma_err,3))

## La media de el CO encontrado es 0.449 , es decir, el 95% de confianza de las medidias de CO estan entre 0.428 y 0.469

Intervalo de CO2

s = sd(M3$CO2)
n = length(M3$CO2)
alpha = 1 - 95/(100)
t = qt(1-(alpha/2),n-1)

ma_err = t*(s)/sqrt(n)
media = mean(M3$CO2)

cat("t =", round(t,3), "\n")

## t = 1.962

cat("La media es:", round(media,3), "\n")

## La media es: 4.963

cat("S =", round(s,3), "\n")

## S = 7.766

cat("El intervalo de confianza es[", round(media - ma_err,3), ",", round(media + ma_err,3), "]\n")

## El intervalo de confianza es[ 4.481 , 5.445 ]

cat("La media de el CO2 encontrado es", round(media,3), ", es decir, el 95% de confianza de las medidias de CO2 estan entre", round(media - ma_err,3),"y",round(media + ma_err,3))

## La media de el CO2 encontrado es 4.963 , es decir, el 95% de confianza de las medidias de CO2 estan entre 4.481 y 5.445

Intervalo de NO

s = sd(M3$NO)
n = length(M3$NO)
alpha = 1 - 95/(100)
t = qt(1-(alpha/2),n-1)

ma_err = t*(s)/sqrt(n)
media = mean(M3$NO)

cat("t =", round(t,3), "\n")

## t = 1.962

cat("La media es:", round(media,3), "\n")

## La media es: 20.476

cat("S =", round(s,3), "\n")

## S = 29.095

cat("El intervalo de confianza es[", round(media - ma_err,3), ",", round(media + ma_err,3), "]\n")

## El intervalo de confianza es[ 18.671 , 22.281 ]

cat("La media de el NO encontrado es", round(media,3), ", es decir, el 95% de confianza de las medidias de NO estan entre", round(media - ma_err,3),"y",round(media + ma_err,3))

## La media de el NO encontrado es 20.476 , es decir, el 95% de confianza de las medidias de NO estan entre 18.671 y 22.281

Intervalo de NO2

s = sd(M3$NO2)
n = length(M3$NO2)
alpha = 1 - 95/(100)
t = qt(1-(alpha/2),n-1)

ma_err = t*(s)/sqrt(n)
media = mean(M3$NO2)

cat("t =", round(t,3), "\n")

## t = 1.962

cat("La media es:", round(media,3), "\n")

## La media es: 27.826

cat("S =", round(s,3), "\n")

## S = 13.111

cat("El intervalo de confianza es[", round(media - ma_err,3), ",", round(media + ma_err,3), "]\n")

## El intervalo de confianza es[ 27.012 , 28.64 ]

cat("La media de el NO2 encontrado es", round(media,3), ", es decir, el 95% de confianza de las medidias de NO2 estan entre", round(media - ma_err,3),"y",round(media + ma_err,3))

## La media de el NO2 encontrado es 27.826 , es decir, el 95% de confianza de las medidias de NO2 estan entre 27.012 y 28.64