Introducción

Tema: Emisiones de CO2

Base de datos: https://www.kaggle.com/datasets/debajyotipodder/co2-emission-by-vehicles

Descripción base de datos: Este conjunto de datos recoge los detalles de cómo pueden variar las emisiones de CO2 de un vehículo en función de sus diferentes características. El conjunto de datos se ha extraído del sitio web oficial de datos abiertos del Gobierno de Canadá. Se trata de una versión compilada. Contiene datos de un periodo de 7 años. Hay un total de 7.385 filas y 11 columnas. Se han utilizado algunas abreviaturas para describir las características, descritas más adelante en las variables. Variables: Para este proyecto tenemos variables cuantitativas y cualitativas como lo son:

Problema a analizar e importancia

El problema a analizar son las emisiones de CO2 por vehículos. El análisis será realizado utilizando una base de datos sobre emisiones de CO2 en Canadá en un periodo de 7 años, tomando información del gobierno de Canadá, recolectada desde el 2013 hasta el 2020. Este estudio se realiza con el objetivo de determinar la influencia de diferentes variables, como el modelo del vehículo, la transmisión y tipo de combustible en la emisión de CO2 vehiculares.

Según la OMS, la exposición al aire contaminado cobra 7 millones de vidas a nivel mundial, y causa la pérdida de millones de años de vida saludables en todo el mundo (Calidad Del Aire, 2024). Entre los causantes de la contaminación del aire se encuentran las emisiones vehiculares,en donde los automóviles particulares generan un 18% de las emisiones de CO2 en el mundo. En respuesta a esto se surgen diferentes alternativas, como los vehículos de cero emisión y las restricciones y legislaciones contra el uso de la gasolina. La importancia de estudiar la relación entre las diferentes variables relacionadas con la emisión vehicular es que en base a los datos y estadísticas obtenidas, se pueden idear estrategias que ayuden a mitigar el problema de la contaminación de CO2 en todo el mundo.

Objetivo general:

Analizar las emisiones de CO2 por vehículos en Canadá desde el 2013 hasta el 2020, entendiendo cómo se relacionan las características de cada vehículo con su impacto en el medio ambiente a través del análisis de variables como emisiones de CO2 y consumo de combustible y a partir de esto identificar cual vehiculo es el más perjudicial para el medio ambiente.

Objetivos Específicos:

  • Comparar cómo distintas variables afectan las emisiones de CO2 mediante un análisis de regresión lineal, determinando cuales tienen el mayor impacto en las emisiones de CO2.

  • Establecer diferencias significativas en las emisiones de CO2 entre los vehículos que utilizan diferentes tipos de combustible (gasolina, diésel, etanol, etc.).

  • Identificar qué características tienen los vehículos que superan un umbral de emisiones de CO2 de 200 g/km (altamente contaminante) en relación con su tipo de combustible, tamaño del motor y consumo de combustible.(Transporte, 2020)

Metodología

A continuación, se realizó una exploración de datos involucrando diferentes análisis tanto de variables cuantitativas como cualitativas de la base de datos. Entre estos se analizaron los indicadores estadísticos y gráficos de densidad y ojiva de las variables Consumo de combustible Combinado (L/km) y Emisiones de CO2 (g/Km), el coeficiente de correlación lineal de múltiples variables, y la relación entre Consumo de combustible con el tipo de combustible del carro mediante el uso de un boxplot.

Posterior al análisis de estas variables y sus relaciones se propusieron 2 intervalos de confianza para las variables cuantitativas Consumo de combustible Combinado (L/km) y Emisiones de CO2 (g/Km) utilizando el comando t.test, además de estos intervalos se realizo un intervalo para la variable cualitativa tipo de combustible y finalmente se realizó una prueba de hipótesis sobre las emisiones de CO2 de nuestra muestra, calculando el estadístico de prueba haciendo uso de R.

Exploración de los datos

Análisis Univariado variables cuantitativas

Emisiones de CO2(g/Km)

Indicadores de la variable:

summary(`Emisiones de CO2(g/km)`)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    96.0   208.0   246.0   250.6   288.0   522.0
desviacion_estandar <- sd(`Emisiones de CO2(g/km)`)
paste("Desviación estandar:",desviacion_estandar)
## [1] "Desviación estandar: 58.5126793944065"
coeficiente_variacion <- (desviacion_estandar / mean(`Emisiones de CO2(g/km)`)) * 100
paste("Coeficiente de desviación:",coeficiente_variacion,"%")
## [1] "Coeficiente de desviación: 23.3504598224811 %"

Gráficos de Densidad y Ojiva:

Esta gráfica muestra en el eje horizontal las emisiones en gramos de CO2 por kilómetro y en el eje vertical la densidad (probabilidad relativa). Con respecto a la distribución de emisiones de CO2, la curva de densidad es de forma asimétrica positiva, con un pico en un rango entre 150 y 250 g/km lo cual indica que la mayoría de vehículos emiten gran cantidad de CO2 y están concentradas en este rango; después de alcanzar este pico, se observa que la curva disminuye gradualmente, hasta los 500 g/km indicando una cantidad existente de vehículos que emiten grandes emisiones de CO2, lo que podría estar asociado con vehículos de mayor tamaño o menos eficientes. Además, los datos tienen un coeficiente de variación que corresponde a una separación heterogénea entre los datos.

Desde el punto de vista ambiental, la mayoría de los vehículos generan una cantidad considerable de emisiones (alrededor de 200 g/km), lo que es considerado relativamente alto. Si se desea reducir el impacto ambiental, hay que estudiar el tipo de vehículos que generan estas cantidades de emisiones y generar soluciones alternativas, como nuevas tecnologías o regulaciones para los desplazamientos, impulsando a las personas a tener vehículos más eficientes en términos de emisiones de CO2.

Consumo de Combustible (L/100Km)

Indicadores de la variable:

summary(`Consumo de Combustible Comb (L/100 km)`)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    4.10    8.90   10.60   10.98   12.60   26.10
desviacion_estandar <- sd(`Consumo de Combustible Comb (L/100 km)`)
paste("Desviación estandar:",desviacion_estandar)
## [1] "Desviación estandar: 2.89250630289847"
coeficiente_variacion <- (desviacion_estandar / mean(`Consumo de Combustible Comb (L/100 km)`)) * 100
paste("Coeficiente de desviación:",coeficiente_variacion,"%")
## [1] "Coeficiente de desviación: 26.3552397899409 %"

Gráficos de Densidad y Ojiva:

Esta gráfica muestra en el eje horizontal el consumo de combustible en L/100Km y en el eje vertical la densidad (probabilidad relativa). Con respecto a la distribución del consumo de combustible, la curva de densidad es de forma asimétrica positiva, con un pico en 10 L/100Km lo cual indica que la mayoría de vehículos consumen o gastan esta cantidad de combustible; después de alcanzar este pico, se observa que la curva disminuye gradualmente, hasta los 27 L/100km indicando una cantidad existente de vehículos que consumen grandes cantidades de combustible, lo que podría estar asociado con vehículos de mayor tamaño o menos eficientes. Además, los datos tienen un coeficiente de variación que corresponde a una separación heterogénea entre los datos.

Relación lineal:

Haciendo uso de R, se importó la base de datos y se realizaron múltiples gráficos para la visualización de los datos. A continuación se pueden observar los gráficos que representan la correlación lineal de Pearson entre 4 diferentes variables cuantitativas de la base de datos: Emisiones de CO2, Tamaño del Motor, Cilindros y Consumo de Combustible.

Correlaciones entre Emisiones de CO2, Tamaño del Motor, Cilindros y Consumo de Combustible mostrado también de forma numérica.

Correlaciones entre Emisiones de CO2, Tamaño del Motor, Cilindros y Consumo de Combustible, en la gráfica se diferencian con colores el tipo de combustible, Verde: E, Rojo: Z , Azul: D, Naranja: X

Primeramente, se observa de manera evidente el alto coeficiente de correlación lineal entre las variables cuantitativas

Se puede apreciar por el coeficiente de correlación lineal en todos los estudios hechos es alto, lo que indica que las variables se relacionan de una forma lineal. Esto tiene sentido, pues el tamaño del motor, número de cilindros y el consumo de combustible se relacionan cercanamente con las emisiones de CO2 que puede tener un vehículo. Especialmente se puede apreciar que la variable más relacionada con las emisiones de CO2 es el consumo de combustible, lo cual es coherente con la idea de que con mayor consumo de gasolina mayores serán las emisiones de CO2 de un vehículo.

Relación variable cualitativa con cuantitativa

Para comparar como los tipos de combustible se relacionan con las emisiones de CO2 se realizo un boxplot que compara estas 2 variable:

Boxplot relacionando los diferentes tipos de combustibles con Emisiones de CO2, D: Diesel, E: Etanol(E85), N: Gas natural, X: Gasolina regular, Z: Gasolina premium.

En un primer vistazo destaca en la gráfica que de todos los autos en la base de datos solo uno hace uso de gas natural, de ahí en fuera se puede ver que por cada gasolina sus datos varían significativamente, aquellos carros que usan Diesel presentan una mediana de alrededor 250 y tienen la menor varianza de todos los combustibles, por su parte la gasolina regular presenta una mediana menor de alrededor 230 pero varia en gran medida, teniendo datos con emisiones tan bajas como 100 g/Km de CO2 hasta casi 500 g/Km, los vehículos con etanol presentan la mayor mediana entre todos los combustibles y una varianza entre el Diesel y la gasolina regular, por último la gasolina premium tiene una distribución similar a la regular pero llega a mayores emisiones y presenta una mayor varianza a partir de su segundo cuartil.

Todos estos datos logran relacionar las emisiones con el tipo de gasolina que utiliza el vehículo pero también resalta el hecho que el tipo de gasolina puede llegar a ser solo una de muchas variables que influyen en las emisiones, se puede ver que aquellos vehículos que utilicen Diesel son más homogéneos entre ellos no variando tanto en sus emisiones por lo que podríamos inferir que los vehículos que utilizan Diesel tienden a tener otras características similares entre ellos, mientras que los vehículos que utilizan gasolina natural o premium varían mucho en sus emisiones y esto puede indicar que los vehículos que utilizan gasolina regular o premium son muy heterogéneos entre ellos y son otras características aparte del combustible las que ayudan a determinar esas emisiones de CO2.

Estimación de datos poblaciones mediante intervalos de confianza e hipótesis

Intervalos de Confianza cuantitativos

En primer lugar, se escogieron las dos variables cuantitativas a utilizar para los intervalos de confianza, las cuales fueron Emisiones de CO2 y uso de combustible combinado. Para este análisis se planteó nominalmente un nivel de confianza de 95% para los intervalos y se tomaron las siguientes consideraciones para determinar que formula utilizar para encontrar el intervalo de confianza: tamaño de la muestra, desviación estándar y su distribución. Para el caso de la base de datos y de estas variables, la muestra es grande (n≥30), se conoce la desviación estándar calculada en la sección de análisis univariado y tienen una distribución No normal.

inter_emisiones <-t.test(x=`Emisiones de CO2(g/km)`, conf.level=0.95)
inter_emisiones$conf.int
## [1] 249.2500 251.9194
## attr(,"conf.level")
## [1] 0.95

Análisis de media poblacional en emisiones de CO2: Se utilizo el comando en R t.test con la cual se obtuvo de forma automática el intervalo de confianza (249.2500 , 251.9194) y para verificar que este intervalo de confianza si fuera exitoso, se comprobó con el promedio muestral también encontrado en la sección de análisis univariado, el cual es igual a 250.6, por lo que sí está en el intervalo y se concluye que es exitoso, por lo que la media poblacional se encuentra entre estos dos valores. Además, con este intervalo se pueden hacer análisis con respecto a las emisiones de CO2 de vehículos (autos)en Canadá, por lo que se puede decir, que si se toman otras muestras de autos diferentes a la analizada en la base de datos, hay un 95% de probabilidad de que la media de emisiones de CO2 de esa muestra se encuentre en el intervalo de confianza.

inter_comb <-t.test(x=`Consumo de Combustible Comb (L/100 km)`, conf.level=0.95)
inter_comb$conf.int
## [1] 10.90909 11.04105
## attr(,"conf.level")
## [1] 0.95

Análisis de media poblacional en uso de combustible combinado: Se utilizo el comando en R t.test con la cual se obtuvo de forma automática el intervalo de confianza (10.90909 , 11.04105) y para verificar que este intervalo de confianza si fuera exitoso, se comprobó con el promedio muestral también encontrado en la sección de análisis univariado, el cual es igual a 10.98 , por lo que sí está en el intervalo y se concluye que es exitoso, por lo que la media poblacional se encuentra entre estos dos valores. Además, con este intervalo se pueden hacer análisis con respecto al consumo de combustible de vehículos (autos) en Canadá, por lo que se puede decir, que si se toman otras muestras de autos diferentes a la analizada en la base de datos, hay un 95% de probabilidad de que la media de su consumo de combustible de esa muestra se encuentre en el intervalo de confianza.

Intervalos de confianza cualitativo

x<-sum(Emisiones$Combustible == "X")
n<-length(Combustible)
inter_tipo<-prop.test(x,n, conf.level=0.95)
inter_tipo$conf.int
## [1] 0.4810217 0.5039557
## attr(,"conf.level")
## [1] 0.95
propcomb<-x/n
propcomb
## [1] 0.4924848

Análisis de proporción en uso de combustible normal:La variable a utilizar para este intervalo de confianza fue la de tipos de combustible utilizados por los vehículos, donde se enfocó en la proporción de cuantos carros utilizan combustible normal, se planteó nominalmente un nivel de confianza de 95% para el intervalo y se tuvieron en cuenta los siguientes datos: la proporción de carros que utilizan combustible normal en la muestra escogida, n el tamaño de la muestra y el valor de la distribución normal con media cero y varianza uno (Z1- α/2). Se utilizo el comando en R prop.test con la cual se obtuvo de forma automática el intervalo de confianza (0.4810217 , 0.5039557) y para verificar que este intervalo de confianza si fuera exitoso, se comprobó con la proporción de carros que utilizan combustible normal en la muestra escogida la cual es 0.4924848 que se encuentra en la sección de intervalos de confianza cuantitativo, con este valor, se confirma que el intervalo de confianza es exitoso ya que esta proporción se encuentra en el intervalo de confianza. Además, con este intervalo se pueden hacer análisis con respecto a los tipos de combustible de vehículos (autos)en Canadá, por lo que se puede decir, que, si se toman otras muestras de autos diferentes a la analizada en la base de datos, hay un 95% de probabilidad de que entre el 48% y 50% utilicen combustible normal.

Prueba de hipótesis

Con base en la base de datos que se esta utilizando, se ha podido visualizar la distribución de datos cuantitativos como la emisión de CO2 de los vehículos, además de esto se conoce que el nivel de emisiones donde la contaminación es excesiva es alrededor de 200 g/Km. Revisando los indicadores de la variable Emisiones de CO2(g/Km) se puede ver que el primer cuartil comienza ya en alrededor de 208 g/Km de CO2 por lo que es seguro que al menos un 75% de los vehículos superan los 200 g/Km de CO2, teniendo todo esto en cuenta se plantea la prueba de hipótesis de que al menos un 78% de la muestra superan el umbral de 200 g/km

𝐻0: 𝑃 = 𝑝 𝑉𝑠 𝐻1: 𝑃 > 𝑝

donde P es la proporción de autos que superan el umbral y 𝑝 es 0.78

n<-length(`Emisiones de CO2(g/km)`)
x<-sum(Emisiones$`Emisiones de CO2(g/km)` >= 200)
prop<-x/n
p<-0.78
ES <- sqrt(p*(1-p)/n)  #K) Error estándar (= desviación estándar del estadístico)
Z <- (prop - p)/ES    #L) Valor de prueba
paste("Zc=", Z)
## [1] "Zc= 3.69957540341201"

Se rechaza la prueba nula si Zc>Z1-α

Como Zc>1.65 es verdad se rechaza la prueba nula y se puede decir que existe suficiente evidencia con un nivel de significancia de 0.05 para demostrar que el 78% de los vehículos superan el umbral de emisiones de CO2 de 200 g/Km.

Conclusión

El análisis realizado la base de datos en vehículos ha mostrado la influencia de varias características clave sobre las emisiones de CO2 , como el tamaño del motor, el número de cilindros, y especialmente el consumo de combustible, todas estas variables guardan una relación lineal fuerte con las emisiones. Los vehículos que consumen más combustible tienden a generar mayores emisiones, lo cual es lógico dado su menor eficiencia consumiendo más combustible por kilómetro recorrido. Además, la variabilidad en las emisiones según el tipo de combustible utilizado, como diésel, gasolina regular o premium, revela que mientras algunos tipos, como el diésel, producen emisiones más consistentes indicando que aquellos vehículos con Diesel se parecen entre ellos, otros, como la gasolina, generan una mayor dispersión en los niveles de CO2, sugiriendo que los vehículos que utilizan este combustible varían en otros aspecto y son estos otros factores como el tamaño del motor o la cantidad de cilindros del vehículo también juegan un papel importante.

Además de estos datos hallados en los análisis de relaciones lineales y junto con variables cualitativas, están los análisis univariados cuyos indicadores llevan a datos interesantes, el primer cuartil de las Emisiones el cual está ubicado en 208 g/Km indica que menos del 25% de los vehículos en la base de datos cumplen con la condición de emitir menos de 200 g/Km y gracias al boxplot relacionando el tipo de combustible con las emisiones se puede ver que probablemente la mayoría de vehículos que cumplan la condición utilizan gasolina regular o premium.

Por otro lado, el calculo de diversos intervalos de confianza tanto para variables cuantitativas y cualitativas resulta de gran importancia para estimar el comportamiento de la población en base a una muestra, proporciona un rango dentro del cual es probable que se encuentre el valor verdadero de un parámetro de la población, como la media y la proporción sucesos según una variable. A su vez, mediante las pruebas de hipótesis se puede evaluar distintas suposiciones sobre la población con respecto a una muestra asi otorgando resultados confiables dentro del nivel de significancia elegido con los cuales se pueden tomar decisiones con fundamento para el proyecto.

En síntesis, estos hallazgos permiten comprender cómo diferentes variables influyen en las emisiones y como, a través de esta información, fue posible identificar los vehículos que superan o no los umbrales críticos de emisiones. Al conocer qué combinaciones de características provocan mayores niveles de contaminación, se pueden tomar decisiones informadas para mitigar el impacto ambiental, desde promover tecnologías más limpias hasta generar políticas que regulen vehículos con altos niveles de emisiones.

Referencias

Transporte. (2020, April 9). Emisiones de CO2 de los vehículos convencionales e híbridos. Ecologistas En Acción. https://www.ecologistasenaccion.org/16233/2-emisiones-de-co2-de-los-vehiculos-convencionales-e-hibridos/

Calidad del aire. (2024, October 11). OPS/OMS | Organización Panamericana De La Salud. https://www.paho.org/es/temas/calidad-aire

CO2 emission by vehicles. (2020, August 5). Kaggle. https://www.kaggle.com/datasets/debajyotipodder/co2-emission-by-vehicles