Evaluacion_U1

Equipo 4

5/4/2022

Evaluación Unidad de Competencia 1

Diferencias entre métodos supervisados y no supervisados

Los métodos supervisados son aquellos algoritmos que aprenden con base en los datos introducidos por un desarrollador y es este quien guía al algoritmo hacia las conclusiones que este debe de llegar, por lo que ya se tiene conocimiento acerca de los datos de salida del algoritmo.

Por otro lado, los métodos no supervisados no necesitan que la persona intervenga, sino que estos aprenden de datos que no están etiquetados. Este se encuentra más relacionado con la inteligencia artificial, ya que el sistema debe aprender por sí mismo utilizando solo los datos de entrada sin etiquetar, así mejorando el modelo conforme realiza pruebas usando dichos datos.

En los métodos supervisados se tiene el objetivo de predecir los resultados de los datos nuevos, donde ya se sabe de forma anticipada los resultados que se pueden esperar, mientras que los métodos no supervisados son utilizados para agrupar datos no estructurados y detectar patrones distintos.

Otra diferencia notoria entre los métodos, es la complejidad computacional que requieren, debido a que los métodos supervisados, son más simples y por lo general se calculan de forma más sencilla. Pero los métodos no supervisados necesitan herramientas más potentes para poder trabajar con grandes cantidades de datos no clasificados, por lo que llegan a requerir más recursos computacionales.

Proceso de resolución de problema usando ciencia de datos

1. Obtención de datos. Aquí se recopila la información necesaria acerca del tema en estudio.

2. Transformación de datos. Aquí se preparan los datos recopilados de una manera que sean procesables y amigables a los diferentes métodos de análisis que se usarán posteriormente en el estudio.

3. Análisis de datos recopilados. Se efectúa una revisión de los datos para poder determinar qué métodos serán los ideales para poder representar y analizar los datos de la mejor manera, de manera que se pueda construir una posible hipótesis al término de ello.

4. Creación y experimentación con múltiples modelos. Se aplican los modelos previamente determinados a los datos transformados para poder producir una serie de resultados posiblemente favorables.

5. Análisis de los resultados de dichos métodos y modelos. Aquí se toman los resultados lanzados de cada modelo y/o método utilizados para poder determinar si se realizaron datos significativos y si serán lo suficientemente relevantes para poder tomarlos a consideración en la hipótesis.

6. Proponer una hipótesis. Se toman todos los resultados lanzados por los modelos previamente usados para poder determinar un posible suceso, caso o causa que explique el porqué de los resultados.

Ejercicio

Librerías usadas

library(pacman)
p_load("tidyverse", "lubridate", "forecast", "TTR", "MLmetrics", "tseries", "fpp", "TSstudio", "xfun", "DT", "GGally", "corrplot", "gridExtra")
  • tidyverse: nos sirve para importar, transformar, visualizar y modelar la información que utilizamos en el análisis.
  • lubridate: nos sirve para simplificar la labor de trabajar con fechas y horas en R.
  • forecast: es útil para nombrar a las variables con nombres que son convenientes para nuestro estudio.
  • TTR: paquete que nos proporciona varias implementaciones rápidas de funciones comunes.
  • MLmetrics: colección de métricas que nos sirven para medir el rendimiento de regresión.
  • tseries: nos sirve para hacer análisis de series temporales.
  • fpp: brinda los conjuntos de datos necesarios para los ejemplos y ejercicios del libro “Pronósticos: principios y práctica”.
  • TSstudio: nos da un conjunto de herramientas para el análisis descriptivo y predictivo de datos de series temporales.
  • xfun: lo usamos para poder descargar los archivos.
  • DT: nos sirve para representar los datos en tablas.
  • GGally: nos sirve para hacer matrices con el conjunto de datos.
  • corrplot: es una herramienta para hacer exploración visual en una matriz de correlación.
  • gridExtra: nos da una serie de funciones a nivel de usuario para trabajar con gráficos de “cuadrícula”.

Datos usados

Porcentaje de Consumo de energías renovables en México

consumo_renovable <- read.csv("Mexico_Consumo_de_energia_renovable.csv", encoding = "UTF-8")
datatable(consumo_renovable)

Estos datos fueron obtenidos de la organización multinacional, banco mundial: Consumo de energía renovable (% del consumo total de energía final) | Data. (s. f.). Banco Mundial. https://datos.bancomundial.org/indicador/EG.FEC.RNEW.ZS?locations=MX, en donde se pueden conseguir todos los datos acerca del consumo de energía renovable de México.

consumo_renovable_ts = ts(consumo_renovable[2], start = c(1990), end = c(2018), frequency = 1)

plot(consumo_renovable_ts, main ="Consumo de energías renovables en México", xlab="año", ylab="porcentaje")

Porcentaje de producción de energías renovables en México

produccion_renovable <- read.csv("Mexico_Produccion_Energias_Renovables.csv", encoding = "UTF-8")
datatable(produccion_renovable)

Estos datos fueron obtenidos de la organización multinacional, banco mundial: Consumo de energía renovable (% del consumo total de energía final) | Data. (s. f.). Banco Mundial. https://datos.bancomundial.org/indicador/EG.ELC.RNWX.KH?locations=MX, en donde se pueden conseguir todos los datos acerca de producción de energías renovable de México.

produccion_renovable_ts = ts(produccion_renovable[2], start = c(1990), end = c(2015), frequency = 2)

plot(produccion_renovable_ts, main ="Produccion de energías renovables en México", xlab="año", ylab="Porcentaje")

Porcentaje de producción de energías no renovables en México

produccion_noRenovables <- read.csv("Mexico_Produccion_electricidad_petroleo_gas_carbon.csv", encoding = "UTF-8")
datatable(produccion_noRenovables)

Estos datos fueron obtenidos de la organización multinacional, banco mundial: Consumo de energía renovable (% del consumo total de energía final) | Data. (s. f.). Banco Mundial. https://datos.bancomundial.org/indicador/EG.ELC.FOSL.ZS?locations=MX, en donde se pueden conseguir todos los datos acerca de producción de energías no renovable de México.

produccion_noRenovables_ts = ts(produccion_noRenovables[2], start = c(1990), end = c(2015), frequency = 1)

plot(produccion_noRenovables_ts, main ="Producción de energías no renovables en México", xlab="año", ylab="Porcentaje")

Porcentaje de acceso a electricidad en México

acceso_electricidad <- read.csv("Mexico_acceso_electricidad.csv", encoding = "UTF-8")
datatable(acceso_electricidad)

Estos datos fueron obtenidos de la organización multinacional, banco mundial: Consumo de energía renovable (% del consumo total de energía final) | Data. (s. f.). Banco Mundial. https://datos.bancomundial.org/indicator/EG.ELC.ACCS.ZS?locations=MX, en donde se pueden conseguir todos los datos acerca de acceso a la electricidad en México.

acceso_electricidad_ts = ts(acceso_electricidad[2], start = c(1990), end = c(2015), frequency = 1)

plot(acceso_electricidad_ts, main ="Acceso a la electricidad en México", xlab="año", ylab="Porcentaje")

Introducción

El uso intensivo de la energía basada en la quema de combustibles de origen fósil como el petróleo, carbón y gas ha sido uno de los principales insumos del crecimiento económico durante varias décadas, tanto en países desarrollados como en desarrollo. Sin embargo, la externalidad negativa asociada al consumo de este tipo de combustibles son las emisiones de gases efecto invernadero.

Entre las opciones para reducir la dependencia del petróleo como principal energético, se reconsideró el mejor aprovechamiento de la energía solar y sus diversas manifestaciones secundarias tales como la energía eólica, hidráulica y las diversas formas de biomasa; es decir, las llamadas energías renovables.

Hoy en día, más de un cuarto de siglo después de la llamada crisis del petróleo, muchas de las tecnologías de aprovechamiento de energías renovables han madurado y evolucionado, aumentando su confiabilidad y mejorando su rentabilidad para muchas aplicaciones.

Como resultado, países como Estados Unidos, Alemania, España e Israel presentan un crecimiento muy acelerado en el número de instalaciones que aprovechan la energía solar de manera directa o indirectamente a través de sus manifestaciones secundarias.

Objetivos

Objetivo general Se tiene como objetivo en el presente documento el poder representar e interpretar el panorama de las energías renovables en México en base a información general acerca de su consumo, producción y acceso.

Objetivos particulares * Contrastar la producción de energías renovables con las no renovables de este sector con respecto al cambio. * Contrastar dichas variables con el acceso que la población tiene a estas. * Contrastar todo lo anterior con el consumo en general de las energías renovables al transcurrir el tiempo.

Planteamiento del problema Actualmente en México la mayoría de energía se consigue a través de fuentes no renovables, lo que trae problemas de contaminación debido a que los materiales que se utilizan en la generación de estas son dañinos para el medio ambiente, además de este hecho está el que casi todo el porcentaje de la población mexicana cuenta con acceso a las energías actualmente, lo que genera una demanda mayor y por ende se tienen que utilizar más materiales dañinos para la producción.

Marco teórico

Las principales fuentes de energía se pueden clasificar en renovables y no renovables. Donde las fuentes renovables son aquellas que se pueden obtener a partir de procesos permanentes y naturales, las cuales pueden ser explotadas económicamente. Y las fuentes no renovables son aquéllas que son extraídas de los depósitos geológicos que se forman a partir de biomasa, además de los combustibles secundarios que son producidos a partir de los combustibles fósiles.

Fuente: Secretaría de Energía, Balance Nacional de Energía 2009, 2018 , México.

Desde hace décadas ha sido evidente la necesidad de explorar nuevas alternativas para la generación de energía, que además de que tengan un menor costo económico, estas también pueden tener un menor impacto negativo en el medio ambiente. Es por ello que se han desarrollado nuevas propuestas de generación de energía, las cuales son conocidas como “energías renovables”. Existe una gran variedad de fuentes de energía renovables, pero las más difundidas y con mayor producción son la hidráulica, eólica, solar y geotérmica.

Respecto al panorama mundial de las energías renovables, se ha visto un incremento constante en la producción de energías limpias en las últimas décadas, ya que según cifras de la Agencia Internacional de Energías Renovables (IRENA), sólo entre 2010 y 2019 la capacidad de producción a escala mundial se duplicó de forma impresionante.

Fuente: https://www.inecol.mx/inecol/index.php/es/2017-06-26-16-35-48/17-ciencia-hoy/1526-energias-renovables-en-mexico

Video de Imagen Radio hablando del tema: Panorama de las energías renovables en México | Imagen Empresarial

embed_url(“https://www.youtube.com/watch?v=mC11v1u1KKY”)

Método

  • Análisis de serie de tiempo (TSA): Cuenta con dos enfoques, uno consta de reconocer como lo que sucede hoy es influenciado por lo que sucedió en el pasado, el otro es como lo que sucede hoy afectará a lo que sucederá en el futuro. En este caso se utiliza para entender cómo lo sucedido en el pasado afecta a lo que sucede actualmente.

  • Regresión lineal múltiple: Te permite generar un modelo lineal en el que el valor de la variable dependiente se determina a partir de variables independientes denominadas predictores, estos modelos pueden emplearse para predecir el valor de la variable dependiente o evaluar la influencia de los predictores sobre esta. En este caso se utiliza para evaluar la influencia que tienen sobre la producción de energías renovables las variables de acceso a la electricidad, producción de energías no renovables y el consumo de energía renovable.

  • Análisis de correlación: Este consiste en un procedimiento estadístico para determinar si dos variables están relacionadas o no. El resultado del análisis es un coeficiente de correlación que puede tomar valores entre -1 y +1. El signo indica el tipo de correlación entre las dos variables. Dependiendo del valor que se arroje en la matriz de correlación se podrá determinar la intensidad con la que las variables se encuentran correlacionadas.

Resultados y discusión

Decomponer una serie de tiempo en sus partes principales

produccion_renovables_dc <- produccion_renovable_ts %>%
  decompose(type = "multiplicative") %>%
  autoplot()
produccion_renovables_dc

División de los datos para validación cruzada

test_renovables <- tail(produccion_renovable_ts, 5) #20% para pruebas

train_renovables <- head(produccion_renovable_ts, length(produccion_renovable_ts)-5) #80% para entrenamiento

Ajuste del modelo - Holt-Winters

renovables_ses <- HoltWinters(train_renovables, seasonal = "multiplicative",)
renovables_ses
## Holt-Winters exponential smoothing with trend and multiplicative seasonal component.
## 
## Call:
## HoltWinters(x = train_renovables, seasonal = "multiplicative")
## 
## Smoothing parameters:
##  alpha: 0.5395848
##  beta : 0.241364
##  gamma: 0.09391421
## 
## Coefficients:
##          [,1]
## a  18.3218710
## b  -0.3406470
## s1  1.0103841
## s2  0.9737065

Forecasting

renovables_forecast <- forecast(object = renovables_ses, h = 8)

produccion_renovable_ts %>%
  autoplot(series = "Datos reales") +
  autolayer(renovables_forecast$fitted, series = "Datos de entrenamiento") +
  autolayer(renovables_forecast$mean, series = "Datos de prueba") +
  theme_minimal()
## Warning: Removed 2 row(s) containing missing values (geom_path).

Datos a utilizar

datos <- data.frame(produccion_noRenovables$Producción.de.electricidad.a.partir.de.fuentes.de.petróleo..gas.y.carbón[22:45], produccion_renovable$Porcentaje.de.producción.de.energías.renovables[3:26], consumo_renovable$Porcentaje.del.consumo.total.de.energía.final[3:26], acceso_electricidad$Porcentaje.población.con.acceso[1:24])
colnames(datos) <- c('pEnergias_noRenovables', 'pEnergias_renovables', 'cEnergias_renovables', 'acceso_electricidad')
datatable(datos)

Analizar la relación entre variables

round(cor(x = datos, method = "pearson"), 3)
##                        pEnergias_noRenovables pEnergias_renovables
## pEnergias_noRenovables                  1.000               -1.000
## pEnergias_renovables                   -1.000                1.000
## cEnergias_renovables                   -0.931                0.931
## acceso_electricidad                     0.781               -0.781
##                        cEnergias_renovables acceso_electricidad
## pEnergias_noRenovables               -0.931               0.781
## pEnergias_renovables                  0.931              -0.781
## cEnergias_renovables                  1.000              -0.880
## acceso_electricidad                  -0.880               1.000

Análisis de correlación

ggpairs(datos, lower = list(continuous ="smooth"),
        diag = list (continuos = "barDiag"), axisLabels = "none")

Matriz de correlación

corrplot(cor(dplyr::select(datos, pEnergias_noRenovables, pEnergias_renovables, cEnergias_renovables, acceso_electricidad)),
         method = "number", tl.col = "black")

Regresión lineal multiple

Primer modelo de regresión lineal

modelo<- lm(pEnergias_renovables ~ cEnergias_renovables, data=datos)
summary(modelo)
## 
## Call:
## lm(formula = pEnergias_renovables ~ cEnergias_renovables, data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.2518 -1.1677 -0.0472  1.2344  2.5841 
## 
## Coefficients:
##                      Estimate Std. Error t value Pr(>|t|)    
## (Intercept)           -5.6598     2.3033  -2.457   0.0224 *  
## cEnergias_renovables   2.5057     0.2094  11.966  4.2e-11 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.608 on 22 degrees of freedom
## Multiple R-squared:  0.8668, Adjusted R-squared:  0.8608 
## F-statistic: 143.2 on 1 and 22 DF,  p-value: 4.196e-11
y = -5.6598 - (2.5057 * 12.23845)
y
## [1] -36.32568
y - 22.66873
## [1] -58.99441
plot(datos$pEnergias_renovables, datos$cEnergias_renovables)
abline(modelo)

modelo2<-lm(pEnergias_renovables ~ cEnergias_renovables + pEnergias_noRenovables + acceso_electricidad, data = datos )
summary(modelo2)
## 
## Call:
## lm(formula = pEnergias_renovables ~ cEnergias_renovables + pEnergias_noRenovables + 
##     acceso_electricidad, data = datos)
## 
## Residuals:
##        Min         1Q     Median         3Q        Max 
## -4.424e-14 -1.140e-14 -1.521e-15  1.013e-14  7.280e-14 
## 
## Coefficients:
##                          Estimate Std. Error    t value Pr(>|t|)    
## (Intercept)             1.000e+02  8.578e-13  1.166e+14  < 2e-16 ***
## cEnergias_renovables   -2.637e-14  1.163e-14 -2.268e+00  0.03457 *  
## pEnergias_noRenovables -1.000e+00  3.288e-15 -3.041e+14  < 2e-16 ***
## acceso_electricidad    -2.485e-14  6.620e-15 -3.753e+00  0.00125 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.42e-14 on 20 degrees of freedom
## Multiple R-squared:      1,  Adjusted R-squared:      1 
## F-statistic: 2.431e+29 on 3 and 20 DF,  p-value: < 2.2e-16
step(object= modelo2, direction="both", trace= 1)
## Start:  AIC=-1501.28
## pEnergias_renovables ~ cEnergias_renovables + pEnergias_noRenovables + 
##     acceso_electricidad
## Warning: attempting model selection on an essentially perfect fit is nonsense
##                          Df Sum of Sq    RSS      AIC
## <none>                                 0.000 -1501.28
## - cEnergias_renovables    1     0.000  0.000 -1498.83
## - acceso_electricidad     1     0.000  0.000 -1490.49
## - pEnergias_noRenovables  1    54.181 54.181    25.54
## 
## Call:
## lm(formula = pEnergias_renovables ~ cEnergias_renovables + pEnergias_noRenovables + 
##     acceso_electricidad, data = datos)
## 
## Coefficients:
##            (Intercept)    cEnergias_renovables  pEnergias_noRenovables  
##              1.000e+02              -2.637e-14              -1.000e+00  
##    acceso_electricidad  
##             -2.485e-14
modelo3<-lm(pEnergias_renovables ~ cEnergias_renovables + pEnergias_noRenovables + acceso_electricidad, data = datos )
summary(modelo3)
## 
## Call:
## lm(formula = pEnergias_renovables ~ cEnergias_renovables + pEnergias_noRenovables + 
##     acceso_electricidad, data = datos)
## 
## Residuals:
##        Min         1Q     Median         3Q        Max 
## -4.424e-14 -1.140e-14 -1.521e-15  1.013e-14  7.280e-14 
## 
## Coefficients:
##                          Estimate Std. Error    t value Pr(>|t|)    
## (Intercept)             1.000e+02  8.578e-13  1.166e+14  < 2e-16 ***
## cEnergias_renovables   -2.637e-14  1.163e-14 -2.268e+00  0.03457 *  
## pEnergias_noRenovables -1.000e+00  3.288e-15 -3.041e+14  < 2e-16 ***
## acceso_electricidad    -2.485e-14  6.620e-15 -3.753e+00  0.00125 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.42e-14 on 20 degrees of freedom
## Multiple R-squared:      1,  Adjusted R-squared:      1 
## F-statistic: 2.431e+29 on 3 and 20 DF,  p-value: < 2.2e-16
confint(lm(formula= pEnergias_renovables ~ cEnergias_renovables + pEnergias_noRenovables + acceso_electricidad, data=datos))
##                                2.5 %        97.5 %
## (Intercept)             1.000000e+02  1.000000e+02
## cEnergias_renovables   -5.061869e-14 -2.115241e-15
## pEnergias_noRenovables -1.000000e+00 -1.000000e+00
## acceso_electricidad    -3.865592e-14 -1.103715e-14
plot1 <- ggplot(data= datos, aes(pEnergias_renovables, modelo$residuals)) + geom_point() + geom_smooth(color= "firebrick") + 
  geom_hline(yintercept= 0) + theme_bw()
plot2 <- ggplot(data= datos, aes(cEnergias_renovables, modelo$residuals)) + geom_point() + geom_smooth(color= "firebrick") + 
  geom_hline(yintercept= 0) + theme_bw()
plot3 <- ggplot(data= datos, aes(pEnergias_noRenovables, modelo$residuals)) + geom_point() + geom_smooth(color= "firebrick") + geom_hline(yintercept= 0) + theme_bw()
plot4 <- ggplot(data= datos, aes(acceso_electricidad, modelo$residuals)) + geom_point() + geom_smooth(color= "firebrick") + geom_hline(yintercept= 0) + theme_bw()
grid.arrange(plot1, plot2, plot3, plot4)
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'

qqnorm(modelo3$residuals)
qqline(modelo3$residuals)

shapiro.test(modelo$residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  modelo$residuals
## W = 0.97576, p-value = 0.8069
ggplot(data= datos, aes(modelo$fitted.values, modelo$residuals)) +  geom_point() + 
geom_smooth(color = "firebrick", se = FALSE) + geom_hline(yintercept = 0) + theme_bw()
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'

Conclusión

Una vez analizados los datos, podemos decir que la predicción obtenida no fue del todo precisa debido a que existe bastante variabilidad, pero, por otro lado, si logramos visualizar una buena relación entre el consumo de energías renovables, la producción de energías no renovables y otras variables. Otro punto que es bastante notorio, es que al comparar los dos tipos de producción de energías, se puede ver una gran superioridad de las energías no renovables con respecto a las energías renovables, lo que se ve bastante reflejado en nuestro país, ya que existe bastante contaminación en este mismo. Es por ello que hay que considerar la utilización más frecuente de las energías renovables.

Bibliografía

https://datos.bancomundial.org/indicador/EG.FEC.RNEW.ZS?locations=MX

https://datos.bancomundial.org/indicador/EG.ELC.RNWX.KH?locations=MX

https://datos.bancomundial.org/indicador/EG.ELC.FOSL.ZS?locations=MX

https://datos.bancomundial.org/indicator/EG.ELC.ACCS.ZS?locations=MX

ENCISO-CHÁVEZ, N. A. (2019). Antecedentes, perspectivas y potencial de la energía solar fotovoltaica en la industria en Puebla, México. Revista de Energía Renovables, 18.

Rodolfo, A. E. E., & Vargas-Hernández, J. G. ENERGÍAS RENOVABLES EN MÉXICO. DESARROLLO Y PANORAMA DE LA ENERGÍA FOTOVOLTAICA.

Descarga el codigo

xfun::embed_file("Evaluacion_U1.rmd")

Download Evaluacion_U1.rmd

xfun::embed_file("Mexico_Consumo_de_energia_renovable.csv")

Download Mexico_Consumo_de_energia_renovable.csv

xfun::embed_file("Mexico_Produccion_Energias_Renovables.csv")

Download Mexico_Produccion_Energias_Renovables.csv

xfun::embed_file("Mexico_Produccion_electricidad_petroleo_gas_carbon.csv")

Download Mexico_Produccion_electricidad_petroleo_gas_carbon.csv

xfun::embed_file("Mexico_acceso_electricidad.csv")

Download Mexico_acceso_electricidad.csv