Evaluación Unidad de Competencia 1
Diferencias entre métodos supervisados y no supervisados
Los métodos supervisados son aquellos algoritmos que aprenden con base en los datos introducidos por un desarrollador y es este quien guía al algoritmo hacia las conclusiones que este debe de llegar, por lo que ya se tiene conocimiento acerca de los datos de salida del algoritmo.
Por otro lado, los métodos no supervisados no necesitan que la persona intervenga, sino que estos aprenden de datos que no están etiquetados. Este se encuentra más relacionado con la inteligencia artificial, ya que el sistema debe aprender por sí mismo utilizando solo los datos de entrada sin etiquetar, así mejorando el modelo conforme realiza pruebas usando dichos datos.
En los métodos supervisados se tiene el objetivo de predecir los resultados de los datos nuevos, donde ya se sabe de forma anticipada los resultados que se pueden esperar, mientras que los métodos no supervisados son utilizados para agrupar datos no estructurados y detectar patrones distintos.
Otra diferencia notoria entre los métodos, es la complejidad computacional que requieren, debido a que los métodos supervisados, son más simples y por lo general se calculan de forma más sencilla. Pero los métodos no supervisados necesitan herramientas más potentes para poder trabajar con grandes cantidades de datos no clasificados, por lo que llegan a requerir más recursos computacionales.
Proceso de resolución de problema usando ciencia de datos
1. Obtención de datos. Aquí se recopila la información necesaria acerca del tema en estudio.
2. Transformación de datos. Aquí se preparan los datos recopilados de una manera que sean procesables y amigables a los diferentes métodos de análisis que se usarán posteriormente en el estudio.
3. Análisis de datos recopilados. Se efectúa una revisión de los datos para poder determinar qué métodos serán los ideales para poder representar y analizar los datos de la mejor manera, de manera que se pueda construir una posible hipótesis al término de ello.
4. Creación y experimentación con múltiples modelos. Se aplican los modelos previamente determinados a los datos transformados para poder producir una serie de resultados posiblemente favorables.
5. Análisis de los resultados de dichos métodos y modelos. Aquí se toman los resultados lanzados de cada modelo y/o método utilizados para poder determinar si se realizaron datos significativos y si serán lo suficientemente relevantes para poder tomarlos a consideración en la hipótesis.
6. Proponer una hipótesis. Se toman todos los resultados lanzados por los modelos previamente usados para poder determinar un posible suceso, caso o causa que explique el porqué de los resultados.
Ejercicio
Librerías usadas
library(pacman)
p_load("tidyverse", "lubridate", "forecast", "TTR", "MLmetrics", "tseries", "fpp", "TSstudio", "xfun", "DT", "GGally", "corrplot", "gridExtra")
- tidyverse: nos sirve para importar, transformar, visualizar y modelar la información que utilizamos en el análisis.
- lubridate: nos sirve para simplificar la labor de trabajar con fechas y horas en R.
- forecast: es útil para nombrar a las variables con nombres que son convenientes para nuestro estudio.
- TTR: paquete que nos proporciona varias implementaciones rápidas de funciones comunes.
- MLmetrics: colección de métricas que nos sirven para medir el rendimiento de regresión.
- tseries: nos sirve para hacer análisis de series temporales.
- fpp: brinda los conjuntos de datos necesarios para los ejemplos y ejercicios del libro “Pronósticos: principios y práctica”.
- TSstudio: nos da un conjunto de herramientas para el análisis descriptivo y predictivo de datos de series temporales.
- xfun: lo usamos para poder descargar los archivos.
- DT: nos sirve para representar los datos en tablas.
- GGally: nos sirve para hacer matrices con el conjunto de datos.
- corrplot: es una herramienta para hacer exploración visual en una matriz de correlación.
- gridExtra: nos da una serie de funciones a nivel de usuario para trabajar con gráficos de “cuadrícula”.
Datos usados
Porcentaje de Consumo de energías renovables en México
consumo_renovable <- read.csv("Mexico_Consumo_de_energia_renovable.csv", encoding = "UTF-8")
datatable(consumo_renovable)
Estos datos fueron obtenidos de la organización multinacional, banco mundial: Consumo de energía renovable (% del consumo total de energía final) | Data. (s. f.). Banco Mundial. https://datos.bancomundial.org/indicador/EG.FEC.RNEW.ZS?locations=MX, en donde se pueden conseguir todos los datos acerca del consumo de energía renovable de México.
consumo_renovable_ts = ts(consumo_renovable[2], start = c(1990), end = c(2018), frequency = 1)
plot(consumo_renovable_ts, main ="Consumo de energías renovables en México", xlab="año", ylab="porcentaje")
Porcentaje de producción de energías renovables en México
produccion_renovable <- read.csv("Mexico_Produccion_Energias_Renovables.csv", encoding = "UTF-8")
datatable(produccion_renovable)
Estos datos fueron obtenidos de la organización multinacional, banco mundial: Consumo de energía renovable (% del consumo total de energía final) | Data. (s. f.). Banco Mundial. https://datos.bancomundial.org/indicador/EG.ELC.RNWX.KH?locations=MX, en donde se pueden conseguir todos los datos acerca de producción de energías renovable de México.
produccion_renovable_ts = ts(produccion_renovable[2], start = c(1990), end = c(2015), frequency = 2)
plot(produccion_renovable_ts, main ="Produccion de energías renovables en México", xlab="año", ylab="Porcentaje")
Porcentaje de producción de energías no renovables en México
produccion_noRenovables <- read.csv("Mexico_Produccion_electricidad_petroleo_gas_carbon.csv", encoding = "UTF-8")
datatable(produccion_noRenovables)
Estos datos fueron obtenidos de la organización multinacional, banco mundial: Consumo de energía renovable (% del consumo total de energía final) | Data. (s. f.). Banco Mundial. https://datos.bancomundial.org/indicador/EG.ELC.FOSL.ZS?locations=MX, en donde se pueden conseguir todos los datos acerca de producción de energías no renovable de México.
produccion_noRenovables_ts = ts(produccion_noRenovables[2], start = c(1990), end = c(2015), frequency = 1)
plot(produccion_noRenovables_ts, main ="Producción de energías no renovables en México", xlab="año", ylab="Porcentaje")
Porcentaje de acceso a electricidad en México
acceso_electricidad <- read.csv("Mexico_acceso_electricidad.csv", encoding = "UTF-8")
datatable(acceso_electricidad)
Estos datos fueron obtenidos de la organización multinacional, banco mundial: Consumo de energía renovable (% del consumo total de energía final) | Data. (s. f.). Banco Mundial. https://datos.bancomundial.org/indicator/EG.ELC.ACCS.ZS?locations=MX, en donde se pueden conseguir todos los datos acerca de acceso a la electricidad en México.
acceso_electricidad_ts = ts(acceso_electricidad[2], start = c(1990), end = c(2015), frequency = 1)
plot(acceso_electricidad_ts, main ="Acceso a la electricidad en México", xlab="año", ylab="Porcentaje")
Introducción
El uso intensivo de la energía basada en la quema de combustibles de origen fósil como el petróleo, carbón y gas ha sido uno de los principales insumos del crecimiento económico durante varias décadas, tanto en países desarrollados como en desarrollo. Sin embargo, la externalidad negativa asociada al consumo de este tipo de combustibles son las emisiones de gases efecto invernadero.
Entre las opciones para reducir la dependencia del petróleo como principal energético, se reconsideró el mejor aprovechamiento de la energía solar y sus diversas manifestaciones secundarias tales como la energía eólica, hidráulica y las diversas formas de biomasa; es decir, las llamadas energías renovables.
Hoy en día, más de un cuarto de siglo después de la llamada crisis del petróleo, muchas de las tecnologías de aprovechamiento de energías renovables han madurado y evolucionado, aumentando su confiabilidad y mejorando su rentabilidad para muchas aplicaciones.
Como resultado, países como Estados Unidos, Alemania, España e Israel presentan un crecimiento muy acelerado en el número de instalaciones que aprovechan la energía solar de manera directa o indirectamente a través de sus manifestaciones secundarias.
Objetivos
Objetivo general Se tiene como objetivo en el presente documento el poder representar e interpretar el panorama de las energías renovables en México en base a información general acerca de su consumo, producción y acceso.
Objetivos particulares * Contrastar la producción de energías renovables con las no renovables de este sector con respecto al cambio. * Contrastar dichas variables con el acceso que la población tiene a estas. * Contrastar todo lo anterior con el consumo en general de las energías renovables al transcurrir el tiempo.
Planteamiento del problema Actualmente en México la mayoría de energía se consigue a través de fuentes no renovables, lo que trae problemas de contaminación debido a que los materiales que se utilizan en la generación de estas son dañinos para el medio ambiente, además de este hecho está el que casi todo el porcentaje de la población mexicana cuenta con acceso a las energías actualmente, lo que genera una demanda mayor y por ende se tienen que utilizar más materiales dañinos para la producción.
Marco teórico
Las principales fuentes de energía se pueden clasificar en renovables y no renovables. Donde las fuentes renovables son aquellas que se pueden obtener a partir de procesos permanentes y naturales, las cuales pueden ser explotadas económicamente. Y las fuentes no renovables son aquéllas que son extraídas de los depósitos geológicos que se forman a partir de biomasa, además de los combustibles secundarios que son producidos a partir de los combustibles fósiles.
Fuente: Secretaría de Energía, Balance Nacional de Energía 2009, 2018 , México.
Desde hace décadas ha sido evidente la necesidad de explorar nuevas alternativas para la generación de energía, que además de que tengan un menor costo económico, estas también pueden tener un menor impacto negativo en el medio ambiente. Es por ello que se han desarrollado nuevas propuestas de generación de energía, las cuales son conocidas como “energías renovables”. Existe una gran variedad de fuentes de energía renovables, pero las más difundidas y con mayor producción son la hidráulica, eólica, solar y geotérmica.
Respecto al panorama mundial de las energías renovables, se ha visto un incremento constante en la producción de energías limpias en las últimas décadas, ya que según cifras de la Agencia Internacional de Energías Renovables (IRENA), sólo entre 2010 y 2019 la capacidad de producción a escala mundial se duplicó de forma impresionante.
Video de Imagen Radio hablando del tema: Panorama de las energías renovables en México | Imagen Empresarial
embed_url(“https://www.youtube.com/watch?v=mC11v1u1KKY”)
Método
Análisis de serie de tiempo (TSA): Cuenta con dos enfoques, uno consta de reconocer como lo que sucede hoy es influenciado por lo que sucedió en el pasado, el otro es como lo que sucede hoy afectará a lo que sucederá en el futuro. En este caso se utiliza para entender cómo lo sucedido en el pasado afecta a lo que sucede actualmente.
Regresión lineal múltiple: Te permite generar un modelo lineal en el que el valor de la variable dependiente se determina a partir de variables independientes denominadas predictores, estos modelos pueden emplearse para predecir el valor de la variable dependiente o evaluar la influencia de los predictores sobre esta. En este caso se utiliza para evaluar la influencia que tienen sobre la producción de energías renovables las variables de acceso a la electricidad, producción de energías no renovables y el consumo de energía renovable.
Análisis de correlación: Este consiste en un procedimiento estadístico para determinar si dos variables están relacionadas o no. El resultado del análisis es un coeficiente de correlación que puede tomar valores entre -1 y +1. El signo indica el tipo de correlación entre las dos variables. Dependiendo del valor que se arroje en la matriz de correlación se podrá determinar la intensidad con la que las variables se encuentran correlacionadas.
Resultados y discusión
Decomponer una serie de tiempo en sus partes principales
produccion_renovables_dc <- produccion_renovable_ts %>%
decompose(type = "multiplicative") %>%
autoplot()
produccion_renovables_dc
División de los datos para validación cruzada
test_renovables <- tail(produccion_renovable_ts, 5) #20% para pruebas
train_renovables <- head(produccion_renovable_ts, length(produccion_renovable_ts)-5) #80% para entrenamiento
Ajuste del modelo - Holt-Winters
renovables_ses <- HoltWinters(train_renovables, seasonal = "multiplicative",)
renovables_ses
## Holt-Winters exponential smoothing with trend and multiplicative seasonal component.
##
## Call:
## HoltWinters(x = train_renovables, seasonal = "multiplicative")
##
## Smoothing parameters:
## alpha: 0.5395848
## beta : 0.241364
## gamma: 0.09391421
##
## Coefficients:
## [,1]
## a 18.3218710
## b -0.3406470
## s1 1.0103841
## s2 0.9737065
Forecasting
renovables_forecast <- forecast(object = renovables_ses, h = 8)
produccion_renovable_ts %>%
autoplot(series = "Datos reales") +
autolayer(renovables_forecast$fitted, series = "Datos de entrenamiento") +
autolayer(renovables_forecast$mean, series = "Datos de prueba") +
theme_minimal()
## Warning: Removed 2 row(s) containing missing values (geom_path).
Datos a utilizar
datos <- data.frame(produccion_noRenovables$Producción.de.electricidad.a.partir.de.fuentes.de.petróleo..gas.y.carbón[22:45], produccion_renovable$Porcentaje.de.producción.de.energías.renovables[3:26], consumo_renovable$Porcentaje.del.consumo.total.de.energía.final[3:26], acceso_electricidad$Porcentaje.población.con.acceso[1:24])
colnames(datos) <- c('pEnergias_noRenovables', 'pEnergias_renovables', 'cEnergias_renovables', 'acceso_electricidad')
datatable(datos)
Analizar la relación entre variables
round(cor(x = datos, method = "pearson"), 3)
## pEnergias_noRenovables pEnergias_renovables
## pEnergias_noRenovables 1.000 -1.000
## pEnergias_renovables -1.000 1.000
## cEnergias_renovables -0.931 0.931
## acceso_electricidad 0.781 -0.781
## cEnergias_renovables acceso_electricidad
## pEnergias_noRenovables -0.931 0.781
## pEnergias_renovables 0.931 -0.781
## cEnergias_renovables 1.000 -0.880
## acceso_electricidad -0.880 1.000
Análisis de correlación
ggpairs(datos, lower = list(continuous ="smooth"),
diag = list (continuos = "barDiag"), axisLabels = "none")
Matriz de correlación
corrplot(cor(dplyr::select(datos, pEnergias_noRenovables, pEnergias_renovables, cEnergias_renovables, acceso_electricidad)),
method = "number", tl.col = "black")
Regresión lineal multiple
Primer modelo de regresión lineal
modelo<- lm(pEnergias_renovables ~ cEnergias_renovables, data=datos)
summary(modelo)
##
## Call:
## lm(formula = pEnergias_renovables ~ cEnergias_renovables, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.2518 -1.1677 -0.0472 1.2344 2.5841
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -5.6598 2.3033 -2.457 0.0224 *
## cEnergias_renovables 2.5057 0.2094 11.966 4.2e-11 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.608 on 22 degrees of freedom
## Multiple R-squared: 0.8668, Adjusted R-squared: 0.8608
## F-statistic: 143.2 on 1 and 22 DF, p-value: 4.196e-11
y = -5.6598 - (2.5057 * 12.23845)
y
## [1] -36.32568
y - 22.66873
## [1] -58.99441
plot(datos$pEnergias_renovables, datos$cEnergias_renovables)
abline(modelo)
modelo2<-lm(pEnergias_renovables ~ cEnergias_renovables + pEnergias_noRenovables + acceso_electricidad, data = datos )
summary(modelo2)
##
## Call:
## lm(formula = pEnergias_renovables ~ cEnergias_renovables + pEnergias_noRenovables +
## acceso_electricidad, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -4.424e-14 -1.140e-14 -1.521e-15 1.013e-14 7.280e-14
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.000e+02 8.578e-13 1.166e+14 < 2e-16 ***
## cEnergias_renovables -2.637e-14 1.163e-14 -2.268e+00 0.03457 *
## pEnergias_noRenovables -1.000e+00 3.288e-15 -3.041e+14 < 2e-16 ***
## acceso_electricidad -2.485e-14 6.620e-15 -3.753e+00 0.00125 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.42e-14 on 20 degrees of freedom
## Multiple R-squared: 1, Adjusted R-squared: 1
## F-statistic: 2.431e+29 on 3 and 20 DF, p-value: < 2.2e-16
step(object= modelo2, direction="both", trace= 1)
## Start: AIC=-1501.28
## pEnergias_renovables ~ cEnergias_renovables + pEnergias_noRenovables +
## acceso_electricidad
## Warning: attempting model selection on an essentially perfect fit is nonsense
## Df Sum of Sq RSS AIC
## <none> 0.000 -1501.28
## - cEnergias_renovables 1 0.000 0.000 -1498.83
## - acceso_electricidad 1 0.000 0.000 -1490.49
## - pEnergias_noRenovables 1 54.181 54.181 25.54
##
## Call:
## lm(formula = pEnergias_renovables ~ cEnergias_renovables + pEnergias_noRenovables +
## acceso_electricidad, data = datos)
##
## Coefficients:
## (Intercept) cEnergias_renovables pEnergias_noRenovables
## 1.000e+02 -2.637e-14 -1.000e+00
## acceso_electricidad
## -2.485e-14
modelo3<-lm(pEnergias_renovables ~ cEnergias_renovables + pEnergias_noRenovables + acceso_electricidad, data = datos )
summary(modelo3)
##
## Call:
## lm(formula = pEnergias_renovables ~ cEnergias_renovables + pEnergias_noRenovables +
## acceso_electricidad, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -4.424e-14 -1.140e-14 -1.521e-15 1.013e-14 7.280e-14
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.000e+02 8.578e-13 1.166e+14 < 2e-16 ***
## cEnergias_renovables -2.637e-14 1.163e-14 -2.268e+00 0.03457 *
## pEnergias_noRenovables -1.000e+00 3.288e-15 -3.041e+14 < 2e-16 ***
## acceso_electricidad -2.485e-14 6.620e-15 -3.753e+00 0.00125 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.42e-14 on 20 degrees of freedom
## Multiple R-squared: 1, Adjusted R-squared: 1
## F-statistic: 2.431e+29 on 3 and 20 DF, p-value: < 2.2e-16
confint(lm(formula= pEnergias_renovables ~ cEnergias_renovables + pEnergias_noRenovables + acceso_electricidad, data=datos))
## 2.5 % 97.5 %
## (Intercept) 1.000000e+02 1.000000e+02
## cEnergias_renovables -5.061869e-14 -2.115241e-15
## pEnergias_noRenovables -1.000000e+00 -1.000000e+00
## acceso_electricidad -3.865592e-14 -1.103715e-14
plot1 <- ggplot(data= datos, aes(pEnergias_renovables, modelo$residuals)) + geom_point() + geom_smooth(color= "firebrick") +
geom_hline(yintercept= 0) + theme_bw()
plot2 <- ggplot(data= datos, aes(cEnergias_renovables, modelo$residuals)) + geom_point() + geom_smooth(color= "firebrick") +
geom_hline(yintercept= 0) + theme_bw()
plot3 <- ggplot(data= datos, aes(pEnergias_noRenovables, modelo$residuals)) + geom_point() + geom_smooth(color= "firebrick") + geom_hline(yintercept= 0) + theme_bw()
plot4 <- ggplot(data= datos, aes(acceso_electricidad, modelo$residuals)) + geom_point() + geom_smooth(color= "firebrick") + geom_hline(yintercept= 0) + theme_bw()
grid.arrange(plot1, plot2, plot3, plot4)
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
qqnorm(modelo3$residuals)
qqline(modelo3$residuals)
shapiro.test(modelo$residuals)
##
## Shapiro-Wilk normality test
##
## data: modelo$residuals
## W = 0.97576, p-value = 0.8069
ggplot(data= datos, aes(modelo$fitted.values, modelo$residuals)) + geom_point() +
geom_smooth(color = "firebrick", se = FALSE) + geom_hline(yintercept = 0) + theme_bw()
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
Conclusión
Una vez analizados los datos, podemos decir que la predicción obtenida no fue del todo precisa debido a que existe bastante variabilidad, pero, por otro lado, si logramos visualizar una buena relación entre el consumo de energías renovables, la producción de energías no renovables y otras variables. Otro punto que es bastante notorio, es que al comparar los dos tipos de producción de energías, se puede ver una gran superioridad de las energías no renovables con respecto a las energías renovables, lo que se ve bastante reflejado en nuestro país, ya que existe bastante contaminación en este mismo. Es por ello que hay que considerar la utilización más frecuente de las energías renovables.
Bibliografía
https://datos.bancomundial.org/indicador/EG.FEC.RNEW.ZS?locations=MX
https://datos.bancomundial.org/indicador/EG.ELC.RNWX.KH?locations=MX
https://datos.bancomundial.org/indicador/EG.ELC.FOSL.ZS?locations=MX
https://datos.bancomundial.org/indicator/EG.ELC.ACCS.ZS?locations=MX
ENCISO-CHÁVEZ, N. A. (2019). Antecedentes, perspectivas y potencial de la energía solar fotovoltaica en la industria en Puebla, México. Revista de Energía Renovables, 18.
Rodolfo, A. E. E., & Vargas-Hernández, J. G. ENERGÍAS RENOVABLES EN MÉXICO. DESARROLLO Y PANORAMA DE LA ENERGÍA FOTOVOLTAICA.
Descarga el codigo
xfun::embed_file("Evaluacion_U1.rmd")
xfun::embed_file("Mexico_Consumo_de_energia_renovable.csv")
Download Mexico_Consumo_de_energia_renovable.csv
xfun::embed_file("Mexico_Produccion_Energias_Renovables.csv")
Download Mexico_Produccion_Energias_Renovables.csv
xfun::embed_file("Mexico_Produccion_electricidad_petroleo_gas_carbon.csv")
Download Mexico_Produccion_electricidad_petroleo_gas_carbon.csv
xfun::embed_file("Mexico_acceso_electricidad.csv")