CAPACITY

1 Configuración y Carga de Datos

##### UNIVERSIDAD CENTRAL DEL ECUADOR #####
#### AUTOR: MARTIN SARMIENTO ####
### CARRERA: INGENIERÍA EN PETRÓLEOS #####


#### VARIABLE CAPACIDAD ####
## DATASET ##
setwd("~/R/CAPACITY")
# Cargar dataset
Datos <- read.csv("DataSet_prov.csv", sep = ";", dec = ",", fileEncoding = "latin1")
# Estructura de los datos
str(Datos)

## 'data.frame':    5075 obs. of  30 variables:
##  $ FID_                  : int  0 2 3 4 5 6 10 11 12 13 ...
##  $ OBJECTID              : int  127 129 130 131 132 133 137 138 139 140 ...
##  $ code                  : chr  "00127-ARG-P" "00129-ARG-G" "00130-ARG-P" "00131-ARG-P" ...
##  $ plant_name            : chr  "Aconcagua solar farm" "Altiplano 200 Solar Power Plant" "Altiplano 200 Solar Power Plant" "Anchoris solar farm" ...
##  $ country               : chr  "Argentina" "Argentina" "Argentina" "Argentina" ...
##  $ operational_status    : chr  "announced" "operating" "operating" "construction" ...
##  $ longitude             : num  -68.9 -66.9 -66.9 -68.9 -70.3 ...
##  $ latitude              : num  -33 -24.1 -24.1 -33.3 -37.4 ...
##  $ elevation             : int  929 4000 4000 937 865 858 570 1612 665 3989 ...
##  $ area                  : num  250 4397290 5774 645 241 ...
##  $ size                  : chr  "Pequeña" "Grande" "Pequeña" "Pequeña" ...
##  $ slope                 : num  0.574 1.603 6.243 0.903 1.791 ...
##  $ slope_type            : chr  "Plano o casi plano" "Plano o casi plano" "Moderado" "Plano o casi plano" ...
##  $ curvature             : num  0.000795 -0.002781 -0.043699 0.002781 -0.002384 ...
##  $ curvature_type        : chr  "Superficies planas o intermedias" "Superficies planas o intermedias" "Superficies cóncavas / Valles" "Superficies planas o intermedias" ...
##  $ aspect                : num  55.1 188.7 270.9 108.4 239.3 ...
##  $ aspect_type           : chr  "Northeast" "South" "West" "East" ...
##  $ dist_to_road          : num  127 56015 52697 336 34 ...
##  $ ambient_temperature   : num  12.6 6.8 6.8 13.1 11.4 ...
##  $ ghi                   : num  6.11 8.01 7.88 6.12 6.22 ...
##  $ humidity              : num  53.7 53.7 53.7 53.7 53.7 ...
##  $ wind_speed            : num  3.78 7.02 8.33 3.87 6.56 ...
##  $ wind_direction        : num  55.1 55.1 55.1 55.1 55.1 ...
##  $ dt_wind               : chr  "Northeast" "Northeast" "Northeast" "Northeast" ...
##  $ solar_aptitude        : num  0.746 0.8 0.727 0.595 0.657 ...
##  $ solar_aptitude_rounded: int  7 8 7 6 7 7 7 8 7 8 ...
##  $ solar_aptittude_class : chr  "Alta" "Alta" "Alta" "Media" ...
##  $ capacity              : num  25 101 107 180 20 ...
##  $ optimal_tilt          : int  31 26 26 31 33 30 31 29 31 27 ...
##  $ pv_potential          : num  4.98 6.39 6.39 4.97 5 ...

# Cargamos las librerias
library(dplyr)

## 
## Adjuntando el paquete: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

library(gt)
library(e1071)

2 Cálculo de Intervalos y Frecuencias

#Extraer variable
Variable <- na.omit(Datos$capacity)
N <- length(Variable)

# Cálculo Límites Decimales #
# Cálculos básicos
min_dec <- min(Variable)
max_dec <- max(Variable)
k_dec <- floor(1 + 3.322 * log10(N))
rango_dec <- max(Variable) - min(Variable)
amplitud_dec <- rango_dec / k_dec

# Generamos los cortes exactos
cortes_dec <- seq(min(Variable), max(Variable), length.out = k_dec + 1)
cortes_dec[length(cortes_dec)] <- max(Variable) + 0.0001

# Frecuencias
inter_dec <- cut(Variable, breaks = cortes_dec, include.lowest = TRUE, right = FALSE)
ni_dec <- as.vector(table(inter_dec))
hi_dec <- (ni_dec/N)*100

# Cálculos de Frecuencias
sum_ni <- sum(ni_dec)
hi_dec <- (ni_dec / sum_ni) * 100
Ni_asc_dec <- cumsum(ni_dec)
Hi_asc_dec <- cumsum(hi_dec)
Ni_desc_dec <- rev(cumsum(rev(ni_dec)))
Hi_desc_dec <- rev(cumsum(rev(hi_dec)))

# Construcción del Dataframe Decimal
TDF_Decimal <- data.frame(
 Li = round(cortes_dec[1:k_dec], 2),
 Ls = round(cortes_dec[2:(k_dec+1)], 2),
 MC = round((cortes_dec[1:k_dec] + cortes_dec[2:(k_dec+1)]) / 2, 2),
 ni = ni_dec,
 hi = round(hi_dec, 2),
 Ni_asc = cumsum(ni_dec),
 Ni_desc = rev(cumsum(rev(ni_dec))),
 Hi_asc = cumsum(round(hi_dec, 2)),
 Hi_desc = rev(cumsum(rev(round(hi_dec, 2)))))


# Cálculo Límites Enteros #
BASE <- 10

# Cálculos básicos
min_int <- floor(min(Variable) / BASE) * BASE
max_int <- ceiling(max(Variable) / BASE) * BASE
k_int_sug <- floor(1 + 3.322 * log10(N))
Rango_int <- max_int - min_int
Amplitud_raw <- Rango_int / k_int_sug

Amplitud_int <- ceiling(Amplitud_raw / 10) * 10
if(Amplitud_int == 0) Amplitud_int <- 10

# Generar cortes enteros
cortes_int <- seq(from = min_int, by = Amplitud_int, length.out = k_int_sug + 2)

cortes_int <- cortes_int[cortes_int <= (max_int + Amplitud_int)]

# Asegurar cobertura del máximo
while(max(cortes_int) < max(Variable)) {
 cortes_int <- c(cortes_int, max(cortes_int) + Amplitud_int)
}

K_real <- length(cortes_int) - 1
lim_inf_int <- cortes_int[1:K_real]
lim_sup_int <- cortes_int[2:(K_real+1)]

# Frecuencias
inter_int <- cut(Variable, breaks = cortes_int, include.lowest = TRUE, right = FALSE)
ni_int <- as.vector(table(inter_int))

# Cálculos de Frecuencias
hi_int <- (ni_int / N) * 100
Ni_asc_int <- cumsum(ni_int)
Ni_desc_int <- rev(cumsum(rev(ni_int)))
Hi_asc_int <- cumsum(hi_int)
Hi_desc_int <- rev(cumsum(rev(hi_int)))

# Construcción del Dataframe Entero
TDF_Enteros <- data.frame(
 Li = lim_inf_int,
 Ls = lim_sup_int,
 MC = (lim_inf_int + lim_sup_int) / 2,
 ni = ni_int,
 hi = round(hi_int, 2),
 Ni_asc = Ni_asc_int,
 Ni_desc = Ni_desc_int,
 Hi_asc = round(Hi_asc_int, 2),
 Hi_desc = round(Hi_desc_int, 2))

3 Tabla de Distribución de Frecuencias

3.1 Tabla con Límites Decimales

#### Crear de fila de totales ####
totales_dec <- c("TOTAL", "-", "-", sum(TDF_Decimal$ni), 100, "-", "-", "-", "-")
TDF_Dec_Final <- rbind(mutate(TDF_Decimal, across(everything(), as.character)), totales_dec)

# Generar GT Decimal
TDF_Dec_Final %>%
 gt() %>%
 tab_header(title = md("**Tabla N°1 de Distribución de Frecuencias de Capacidad de las Plantas Solares (MW)**")) %>%
 cols_label(
  Li = "Lim. Inf",
  Ls = "Lim. Sup",
  MC = "Marca Clase",
  ni = "Frec. Abs (ni)",
  hi = "Frec. Rel (%)",
  Ni_asc = "Ni (Asc)",
  Ni_desc = "Ni (Desc)",
  Hi_asc = "Hi Asc (%)",
  Hi_desc = "Hi Desc (%)"
 ) %>%
 tab_options(heading.title.font.size = px(14), column_labels.background.color = "#F0F0F0")

Lim. Inf	Lim. Sup	Marca Clase	Frec. Abs (ni)	Frec. Rel (%)	Ni (Asc)	Ni (Desc)	Hi Asc (%)	Hi Desc (%)
Tabla N°1 de Distribución de Frecuencias de Capacidad de las Plantas Solares (MW)
1	539.38	270.19	5045	99.41	5045	5075	99.41	100
539.38	1077.77	808.58	26	0.51	5071	30	99.92	0.59
1077.77	1616.15	1346.96	1	0.02	5072	4	99.94	0.08
1616.15	2154.54	1885.35	1	0.02	5073	3	99.96	0.06
2154.54	2692.92	2423.73	0	0	5073	2	99.96	0.04
2692.92	3231.31	2962.12	0	0	5073	2	99.96	0.04
3231.31	3769.69	3500.5	0	0	5073	2	99.96	0.04
3769.69	4308.08	4038.88	0	0	5073	2	99.96	0.04
4308.08	4846.46	4577.27	0	0	5073	2	99.96	0.04
4846.46	5384.85	5115.65	0	0	5073	2	99.96	0.04
5384.85	5923.23	5654.04	1	0.02	5074	2	99.98	0.04
5923.23	6461.62	6192.42	0	0	5074	1	99.98	0.02
6461.62	7000	6730.81	1	0.02	5075	1	100	0.02
TOTAL	-	-	5075	100	-	-	-	-

3.2 Tabla con Límites Enteros

#### Crear de fila de totales ####
totales_int <- c("TOTAL", "-", "-", sum(TDF_Enteros$ni), 100, "-", "-", "-", "-")
TDF_Int_Final <- rbind(mutate(TDF_Enteros, across(everything(), as.character)), totales_int)

# Generar GT Enteros
TDF_Int_Final %>%
 gt() %>%
 tab_header(
  title = md("**Tabla N°2 de Distribución de Frecuencias de Capacidad de las Plantas Solares (MW)**")) %>%
 cols_label(
  Li = "Lim. Inf",
  Ls = "Lim. Sup",
  MC = "Marca Clase",
  ni = "Frec. Abs (ni)",
  hi = "Frec. Rel (%)",
  Ni_asc = "Ni (Asc)",
  Ni_desc = "Ni (Desc)",
  Hi_asc = "Hi Asc (%)",
  Hi_desc = "Hi Desc (%)"
 ) %>%

 fmt_number(columns = c(Li, Ls), decimals = 0) %>%
 fmt_number(columns = c(hi, Hi_asc, Hi_desc), decimals = 2) %>%
 tab_options(heading.title.font.size = px(14), column_labels.background.color = "#F0F0F0")

Lim. Inf	Lim. Sup	Marca Clase	Frec. Abs (ni)	Frec. Rel (%)	Ni (Asc)	Ni (Desc)	Hi Asc (%)	Hi Desc (%)
Tabla N°2 de Distribución de Frecuencias de Capacidad de las Plantas Solares (MW)
0	540	270	5045	99.41	5045	5075	99.41	100
540	1080	810	26	0.51	5071	30	99.92	0.59
1080	1620	1350	1	0.02	5072	4	99.94	0.08
1620	2160	1890	1	0.02	5073	3	99.96	0.06
2160	2700	2430	0	0	5073	2	99.96	0.04
2700	3240	2970	0	0	5073	2	99.96	0.04
3240	3780	3510	0	0	5073	2	99.96	0.04
3780	4320	4050	0	0	5073	2	99.96	0.04
4320	4860	4590	0	0	5073	2	99.96	0.04
4860	5400	5130	0	0	5073	2	99.96	0.04
5400	5940	5670	1	0.02	5074	2	99.98	0.04
5940	6480	6210	0	0	5074	1	99.98	0.02
6480	7020	6750	1	0.02	5075	1	100	0.02
TOTAL	-	-	5075	100	-	-	-	-

4 Análisis Gráfico

4.1 Histogramas de Cantidad

color_sutil <- "#EED5D2"

par(mar = c(8, 5, 4, 2)) 
barplot(TDF_Enteros$ni, 
        names.arg = TDF_Enteros$MC,
        main = "Gráfica N°1: Distribución de Cantidad de Plantas Solares por Capacidad",
        cex.main = 1,
        xlab = "", 
        ylab = "Cantidad",
        col = color_sutil,
        space = 0, 
        las = 2, 
        cex.names = 0.7)
mtext("Capacidad (MW)", side = 1, line = 4)

color_grafico <- "#EED5D2"

par(mar = c(8, 5, 4, 2))
barplot(TDF_Enteros$ni, 
        main="Gráfica N°2: Distribución de Cantidad de Plantas Solares por Potencia Total",
        cex.main = 0.8,
        xlab = "",
        ylab = "Cantidad",
        names.arg = TDF_Enteros$MC,
        col = color_sutil,
        space = 0,
        cex.names = 0.7,
        las = 2,
        ylim = c(0, sum(TDF_Enteros$ni))) 
mtext("Capacidad (MW)", side = 1, line = 4)

4.2 Histogramas Porcentuales

color_grafico <- "#EED5D2"

par(mar = c(8, 5, 4, 2))
barplot(TDF_Enteros$hi, 
        main="Gráfica N°3: Distribución Porcentual de las Plantas Solares por Capacidad",
        cex.main = 1,
        xlab = "",
        ylab = "Porcentaje (%)",
        col = color_sutil,
        space = 0,
        names.arg = TDF_Enteros$MC,
        cex.names = 0.7,
        las = 2,
        ylim = c(0, max(TDF_Enteros$hi) * 1.1))
mtext("Capacidad (MW)", side = 1, line = 4)

color_grafico <- "#EED5D2"

par(mar = c(8, 5, 4, 2))
barplot(TDF_Enteros$hi, 
        main="Gráfica N°4: Distribución Porcentual de las Plantas Solares por Potencia Total",
        cex.main = 1,
        xlab = "",
        ylab = "Porcentaje (%)",
        col = color_sutil,
        space = 0,
        cex.main = 0.9,
        names.arg = TDF_Enteros$MC,
        las = 2,
        cex.names = 0.7,
        ylim = c(0, 100)) 
mtext("Capacidad (MW)", side = 1, line = 4)

4.3 Diagrama de Cajas (Boxplot)

par(mar = c(5, 5, 4, 2))
boxplot(Variable, 
        horizontal = TRUE,
        col = color_sutil,
        xlab = "Capacidad (MW)",
        cex.main = 0.9,
        main = "Gráfica N°5: Distribución de la Potencia Total en las Plantas Solares")

4.4 Ojivas

par(mar = c(5, 5, 4, 10), xpd = TRUE)

# Coordenadas
x_asc <- TDF_Enteros$Ls
x_desc <- TDF_Enteros$Li
y_asc <- TDF_Enteros$Ni_asc
y_desc <- TDF_Enteros$Ni_desc

# 1. Dibujar la Ascendente 
plot(x_asc, y_asc,
     type = "b", 
     main = "Gráfica N°6: Ojivas Ascendentes y Descendentes de la Distribución de la Potencia Total en las Plantas Solares",
     cex.main = 0.7,
     xlab = "Capacidad (MW)",
     ylab = "Frecuencia acumulada",
     col = "black",
     pch = 19, 
     xlim = c(min(TDF_Enteros$Li), max(x_asc)), 
     ylim = c(0, sum(TDF_Enteros$ni)),
     bty = "l"
)

# 2. Agregar la Descendente 
lines(x_desc, y_desc, col = "#CDB7B5", type = "b", pch = 19)

grid()
legend("right", 
       legend = c("Ascendente", "Descendente"), 
       col = c("black", "#CDB7B5"), 
       lty = 1, 
       pch = 1, 
       cex = 0.6, 
       inset = c(0.05, 0.05),
       bty = "n")

5 Indicadores Estadísticos

## INDICADORES DE TENDENCIA CENTRAL
# Media aritmética
media <- round(mean(Variable), 2)

# Mediana
mediana <- round(median(Variable), 2)

# Moda
max_frecuencia <- max(TDF_Enteros$ni)
moda_vals <- TDF_Enteros$MC[TDF_Enteros$ni == max_frecuencia]
moda_txt <- paste(round(moda_vals, 2), collapse = ", ")

## INDICADORES DE DISPERSIÓN
# Varianza
varianza <- var(Variable)

# Desviación Estándar
sd_val <- sd(Variable)

# Coeficiente de Variación
cv <- round((sd_val / abs(media)) * 100, 2)

## INDICADORES DE FORMA
# Coeficiente de Asimetría
asimetria <- skewness(Variable, type = 2)

# Curtosis
curtosis <- kurtosis(Variable)

# Outliers
outliers_data <- boxplot.stats(Variable)$out

if(length(outliers_data) > 0) {
 num_out <- length(outliers_data)
 min_out <- round(min(outliers_data), 2)
 max_out <- round(max(outliers_data), 2)

 # Formato Total [Min; Max]
 msg_atipicos <- paste0(" ", num_out, " [", min_out, " ; ", max_out, "]")
} else {
 msg_atipicos <- "No hay presencia de valores atípicos"
}


tabla_indicadores <- data.frame(
 "Variable" = c("Capacidad (MW)"),
 "Rango_MinMax" = paste0("[", round(min(Variable), 2), "; ", round(max(Variable), 2), "]"),
 "X" = c(media),
 "Me" = c(mediana),
 "Mo" = c(moda_txt),
 "V" = c(varianza),
 "Sd" = c(sd_val),
 "Cv" = c(cv),
 "As" = c(asimetria),
 "K" = c(curtosis),
 "Outliers" = msg_atipicos
)

# Generar Tabla GT
tabla_conclusiones_gt <- tabla_indicadores %>%
 gt() %>%
 tab_header(title = md("**Tabla N°3 de Conclusiones de Capacidad de las Plantas Solares**")) %>%
 tab_source_note(source_note = "Autor: Martin Sarmiento") %>%
 cols_label(
  Variable = "Variable",
  Rango_MinMax = "Rango",
  X = "Media (X)",
  Me = "Mediana (Me)",
 Mo = "Moda (Mo)",
  V = "Varianza (V)",
  Sd = "Desv. Est. (Sd)",
  Cv = "C.V. (%)",
  As = "Asimetría (As)",
  K = "Curtosis (K)",
  Outliers = "Outliers"
 ) %>%
 tab_options(
  heading.title.font.size = px(16),
  column_labels.background.color = "#f0f0f0"
 )

tabla_conclusiones_gt

Variable	Rango	Media (X)	Mediana (Me)	Moda (Mo)	Varianza (V)	Desv. Est. (Sd)	C.V. (%)	Asimetría (As)	Curtosis (K)	Outliers
Tabla N°3 de Conclusiones de Capacidad de las Plantas Solares
Capacidad (MW)	[1; 7000]	45.66	33	270	21654.06	147.1532	322.28	33.28214	1419.085	230 [112.2 ; 7000]
Autor: Martin Sarmiento

6 Conclusiones

La variable “Capacidad” fluctúa entre 1 y 7000 MW y sus valores se encuentran alrededor de 33 MW, con una desviación estándar de 147.1532, siendo una variable muy heterogénea, cuyos valores se concentran en la parte media baja de la variable con la agregación de valores atípicos de 230 outliers; por todo lo anterior, el comportamiento de la variable es muy perjudicial.