1 Identificación y Justificación

Variable de Estudio: Distancia a Carreteras (m).

Se determina que esta variable es Cuantitativa Continua. Representa el factor logístico de proximidad entre la planta solar y la infraestructura de transporte.

Justificación: Tras observar la distribución global de los datos, se detecta un comportamiento unimodal con un sesgo positivo extremo (cola larga a la derecha). Aunque inicialmente se consideró segmentar la muestra, se ha decidido aplicar un Modelo Log-Normal Unificado. Esta decisión se justifica porque la distancia a carreteras sigue una “ley de potencia” natural en la industria: la inversión se concentra masivamente en el primer kilómetro por ahorro de costos, y decae suavemente hacia zonas remotas. Un modelo único permite capturar esta dinámica de decaimiento sin fragmentar la realidad física del terreno, facilitando una interpretación estadística más robusta y coherente.

# 1. CARGA DE DATOS
nombre_archivo <- "Dataset_Mundial_Final.csv"
if(!file.exists(nombre_archivo)) stop("Archivo no encontrado")

Datos_Brutos <- read.csv(nombre_archivo, sep = ";", dec = ",", check.names = FALSE)
Variable_Full <- na.omit(as.numeric(Datos_Brutos$dist_to_road))

# Filtro de seguridad para Log-Normal (valores > 0)
Variable_Full <- Variable_Full[Variable_Full > 0]

# 2. OMISIÓN DE VALORES ATÍPICOS (MÉTODO IQR)
# Justificación: Eliminamos emplazamientos con distancias erróneas o aisladas que no representan la norma técnica.
Q1 <- quantile(Variable_Full, 0.25); Q3 <- quantile(Variable_Full, 0.75)
IQR_val <- Q3 - Q1
Variable <- Variable_Full[Variable_Full >= (Q1 - 1.5*IQR_val) & Variable_Full <= (Q3 + 1.5*IQR_val)]

n <- length(Variable)
n_orig <- length(Variable_Full)
eliminados <- n_orig - n

La muestra válida procesada consta de 51,437 registros (Se omitieron 7539 registros atípicos).

2 Distribución de Frecuencias

Presentamos la tabla de frecuencias unificada. La alta resolución de los intervalos nos permitirá validar si la curva Log-Normal se ajusta correctamente a los picos de proximidad inicial.

# CÁLCULO MATEMÁTICO (Sturges ampliado para mayor precisión en la cola)
K_raw <- floor(1 + 3.322 * log10(n)) + 2
cortes <- seq(min(Variable), max(Variable), length.out = K_raw + 1)

ni <- as.vector(table(cut(Variable, breaks = cortes, right = FALSE, include.lowest = TRUE)))
hi <- (ni / n) * 100 

df_visual <- data.frame(
  Li = round(cortes[1:K_raw], 2), Ls = round(cortes[2:(K_raw+1)], 2),
  MC = round((cortes[1:K_raw] + cortes[2:(K_raw+1)]) / 2, 2),
  ni = ni, hi = round(hi, 2)
)
df_visual <- rbind(df_visual, c("TOTAL", "-", "-", sum(ni), 100))

df_visual %>% gt() %>%
  tab_header(title = md("**TABLA N°1: DISTRIBUCIÓN DE FRECUENCIAS - ACCESO VIAL**")) %>%
  cols_label(Li="Lím. Inf (m)", Ls="Lím. Sup (m)", MC="Marca Clase", ni="ni", hi="hi (%)") %>%
  cols_align("center") %>%
  tab_options(column_labels.background.color = "#F0F0F0") %>%
  tab_style(style = cell_text(weight = "bold"), locations = cells_body(rows = nrow(df_visual)))
TABLA N°1: DISTRIBUCIÓN DE FRECUENCIAS - ACCESO VIAL
Lím. Inf (m) Lím. Sup (m) Marca Clase ni hi (%)
0.01 350.45 175.23 19740 38.38
350.45 700.89 525.67 9245 17.97
700.89 1051.34 876.12 6432 12.5
1051.34 1401.78 1226.56 2753 5.35
1401.78 1752.22 1577 2199 4.28
1752.22 2102.67 1927.44 1768 3.44
2102.67 2453.11 2277.89 1420 2.76
2453.11 2803.55 2628.33 1154 2.24
2803.55 3154 2978.77 1020 1.98
3154 3504.44 3329.22 856 1.66
3504.44 3854.88 3679.66 869 1.69
3854.88 4205.32 4030.1 801 1.56
4205.32 4555.77 4380.55 687 1.34
4555.77 4906.21 4730.99 525 1.02
4906.21 5256.65 5081.43 611 1.19
5256.65 5607.1 5431.87 495 0.96
5607.1 5957.54 5782.32 462 0.9
5957.54 6307.98 6132.76 400 0.78
TOTAL - - 51437 100

3 Análisis Gráfico y Modelado

Esta sección visualiza la concordancia entre los datos reales y la curva teórica del modelo unificado.

3.1 Histograma con Ajuste Log-Normal

Justificación: Como se observa en la Gráfica N°1, la concentración de proyectos es máxima cerca de la infraestructura vial y disminuye de forma asintótica. El modelo Log-Normal es ideal para este tipo de variables “positivas sesgadas”, ya que su forma acampanada en el logaritmo permite representar este pico masivo inicial y la cola de decaimiento logístico con una sola ecuación.

col_lila <- "#B0C4DE"; col_rojo <- "#C0392B"
# Ajuste de parámetros
meanlog_g <- mean(log(Variable)); sdlog_g <- sd(log(Variable))

par(mar = c(6, 5, 4, 2))
h_base <- hist(Variable, breaks = K_raw, plot = FALSE)
plot(h_base, main = "Gráfica Nº1: Distribución Unificada de Proximidad Vial",
     xlab = "Distancia a Carretera (m)", ylab = "Frecuencia Absoluta",
     col = col_lila, border = "white", axes = FALSE, ylim = c(0, max(h_base$counts) * 1.1)) 

axis(2, las=2); axis(1, at = seq(0, max(Variable), 1000), las = 1)
grid(nx=NA, ny=NULL, col="#D7DBDD", lty="dotted")

# Superposición de la curva Log-Normal Única
ancho_bin <- cortes[2] - cortes[1]
curve(dlnorm(x, meanlog_g, sdlog_g) * n * ancho_bin, add = TRUE, col = col_rojo, lwd = 4)

legend("topright", legend = c("Datos Reales", "Modelo Log-Normal Único"), 
       col = c(col_lila, col_rojo), lwd = c(NA, 4), pch = c(15, NA), bty = "n")

4 Validación del Modelo (Bondad de Ajuste)

Justificación: Para cuantificar la efectividad de no dividir la muestra, utilizamos el coeficiente de correlación de Pearson. Este estadístico mide la fuerza de la relación entre las frecuencias del histograma y las proyectadas por la curva Log-Normal única. Un valor elevado validará que la unificación es la mejor estrategia de simplificación técnica.

# Conversión a numérico para evitar errores por la fila de total
mc_num <- as.numeric(df_visual$MC[1:K_raw])
ni_real <- as.numeric(df_visual$ni[1:K_raw])

# Cálculo de frecuencias teóricas proyectadas por el modelo único
ni_teorico <- dlnorm(mc_num, meanlog_g, sdlog_g) * n * ancho_bin
pearson_val <- cor(ni_real, ni_teorico) * 100

data.frame(
  Modelo = "Log-Normal Unificado",
  Pearson = paste0(round(pearson_val, 2), "%"),
  Estado = "APROBADO"
) %>% gt() %>%
  tab_header(title = md("**VALIDACIÓN TÉCNICA DEL MODELO ÚNICO**")) %>%
  cols_align("center") %>% tab_options(column_labels.background.color = "#F0F0F0")
VALIDACIÓN TÉCNICA DEL MODELO ÚNICO
Modelo Pearson Estado
Log-Normal Unificado 99.38% APROBADO

5 Cálculo de Probabilidades y Toma de Decisiones

Utilizaremos el modelo unificado para proyectar la viabilidad de nuevos proyectos en función de su accesibilidad.

Pregunta 1 (Zona de Alta Factibilidad): ¿Cuál es la probabilidad de que un proyecto se ubique en el rango óptimo de 250 a 750 metros de una carretera?

Pregunta 2 (Disponibilidad Geográfica): En un lote de 100 plantas, ¿cuántas se estima que se situarán a una distancia superior a los 2,000 metros, requiriendo una inversión vial adicional?

# 1. CÁLCULOS
prob_optima <- plnorm(750, meanlog_g, sdlog_g) - plnorm(250, meanlog_g, sdlog_g)
pct_optima <- round(prob_optima * 100, 2)

prob_remota <- 1 - plnorm(2000, meanlog_g, sdlog_g)
est_remota <- round(prob_remota * 100)

# 2. GRÁFICA DE PROYECCIÓN LOGÍSTICA
col_azul_claro <- rgb(0.2, 0.6, 0.8, 0.5)
par(mar = c(5, 5, 4, 2))
curve(dlnorm(x, meanlog_g, sdlog_g), from = 0, to = max(Variable), 
      main = "Gráfica Nº2: Proyección de Factibilidad Vial",
      xlab = "Distancia (m)", ylab = "Densidad", col = "#2E4053", lwd = 2)

x_fill <- seq(250, 750, length.out = 100)
y_fill <- dlnorm(x_fill, meanlog_g, sdlog_g)
polygon(c(250, x_fill, 750), c(0, y_fill, 0), col = col_azul_claro, border = NA)
grid()

Respuestas Gerenciales:

Eficiencia: Existe una probabilidad del 25.94 % de que los proyectos se concentren en la franja de máxima factibilidad vial.

Disponibilidad: Se estima que aproximadamente 18 proyectos de cada 100 enfrentarán condiciones remotas, incrementando el riesgo operativo por falta de infraestructura inmediata.

6 Teorema del Límite Central

El TLC permite estimar la media poblacional verdadera (\(\mu\)) de la distancia a carreteras. Los postulados sugieren un 95% de confianza dentro de 2 errores estándar.

x_bar <- mean(Variable); sigma_m <- sd(Variable)
error_se <- sigma_m / sqrt(n); margen <- 1.96 * error_se
lim_inf <- x_bar - margen; lim_sup <- x_bar + margen

data.frame(
  Parametro = "Distancia Promedio Mundial", Lim_Inferior = lim_inf,
  Media_Muestral = x_bar, Lim_Superior = lim_sup,
  Error = paste0("+/- ", round(margen, 2)), Confianza = "95% (2*E)"
) %>% gt() %>%
  tab_header(title = md("**ESTIMACIÓN DE LA MEDIA POBLACIONAL (TLC)**")) %>%
  cols_align("center") %>% fmt_number(columns = 2:4, decimals = 2) %>%
  tab_options(column_labels.background.color = "#F0F0F0") %>%
  tab_style(style = list(cell_fill(color = "#E8F8F5"), cell_text(color = "#145A32", weight = "bold")),
            locations = cells_body(columns = Media_Muestral))
ESTIMACIÓN DE LA MEDIA POBLACIONAL (TLC)
Parametro Lim_Inferior Media_Muestral Lim_Superior Error Confianza
Distancia Promedio Mundial 1,119.35 1,131.55 1,143.76 +/- 12.21 95% (2*E)

7 Conclusiones

La variable Distancia a Carreteras fue modelada mediante un Modelo Log-Normal Unificado. Se determinó que no es necesaria la segmentación, ya que una sola distribución captura con precisión el fenómeno de proximidad vial masiva y el decaimiento progresivo hacia zonas remotas (Pearson: 99.38%). Esta decisión simplifica la proyección de costos logísticos globales sin perder rigor estadístico.Gracias al Teorema del Límite Central, afirmamos con un 95% de confianza que la distancia promedio poblacional a carreteras se sitúa en 1131.55 ± 12.21 metros, con una desviación estándar muestral de 1412.66 metros.