Preguntas Teóricas

1. ¿Cómo definiría usted al Análisis Espacial?

La analítica espacial es una colección de técnicas y modelos que explícitamente usan la referencia espacial asociada con cada valor de los datos u objeto, que está especificado dentro de un sistema bajo estudio (Baltagi y Arbia, 2008, p. 4).

2. ¿Cuántos tipos de regiones consideramos en el análisis espacial y en qué consiste cada uno?

Existen distintas formas de clasificar las regiones. Baltagi y Arbia (2008, p. 183), presentan tres tipos que se suelen utilizar en el análisis espacial: Regiones formales, uniformes u homogéneas, regiones funcionales o nodales y las regiones administrativas.

Regiones formales: Se construyen por la división aguda en áreas homogéneas o casi-homogéneas. Las regiones formales clasifican las áreas basado en la similitud de atributos y contigüidad en el espacio. Las fronteras entre regiones se basan en los cambios en niveles de atributos.
Regiones funcionales: Son demarcadas usando datos de interacción. Las regiones funcionales se unen por un patrón de interacción social o económica que ocurre dentro de ellas, y que las diferencia de las regiones funcionales vecinas.
Regiones administrativas: Son consecuencia de la toma de decisiones políticas. Usualmente tienen fronteras precisas y son construidas por gobiernos y organizaciones públicas y privadas para manejar el espacio.

3. ¿Por qué las regiones político-administrativas no son el medio más adecuado para analizar los procesos económicos?

No es el medio más adecuado porque no necesariamente existe una correlación entre los límites geográficos y el efecto de los procesos económicos en estos. En otras palabras, se ignora la interdependencia económica que puede existir entre regiones administrativas, al intentar limitar los procesos económicos a las fronteras político-administrativas. Lo anterior se ejemplifica a continuación, donde si se tiene una granja sus límites espaciales no responden a los límites administrativos necesariamente y si estos últimos se hicieran cumplir, esto podría producir patrones de sobre cuento o infravaloración de errores en el análisis que sólo empeorará con el tiempo si es que la granja crece en tamaño. Es decir, si analizamos territorios en base a sus límites político-administrativos podríamos estar dejando de lado interacciones transfronterizas que influyen en los procesos económicos como la globalización, coexistencia de sectores con distintos niveles de desarrollo y desigualdades económicas relevantes (Baltagi y Arbia, 2008, p. 67).

4. ¿Qué es la heterogeneidad espacial?

Anselin (1988, p.119) asigna el término de heterogeneidad espacial a la inestabilidad de factores a través del espacio. Es la heterogeneidad –que se ve en funciones de respuestas diferentes, parámetros de variación sistemática y errores de medición no homogéneos– relacionada a la estructura espacial, o como resultado de procesos espaciales. La heterogeneidad tiene dos aspectos distintivos: inestabilidad estructural expresada por formas funcionales cambiantes o parámetros variables, y la heterocedasticidad.

5. ¿Cómo definimos la autocorrelación espacial positiva?

Para comenzar, una autocorrelación espacial mide como la distancia influye en una variable en particular. En otras palabras, cuantifica el grado en el que los objetos son similares a otros cercanos. Se dice que una variable tiene autocorrelación espacial positiva cuando valores similares tienden a estar más juntos que valores no parecidos entre sí. Cuando la presencia de un fenómeno determinado en una región lleva a que se extienda ese mismo fenómeno hacia el resto de las regiones que la rodean, favoreciendo así la concentración de este.

6. ¿En qué consiste la matriz de pesos espaciales?

Para tener una matriz de pesos espaciales primero se necesita definir una medida de cercanía de contigüidad (por ejemplo, tipo reina) o distancia a un conjunto de sitios ordenados en un plano cartográfico, luego esta se construye con valores 0 o 1 dependiendo de si cumplen con la condición de cercanía, como lo hacen los vecinos de primer orden cuando el valor es 1 y 0 si es que no son vecinos. De esta forma se tiene la matriz en donde las filas y columnas presentan el ordenamiento de los sitios de acuerdo con el plano cartesiano. En esta se estudia la relación con los vecinos, cada elemento captura la relación entre dos espacios geográficos.

(página 86)

7. Mencione el tipo de decisiones que implican considerar la analítica espacial para el desarrollo de estrategias empresariales.

La analítica espacial afecta o es importante en el desarrollo de estrategias empresariales cuando se tratan temas como:

Segmentar al mercado según la oferta de productos para concentrar los esfuerzos de marketing y ventas de forma estratégica.
Localización de puntos de ventas, distribuidores y sucursales considerando factores como la densidad poblacional, competencia, etc.
Optimizar la decisión de los mejores sitios para ubicar o proponer la relocalización de sucursales.
Logística y distribución donde se busquen las rutas más eficientes a la hora de entregar productos, gestionar inventarios, entre otros.
Mejorar el servicio al cliente de acuerdo a tendencias específicas en la zona geográfica.

Obtención de coeficientes de localización (Se adjunto Excel con el proceso correcto, de igual forma se enviará el intento en R)

Cargando la base de datos y librerías

library(dplyr)

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

library(readxl)
library(tidyverse)

## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ forcats   1.0.0     ✔ readr     2.1.4
## ✔ ggplot2   3.4.2     ✔ stringr   1.5.0
## ✔ lubridate 1.9.2     ✔ tibble    3.2.1
## ✔ purrr     1.0.1     ✔ tidyr     1.3.0

## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors

# R1
data1 <- read_excel("BasePIB_ACTUALIZADA.xlsx", 
    sheet = "R1")

## New names:
## • `` -> `...3`
## • `` -> `...4`
## • `` -> `...5`
## • `` -> `...6`
## • `` -> `...7`
## • `` -> `...8`
## • `` -> `...9`

# R2
data2 <- read_excel("BasePIB_ACTUALIZADA.xlsx", 
    sheet = "R2")

## New names:
## • `` -> `...3`
## • `` -> `...4`
## • `` -> `...5`
## • `` -> `...6`
## • `` -> `...7`
## • `` -> `...8`
## • `` -> `...9`

# R3
data3 <- read_excel("BasePIB_ACTUALIZADA.xlsx", 
    sheet = "R3")

## New names:
## • `` -> `...3`
## • `` -> `...4`
## • `` -> `...5`
## • `` -> `...6`
## • `` -> `...7`
## • `` -> `...8`
## • `` -> `...9`

# R4
data4 <- read_excel("BasePIB_ACTUALIZADA.xlsx", 
    sheet = "R4")

## New names:
## • `` -> `...3`
## • `` -> `...4`
## • `` -> `...5`
## • `` -> `...6`
## • `` -> `...7`
## • `` -> `...8`
## • `` -> `...9`

nombres_columnas <- data1[1, ]
data1 <- data1[-1, ]  
colnames(data1) <- nombres_columnas  

# R2
data2 <- data2[-1, ]  
colnames(data2) <- nombres_columnas  

# R3
data3 <- data3[-1, ]  
colnames(data3) <- nombres_columnas  

# R4
data4 <- data4[-1, ]
colnames(data4) <- nombres_columnas

# R1
data1 <- cbind(data1, Region = rep('R1', nrow(data1)))

# R2
data2 <- cbind(data2, Region = rep('R2', nrow(data2)))

# R3
data3 <- cbind(data3, Region = rep('R3', nrow(data3)))

# R4
data4 <- cbind(data4, Region = rep('R4', nrow(data4)))

data <- rbind(data1, data2, data3, data4)

colnames(data)[1] <- "Actividad_economica"

data <- data %>% pivot_longer(cols = -c(Actividad_economica, Region), 
                               names_to = c("Año"), 
                               values_to = 'PIB')
data <- subset(data, 
               Actividad_economica != 'Subtotal')

options(scipen = 999)

Separando la base de datos por año

datos2003 <- data %>%
  filter(Año == 2003)

datos2004 <- data %>%
  filter(Año == 2004)

datos2005 <- data %>%
  filter(Año == 2005)

datos2006 <- data %>%
  filter(Año == 2006)

datos2007 <- data %>%
  filter(Año == 2007)

datos2008 <- data %>%
  filter(Año == 2008)

datos2009 <- data %>%
  filter(Año == 2009)

datos2010 <- data %>%
  filter(Año == 2010)

2003

PIB_Total_2003 = sum(datos2003$PIB)

produccion_total_actividad_region <- datos2003 %>%
  group_by(Actividad_economica, Region) %>%
  summarise(produccion_total = PIB_Total_2003, .groups = "drop")

produccion_total_region <- datos2003 %>%
  group_by(Region) %>%
  summarise(produccion_total_region = sum(PIB))

produccion_total_actividad <- datos2003 %>%
  group_by(Actividad_economica) %>%
  summarise(produccion_total_actividad = sum(PIB))

datos_completos2003 <- left_join(datos2003, produccion_total_actividad_region, by = c("Region", "Actividad_economica")) %>%
  left_join(produccion_total_region, by = "Region") %>%
  left_join(produccion_total_actividad, by = "Actividad_economica")

datos_coeficientes2003 <- datos_completos2003 %>%
  mutate(Qij = ((PIB/produccion_total_region) / (produccion_total_actividad/PIB_Total_2003)),
         Qhat_R = abs((PIB / produccion_total_region) - (produccion_total_actividad/PIB_Total_2003)),
         Qhat_S = abs((PIB / produccion_total_actividad) - (produccion_total_region/PIB_Total_2003)),
         rVij = 0,
         CRhat_R = 0,
         CRs = 0)

2004

PIB_Total_2004 = sum(datos2004$PIB)

produccion_total_actividad_region <- datos2004 %>%
  group_by(Actividad_economica, Region) %>%
  summarise(produccion_total = PIB_Total_2004, .groups = "drop")

produccion_total_region <- datos2004 %>%
  group_by(Region) %>%
  summarise(produccion_total_region = sum(PIB))

produccion_total_actividad <- datos2004 %>%
  group_by(Actividad_economica) %>%
  summarise(produccion_total_actividad = sum(PIB))

datos_completos2004 <- left_join(datos2004, produccion_total_actividad_region, by = c("Region", "Actividad_economica")) %>%
  left_join(produccion_total_region, by = "Region") %>%
  left_join(produccion_total_actividad, by = "Actividad_economica")

datos_coeficientes2004 <- datos_completos2004 %>%
  mutate(Qij = ((PIB/produccion_total_region) / (produccion_total_actividad/PIB_Total_2004)),
         Qhat_R = abs((PIB / produccion_total_region) - (produccion_total_actividad/PIB_Total_2004)),
         Qhat_S = abs((PIB / produccion_total_actividad) - (produccion_total_region/PIB_Total_2004)),
         rVij = (PIB / datos_completos2003$PIB),
         CRhat_R = abs((PIB/produccion_total_region) - (datos_completos2003$PIB/datos_completos2003$produccion_total_region)),
         CRs = abs((PIB/produccion_total_actividad) - (datos_coeficientes2003$PIB / datos_coeficientes2003$produccion_total_actividad)))

2005

PIB_Total_2005 = sum(datos2005$PIB)

produccion_total_actividad_region <- datos2005 %>%
  group_by(Actividad_economica, Region) %>%
  summarise(produccion_total = PIB_Total_2005, .groups = "drop")

produccion_total_region <- datos2005 %>%
  group_by(Region) %>%
  summarise(produccion_total_region = sum(PIB))

produccion_total_actividad <- datos2005 %>%
  group_by(Actividad_economica) %>%
  summarise(produccion_total_actividad = sum(PIB))

datos_completos2005 <- left_join(datos2005, produccion_total_actividad_region, by = c("Region", "Actividad_economica")) %>%
  left_join(produccion_total_region, by = "Region") %>%
  left_join(produccion_total_actividad, by = "Actividad_economica")

datos_coeficientes2005 <- datos_completos2005 %>%
  mutate(Qij = ((PIB/produccion_total_region) / (produccion_total_actividad/PIB_Total_2005)),
         Qhat_R = abs((PIB / produccion_total_region) - (produccion_total_actividad/PIB_Total_2005)),
         Qhat_S = abs((PIB / produccion_total_actividad) - (produccion_total_region/PIB_Total_2005)),
         rVij = (PIB / datos_completos2003$PIB),
         CRhat_R = abs((PIB/produccion_total_region) - (datos_completos2003$PIB/datos_completos2003$produccion_total_region)),
         CRs = abs((PIB/produccion_total_actividad) - (datos_coeficientes2003$PIB / datos_coeficientes2003$produccion_total_actividad)))

2006

PIB_Total_2006 = sum(datos2006$PIB)

produccion_total_actividad_region <- datos2006 %>%
  group_by(Actividad_economica, Region) %>%
  summarise(produccion_total = PIB_Total_2006, .groups = "drop")

produccion_total_region <- datos2006 %>%
  group_by(Region) %>%
  summarise(produccion_total_region = sum(PIB))

produccion_total_actividad <- datos2006 %>%
  group_by(Actividad_economica) %>%
  summarise(produccion_total_actividad = sum(PIB))

datos_completos2006 <- left_join(datos2006, produccion_total_actividad_region, by = c("Region", "Actividad_economica")) %>%
  left_join(produccion_total_region, by = "Region") %>%
  left_join(produccion_total_actividad, by = "Actividad_economica")

datos_coeficientes2006 <- datos_completos2006 %>%
  mutate(Qij = ((PIB/produccion_total_region) / (produccion_total_actividad/PIB_Total_2006)),
         Qhat_R = abs((PIB / produccion_total_region) - (produccion_total_actividad/PIB_Total_2006)),
         Qhat_S = abs((PIB / produccion_total_actividad) - (produccion_total_region/PIB_Total_2006)),
         rVij = (PIB / datos_completos2003$PIB),
         CRhat_R = abs((PIB/produccion_total_region) - (datos_completos2003$PIB/datos_completos2003$produccion_total_region)),
         CRs = abs((PIB/produccion_total_actividad) - (datos_coeficientes2003$PIB / datos_coeficientes2003$produccion_total_actividad)))

2007

PIB_Total_2007 = sum(datos2007$PIB)

produccion_total_actividad_region <- datos2007 %>%
  group_by(Actividad_economica, Region) %>%
  summarise(produccion_total = PIB_Total_2007, .groups = "drop")

produccion_total_region <- datos2007 %>%
  group_by(Region) %>%
  summarise(produccion_total_region = sum(PIB))

produccion_total_actividad <- datos2007 %>%
  group_by(Actividad_economica) %>%
  summarise(produccion_total_actividad = sum(PIB))

datos_completos2007 <- left_join(datos2007, produccion_total_actividad_region, by = c("Region", "Actividad_economica")) %>%
  left_join(produccion_total_region, by = "Region") %>%
  left_join(produccion_total_actividad, by = "Actividad_economica")

datos_coeficientes2007 <- datos_completos2007 %>%
  mutate(Qij = ((PIB/produccion_total_region) / (produccion_total_actividad/PIB_Total_2007)),
         Qhat_R = abs((PIB / produccion_total_region) - (produccion_total_actividad/PIB_Total_2007)),
         Qhat_S = abs((PIB / produccion_total_actividad) - (produccion_total_region/PIB_Total_2007)),
         rVij = (PIB / datos_completos2003$PIB),
         CRhat_R = abs((PIB/produccion_total_region) - (datos_completos2003$PIB/datos_completos2003$produccion_total_region)),
         CRs = abs((PIB/produccion_total_actividad) - (datos_coeficientes2003$PIB / datos_coeficientes2003$produccion_total_actividad)))

2008

PIB_Total_2008 = sum(datos2008$PIB)

produccion_total_actividad_region <- datos2008 %>%
  group_by(Actividad_economica, Region) %>%
  summarise(produccion_total = PIB_Total_2008, .groups = "drop")

produccion_total_region <- datos2008 %>%
  group_by(Region) %>%
  summarise(produccion_total_region = sum(PIB))

produccion_total_actividad <- datos2008 %>%
  group_by(Actividad_economica) %>%
  summarise(produccion_total_actividad = sum(PIB))

datos_completos2008 <- left_join(datos2008, produccion_total_actividad_region, by = c("Region", "Actividad_economica")) %>%
  left_join(produccion_total_region, by = "Region") %>%
  left_join(produccion_total_actividad, by = "Actividad_economica")

datos_coeficientes2008 <- datos_completos2008 %>%
  mutate(Qij = ((PIB/produccion_total_region) / (produccion_total_actividad/PIB_Total_2008)),
         Qhat_R = abs((PIB / produccion_total_region) - (produccion_total_actividad/PIB_Total_2008)),
         Qhat_S = abs((PIB / produccion_total_actividad) - (produccion_total_region/PIB_Total_2008)),
         rVij = (PIB / datos_completos2003$PIB),
         CRhat_R = abs((PIB/produccion_total_region) - (datos_completos2003$PIB/datos_completos2003$produccion_total_region)),
         CRs = abs((PIB/produccion_total_actividad) - (datos_coeficientes2003$PIB / datos_coeficientes2003$produccion_total_actividad)))

2009

PIB_Total_2009 = sum(datos2009$PIB)

produccion_total_actividad_region <- datos2009 %>%
  group_by(Actividad_economica, Region) %>%
  summarise(produccion_total = PIB_Total_2009, .groups = "drop")

produccion_total_region <- datos2009 %>%
  group_by(Region) %>%
  summarise(produccion_total_region = sum(PIB))

produccion_total_actividad <- datos2009 %>%
  group_by(Actividad_economica) %>%
  summarise(produccion_total_actividad = sum(PIB))

datos_completos2009 <- left_join(datos2009, produccion_total_actividad_region, by = c("Region", "Actividad_economica")) %>%
  left_join(produccion_total_region, by = "Region") %>%
  left_join(produccion_total_actividad, by = "Actividad_economica")

datos_coeficientes2009 <- datos_completos2009 %>%
  mutate(Qij = ((PIB/produccion_total_region) / (produccion_total_actividad/PIB_Total_2009)),
         Qhat_R = abs((PIB / produccion_total_region) - (produccion_total_actividad/PIB_Total_2009)),
         Qhat_S = abs((PIB / produccion_total_actividad) - (produccion_total_region/PIB_Total_2009)),
         rVij = (PIB / datos_completos2003$PIB),
         CRhat_R = abs((PIB/produccion_total_region) - (datos_completos2003$PIB/datos_completos2003$produccion_total_region)),
         CRs = abs((PIB/produccion_total_actividad) - (datos_coeficientes2003$PIB / datos_coeficientes2003$produccion_total_actividad)))

2010

PIB_Total_2010 = sum(datos2010$PIB)

produccion_total_actividad_region <- datos2010 %>%
  group_by(Actividad_economica, Region) %>%
  summarise(produccion_total = PIB_Total_2010, .groups = "drop")

produccion_total_region <- datos2010 %>%
  group_by(Region) %>%
  summarise(produccion_total_region = sum(PIB))

produccion_total_actividad <- datos2010 %>%
  group_by(Actividad_economica) %>%
  summarise(produccion_total_actividad = sum(PIB))

datos_completos2010 <- left_join(datos2010, produccion_total_actividad_region, by = c("Region", "Actividad_economica")) %>%
  left_join(produccion_total_region, by = "Region") %>%
  left_join(produccion_total_actividad, by = "Actividad_economica")

datos_coeficientes2010 <- datos_completos2010 %>%
  mutate(Qij = ((PIB/produccion_total_region) / (produccion_total_actividad/PIB_Total_2010)),
         Qhat_R = abs((PIB / produccion_total_region) - (produccion_total_actividad/PIB_Total_2010)),
         Qhat_S = abs((PIB / produccion_total_actividad) - (produccion_total_region/PIB_Total_2010)),
         rVij = (PIB / datos_completos2003$PIB),
         CRhat_R = abs((PIB/produccion_total_region) - (datos_completos2003$PIB/datos_completos2003$produccion_total_region)),
         CRs = abs((PIB/produccion_total_actividad) - (datos_coeficientes2003$PIB / datos_coeficientes2003$produccion_total_actividad)))

Graficando los indicadores a través de los años

#Obteniendo promedios de coeficientes 2010
Qij2010 <- mean(datos_coeficientes2010$Qij)
Qhat_R2010 <- mean(datos_coeficientes2010$Qhat_R)
Qhat_S2010 <- mean(datos_coeficientes2010$Qhat_S)
rVij2010 <- mean(datos_coeficientes2010$rVij)
CRhat_R2010 <- mean(datos_coeficientes2010$CRhat_R)
CRs2010 <- mean(datos_coeficientes2010$CRs)

#Obteniendo promedios de coeficientes 2009
Qij2009 <- mean(datos_coeficientes2009$Qij)
Qhat_R2009 <- mean(datos_coeficientes2009$Qhat_R)
Qhat_S2009 <- mean(datos_coeficientes2009$Qhat_S)
rVij2009 <- mean(datos_coeficientes2009$rVij)
CRhat_R2009 <- mean(datos_coeficientes2009$CRhat_R)
CRs2009 <- mean(datos_coeficientes2009$CRs)

#Obteniendo promedios de coeficientes 2008
Qij2008 <- mean(datos_coeficientes2008$Qij)
Qhat_R2008 <- mean(datos_coeficientes2008$Qhat_R)
Qhat_S2008 <- mean(datos_coeficientes2008$Qhat_S)
rVij2008 <- mean(datos_coeficientes2008$rVij)
CRhat_R2008 <- mean(datos_coeficientes2008$CRhat_R)
CRs2008 <- mean(datos_coeficientes2008$CRs)

#Obteniendo promedios de coeficientes 2007
Qij2007 <- mean(datos_coeficientes2007$Qij)
Qhat_R2007 <- mean(datos_coeficientes2007$Qhat_R)
Qhat_S2007 <- mean(datos_coeficientes2007$Qhat_S)
rVij2007 <- mean(datos_coeficientes2007$rVij)
CRhat_R2007 <- mean(datos_coeficientes2007$CRhat_R)
CRs2007 <- mean(datos_coeficientes2007$CRs)

#Obteniendo promedios de coeficientes 2006
Qij2006 <- mean(datos_coeficientes2006$Qij)
Qhat_R2006 <- mean(datos_coeficientes2006$Qhat_R)
Qhat_S2006 <- mean(datos_coeficientes2006$Qhat_S)
rVij2006 <- mean(datos_coeficientes2006$rVij)
CRhat_R2006 <- mean(datos_coeficientes2006$CRhat_R)
CRs2006 <- mean(datos_coeficientes2006$CRs)

#Obteniendo promedios de coeficientes 2005
Qij2005 <- mean(datos_coeficientes2005$Qij)
Qhat_R2005 <- mean(datos_coeficientes2005$Qhat_R)
Qhat_S2005 <- mean(datos_coeficientes2005$Qhat_S)
rVij2005 <- mean(datos_coeficientes2005$rVij)
CRhat_R2005 <- mean(datos_coeficientes2005$CRhat_R)
CRs2005 <- mean(datos_coeficientes2005$CRs)

#Obteniendo promedios de coeficientes 2004
Qij2004 <- mean(datos_coeficientes2004$Qij)
Qhat_R2004 <- mean(datos_coeficientes2004$Qhat_R)
Qhat_S2004 <- mean(datos_coeficientes2004$Qhat_S)
rVij2004 <- mean(datos_coeficientes2004$rVij)
CRhat_R2004 <- mean(datos_coeficientes2004$CRhat_R)
CRs2004 <- mean(datos_coeficientes2004$CRs)

#Obteniendo promedios de coeficientes 2003
Qij2003 <- mean(datos_coeficientes2003$Qij)
Qhat_R2003 <- mean(datos_coeficientes2003$Qhat_R)
Qhat_S2003 <- mean(datos_coeficientes2003$Qhat_S)
rVij2003 <- mean(datos_coeficientes2003$rVij)
CRhat_R2003 <- mean(datos_coeficientes2003$CRhat_R)
CRs2003 <- mean(datos_coeficientes2003$CRs)

Creando la base da datos de los coeficientes para graficar

graficar <- data.frame(Año = c(2010, 2009, 2008, 2007, 2006, 2005, 
                               2004, 2003),
                       Qij = c(Qij2010, Qij2009, Qij2008, Qij2007, Qij2006,
                               Qij2005, Qij2004, Qij2003),
                       Qhat_R = c(Qhat_R2010, Qhat_R2009, Qhat_R2008, Qhat_R2007,
                                  Qhat_R2006, Qhat_R2005, Qhat_R2004, Qhat_R2003),
                       Qhat_S = c(Qhat_S2010, Qhat_S2009, Qhat_S2008, Qhat_S2007,
                                  Qhat_S2006, Qhat_S2005, Qhat_S2004, Qhat_S2003),
                       rVij = c(rVij2010, rVij2009, rVij2008, rVij2007, rVij2006,
                                rVij2005, rVij2004, rVij2003),
                       CRhat_R = c(CRhat_R2010, CRhat_R2009, CRhat_R2008,
                                   CRhat_R2007, CRhat_R2006, CRhat_R2005,
                                   CRhat_R2004, CRhat_R2003),
                       CRs = c(CRs2010, CRs2009, CRs2008, CRs2007, CRs2006,
                               CRs2005, CRs2004, CRs2003))

Resultado indicadores en promedio por año

graficar

##    Año Qij                     Qhat_R                     Qhat_S     rVij
## 1 2010   1 0.000000000000000001833287 0.000000000000000008752468 1.209809
## 2 2009   1 0.000000000000000001103915 0.000000000000000013089277 1.182698
## 3 2008   1 0.000000000000000002779500 0.000000000000000011433405 1.220705
## 4 2007   1 0.000000000000000001921995 0.000000000000000008989022 1.195470
## 5 2006   1 0.000000000000000001399606 0.000000000000000011275703 1.163338
## 6 2005   1 0.000000000000000001330612 0.000000000000000005283021 1.120924
## 7 2004   1 0.000000000000000004869053 0.000000000000000017504937 1.070953
## 8 2003   1 0.000000000000000001823431 0.000000000000000022945661 0.000000
##       CRhat_R                       CRs
## 1 0.005552491 0.00000000000000001245847
## 2 0.004329570 0.00000000000000001553366
## 3 0.004238331 0.00000000000000001072375
## 4 0.003305677 0.00000000000000001916081
## 5 0.002277633 0.00000000000000001277387
## 6 0.001870733 0.00000000000000001277387
## 7 0.000842994 0.00000000000000001569136
## 8 0.000000000 0.00000000000000000000000

#Para observar todos los indicadores por año correr estos codigos
#view(datos_coeficientes2003)
#view(datos_coeficientes2004)
#view(datos_coeficientes2005)
#view(datos_coeficientes2006)
#view(datos_coeficientes2007)
#view(datos_coeficientes2008)
#view(datos_coeficientes2009)
#view(datos_coeficientes2010)

Graficando Promedio Qij a través del tiempo

library(ggplot2)
ggplot(data = graficar, aes(x = Año, y = Qij)) + geom_line(color = "blue") + geom_point( color = "red") + labs(title = "Coeficiente Qij" , subtitle = "a través del tiempo") + coord_cartesian(ylim = c(min(graficar$Qij) * 1, max(graficar$Qij) * 1))

A través del tiempo podemos visualizar que la especialización de la nación completa (actividad económica de todas las regiones) en promedio se mantiene constante.

Graficando el promedio del indicador Qhat_R a través del tiempo

ggplot(data = graficar, aes(x = Año, y = Qhat_R)) + geom_line(color = "blue") + geom_point( color = "purple") + labs(title = "Coeficiente Qhat_R" , subtitle = "a través del tiempo")

Observando las estructuras regionales y comparándolas entre sí en un promedio anual, podemos mencionar que: Si bien existen variaciones a través del tiempo, de igual forma se mantienen cerca del cero, esto significa que la estructura de las regiones en promedio son casi similiares.

Graficando el indicador Qhat_S a través del tiempo

ggplot(data = graficar, aes(x = Año, y = Qhat_S)) + geom_line(color = "blue") + geom_point( color = "black") + labs(title = "Coeficiente Qhat_s" , subtitle = "a través del tiempo")

Al igual que el caso anterior, se visualiza al indicador con diversos movimientos a través del tiempo. No obstante, no se aleja del cero, por ende, hay un menor grado de concentración de los sectores económicos. Por lo tanto, el grado de similitud de la distribución interregional de una actividad con respecto a otra, en promedio, es elevado.

Graficando el indicador rVij a través del tiempo

ggplot(data = graficar, aes(x = Año, y = rVij)) + geom_line(color = "blue") + geom_point( color = "darkgreen") + labs(title = "Coeficiente rVij" , subtitle = "a través del tiempo") + coord_cartesian(ylim = c(min(graficar$rVij) * 0.5, max(graficar$rVij) * 1.3))

Con respecto al año 2003, se puede manifestar a través del gráfico que los sectores económicos de todas las regiones, en promedio, se presencia un crecimiento leve.

Graficando el indicador CRhat_R a través del tiempo

ggplot(data = graficar, aes(x = Año, y = CRhat_R)) + geom_line(color = "blue") + geom_point( color = "blue") + labs(title = "Coeficiente CRhat_R" , subtitle = "a través del tiempo")

Con respecto al año 2003, podemos observar que la especialización regional posee una tendencia positiva en promedio, a través del tiempo. Pero, está muy lejano a presentar una reestructuración regional porque sus valores estan alejados a 1. Se puede manifestar que la estructura regional se mantiene casi similar en los años de análisis.

Graficando el indicador CRs a través del tiempo

ggplot(data = graficar, aes(x = Año, y = CRs)) + geom_line(color = "blue") + geom_point( color = "brown") + labs(title = "Coeficiente CRs" , subtitle = "a través del tiempo") + ylim(0, max(graficar$CRs))

Con respecto al año 2003, de igual forma que el indicador anterior, se puede mencionar que la concentración o evolución de cada sector económico en promedio, no presenta grandes cambios, es decir, su participación en las unidades espaciales se mantienen similares dado que los indicadores promedios estan cercanos a cero.

Parte 3

A partir del mapa de la Región Metropolitana y el archivo que se adjunta en formato shape se pide que realice los siguientes análisis.

1. Exponga las diferencias entre un AED y un AEDE.

Para comenzar, cuando nos referimos a un AED este corresponde a un Análisis Exploratorio de Datos que se usa para detectar patrones dentro de los datos con el fin de formular hipótesis y aspectos de la evaluación de modelos. En sí, ambos tienen como uno de los puntos principales el análisis gráfico y para esto el AED usa tipos de visualizaciones como el histograma, diagrama y gráfico de dispersión, gráfico de coordenadas paralelas y los datos atípicos mediante los diagramas de caja.

Por otro lado, el AEDE que es el Análisis Exploratorio de Datos Espaciales es una disciplina dentro del anterior que se basa en la geoestadística o la econometría espacial, donde la primera trata fenómenos espaciales que se encarga de estimar, predecir y simular dichos fenómenos. “Parte de la observación de que la variabilidad o continuidad espacial de las variables distribuidas en el espacio tienen una estructura particular, que se estudia mediante las dependencias entre ellas” (de Corso Sicilia, G. B., 2017, p.93). Mientras que en el caso de la econometría espacial, esta se ocupa de la dependencia y la heterogeneidad espacial. Por último, el AEDE usa técnicas de visualización como mapas temáticos y dinámicos, gráficos condicionales, diagrama de dispersión de Morán y este mismo multivariante.

2. Realice un AEDE, según nivel de análisis en las herramientas utilizadas. ¿Qué encuentra en dicho análisis? (Las herramientas vistas en clases son sólo algunas de las que se espera que pueda utilizar) Haga un reporte en R.

Se presenta a continuación el mapa de cuantiles de la región metropolitana según la variable ingreso de hogar. Este se realizó con 10 cuantiles y los resultados fueron los siguientes:

Ingreso del Hogar

Como se observa, las comunas con mayor ingresos de hogar corresponden aquellas ubicadas en el nororiente de la región tales como Vitacura, La Reina, Las Condes, Ñuñoa y Providencia. Mientras que las comunas con menores ingresos por hogar corresponden a aquellas ubicadas en el poniente de la región, que están fuera del Gran Santiago, tales como María Pinto, San Pedro, Isla de Maipo, Tiltil y La Pintana.

Por otro lado, analizando la variable de densidad con el mapa de cuantiles, que en este caso se hicieron 5, se tiene que las comunas con mayor densidad de población son aquellas dentro del Gran Santiago, quedando entre las primeras El Bosque, Cerro Navia, La Granja, San Ramón y Lo Prado. Mientras que las comunas en la periferia son aquellas con menor densidad tales como San José del Maipo, Alhué, San Pedro, Tiltil y María Pinto.

Mapa de cuantiles densidad

Box plot Ingreso del hogar

A continuación analizamos con ayuda de un diagrama de caja la variable ingreso de hogar, donde se tiene que la mayor cantidad de comunas se ubican entre los 250.000 y 390.000 en cuanto ingreso con datos atípicos yendo tan alto como 1.731.000 pesos chilenos, es decir esta variable no está distribuida equitativamente en las comunas.

Por lo anterior, es que realizamos un mapa de 10 cortes naturales para visualizar la presencia de los datos atípicos y por ende la desigualdad en la distribución de la variable. Es así, como en este mapa podemos ver que son solo cinco comunas quienes se encuentran entre las tres categorías de mayor ingreso de hogar y el resto se acumula en los intervalos más bajos de ingreso.

Natural breaks Ingresos del hogar

Box plot Escolaridad

Por otro lado, analizando la variable escolaridad se tiene que esta se encuentra distribuida más equitativamente que ingreso de hogar, pero con un número no menor de datos atípicos fuera de los cuartiles. Cabe destacar que existe un nivel alto de escolaridad a lo largo de las comunas de la región metropolitana.

Ahora, veremos en un gráfico de dispersión para analizar la relación entre las variables de escolaridad e ingreso de hogar, donde como se puede observar existe una correlación sesgada entre estas pues están sesgadas por los datos atípicos presentes.

Scatter plot Esc Ing

Mientras que en este gráfico de dispersión, las variables ingreso de hogar y densidad poblacional, se tiene que no presentan correlación alguna visible. Entonces, la densidad de una comuna no afecta la cantidad de ingreso por hogar que se percibe.

Scatter plot den Ing

Finalmente, analizamos la variable Edad, para entender cómo esta se distribuye.

Como se observa en el Box Plot, está distribuida de una forma cercana a la normal, entre los 31 y los 41 años en promedio. Además, al compararla con otras variables, podemos observar que no se tiene una correlación significativa con la Escolaridad, con baja bondad de ajuste. Con los Ingresos del hogar, se ve un poco más de correlación entre ambas variables, sin embargo, de poca significancia estadística, y la bondad de ajuste sigue siendo baja.

SP edad ing SP edad esc Box plot Edad

3. Utilizando un análisis de cluster, para lo cual en primer lugar exponga y explique la metodología a utilizar. Luego realice su procedimiento (si considera necesario puede agregar m´as información a su análisis). Posteriormente, muestre sus resultados en términos espaciales.

Queremos realizar un mapa de clusters que nos agrupe las comunas por patrones en su comportamientos, si son similares o no. Para esto utilizaremos las variables escolaridad, ingreso de hogar y edad, dejando de lado el resto. Lo anterior debido a que buscamos entender el comportamiento en las comunas sin considerar sus características geográficas, como densidad poblacional y superficie, y así evitar que se agrupen en clusters por tener tamaños similares, en lugar de por tener patrones de comportamiento similares.

Para esto usamos GeoDa (Clusters, K-Means) y comenzamos con una prueba y error en los parámetros para crear el mapa de clusters, donde jugamos con la cantidad de clusters, las variables que incluimos, ponderación usada, entre otros. Es así que finalmente el siguiente mapa se realizó con 5 clusters, ponderación 0.5 y las variables de ingreso del hogar, escolaridad y edad. Los resultados se presentan a continuación:

Cluster Summary

De lo anterior, tenemos que por la suma total de cuadrados, el cluster que presenta patrones de comportamiento más similares entre sí corresponde al C5, esto incluye a las comunas de Las Condes, Providencia, Ñuñoa, La Reina y Vitacura en términos de las variables ingreso, escolaridad y edad. Esto no se presenta como una sorpresa considerando los análisis anteriores, donde ya se había visualizado que al ser comunas con mayor ingreso estas también tienen mayor grado de escolaridad. Sin embargo, es la variable edad la que es interesante de graficar debido al comportamiento de sus datos atípicos.

SP Edad Ing outliers

Esto se comprueba con el siguiente gráfico de dispersión entre las variables de edad e ingreso de hogar, donde escogiendo los datos atípicos, que corresponden a las mismas 5 comunas del cluster C5 de la muestra, podemos ver que su comportamiento, representado por la línea roja, es de una correlación positiva y entonces, a mayor edad será mayor el ingreso percibido en el hogar. Sin embargo, esto no es lo mismo para el resto de comunas, donde existe finalmente una correlación negativa entre las variables de edad e ingreso, pues a mayor edad promedio las personas del resto de comunas tenderán a ganar en promedio ligeramente menores montos.

4. La clasificación por usted propuesta como se correlaciona con el Clasificación de grupos socioeconómicos ABC1.

Es sabido que el sueldo mínimo actualmente es de, aproximadamente, $410.000 CLP líquidos. En la base de datos estudiada, la gran mayoría de las comunas presentan un ingreso hogar menor a este monto. Por lo tanto, podemos asumir que la base de datos está desactualizada, o que existe falta de claridad en lo que estas variables representan (ejemplo, ingreso hogar puede ser el ingreso promedio de cada persona dentro de un hogar). Nuestro enfoque será, entonces, extrapolar los porcentajes de la población que pertenecen a cada segmento socioeconómico de la clasificación ABC1, y aplicarlos en la base de datos dada. Nos guiamos por los ingresos del hogar (de mayor a menor) para relacionar los clusters con la clasificación ABC1.

Utilizaremos los porcentajes de la actualización 2019 para el Gran Santiago:

%GSE Personas Stgo

%GSE Personas Educ

## Rows: 52 Columns: 8
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (1): nom_comuna
## dbl (7): AGG_COUNT, Mujer, Hombre, Edad, Escolarida, Ingr_hogar, CL
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

## # A tibble: 5 × 5
##      CL pob_rel_acc ing_hogar   esc  edad
##   <dbl>       <dbl>     <dbl> <dbl> <dbl>
## 1     1       59.8    307400. 10.8   35.5
## 2     2       17.1    407754. 11.4   38.5
## 3     3        4.35   277087.  9.83  38.1
## 4     4        9.10   393092  11.6   32.7
## 5     5        9.71  1278678. 15.2   39.5

Nuestro primer clúster (CL 5) contiene el 9.7% de la población total, con un ingreso de 1.278.679 promedio y 15.2 años de escolaridad promedio. Esto nos indica alta escolaridad (educación universitaria o técnica). Por lo tanto, lo podemos relacionar con los grupos AB y C1a.
El segundo clúster (CL 2) contiene el 17% de la población, con un ingreso promedio de $407.753 y escolaridad promedio de 11.4 años. Esto nos indica una escolaridad promedio de educación media casi-completa. Lo relacionamos al conjunto C1b y C2.
El tercer clúster (CL 4) contiene el 9% de la población, con un ingreso promedio de $393.092 y 11.53 años de escolaridad promedio (educación media casi-completa). Lo asociamos al conjunto C2 y C3.
El cuarto clúster (CL 1) es el que más porcentaje de población tiene, con un 59.77%. El ingreso de hogar promedio es de $307.400, con 10.8 años de escolaridad (educación media incompleta). Esto lo podemos asociar a los grupos C3 y D.
Finalmente, el quinto clúster (CL 3) es el que menos porcentaje contiene, con un 4,35% de la población. El ingreso de hogar promedio es de $277.086, con 9,8 años de escolaridad (educación media incompleta). Por lo tanto, lo asociamos al conjunto E.

Podemos concluir que la clasificación propuesta por nosotros tiene correlación con la entregada por AIM Chile, donde el comportamiento de las variables es similar. Sin embargo, esta asociación no es tan clara, debido a que son sistemas de clasificación muy diferentes. Los clústers no siempre se asocian uno a uno con los grupos de clasificación ABC1. Esto puede ser porque se consideran dimensiones diferentes a la hora de clasificar, en nuestro caso, se realiza un análisis espacial de la mano con la creación de grupos.

5. Respecto de la relación entre ingresos y localización. ¿Cuál es la diferencia entre un AED y AEDE?

Como mencionamos en los incisos anteriores, el AEDE es una disciplina contenida dentro del AED que incluye en su análisis el espacio geográfico como variable. Entonces, desde un AED la relación entre los ingresos y la localización no es visible pues esta disciplina no incluye el análisis espacial como factor a estudiar. Mientras que el AEDE es posible analizar esta relación, como se hizo en las preguntas anteriores, con el uso de herramientas como mapas de cuantiles y luego un análisis de cluster, los cuales nos permiten englobar el comportamiento similar o disidente que tengan espacios físicos vecinos o contiguos respecto de un grupo de variables a seleccionar.

Tarea 2

Angela Cuadros, Paula Mendoza, Eduardo Ubilla, Alonso Valdés, Matías Zamorano

2023-07