1 Exploración mediante PCA logístico

La idea del presente documento es explorar las relaciones entre las variables categóricas y tramos de valor de las exportaciones. La idea es crear categorías para el valor de exportación, de medio que se puedan caracterizar las exportaciones de cada tramo de valor. Es decir, responder a la pregunta ¿Que debiese esperar encontrar cuando sé que las exportaciones tienen un valor muy alto?, o uno muy bajo, uno medio, etc.

De esta forma, se logra tener una percepción mas aguda respecto a la serie de condiciones, atributos o cualidades que tienen las exportaciones de cada tramo (diferenciable) de valor.

1.1 Procesamiento de los datos: tramos de valor, dummies y modelo PCA logístico

## 18000 rows and 91 columns
## Rank 2 solution with m = 4 
## 
## 34.9% of deviance explained
## 78 iterations to converge
  • Se crea un modelo de PCA logístico con la intención de estudiar si existen características comunes -reflejadas en los principales componentes del PCA logístico- para estos grupos de valor. Estos componentes se construyen mediante la captura de la escencia o naturaleza de la variabilidad de ciertas variables como el tipo de carga, la vía de transporte, la región de origen, el nombre de aduana, la zona de desembarque y el nombre del puerto de embarque.

  • Se crea una muestra pequeña por alto costo computacional de este tipo de modelos, cuando las variables tienen una alta cardinalidad -como el caso del nombre del puerto de embarque por ejemplo-. La alta cardinalidad es el número de valores únicos (o categoría que es el término que uso en este documento) que tiene cada variable.

  • El modelo es capaz de explicar solo 32% de la variabilidad. De todas formas se explorará los resultados obtenidos.

Mº PCA logístico

  • Se logra apreciar cierta similaridad entre grupos de observaciones que tienen niveles altos de valor de exportación.

Además se pueden estudiar los valores probabilísticos que el modelo le asigna a cada exportación estudiando los “fitted values”. Por ejemplo, puedo estudiar los gráficos de densidad asociados a cada categoría de cada variable, a partir del tramo de valor al que pertenece la exportación.

Ejemplo 1

  • Cada punto de cada gráfico de densidad es una probabilidad asignada por el modelo logístico a una exportación que se encuentra en alguna de estos grupos.

  • Hallazgo: Una vez que sabemos que las exportaciones tienen un valor medio o medio alto (por ejemplo), la probabilidad de que el tipo de carga sea F es en general mayor a que si la exportación fuese de bajo valor.

Otro ejemplo

  • Hallazgo: El modelo asigna valores probabilisticos superiores a que la vía de transporte sea marítima cuando las exportaciones tienen valores altos, a cuando los tienen bajos. Se excluye exportaciones del tramo de valor “Alto”, que al ser tan concentrados en torno a 1 impiden visualizar correctamente el resto de los gráficos.

2 Estudio de desviación de valores esperados asignados por el modelo logístico

A continuación se construye un mecanismo para poder estudiar las desviaciones de lo esperado, a partir de los resultados del modelo de PCA logístico. Lo que interesa encontrar es cuales son las categorías, para cada variable, que se encuentran de modo mas frecuente que el esperable cuando el valor de exportación toma ciertos valores.

Por ejemplo, uno puede encontrar que cuando las exportaciones toman un valor muy alto, la vía de transporte utilizada es por vía marítima con mayor frecuencia que lo esperable (hay cierta correlación entre las variables).

Notar que esta es una simplificación, dado que el modelo evalúa cada variable en combinación con las otras, es decir, evalúo cual es la frecuencia esperable cuando la vía de transporte es marítima (se construye a partir de tablas de contingencia y sus frecuencias) pero además la zona de desembarque es Asia y la aduana es Valparaíso, etc. (así para cada una de las variables).

El procedimiento es el siguiente

  1. El modelo se ajusta a partir de las 18000 observaciones, y extraigo los valores ajustados por el modelo, para cada observación (los valores ajustados son los mismos que enseñe en los últimos 2 gráficos).

Ejemplo de 2 columnas de probabilidades ajustadas, asociadas estas a las columnas código F y código G, además del valor al que pertenece la exportación, utilizada para ajustar el modelo

  1. Luego, calculo los valores promedio de cada tramo de valor (por ejemplo “Alto”), para cada categoría (por ejemplo “codigo F”), de cada variable (ejemplo: “tipo de codigo”). Esto es, agrupo todas las observaciones que tienen cierto tramo de valor, y calculo el promedio para cada categoría de cada variable. Por ejemplo, para la categoria F de la variable “codigo del tipo de carga” el promedio de las probabilidades asignadas a observaciones de tramo de valor “muy alto” es 28%. (1)

Ejemplo de probabilidades promedio para la categoria “codigo F” para cada tramo de valor. Como señale previamente, se toman todas las probabilidades asociadas a esta categoría agrupando por tramo de valor, y se promedian para ese tramo de valor. En este caso, poco superior al 20% es el promedio de las probabilidades para las exportaciones que tienen valor “Alto” asociadas a la categoría “código F”

Ejemplo de una observación de valor Alto y las probabilidades asignadas por el modelo para la variable codigo del tipo de carga

  1. Posteriormente calculo el “promedio de los promedios”, que sirve de base para estudiar desviaciones. El punto es: Una vez que tengo una matriz con todos los promedios explicados en (1) y enseñados en los gráficos de densidad, y posteriormente calculado los promedios enseñados en los 2 últimos apartados, entonces calculo cual es el promedio de estos promedios para cada categoría.

2.1 Relaciones según estudio de desviaciones (probabilístico)

2.1.1 Nubes de letras

Una vez encontradas las métricas, se diseña un sistema para poder visualizar las relaciones entre las categorías y los tramos de valor de las exportaciones.

2.1.1.1 Bastante Alto

  • No encuentra categorías que sean significativamente superiores, a excepción de hasta cierto punto la categoría “Puerto marítimo”. Es algo impreciso, porque los categorías que son bastante superiores a lo esperado (como se verá mas adelante con otro procedimiento mas adecuado que este) son por ejemplo la categoría G y la región de antofagasta (puerto marítimo es correcto). Encuentra cierta asociación con Asia que es correcto, con Europa que es relativamente correcto (es la 2º zona de destino luego de Asia para este grupo de exportaciones).

  • También hay que notar que trabaja con información muestral, que entrega muy pocos resultados para esta categoría.

2.1.1.2 Medio

  • Tramo de valor medio asociado con aduana y puerto de San Antonio, tipo F, destino Asia, origen ohiggins.

2.1.1.3 Muy Bajo

  • Este es bastante mas correcto, dado que estas categorías crecen significativamente respecto a lo esperado cuando los valores son bajos.

3 Mecanismo determinístico para encontrar relaciones entre tramos de valor y variables categóricas

Objetivo

Se utiliza la herramienta “nube de letras” para visualizar las relaciones entre las variables categóricas y los rangos o tramos de valor de las exportaciones. Se intenta responder la pregunta: Si me enterase de que una determinada exportación tiene cierto tramo de valor (por ejemplo “Alto”), ¿Que atributos o características debiese encontrar en dicha exportación?

Que tipo de carga debiese tener, por cual vía de transporte es mas probable que haya viajado, cuales debiesen ser, con mayor seguridad, las regiones de origen de la mercancía, en que zonas debiese desembarcar, a que destino y por cuales puertos debiese esperar que esta mercancía embarque.

De esta forma, encuentro un mecanismo para relacionar estas categorías, atributos o lugares geográficos con cada tramo de valor.

3.1 Explorando relaciones: categorías y tramos de valor

3.1.1 Chordiagram

3.1.1.1 Región de origen y valor: Todos los tramos

  • Los tramos medios, que son mas dominantes, impiden visibilizar los tramos bajos o altos, que entregan mayor información. Para detectar de mejor manera las relaciones, es mejor separar los tramos en grupos. 1 idea es separar aquellos que son mas recurrentes de los que no lo son. Los tramos medio son los mas recurrentes junto a lo relativamente bajo y lo bastante bajo. La otra opción es separar los tramos medios y relativos, de los extremos.

3.1.1.2 Región de origen y valor: Tramos extremos

  • El tramo Bastante bajo es muy dominante en el grupo, y el tramo Alto lo contrario. De lo que se logra observar, la gran mayoría de las exportaciones bajas son de origen nacionalizado o de la región metropolitana.

  • Lo bastante alto tiene como origen la región de antofagasta, y luego la de atacama.

Esto análisis es interesante de replicar para zonas geográficas de desembarque, dado que tiene una cardinalidad adecuada para este tipo de elementos visuales.

3.1.1.3 Zona de desembarque y valor: Tramos extremos

  • Se logra apreciar como la mercadería mas cara va dirigida claramente al mercado asiático. En segunda instancia, pero con cierta diferencia: Europa. Finalmente, muy marginal, américa del norte.

3.2 Explorando los tramos de modo individual

Estas visualizaciones responden preguntas del tipo:

¿Si me encontrara aleatoriamente con una mercancía del nivel mas alto de valor, con que me debiese encontrar?

3.2.0.1 Nivel más alto

  • La mercancía viaja por puerto marítimo, es del tipo G o R, va destino a Asia, principalmente China pero también pudiese ser Japón su destino, viaja por el puerto de antofagasta o puerto angamos, principalmente.

  • A diferencia del sistema anterior, en este hay que tener cuidado de las variables con baja cardinalidad, dado que aparecen con mayor frecuencia en cada uno de los grupos definidos previamente.

Al explorar puerto marítimo

Y los tipos de carga

3.2.0.2 Bastante Alto

  • Misma definición que el grupo anterior prácticamente. En este caso emerge levemente USA como posible destino luego de la China, y Europa como segunda región de destino. Mercancía del tipo R o G. Emerge Valparaíso y Tarapacá

En este caso, el puerto marítimo no debiese ser tan potente

3.2.0.3 Relativamente Alto

excluyendo puerto marítimo

  • Emerge con mayor fuerza USA y la zona de desembarque de América del Norte junto a Europa y Asia (aún la principal región de destino). Emerge San Antonio como puerto junto a valparaíso, y la región de antofagasta, la metropolitanacomo y la del bío bío como regiones de origen.

3.2.0.4 Medio Alto

excluyendo puerto marítimo

  • Tipos de carga F o R principalmente. Mismas zonas de destino a la que se suma ahora América del Sur, a nivel mas bajo. A Valparaíso y San Antonio se agrega San Vicente como puerto. Región metropolitana además de la de los Lagos, Bío bío, maule y ohiggns.

3.2.0.5 Medio

  • Similar al anterior. Se consolida Valparaíso y San Antonio. USA único país visible. Ahora emerge Coronel.

Un buen acompañamiento para esta visualización es el familiar histograma (notar que el wordcloud anterior excluí puerto marítimo dado que ocupa bastante espacio y es muy dominante por su muy alta frecuencia y la baja cardinalidad de la variable. En este gráfico lo incluyo):

¿Cuales son las categorías asociadas con los tramos de valor medios de exportación?

  • La debilidad de este tipo de gráficos es el número de categorías que se puede enseñar al mismo tiempo. En este caso escogí un subcojunto de 50 categorías, mientras que wordcloud trabaja con 435. La fortaleza es que mide de manera exacta a cada categorías en función de la altura de la barra. En cambio wordcloud tiene como debilidad el hecho de que palabras mas largas ocupan más espacio que las cortas (para comparar hay que fijarse más en la altura de la(s) palabra(s) asociada a cada categoría).

3.2.0.6 Relativamente Bajo

Excluyendo puerto maritimo.

  • Surge vía aereopuerto como segunda vía de transporte. Las 3 américas y Europa como zonas de destino, y el aereopuerto AM Benitez como principal exportador de esta categoría.