Agosto 15, 2015

Agenda

  • Presentaciones proyectos (1era parte)
  • Repaso regresión lineal y aplicaciones en R
  • Aplicaciones de la estadĆ­stica en la innovación social y la polĆ­tica pĆŗblica
  • Conclusiones generales del curso

Regresión: aplicaciones en R

ENUT: Tiempo de estudio en casa y edad

ENUT: Tiempo de estudio en casa y Establecimiento

ENUT: Tiempo de estudio en casa y Nivel Educativo

ENUT: Tiempo de estudio en casa y DĆ­a de Referencia

ENUT: Tiempo de estudio en casa y Región

Regresión múltivariada en R

fit <- lm(estudioCasa ~ ., data=casa)
fit$coefficients
            (Intercept)                    Edad  EstablecimientoPĆŗblico 
            2.503026365             0.005567892            -0.160364677 
   NivelEspecialización           NivelMaestría         NivelPreescolar 
           -0.283893146            -0.403777088            -1.300639935 
          NivelPrimaria NivelSecundaria o Media            NivelTƩcnico 
           -0.980146636            -0.698620438            -0.509208582 
       NivelTecnológico      NivelUniversitario         GeneroMasculino 
           -0.239321186            -0.070630196            -0.049586571 
           RegionBogotĆ”           RegionCentral          RegionOriental 
            0.358752977             0.244247029             0.346480313 
         RegionPacƭfica        RegionSan AndrƩs           DiaRefFestivo 
            0.056214785             0.061947685             0.003496072 
           DiaRefJueves             DiaRefLunes            DiaRefMartes 
           -0.098894109            -0.084211971            -0.088482321 
        DiaRefMiƩrcoles            DiaRefSƔbado           DiaRefViernes 
           -0.104514278            -0.017218109            -0.135859447 

Predicciones usando el modelo fit

  • Supongamos que tenemos un estudiante en BogotĆ”, del gĆ©nero masculino, que atiende a la Universidad Nacional. ĀæCuanto tiempo de estudio dedica este estudiante desde su casa durante los sĆ”bados y domingos?
  • Recordemos que la edad no tiene un impacto relevante por lo que simplemente asumiremos que el estudiante tiene 22 aƱos
  • Usamos la función predict(), que permite ademĆ”s generar un intervalo de confianza para la predicción
DĆ­a fit lwr upr
SƔbado 2.686 0.7977 4.575
Domingo 2.704 0.815 4.592

Aplicaciones de la estadĆ­stica

Toma de decisiones bajo incertidumbre

  • OR (Management Science): campo de estudio que emplea computadores, estadĆ­stica y matemĆ”ticas para resolver problemas de negocios
  • Emplea modelos matemĆ”ticos para ayudar en la toma de decisiones
  • Define objetivo, variables que se pueden controlar, restricciones y optimiza la función objetivo (maximizar beneficios o minimizar costos)
  • Muchas veces existe incertidumbre alrededor de los componentes de un modelo de este estilo
  • Por lo que se puede emplear simulación para definir el modelo matemĆ”tico

Ejemplo de simulación: Selección de proyectos

  • Se cuenta con tres alternativas de proyectos
  • Proyecto 1: Requiere inversión inicial de 250 millones, tiene una probabilidad de Ć©xito de 90% y puede generar, de ser exitoso, entre 600 y 900 millones de ingresos
  • Proyecto 2: Requiere inversión inicial de 650 millones, tiene una probabilidad de Ć©xito de 70% y puede generar, de ser exitoso, entre 1.250 y 1.600 millones de ingresos
  • Proyecto 3: Requiere inversión inicial de 700 millones, tiene una probabilidad de Ć©xito de 80% y puede generar, de ser exitoso, entre 1.150 y 1.400 millones de ingresos
  • Si se cuenta con un presupuesto de 1.200 millones, ĀæquĆ© proyectos se deben seleccionar para optimizar el beneficio total?

Pasos

  • Definir objetivo
  • Definir variables de decisión (controlables)
  • Definir restricciones
  • Definir modelo matemĆ”tico
  • Asignar distribuciones (formas) y probabilidades
  • Simular
  • Optimizar

Simulación y optimización*

*manual

  • Si seleccionamos los tres proyectos, la inversión total serĆ­a de 1600, por lo que estarĆ­amos por encima de nuestro presupuesto
  • El presupuesto es una restricción que no permite, en este caso, seleccionar mĆ”s de dos proyectos a la vez
  • Nuestra variable de decisión es entonces quĆ© proyecto(s) seleccionar. ĀæUno o dos? y ĀæCuĆ”l(es)?
  • Objetivo: Maximizar el beneficio esperado
  • El espacio de decisión es pequeƱo (6), por lo que es posible maximizar "manualmente"
  • Sólo es cuestión de definir supuestos (distribuciones) y SIMULAR el beneficio esperado

¿CuÔl sería el beneficio esperado si pudieramos optar por los tres proyectos al tiempo?

Selección óptima de proyectos

Selección óptima de proyectos: Estadísticas descriptivas

alternativa mean.profit sd.profit
P1 420.8 246.3
P1 y P2 810 717.2
P1 y P3 713.2 550.7
P2 389.2 676.7
P2 y P3 681.5 835.7
P3 292.3 491.1

Riesgo y Retorno

Intervalos de confianza para ambas medias (95%)

[1] "Alternativa P1 y P2: Profit esperado"
[1] 803.7731 804.6691
attr(,"conf.level")
[1] 0.95
[1] "Alternativa P1 y P3: Profit esperado"
[1] 709.1396 709.8127
attr(,"conf.level")
[1] 0.95

Formas de refinar el anƔlisis

  • Mejorar supuestos de distribuciones: triangular en lugar de discreta para el caso de mejor-peor-probable-escenario
  • AnĆ”lisis de sensibilidad
  • Costo de no ejecutar presupuesto

Otras aplicaciones en toma de decisiones

  • TeorĆ­a de filas (Queuing Theory)
  • Gestión de proyectos (cuellos de botella)
  • Modelado y optimización de procesos (BPM)

Herramientas de Inteligencia Artificial para las políticas públicas y la innovación social

  • Creciente flujo de información en diversos dominios
  • Información compleja (no estructurada)
  • Mayor importancia en la solución de problemas crĆ­ticos
  • Enfermedades
  • Crimen
  • Terrorismo
  • Pobreza
  • Poder computacional & mĆ©todos escalables de anĆ”lisis de datos

AnƔlisis de grandes conjuntos de datos

  • Machine Learning: Sistemas que mejoran su desempeƱo con la experiencia (aprendiendo de datos)
  • Artificial Intelligence: Ciencia que estudia formas para automatizar comportamientos complejos como el conocimiento, el aprendizaje, la solución de problemas, y la toma de decisiones
  • Data Mining: Aplicación de algoritmos para la extracción de información Ćŗtil a partir de grandes conjuntos de datos

Aplicación en el dominio social y de PP

  • Generación de conocimiento accionable a partir de información no estructurada
  • Predecir y explicar
  • Modelar estructuras complejas
  • Detectar patrones

Tres paradigmas de la IA

  • Predicción (rule-based, case-based, model-based): Predecir variables de interĆ©s (elecciones, tasas de mortalidad)
  • Modelaje (relaciones probabilisticas): Modelaje de sistemas complejos como ciudades o enfermedades para la gestión óptima
  • Detección (anomalĆ­as, patrones): Muy usado en detección de contrabando, lavado de activos, evasión de impuestos, epidemias, ataques terroristas

Aplicación para Colombia: DinÔmica laboral para recién graduados

  • PatiƱo y Basto (2010): Recently Graduated Labor Market Dynamics in Colombia
  • Base de datos del observatorio laboral (2001-2007)
  • Algoritmos: C4.5 (Arbol de Clasificación) y Naive Bayes
  • Clasificar: Ć©xito en la bĆŗsqueda de empleo
  • Origen privado: mejor predictor (nivel acadĆ©mico)
  • Origen pĆŗblico: mejor predictor (región)

Estudiar un PhD reduce probabilidades de éxito en la búsqueda de trabajo

En cuanto a areas de conocimiento, ingenierías y economía y administración incrementan probabilidades de éxito

Otra aplicación: Comercio Internacional

  • PatiƱo y Quintero (2011): Economic Growth Outbreaks: Is Connectedness a Good Predictor?
  • Visualización de redes de comercio internacional
  • ĀæEmerge el crecimiento económico a partir de comunidades de comercio?
  • AnĆ”lisis de redes sociales (de comercio en este caso)
  • Algoritmos de segmentación
  • "We find evidence of correlation between trade clusters and growth outbreaks"

Red de comercio (cluster 2)

Crecimiento promedio PIB - clusters