30/11/2014

El experimento

Se realizaron observaciones de 30 sujetos realizando las siguientes actividades:

  • laying
  • sitting
  • standing
  • walk
  • walkdown
  • walkup

Cada sujeto llevaba consigo un teléfono Samsung Galaxy II, que cuenta con giroscopio y acelerómetro, la actividad se registró de manera manual y se relacionó con los datos de los teléfonos.

Se realizaron 7 352 observaciones

Los datos

El problema

Predecir las actividades que estan realizando las personas, basado en los datos del teléfono.

  • Se parte la base en dos:
  • De ajuste: 5 867 observaciones
  • De prueba: 1 485 observaciones

Se separa la base a partir de los sujetos, i.e. los sujetos que estan en la de ajuste NO están en la de prueba.

Los modelos se ajustan con la de ajuste (sic), y evaluamos la capacidad predictiva con la de prueba.

Modelo logit multinomial

Se buscó ajustar un modelo logit multinomial, pero debido al número de variables, y falta de independencia entre ellas, el método de estimación no convergió.

Debido a esto se calcularon los componentes principales y se ajustó con los primeros 100 CP, que incluyen el 95% de la variabilidad de las originales.

El porcentaje de observaciones correctamente clasificadas por este modelo fue de:

## [1] 94.41

Visualización de la predicción

Para mostrar gráficamente como predice el modelo:

  • Se construyó un grid de \(300\times 300\) con valores dentro de los rangos de los dos primeros componentes principales

  • Se ajustó el modelo con estas dos primeros componente principales

  • Se realizó la predicción para las 90 000 combinaciones.

Los dos primeros CP según actividad

plot of chunk unnamed-chunk-3

Predicción Multinomial logit c/ 2 CP

plot of chunk unnamed-chunk-4

Arbol de clasificación (CART)

  • Es método utilizado en 'machine learning' y mineria de datos

  • Es sencillo pero poderoso

  • Ajusta sobre una sola variable a la vez

  • Minimiza la variabilidad de la variable respuesta a partir de una partición (divide la muestra binariamente)

  • Maximiza la información de la muestra -Minimiza la variabilidad dentro del grupo, la maximiza entre grupos

Visualización del modelo c/ 2 CP

plot of chunk unnamed-chunk-5

Predicción árbol c/ 2 CP

plot of chunk unnamed-chunk-6

Predicción del CART en la base de prueba

  • Se pudo ajustar el árbol con las 561 variables predictoras.

  • Unicamente echó mano de 8 variables para realizar el ajuste

  • Predijo satisfactoriamente 88.96% de los casos.

Una buena manera de observar el modelo es gráficamente:

CART con 561 variables

plot of chunk unnamed-chunk-7

Bosques Aleatorios (Random Forest)

Si bien son sencillos los árboles de clasificación tienden a mostrar poca capacidad predictiva.

Existen diferentes extensiones del método, una sencilla son los RF.

  • Se realizan \(k\) muestras con reemplazo de la muestra, tanto de las observaciones como de las variables (bootstrap no paramétrico)

  • Se ajusta un árbol para cada submuestra

  • La predicción se realiza mediante un sistema de votos

El bosque con 500 árboles tuvo un porcentaje de aciertos de 95.15%

Predicción Bosque Aleatorio c/ 2 CP

plot of chunk unnamed-chunk-8

Conclusiones

  • No es un modelo lineal
  • "Ligero"
  • "PODEROSO"
  • ¿Y la inferencia?
  • ¿Y las distribuciones?

Algunas referencias