Como hemos visto a lo largo del curso, el análisis de datos es útil en muchas disciplinas (Salud, PP, deportes, etc).
En particular, en negocios, hemos visto que es una herramienta para agregar valor a las empresas facilitando la toma de decisiones.
11/18/2020
Como hemos visto a lo largo del curso, el análisis de datos es útil en muchas disciplinas (Salud, PP, deportes, etc).
En particular, en negocios, hemos visto que es una herramienta para agregar valor a las empresas facilitando la toma de decisiones.
Un objetivo de DS es predecir!
La clase 8 (Análisis multivariado) revisamos como predecir sobre variables numéricas y continuas
¿Qué sucede con las variables categóricas?
¿Podemos predecir el valor de una variable que no es númerica?
Existen varias técnicas (L.Reg, NN, SVM, Neural Networks, etc) la que hoy revisaremos es la de los árboles de clasificación:
Nos permiten clasificar los datos dependiendo de reglas de decisión sobre variables de la base de datos.
Se considera parte de los árboles de decisión, al igual que los árboles de regresión.
Este método de nos permite clasificar los datos dependiendo de reglas de decisión sobre variables de la base de datos.
Es decir, divide la muestra en subconjuntos dependiendo del valor de otras variables de la base de datos.
Como es un método supervisado (conozco la variable sobre la cuál estoy prediciendo el modelo) puedo utilizar validación cruzada para comprobar la precisión del modelo.
Precisión de la predicción:
Utilizaremos los paquetes “rpart”, “rpart.plot” y “caret” para realizar análisis. Las funciones a utilizar son las siguientes:
rpart: permite utilizar arboles de decisión. Argumentos:
createDataPartition: Nos permite crear un index para set de entrenamiento y de prueba. Argumentos: