Formato

El formato de respuesta es el siguiente:

Importante: Deben ser suprimidos los mensajes y warnings del informe. (3 puntos)

El control constará de tres partes la primera es predicción de regresión, la segunda será la predicción de árboles de decisión y la última serán preguntas de desarrollo. Se utilizarán dos bases de datos distintas.

Limpie el entorno

Cargue todos los paquetes que necesita para trabajar con data.table, modelos de predicción de regresión, árboles de decisión, cluster y Cross-Validation. Además, cargue las bases de datos. (1 punto)

Importante: Verifique la clase (class) de las variables que vaya a utilizar en todos sus modelos y si es necesario transformarla a numérica o factor, hágalo!

Para la primera parte cuenta con el siguiente diccionario de variable (prima de seguro):

  • age: Edad del paciente.
  • sex: Sexo del paciente.
  • bmi: Índice de masa corporal
  • children: Número de hijos
  • smoker: Indicador si fuma
  • region: Región donde vive el asegurado
  • charges: Prima del seguro

Para la segunda parte tiene este diccionario de variables (cancer de mamas)

  • radius: radio (media de las distancias del centro a los puntos del perímetro)
  • texture: textura (desviación estándar de los valores de la escala de grises)
  • perimeter: perímetro
  • area: área
  • smoothness: suavidad (variación local de las longitudes de los radios)
  • compactness: compacidad (perímetro^2 / área - 1,0)
  • concavity: concavidad (gravedad de las partes cóncavas del contorno)
  • concave points: puntos cóncavos (número de porciones cóncavas del contorno)
  • symmetry: simetría
  • fractal dimension: dimensión fractal (“aproximación de la línea de costa” - 1)

Enunciado

Parte 1

  1. Realice dos modelos de regresión lineal multiple para predecir la variable charges (prima de seguros) ¿Cuál predice mejor dentro de muestra?. (8 puntos)

Observación: No obtendrá puntaje si compara un modelo de regresión de una variable.

  1. Realice validación cruzada (CV) a los modelos de la pregunta anterior por el método K-folds con 5 folds. ¿Se mantienen las conclusiones anteriores?. (8 putos)

Pista1: Recuerde setear la semilla set.seed(12345).

Pista2: Si existen variables con NA recuerde que puede excluirlas esas observaciones del análisis, pero no las elimine.

  1. Proponga dos variables sobre las cuales segmentar la muestra, en orden de hacer análisis de clusters con el método de kmeans. Muestre sus resultados gráficamente. (8 puntos)

Realice un gráfico de codo

Pista1: Si existen outliers recuerde eliminarlos, para esto cree un nuevo objeto donde se encuentren estas dos variables.

Parte 2

  1. Realice dos modelos de árboles de clasificación de la variable diagnosis. Pruebe cuál modelo clasifica mejor con validación cruzada. Entrene el modelo con un 80% de la muestra y testee con el 20% restante. Explicite qué modelo es mejor y porqué. (12 puntos)

Importante: Recuerde setear la semilla set.seed(12345).

Observación: No obtendrá puntaje si compara un modelo de clasificación de una variable.

Parte 3

  1. ¿Para qué se utiliza validación cruzada (Cross Validation)?

  2. ¿Cual es la diferencia entre regresión y clasificación?