Formato

El formato de respuesta es el siguiente:

Antes de la respuesta debes agregar un encabezado de tercer nivel (###) con P y el número de pregunta.
Abajo del encabezado, debe estar escrita la pregunta.
Agregar la linea de código.
Agregar el output de ser necesario.
Si requieres agregar alguna respuesta analítica, agregar al final de la pregunta (después del output).
El nombre del archivo .rmd debe tener la siguiente forma: Control 3 - Apellido.
El formato tiene un puntaje asignado dentro de la nota (3 puntos)

Importante: Deben ser suprimidos los mensajes y warnings del informe. (3 puntos)

Se habilitará en webcursos un apartado para que envíen el control publicada en su rpubs y el archivo .rmd.
El plazo para enviar es hasta finalizar la clase.

El control constará de tres partes la primera es predicción de regresión, la segunda será la predicción de árboles de decisión y la última serán preguntas de desarrollo. Se utilizarán dos bases de datos distintas.

Limpie el entorno

Cargue todos los paquetes que necesita para trabajar con data.table, modelos de predicción de regresión, árboles de decisión, cluster y Cross-Validation. Además, cargue las bases de datos. (1 punto)

Importante: Verifique la clase (class) de las variables que vaya a utilizar en todos sus modelos y si es necesario transformarla a numérica o factor, hágalo!

Para la primera parte cuenta con el siguiente diccionario de variable (prima de seguro):

age: Edad del paciente.
sex: Sexo del paciente.
bmi: Índice de masa corporal
children: Número de hijos
smoker: Indicador si fuma
region: Región donde vive el asegurado
charges: Prima del seguro

Para la segunda parte tiene este diccionario de variables (cancer de mamas)

radius: radio (media de las distancias del centro a los puntos del perímetro)
texture: textura (desviación estándar de los valores de la escala de grises)
perimeter: perímetro
area: área
smoothness: suavidad (variación local de las longitudes de los radios)
compactness: compacidad (perímetro^2 / área - 1,0)
concavity: concavidad (gravedad de las partes cóncavas del contorno)
concave points: puntos cóncavos (número de porciones cóncavas del contorno)
symmetry: simetría
fractal dimension: dimensión fractal (“aproximación de la línea de costa” - 1)

Enunciado

Parte 1

Realice dos modelos de regresión lineal multiple para predecir la variable charges (prima de seguros) ¿Cuál predice mejor dentro de muestra?. (8 puntos)

Observación: No obtendrá puntaje si compara un modelo de regresión de una variable.

Realice validación cruzada (CV) a los modelos de la pregunta anterior por el método K-folds con 5 folds. ¿Se mantienen las conclusiones anteriores?. (8 putos)

Pista1: Recuerde setear la semilla set.seed(12345).

Pista2: Si existen variables con NA recuerde que puede excluirlas esas observaciones del análisis, pero no las elimine.

Proponga dos variables sobre las cuales segmentar la muestra, en orden de hacer análisis de clusters con el método de kmeans. Muestre sus resultados gráficamente. (8 puntos)

Realice un gráfico de codo

Pista1: Si existen outliers recuerde eliminarlos, para esto cree un nuevo objeto donde se encuentren estas dos variables.

Parte 2

Realice dos modelos de árboles de clasificación de la variable diagnosis. Pruebe cuál modelo clasifica mejor con validación cruzada. Entrene el modelo con un 80% de la muestra y testee con el 20% restante. Explicite qué modelo es mejor y porqué. (12 puntos)

Importante: Recuerde setear la semilla set.seed(12345).

Observación: No obtendrá puntaje si compara un modelo de clasificación de una variable.

Parte 3

¿Para qué se utiliza validación cruzada (Cross Validation)?
¿Cual es la diferencia entre regresión y clasificación?

Control 3