El formato de respuesta es el siguiente:
Importante: Deben ser suprimidos los mensajes y warnings del informe. (3 puntos)
El control constará de tres partes la primera es predicción de regresión, la segunda será la predicción de árboles de decisión y la última serán preguntas de desarrollo. Se utilizarán dos bases de datos distintas.
Cargue todos los paquetes que necesita para trabajar con data.table, modelos de predicción de regresión, árboles de decisión, cluster y Cross-Validation. Además, cargue las bases de datos. (1 punto)
Importante: Verifique la clase (class) de las variables que vaya a utilizar en todos sus modelos y si es necesario transformarla a numérica o factor, hágalo!
Para la primera parte cuenta con el siguiente diccionario de variable (prima de seguro):
age: Edad del paciente.sex: Sexo del paciente.bmi: Índice de masa corporalchildren: Número de hijossmoker: Indicador si fumaregion: Región donde vive el aseguradocharges: Prima del seguroPara la segunda parte tiene este diccionario de variables (cancer de mamas)
radius: radio (media de las distancias del centro a los puntos del perímetro)texture: textura (desviación estándar de los valores de la escala de grises)perimeter: perímetroarea: áreasmoothness: suavidad (variación local de las longitudes de los radios)compactness: compacidad (perímetro^2 / área - 1,0)concavity: concavidad (gravedad de las partes cóncavas del contorno)concave points: puntos cóncavos (número de porciones cóncavas del contorno)symmetry: simetríafractal dimension: dimensión fractal (“aproximación de la línea de costa” - 1)charges (prima de seguros) ¿Cuál predice mejor dentro de muestra?. (8 puntos)Observación: No obtendrá puntaje si compara un modelo de regresión de una variable.
Pista1: Recuerde setear la semilla set.seed(12345).
Pista2: Si existen variables con NA recuerde que puede excluirlas esas observaciones del análisis, pero no las elimine.
Realice un gráfico de codo
Pista1: Si existen outliers recuerde eliminarlos, para esto cree un nuevo objeto donde se encuentren estas dos variables.
diagnosis. Pruebe cuál modelo clasifica mejor con validación cruzada. Entrene el modelo con un 80% de la muestra y testee con el 20% restante. Explicite qué modelo es mejor y porqué. (12 puntos)Importante: Recuerde setear la semilla set.seed(12345).
Observación: No obtendrá puntaje si compara un modelo de clasificación de una variable.
¿Para qué se utiliza validación cruzada (Cross Validation)?
¿Cual es la diferencia entre regresión y clasificación?