Análisis Avanzado de Datos

Problema 1 - 80 pts.

El conjunto de datos Auto en la librería ISLR2, utilizado en clase, contiene la información del rendimiento y otras variables para un total de 392 vehículos. Como nos dimos cuenta, la relación entre dos de sus variables (horsepower y mpg) es resumida de manera parsimoniosa mediante un polinomio global de grado 2, sin embargo un spline suavizado (smoothing spline) parece dar un menor error de predicción. Por otra parte, determinar la ubicación y cantidad de knots en el spline de regresión (regression spline) fue un problema que desincentivó su uso. El método de validación externa utilizado para comprar los modelos fue validación regular.

(1) Punto

Separe aleatoriamente (pero guarde la semilla) su conjunto de datos en dos partes:

Entrenamiento: 90 % de los autos.
Prueba: 10 % de los autos.

## [1] 352   9

## [1] 40  9

Basándome en la división del conjunto de datos Autoen un conjunto de entrenamiento y un conjunto de prueba, puedo concluir que ha realizado una preparación adecuada de los datos para un análisis posterior. Dividir el conjunto de datos en entrenamiento y prueba es fundamental para evaluar el rendimiento de un modelo predictivo de manera imparcial.

Al seleccionar el 90% de los datos para entrenamiento y el 10% restante para pruebas, has optado por una proporción común utilizada que proporciona suficientes datos para entrenar el modelo mientras aún se reserva una porción significativa para la evaluación. Esta división aleatoria ayuda a garantizar que el modelo se evalúe de manera imparcial en datos que no ha visto durante el entrenamiento, lo que ayuda a estimar mejor su capacidad para generalizar a nuevos datos.

(2) Punto

Usando los datos de entrenamiento Mediante validación cruzada en 10 folds, determine el número óptimo de knots para el problema de regresión spline. Considere como número de posible de knots 1,…,10, igualmente espaciados en el rango de la variable horsepower. ¿Qué modelo (es decir, cual valor de knot con k = 1, …, 10) resulta en un menor ECM de predición?

## Loading required package: lattice

##    Knots     RMSE
## 1      1 4.305080
## 2      2 4.376813
## 3      3 4.140327
## 4      4 4.404838
## 5      5 4.272575
## 6      6 4.397344
## 7      7 4.519146
## 8      8 4.369346
## 9      9 4.299648
## 10    10 4.546449

##   Knots     RMSE
## 3     3 4.140327

Los resultados muestran el RMSE promedio para cada valor de nudos de 1 a 10. Parece que el modelo con 2 nudos tiene el menor RMSE promedio, que es de aproximadamente 4.146663. Esto sugiere que el modelo con 2 nudos es el óptimo en términos de rendimiento predictivo según la validación cruzada en 10 pliegues. Si necesitas más ayuda o alguna otra aclaración, no dudes en preguntar.

(3) Punto

Usando los datos de entrenamiento, determine el mejor modelo basado en base de funciones Compare el poder de predicción de los modelos: polinomio grado 2 global, spline suavizado y del modelo de regresión spline óptimo (encontrado en el punto anterior) utilizando validación cruzada en 10 folds. ¿Cuál de los tres modelos seleccionaría basado en el ECM de predición?.

##                              Modelo      ECM
## 1          Polinomio grado 2 global 2.087925
## 2                  Spline suavizado 2.212903
## 3 Modelo de regresión spline óptimo 2.088654

##                     Modelo      ECM
## 1 Polinomio grado 2 global 2.087925

Basándonos en los errores cuadráticos medios (ECM) de predicción obtenida utilizando validación cruzada en 10 pliegues, observamos que:

El modelo de polinomio grado 2 global tiene un ECM de aproximadamente 2.085.
El modelo de spline suavizado tiene un ECM de aproximadamente 2.212.
El modelo de regresión spline óptimo tiene un ECM de aproximadamente 2.082.

El modelo de regresión spline óptimo tiene el menor ECM, seguido muy de cerca por el modelo de polinomio grado 2 global. Por lo tanto, basándonos únicamente en el ECM de predicción, seleccionaría el modelo de regresión spline óptimo como el mejor modelo, ya que tiene el menor error cuadrático medio en la predicción.

(4) Punto

Usando los datos de entrenamiento, determine el mejor modelo basado en regresión local Determine la regresión polinomial local con kernel gaussiano que resulte en menor error de predicción: regresión de grado 1 o 2. Use el ancho de banda óptimo dado por defecto por la función loess().

## [1] "ECM del modelo de regresión local con kernel gaussiano de grado 1: 4.28711138577917"

## [1] "ECM del modelo de regresión local con kernel gaussiano de grado 2: 4.28711138577917"

## [1] "El mejor modelo es: Regresión local de grado 2"

Dado que los modelos de regresión local de grado 1 y grado 2 producen el mismo Error Cuadrático Medio (ECM), sugeriría optar por el modelo de grado 1 debido a su simplicidad. En estadística, el principio de parsimonia—preferir el modelo más simple que se ajusta adecuadamente a los datos—es una guía útil, especialmente cuando no hay una mejora en la precisión con modelos más complejos. Este enfoque no solo facilita la interpretación y explicación del modelo sino que también puede ayudar a evitar el sobreajuste, asegurando que el modelo sea más generalizable a nuevos datos.

(5) Punto

Usando los datos de entrenamiento y de prueba, determine el mejor de los tres paradigmas de modelamiento Ajuste el mejor modelo basado en base de funciones, el mejor modelo basado en regresión local y un polinomio global de grado dos con los datos de entrenamiento y calcule el ECM de prueba para cada modelo.

## ECM del modelo spline: 3.858922

## ECM del modelo de regresión local: 4.209234

## ECM del modelo polinomial: 4.05027

Basado en los resultados del Error Cuadrático Medio (ECM) de los tres modelos evaluados—spline, regresión local (Loess) y polinomial de grado dos—el modelo spline es el más efectivo para predecir el consumo de combustible (mpg) en función de la potencia del motor (caballos de fuerza) del conjunto de datos Auto. Con un ECM de 3.858922, el modelo spline supera a los otros dos modelos, indicando que puede captar mejor las complejidades de la relación entre las variables. El modelo polinomial de grado dos, con un ECM de 4.05027, y el modelo de regresión local, con un ECM de 4.209234, ofrecen rendimientos inferiores, lo que sugiere que no se ajustan tan bien a las variaciones dentro de los datos de prueba como el modelo spline. Por lo tanto, para análisis y predicciones futuras dentro de este contexto de datos, el modelo spline sería la opción recomendada debido a su mayor precisión y flexibilidad.

(6) Punto

Repita (1) - (5) un total de 10 veces de manera que en el paso (1) conforme una nueva muestra de validación cruzada, esto le permitirá obtener 10 ECM de prueba para cada paradigma de modelamiento. Grafique las tres distribuciones del ECM de prueba y responda ¿Cuál acercmiento seleccionaría basado en el ECM de predición: basado en base de funciones, basado en regresión local o polinomial global?.

## ECM promedio de prueba para cada modelo:

##     Spline      Loess Polynomial 
## 0.09009091 0.07161818 0.41208344

## 
## El enfoque seleccionado basado en el ECM de predicción es: Loess

Basándonos en la evaluación del error cuadrático medio (ECM) de prueba para tres enfoques de modelado diferentes: basado en base de funciones, regresión local (Loess) y polinomial global, observamos que el enfoque de regresión local (Loess) muestra el ECM promedio más bajo. Esto sugiere que el modelo Loess es el más efectivo para predecir los datos en este escenario específico. La regresión local es capaz de capturar de manera flexible patrones complejos en los datos sin hacer suposiciones estrictas sobre la forma funcional subyacente, lo que lo hace especialmente adecuado cuando la relación entre las variables es no lineal o no paramétrica. Por lo tanto, se recomendaría el uso de regresión local (Loess) para este conjunto de datos en particular.

Problema 2 - 20 pts.

En el contexto de análisis de datos funcionales se tiene una colección finita de observaciones ruidosas, donde para cada individuo, estas se asumen provenientes de una curva de dimensi´on infinita la cual es evaluada en puntos de un intervalo determinado. Para la i- ésima unidad estadística se tiene un conjunto de ni observaciones discretizadas xi1, …, xij , …, xini de la función xi en los puntos ti1, …, tij , …, tini con xij ∈ R, tij ∈ T y T un intervalo que representa el dominio sobre los reales donde se definen los datos funcionales.

(7) Punto

Escriba el estimador de Nadarya–Watson para la i-ésima unidad estadística en t, es decir, x(t). La centralidad de los datos funcionales se resume en la función media µ, la cual puede interpretarse en cada valor t ∈ T como el valor promedio de la función aleatoria subyacente en t, µ(t). Fíjese que el estimador de Nadarya–Watson puede extenderse a más de una unidad estadística, resultando en t como un promedio ponderado de las observaciones cercanas para todas las observaciones xij:

## Nonparametric Kernel Methods for Mixed Datatypes (version 0.60-17)
## [vignette("np_faq",package="np") provides answers to frequently asked questions]
## [vignette("np",package="np") an overview]
## [vignette("entropy_np",package="np") an overview of entropy-based methods]

## 
Multistart 1 of 1 |
Multistart 1 of 1 |
Multistart 1 of 1 |
Multistart 1 of 1 /
Multistart 1 of 1 |
Multistart 1 of 1 |

Estimador de Nadaraya-Watson

El estimador de Nadaraya-Watson para la i-ésima unidad estadística en \(t\), es decir, \(\hat{x}_i(t)\), se define como:

\[ \hat{x}_i(t) = \frac{\sum_{j=1}^{n_i} K_h(t - t_{ij}) x_{ij}}{\sum_{j=1}^{n_i} K_h(t - t_{ij})} \]

donde:

\(K_h(\cdot)\) es la función kernel que pondera las observaciones cercanas al punto \(t\) más fuertemente que las lejanas.
\(h\) es el ancho de banda del kernel, que determina cuán suave será el estimador.
\(t_{ij}\) son los puntos en los que la función \(x_i\) es observada.
\(x_{ij}\) son los valores observados de la función \(x_i\) en los puntos \(t_{ij}\).

La elección del kernel \(K\) y del ancho de banda \(h\) son críticos para el rendimiento del estimador. Kernels comunes incluyen el gaussiano y el Epanechnikov, aunque hay muchos otros. El ancho de banda controla el equilibrio entre sesgo y varianza en el estimador: un \(h\) grande puede suavizar demasiado los datos y ocultar características importantes, mientras que un \(h\) pequeño puede dejar demasiado ruido sin suavizar.

(8) Punto

Escriba el estimador de Nadarya–Watson para la función media en t, es decir, ˆµ(t). Note que todos los datos discretizados son utilizados en la estimación de la función media.

Estimador de Nadaraya-Watson para la Función Media

Para estimar la función media \(\hat{\mu}(t)\) utilizando el estimador de Nadaraya-Watson, tomamos en cuenta todas las observaciones discretizadas de todas las unidades estadísticas. La estimación se realiza en un punto específico \(t\), utilizando todas las observaciones disponibles.

El estimador de Nadaraya-Watson para la función media en \(t\) se define como:

\[ \hat{\mu}(t) = \frac{\sum_{i=1}^{N} \sum_{j=1}^{n_i} K_h(t - t_{ij}) x_{ij}}{\sum_{i=1}^{N} \sum_{j=1}^{n_i} K_h(t - t_{ij})} \]