El presente rpubs muestra un tema de consulta:
#1. Residuales estudentizados
#2. Residuales PRESS
#3. Variables Dummy
#4 Tratamiento de variables categóricas
#Como involucramos la variable en el modelo de regresión lineal
Residuales: Es una medida de la variabilidad de la variable de respuesta que no explica el modelo de regresión.
El analisis grafico de los residuales es una forma efectiva de investigar la adecuación del ajuste de un modelo de regresión y para comprobar los supuestos.
Para evaluar las condiciones que permiten dar como válido el modelo lineal, haremos uso principalmente del análisis de los residuos:
Los residuales estudentizados, o residuales estandarizados ajustados, son otro cálculo aproximado utilizado con frecuencia para el error estándar. Este cálculo aproximado compensa la distancia entre cada valor de x y la media de x.
Es el cociente resultante de la división de un residuo por una estimación de su desviación estándar . Es una forma de estadística t de Student , con la estimación del error que varía entre puntos. Esta es una técnica importante en la detección de valores atípicos . Se encuentra entre varios nombrados en honor a William Sealey Gosset , quien escribió bajo el seudónimo de Student.
Dividir un estadístico por una desviación estándar muestral se denomina studentizar, en analogía con estandarizar y normalizar . Residuo estudentizado
#residuos = residuals(Ajuste1)
#residuos_est= rstudent(Ajuste1) # residuos estudentizados
Es una forma de validación cruzada utilizada en el análisis de regresión para proporcionar una medida resumida del ajuste de un modelo a una muestra de observaciones que no se utilizaron para estimar el modelo. . Se calcula como las sumas de cuadrados de los residuales de predicción para esas observaciones.
Se ha producido un modelo ajustado , cada observación a su vez se elimina y el modelo se reajusta utilizando las observaciones restantes. El valor predicho fuera de la muestra se calcula para la observación omitida en cada caso, y la estadística PRESS se calcula como la suma de los cuadrados de todos los errores de predicción resultantes.
Es una medida de lo bien que el modelo logra predecir \[\hat{y}\] para nuevas observaciones.
\[PRESS = \left(\sum_{i=1}^{n} y_{i}-\hat{y}_{i,-i}\right)^2\] la estadística PRESS se puede calcular para una serie de estructuras de modelo para el mismo conjunto de datos, con los valores más bajos de PRESS indicando las mejores estructuras. Los modelos sobre parametrizados ( sobreajustados ) tenderían a dar pequeños residuos para las observaciones incluidas en el ajuste del modelo, pero grandes residuos para las observaciones que están excluidas. La estadística PRESS se ha utilizado ampliamente en el aprendizaje perezoso y en el aprendizaje lineal local para acelerar la evaluación y la selección del tamaño del vecindario
Es un método de predicción y reacondicionamiento de dejar uno fuera, como se describe en Allen (1971). Funciona para cualquier modelo de regresión con una llamada ranura, una predictfunción, por lo tanto, todos los modelos de clase lm, glm, nlsy drc(entre otros). La función también devuelve el análogo PRESS a R-square, el P-square.
# PRESS(object, verbose = TRUE) FUNCION
\[PRESS <- function(Ajuste1) {# calcular los residuos predictivos pr <- residuals(Ajuste1) / (1-lm.influence(Ajuste1)$hat) #calcular the PRESS PRESS <- sum(pr^2) return(PRESS) }\]
En análisis de regresión, es aquella que toma solo el valor 0 o 1 para indicar la ausencia o presencia de algún efecto categórico que se puede esperar que cambie el resultado. Se pueden considerar como sustitutos numéricos de hechos cualitativos en un modelo de regresión , clasificando los datos en categorías mutuamente excluyentes (como fumador y no fumador)
Podemos ser capaces de medir el efecto del factor cualitativo, así como constrastar si el efecto del factor cualitativo es relevante.
Las variables Dummy toman valor 1 en una categoría y valor 0 en el resto. Ejemplo:
\[ Hombre=1, Mujer=0\]
Una variable ficticia aditiva recoge un cambio fijo. Dicho cambio afecta tan solo al término constante de la ecuación. Por ejemplo, un modelo que pretende explicar el salario en función del sexo y de los años de educación. Podemos poner la ecuación tomando como referencia a los hombres (segunda ecuación) o tomando como referencia a las mujeres (primera ecuación):
\[Salario = \beta_0^{hombres} + \beta_1.años \space de \space educación\]
\[Salario = \beta_0^{mujeres} + \beta_1.años \space de \space educación\] Representación gráfica:
El grafico anterior representa el caso de que los hombres tengan salarios superiores a las mujeres
Una variable ficticia multiplicativa recoge un cambio en la pendiente de las ecuaciones de hombres y mujeres. Siguiendo con el ejemplo expuesto anteriormente tenemos que: \[Salario = \beta_0 + \beta_1^{hombres}.años \space de \space educación\] \[Salario = \beta_0 + \beta_1^{mujeres}.años \space de \space educación\] Representación gráfica:
En este caso, el modelo nos estaría indicando dos cosas. En primer lugar que los salarios de las mujeres son inferiores a los de los hombres. Y, en segundo lugar, que un año de educación adicional se paga mejor hombres que a mujeres. Lo anterior, lo sabemos porque la pendiente de la línea azul (hombres) es mayor que la pendiente de la línea naranja (mujeres).
Tratamiento de variables categóricas
Las variables ficticias se incorporan de la misma manera que las variables cuantitativas (como variables explicativas) en los modelos de regresión. Por ejemplo, si consideramos un modelo de regresión de determinación de salarios, en el que los salarios dependen del género (cualitativo) y los años de educación (cuantitativo):
Una variable ficticia es una variable utilizada para explicar valores cualitativos en un modelo de regresión.
Los modelos de regresión intentan explicar una variable en función de otras. Por ejemplo, el salario de una persona en función de su edad, su educación y su experiencia. Estas variables se pueden cuantificar. La edad de una persona, la educación y la experiencia se pueden cuantificar en número de años. Pero ¿Qué ocurre cuando tenemos variables qué no se pueden cuantificar? Por ejemplo el color de pelo, el país en el que vive o el sexo. La solución a este problema está en las variables ficticias. Son variables que suelen toman valores binarios. Esto es, valor cero o uno.
Tratamiento ¿cómo ingresar las variables dummy en el modelo?
Suponemos que se desea ajustar el modelo:
\[Y_i=\beta_0+\beta_1X_1+\beta_2X_2+e\]
onde la variable \(Y\) es la producción obtenida con base en las variables continuas \(X_{1},X_{2}\) y \(X_{3}\), pero se conoce además que las observaciones provienen de dos máquinas A y B, es decir se tiene la variable tipo de máquina, con dos categorías: máquina A y máquina B. Luego, se podría intoducir al modelo una variable dummy \(Z\) con su coeficiente de regresión por decir \(\gamma\), y así un término adicional aparecerá en el modelo
\[Y_i=\beta_0+\beta_1X_1+\beta_2X_2+ \widehat{\gamma}Z+e_i\]
donde la variable \(Z\) toma los siguientes valores:
\(Z\)= 0 si la observacion proviene de la maquina A \(z\)= 1 si la observacion proviene de la maquina B
CÓmo se ajusta el modelo?
\[\widehat{Y}=b_0+b_1X_1+b_2X_2+ \widehat{\gamma}Z\]
Después de obtener el modelo ajustado para todas las vaiables, se puede presentar el modelo ajustado para cada categoría de la variable dummy así:
Datos que provienen de la máquina A: Se obtiene haciendo \(Z=0\), con lo cual se obtiene: \[\widehat{Y}=b_0+b_1X_1+b_2X_2\] Datos que provienen de la máquina B: Se obtiene haciendo \(Z=1\) y el módelo ajustado es: \[\widehat{Y}=b_0+b_1X_1+b_2X_2+\widehat{\gamma}\] \[= (b_0+\widehat{\gamma})+b_1X_1+b_2X_2\] En los dos modelos ajustados para cada categoría de la variable dummy, se observa dos cosa:
El valor \(\widehat{\gamma}\) aparece para el modelo ajustado de la cateagoría máquina B, pero no para la categoría máquina B, así \(\widehat{\gamma}\) estima la diferencia media entre la respuesta de los datos obtenidos de la máquina B comparado con los de la máquina A en los otros factores ajustados. Por tanto \(\widehat{\gamma}\) es la diferencia de la producción media de la máquina A y la máquina B. Observe que la interpretación del estimador \(\widehat{\gamma}\) es diferente a la dada para las otras variables continuas.
Los dos modelos ajustados al graficarlos generan planos paralelos (en tres dimensiones para este caso),
##.
Las variables dummy pueden ser usadas para controlar por alguna caracter´ıstica con categorías multiples. Ejemplo: sexo y estado civil.
Pueden ser ordinales o nominales
Variables ordinales: aquellas variables que distinguen las categorías de acuerdo a un determinado criterio en orden
variables nominales variable que no tienen orden ejemplo: Religión (cristiano, catolico, etc)
En cualquiera de los casos, cuando la variable solo presenta dos categorías, se trata de una variable dicotómica.
**No obstante, una variable cualitativa puede presentar más de dos categorías, es decir, puede ser multicategórica, por ejemplo: estado civil: 1 Soltero 2 Casado 3 union libre 4 separado 5 viudo
**Modelos ANOVA: Técnica estadística que se utiliza para comparar dos o más valores medios o promedios.