Abstract
Las técnicas de regresión son una de las técnicas estadísticas más populares utilizadas para el modelado predictivo y las tareas de minería de datos. En promedio, los profesionales de análisis conocen solo 2-3 tipos de regresión que se usan comúnmente en el mundo real. Son regresión lineal y logística. Pero el hecho es que hay más de 10 tipos de algoritmos de regresión diseñados para varios tipos de análisis.Tomemos un ejemplo simple: Suponga que su gerente le pidiera que predijera las ventas anuales. Puede haber cientos de factores (impulsores) que afectan las ventas. En este caso, las ventas son su variable dependiente. Los factores que afectan las ventas son variables independientes. El análisis de regresión le ayudará a resolver este problema.
En palabras simples, el análisis de regresión se utiliza para modelar la relación entre una variable dependiente y una o más variables independientes.
Nos ayuda a responder las siguientes preguntas:
Es la forma más simple de regresión. Es una técnica en la que la variable dependiente es de naturaleza continua. Se supone que la relación entre la variable dependiente y las variables independientes es de naturaleza lineal. Podemos observar que la trama dada representa una relación de alguna manera lineal entre el kilometraje y el desplazamiento de los coches. Los puntos rojos son las observaciones reales, mientras la línea azul ajustada es la línea de regresión.
Cuando sólo hay una variable independiente y una variable dependiente, se denomina regresión lineal simple.
Cuando hay más de una variable independiente y una variable dependiente, se denomina regresión lineal múltiple.
Ingreso de datos:
x <- c(194.5,194.3,197.9,198.4,199.4,199.9,200.9,201.1,201.4,201.3,203.6,204.6,209.5,208.6,210.7,211.9,212.2)
y <- c(131.79,131.79,135.62,135.85,136.66,137.83,137.82,138,138.06,138.05,140.04,142.44,145.47,144.34,146.36,147.54,147.96)Diagrama de disperción + linea de ajuste: ☺
Ecuacion de regresion:
mod <- lm(y ~ x)
mod
>>
>> Call:
>> lm(formula = y ~ x)
>>
>> Coefficients:
>> (Intercept) x
>> -39.6173 0.8837\(~y_i =-39.6173 + 0.8837 x_i\)
R-cuadrado:
summary(mod)
>>
>> Call:
>> lm(formula = y ~ x)
>>
>> Residuals:
>> Min 1Q Median 3Q Max
>> -0.48207 -0.27419 -0.10807 0.05756 1.24206
>>
>> Coefficients:
>> Estimate Std. Error t value Pr(>|t|)
>> (Intercept) -39.61730 4.00344 -9.896 5.73e-08 ***
>> x 0.88375 0.01972 44.818 < 2e-16 ***
>> ---
>> Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
>>
>> Residual standard error: 0.4543 on 15 degrees of freedom
>> Multiple R-squared: 0.9926, Adjusted R-squared: 0.9921
>> F-statistic: 2009 on 1 and 15 DF, p-value: < 2.2e-16Por lo tanto, podemos ver que el \(R-squared=R^2=99\%\) de la variación en \(x\) se puede explicar a través de la regresión lineal.
En construccion Continuara... xD