Regresión lineal simple, recta de mínimos cuadrados, ajuste y modelación.

Importar

setwd("~/Estadistica") #folder de trabajo
library(prettydoc) #para formato de documentos
library(readr) #para leer datos
library(DT)
datos <- read_csv("datos.csv") #importar datos
## 
## -- Column specification --------------------------------------------------------
## cols(
##   navidad = col_double(),
##   regalos = col_double()
## )

Visualizar datos

Tabla

datatable(datos)

Gráfica

Matriz de diagramas de dispersión

pairs(datos)

Inferencias

Calculo y representación de la recta de mínimos cuadrados

regresion <- lm (navidad ~ regalos, data=datos)
summary(regresion)
## 
## Call:
## lm(formula = navidad ~ regalos, data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -53.087  -4.464  -2.464   5.261  55.638 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -13.985      4.021  -3.478  0.00106 ** 
## regalos        9.725      1.539   6.319 6.97e-08 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 13.99 on 50 degrees of freedom
## Multiple R-squared:  0.444,  Adjusted R-squared:  0.4329 
## F-statistic: 39.93 on 1 and 50 DF,  p-value: 6.973e-08
  • Ecuación de la recta de mínimos cuadrados

\[ y = -13.985 + 9.725x \]

                   Intersección = -13.985       Pendiente = 9.725
  • Graficación de la recta, Los siguientes comandos representan la nube de puntos (comando plot) y añaden la representación gráfica de la recta de mínimos cuadrados (comando abline aplicado al objeto generado por lm):
plot (datos$navidad, datos$regalos, xlab = "navidad", ylab = "regalos")
abline(regresion)

Esta gráfica que se compone de puntos correspondientes a la navidad y regalos, nos muestra que no tiene un buen ajuste con respecto a la ecuación de la recta de mínimos cuadrados y = -13.985 + 9.725x, debido a que estos puntos se encuentran muy dispersos de dicha recta.

cor(datos)
##           navidad   regalos
## navidad 1.0000000 0.6663392
## regalos 0.6663392 1.0000000

De acuerdo a los datos arrojados en la gráfica de dispersión, la correlación de la navidad con los regalos es del 66%, lo cual indica que una cantidad considerable de personas prefiere regalar en navidad que en distintas fechas del año.

Matriz de coeficientes de correlación

Modelación

modelar (predecir) datos usando la recta de mínimos cuadrados

nuevos.regalos <- data.frame(regalos=seq(0,120))
predict(regresion,nuevos.regalos)
##           1           2           3           4           5           6 
##  -13.985113   -4.260526    5.464061   15.188649   24.913236   34.637823 
##           7           8           9          10          11          12 
##   44.362410   54.086997   63.811584   73.536171   83.260758   92.985345 
##          13          14          15          16          17          18 
##  102.709933  112.434520  122.159107  131.883694  141.608281  151.332868 
##          19          20          21          22          23          24 
##  161.057455  170.782042  180.506629  190.231217  199.955804  209.680391 
##          25          26          27          28          29          30 
##  219.404978  229.129565  238.854152  248.578739  258.303326  268.027913 
##          31          32          33          34          35          36 
##  277.752501  287.477088  297.201675  306.926262  316.650849  326.375436 
##          37          38          39          40          41          42 
##  336.100023  345.824610  355.549197  365.273785  374.998372  384.722959 
##          43          44          45          46          47          48 
##  394.447546  404.172133  413.896720  423.621307  433.345894  443.070482 
##          49          50          51          52          53          54 
##  452.795069  462.519656  472.244243  481.968830  491.693417  501.418004 
##          55          56          57          58          59          60 
##  511.142591  520.867178  530.591766  540.316353  550.040940  559.765527 
##          61          62          63          64          65          66 
##  569.490114  579.214701  588.939288  598.663875  608.388462  618.113050 
##          67          68          69          70          71          72 
##  627.837637  637.562224  647.286811  657.011398  666.735985  676.460572 
##          73          74          75          76          77          78 
##  686.185159  695.909746  705.634334  715.358921  725.083508  734.808095 
##          79          80          81          82          83          84 
##  744.532682  754.257269  763.981856  773.706443  783.431030  793.155618 
##          85          86          87          88          89          90 
##  802.880205  812.604792  822.329379  832.053966  841.778553  851.503140 
##          91          92          93          94          95          96 
##  861.227727  870.952314  880.676902  890.401489  900.126076  909.850663 
##          97          98          99         100         101         102 
##  919.575250  929.299837  939.024424  948.749011  958.473599  968.198186 
##         103         104         105         106         107         108 
##  977.922773  987.647360  997.371947 1007.096534 1016.821121 1026.545708 
##         109         110         111         112         113         114 
## 1036.270295 1045.994883 1055.719470 1065.444057 1075.168644 1084.893231 
##         115         116         117         118         119         120 
## 1094.617818 1104.342405 1114.066992 1123.791579 1133.516167 1143.240754 
##         121 
## 1152.965341

El ajuste de la recta de mínimos cuadrados nos genera 120 datos nuevos, con el propósito de predecir un nuevo modelo y acercarlo a la realidad