Regresion lineal simple y dispersion

fuente(s): IBM, MathWorks

library(readr)
prod <- read_csv("~/Estadistica/docs/Prodmiel2018muni.csv",show_col_types = FALSE)
prod <- data.frame( volumen = prod$Volumen , valor = prod$Valor)

Dispersion

  • Varianza
var(prod$volumen)
## [1] 14278.97
  • Desviacion estandar
sd(prod$valor)
## [1] 4623.515
  • Media
mean(prod$volumen)
## [1] 41.4816
  • Matriz de diagramas de dispersion
pairs(prod, cex=.5) 

Matriz de coeficientes de correlacion

En estadística, el coeficiente de correlación de Pearson es una medida de dependencia lineal entre dos variables aleatorias cuantitativas. A diferencia de la covarianza, la correlación de Pearson es independiente de la escala de medida de las variables. De manera menos formal, podemos definir el coeficiente de correlación de Pearson como un índice que puede utilizarse para medir el grado de relación de dos variables siempre y cuando ambas sean cuantitativas y continuas.

cor(prod)
##           volumen     valor
## volumen 1.0000000 0.9920269
## valor   0.9920269 1.0000000

Calculo y representacion de la recta de minimos cuadrados

El comando básico es lm (linear models). El primer argumento de este comando es una fórmula y ~ x \[ Y = valor \\ X = volumen \]

en la que se especifica cuál es la variable respuesta o dependiente (y ) y cuál es la variable regresora o independiente (x). El segundo argumento, llamado data especifica cuál es el fichero (prod) en el que se encuentran las variables. El resultado lo guardamos en un objeto llamado regresion. Este objeto es una lista que contiene toda la información relevante sobre el análisis. Mediante el comando summary obtenemos un resumen de los principales resultados:

regresion <- lm (valor ~ volumen, data = prod)
summary(regresion)
## 
## Call:
## lm(formula = valor ~ volumen, data = prod)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -6163.6  -168.9  -121.8    20.0  7667.8 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  186.117     15.677   11.87   <2e-16 ***
## volumen       38.384      0.124  309.60   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 582.9 on 1547 degrees of freedom
## Multiple R-squared:  0.9841, Adjusted R-squared:  0.9841 
## F-statistic: 9.585e+04 on 1 and 1547 DF,  p-value: < 2.2e-16

Los parámetros de la ecuación de la recta de mínimos cuadrados que relaciona la cantidad de grasas en la sangre en función del peso vienen dados por la columna ´Estimate´ de la tabla ´Coefficients´ de la salida anterior. Por lo tanto, en este ejemplo la ecuación de la recta de mínimos cuadrados es:

\[ y = 186.117 + 38.384x \]

Representacion de la recta de minimos cuadrado

Con el argumento cex indicamos el tamaño de los puntos, en este caso como es demasiada información se coloco .5

plot(prod$volumen,  prod$valor,  xlab="volumen",  ylab = "valor",  cex = .5)
abline(regresion)

El coeficiente de determinación (es decir, el coeficiente de correlación al cuadrado) mide la bondad del ajuste de la recta a los datos. A partir de la salida anterior, vemos que su valor en este caso es Multiple R-squared: 0.9841.

Calculo de predicciones

nuevos.volumenes <- data.frame(volumen=(seq(0,500)))
predict(regresion, nuevos.volumenes)
##          1          2          3          4          5          6          7 
##   186.1166   224.5003   262.8841   301.2678   339.6516   378.0353   416.4191 
##          8          9         10         11         12         13         14 
##   454.8028   493.1865   531.5703   569.9540   608.3378   646.7215   685.1053 
##         15         16         17         18         19         20         21 
##   723.4890   761.8727   800.2565   838.6402   877.0240   915.4077   953.7915 
##         22         23         24         25         26         27         28 
##   992.1752  1030.5589  1068.9427  1107.3264  1145.7102  1184.0939  1222.4777 
##         29         30         31         32         33         34         35 
##  1260.8614  1299.2451  1337.6289  1376.0126  1414.3964  1452.7801  1491.1639 
##         36         37         38         39         40         41         42 
##  1529.5476  1567.9313  1606.3151  1644.6988  1683.0826  1721.4663  1759.8501 
##         43         44         45         46         47         48         49 
##  1798.2338  1836.6175  1875.0013  1913.3850  1951.7688  1990.1525  2028.5362 
##         50         51         52         53         54         55         56 
##  2066.9200  2105.3037  2143.6875  2182.0712  2220.4550  2258.8387  2297.2224 
##         57         58         59         60         61         62         63 
##  2335.6062  2373.9899  2412.3737  2450.7574  2489.1412  2527.5249  2565.9086 
##         64         65         66         67         68         69         70 
##  2604.2924  2642.6761  2681.0599  2719.4436  2757.8274  2796.2111  2834.5948 
##         71         72         73         74         75         76         77 
##  2872.9786  2911.3623  2949.7461  2988.1298  3026.5136  3064.8973  3103.2810 
##         78         79         80         81         82         83         84 
##  3141.6648  3180.0485  3218.4323  3256.8160  3295.1998  3333.5835  3371.9672 
##         85         86         87         88         89         90         91 
##  3410.3510  3448.7347  3487.1185  3525.5022  3563.8859  3602.2697  3640.6534 
##         92         93         94         95         96         97         98 
##  3679.0372  3717.4209  3755.8047  3794.1884  3832.5721  3870.9559  3909.3396 
##         99        100        101        102        103        104        105 
##  3947.7234  3986.1071  4024.4909  4062.8746  4101.2583  4139.6421  4178.0258 
##        106        107        108        109        110        111        112 
##  4216.4096  4254.7933  4293.1771  4331.5608  4369.9445  4408.3283  4446.7120 
##        113        114        115        116        117        118        119 
##  4485.0958  4523.4795  4561.8633  4600.2470  4638.6307  4677.0145  4715.3982 
##        120        121        122        123        124        125        126 
##  4753.7820  4792.1657  4830.5495  4868.9332  4907.3169  4945.7007  4984.0844 
##        127        128        129        130        131        132        133 
##  5022.4682  5060.8519  5099.2357  5137.6194  5176.0031  5214.3869  5252.7706 
##        134        135        136        137        138        139        140 
##  5291.1544  5329.5381  5367.9218  5406.3056  5444.6893  5483.0731  5521.4568 
##        141        142        143        144        145        146        147 
##  5559.8406  5598.2243  5636.6080  5674.9918  5713.3755  5751.7593  5790.1430 
##        148        149        150        151        152        153        154 
##  5828.5268  5866.9105  5905.2942  5943.6780  5982.0617  6020.4455  6058.8292 
##        155        156        157        158        159        160        161 
##  6097.2130  6135.5967  6173.9804  6212.3642  6250.7479  6289.1317  6327.5154 
##        162        163        164        165        166        167        168 
##  6365.8992  6404.2829  6442.6666  6481.0504  6519.4341  6557.8179  6596.2016 
##        169        170        171        172        173        174        175 
##  6634.5854  6672.9691  6711.3528  6749.7366  6788.1203  6826.5041  6864.8878 
##        176        177        178        179        180        181        182 
##  6903.2715  6941.6553  6980.0390  7018.4228  7056.8065  7095.1903  7133.5740 
##        183        184        185        186        187        188        189 
##  7171.9577  7210.3415  7248.7252  7287.1090  7325.4927  7363.8765  7402.2602 
##        190        191        192        193        194        195        196 
##  7440.6439  7479.0277  7517.4114  7555.7952  7594.1789  7632.5627  7670.9464 
##        197        198        199        200        201        202        203 
##  7709.3301  7747.7139  7786.0976  7824.4814  7862.8651  7901.2489  7939.6326 
##        204        205        206        207        208        209        210 
##  7978.0163  8016.4001  8054.7838  8093.1676  8131.5513  8169.9351  8208.3188 
##        211        212        213        214        215        216        217 
##  8246.7025  8285.0863  8323.4700  8361.8538  8400.2375  8438.6213  8477.0050 
##        218        219        220        221        222        223        224 
##  8515.3887  8553.7725  8592.1562  8630.5400  8668.9237  8707.3074  8745.6912 
##        225        226        227        228        229        230        231 
##  8784.0749  8822.4587  8860.8424  8899.2262  8937.6099  8975.9936  9014.3774 
##        232        233        234        235        236        237        238 
##  9052.7611  9091.1449  9129.5286  9167.9124  9206.2961  9244.6798  9283.0636 
##        239        240        241        242        243        244        245 
##  9321.4473  9359.8311  9398.2148  9436.5986  9474.9823  9513.3660  9551.7498 
##        246        247        248        249        250        251        252 
##  9590.1335  9628.5173  9666.9010  9705.2848  9743.6685  9782.0522  9820.4360 
##        253        254        255        256        257        258        259 
##  9858.8197  9897.2035  9935.5872  9973.9710 10012.3547 10050.7384 10089.1222 
##        260        261        262        263        264        265        266 
## 10127.5059 10165.8897 10204.2734 10242.6571 10281.0409 10319.4246 10357.8084 
##        267        268        269        270        271        272        273 
## 10396.1921 10434.5759 10472.9596 10511.3433 10549.7271 10588.1108 10626.4946 
##        274        275        276        277        278        279        280 
## 10664.8783 10703.2621 10741.6458 10780.0295 10818.4133 10856.7970 10895.1808 
##        281        282        283        284        285        286        287 
## 10933.5645 10971.9483 11010.3320 11048.7157 11087.0995 11125.4832 11163.8670 
##        288        289        290        291        292        293        294 
## 11202.2507 11240.6345 11279.0182 11317.4019 11355.7857 11394.1694 11432.5532 
##        295        296        297        298        299        300        301 
## 11470.9369 11509.3207 11547.7044 11586.0881 11624.4719 11662.8556 11701.2394 
##        302        303        304        305        306        307        308 
## 11739.6231 11778.0069 11816.3906 11854.7743 11893.1581 11931.5418 11969.9256 
##        309        310        311        312        313        314        315 
## 12008.3093 12046.6930 12085.0768 12123.4605 12161.8443 12200.2280 12238.6118 
##        316        317        318        319        320        321        322 
## 12276.9955 12315.3792 12353.7630 12392.1467 12430.5305 12468.9142 12507.2980 
##        323        324        325        326        327        328        329 
## 12545.6817 12584.0654 12622.4492 12660.8329 12699.2167 12737.6004 12775.9842 
##        330        331        332        333        334        335        336 
## 12814.3679 12852.7516 12891.1354 12929.5191 12967.9029 13006.2866 13044.6704 
##        337        338        339        340        341        342        343 
## 13083.0541 13121.4378 13159.8216 13198.2053 13236.5891 13274.9728 13313.3566 
##        344        345        346        347        348        349        350 
## 13351.7403 13390.1240 13428.5078 13466.8915 13505.2753 13543.6590 13582.0427 
##        351        352        353        354        355        356        357 
## 13620.4265 13658.8102 13697.1940 13735.5777 13773.9615 13812.3452 13850.7289 
##        358        359        360        361        362        363        364 
## 13889.1127 13927.4964 13965.8802 14004.2639 14042.6477 14081.0314 14119.4151 
##        365        366        367        368        369        370        371 
## 14157.7989 14196.1826 14234.5664 14272.9501 14311.3339 14349.7176 14388.1013 
##        372        373        374        375        376        377        378 
## 14426.4851 14464.8688 14503.2526 14541.6363 14580.0201 14618.4038 14656.7875 
##        379        380        381        382        383        384        385 
## 14695.1713 14733.5550 14771.9388 14810.3225 14848.7063 14887.0900 14925.4737 
##        386        387        388        389        390        391        392 
## 14963.8575 15002.2412 15040.6250 15079.0087 15117.3925 15155.7762 15194.1599 
##        393        394        395        396        397        398        399 
## 15232.5437 15270.9274 15309.3112 15347.6949 15386.0786 15424.4624 15462.8461 
##        400        401        402        403        404        405        406 
## 15501.2299 15539.6136 15577.9974 15616.3811 15654.7648 15693.1486 15731.5323 
##        407        408        409        410        411        412        413 
## 15769.9161 15808.2998 15846.6836 15885.0673 15923.4510 15961.8348 16000.2185 
##        414        415        416        417        418        419        420 
## 16038.6023 16076.9860 16115.3698 16153.7535 16192.1372 16230.5210 16268.9047 
##        421        422        423        424        425        426        427 
## 16307.2885 16345.6722 16384.0560 16422.4397 16460.8234 16499.2072 16537.5909 
##        428        429        430        431        432        433        434 
## 16575.9747 16614.3584 16652.7422 16691.1259 16729.5096 16767.8934 16806.2771 
##        435        436        437        438        439        440        441 
## 16844.6609 16883.0446 16921.4283 16959.8121 16998.1958 17036.5796 17074.9633 
##        442        443        444        445        446        447        448 
## 17113.3471 17151.7308 17190.1145 17228.4983 17266.8820 17305.2658 17343.6495 
##        449        450        451        452        453        454        455 
## 17382.0333 17420.4170 17458.8007 17497.1845 17535.5682 17573.9520 17612.3357 
##        456        457        458        459        460        461        462 
## 17650.7195 17689.1032 17727.4869 17765.8707 17804.2544 17842.6382 17881.0219 
##        463        464        465        466        467        468        469 
## 17919.4057 17957.7894 17996.1731 18034.5569 18072.9406 18111.3244 18149.7081 
##        470        471        472        473        474        475        476 
## 18188.0919 18226.4756 18264.8593 18303.2431 18341.6268 18380.0106 18418.3943 
##        477        478        479        480        481        482        483 
## 18456.7781 18495.1618 18533.5455 18571.9293 18610.3130 18648.6968 18687.0805 
##        484        485        486        487        488        489        490 
## 18725.4642 18763.8480 18802.2317 18840.6155 18878.9992 18917.3830 18955.7667 
##        491        492        493        494        495        496        497 
## 18994.1504 19032.5342 19070.9179 19109.3017 19147.6854 19186.0692 19224.4529 
##        498        499        500        501 
## 19262.8366 19301.2204 19339.6041 19377.9879

Inferencia en modelo de regresion lineal simple

La ecuacion de la recta, tiene la siguiente forma:

\[ y_i = \beta_0 + \beta_1 x_i + \epsilon_i, \ \ \ \ i=1,\ldots,n, \]

Donde los errores aleatorios ϵi son independientes con distribución normal de media 0 y varianza σ2.

Bajo este modelo,

Los errores típicos de los estimadores de los parámetros β0 y β1 se encuentran en la columna Std Error de la salida anterior. En el ejemplo, sus valores son 15.677 y 0.124 respectivamente.

La columna t value contiene el estadístico t, es decir, cociente entre cada estimador y su error típico. Estos cocientes son la base para llevar a cabo los contrastes H0:β0=0 y H0:β1=0 . Los correspondientes p-valores aparecen en la columna Pr(>|t|). En este caso son muy pequeños por lo que se rechazan ambas hipótesis para los niveles de significación habituales.

El estimador de la desviación típica de los errores σ aparece como Residual standard error y su valor en el ejemplo es: 582.9

Los intervalos de confianza para los parámetros se obtienen con el comando confint. El parámetro level permite elegir el nivel de confianza (por defecto es 0.95):

Intervalos de confianza

confint(regresion)
##                 2.5 %    97.5 %
## (Intercept) 155.36564 216.86758
## volumen      38.14056  38.62692

Los intervalos de confianza para la respuesta media y los intervalos de predicción para la respuesta se pueden obtener usando el comando predict. Por ejemplo, el siguiente código calcula y representa los dos tipos de intervalos para el rango de Volumenes que va de 0 a 500 :

nuevos.volumenes  <- data.frame(volumen = seq(0,500))

#Grafico de dispersion y recta 
plot(prod$volumen, prod$valor, xlab="volumen", ylab = "valor",cex = .5)
abline(regresion)

#Intervalo de confianza de la respuesta media 
# ic es una matriz con tres columnas: la prediccion, el limite inferior y el limite superior
ic <- predict(regresion, nuevos.volumenes, interval = 'confidence')
lines(nuevos.volumenes$volumen, ic[, 2], lty = 2,col="#4b00ff")
lines(nuevos.volumenes$volumen, ic[, 3], lty = 2, col="#4b00ff")

ic <- predict(regresion, nuevos.volumenes, interval = 'prediction')
lines(nuevos.volumenes$volumen, ic[, 2], lty = 2,col="red")
lines(nuevos.volumenes$volumen, ic[, 3], lty = 2, col="red")

Tabla de análisis de varianza

ANOVA

anova(regresion)
## Analysis of Variance Table
## 
## Response: valor
##             Df     Sum Sq    Mean Sq F value    Pr(>F)    
## volumen      1 3.2566e+10 3.2566e+10   95855 < 2.2e-16 ***
## Residuals 1547 5.2558e+08 3.3974e+05                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

El análisis de varianza (ANOVA) puede determinar si las medias de tres o más grupos son diferentes. ANOVA utiliza la prueba F para evaluar estadísticamente la igualdad de las medias. En esta publicación, les mostraré cómo funcionan el ANOVA y la prueba F utilizando un ejemplo de ANOVA de un solo factor.

Pero, esperen un momento ¿alguna vez se han detenido a pensar por qué usarían un análisis de varianza para determinar si las medias son diferentes? También les mostraré de qué manera las varianzas proveen información sobre las medias.

Prueba F, F de Fisher La prueba F llevan el nombre de su estadística de prueba, F, que fue nombrado así en honor al científico inglés Ronald Fisher. La estadística F es simplemente un cociente de dos varianzas. Las varianzas son una medida de dispersión, es decir, qué tan dispersos están los datos con respecto a la media. Los valores más altos representan mayor dispersión.

La varianza es el cuadrado de la desviación estándar. Para nosotros los seres humanos, las desviaciones estándar son más fáciles de entender que las varianzas, porque están en las mismas unidades que los datos y no en unidades elevadas al cuadrado. Sin embargo, muchos análisis en realidad utilizan las varianzas en los cálculos.

Las estadísticas F se basan en la proporción de cuadrados medios. El término “cuadrados medios” puede parecer confuso, pero simplemente es una estimación de la varianza de la población que explica los grados de libertad (GL) utilizados para calcular esa estimación.

A pesar de ser una relación de varianzas, la prueba F se puede utilizar en una amplia variedad de situaciones. Como era de esperar, la prueba F puede evaluar la igualdad de las varianzas. Sin embargo, al cambiar las varianzas que se incluyen en la relación, la prueba F se convierte en una prueba muy flexible. Por ejemplo, las estadísticas F y las pruebas F se pueden utilizar para evaluar la significancia general de un modelo de regresión, para comparar el ajuste de diferentes modelos, para probar términos de regresión específicos y para evaluar la igualdad de las medias.

Diagnostico del modelo

Los valores ajustados ŷ i y los residuos ei=ŷ i−yi se pueden obtener con los comandos fitted y residuals respectivamente. Los residuos estandarizados se obtienen con rstandard. Por ejemplo, el siguiente código obtiene una representación de los residuos estandarizados frente a los valores ajustados, que resulta útil al llevar a cabo el diagnóstico del modelo:

residuos <- rstandard(regresion)
valores.ajustados <- fitted(regresion)
plot(valores.ajustados, residuos)

En estadística se dice que un modelo predictivo presenta homocedasticidad cuando la varianza del error condicional a las variables explicativas es constante a lo largo de las observaciones.1.

No se observa ningún patrón especial, por lo que tanto la homocedasticidad como la linealidad resultan hipótesis razonables.

¿Los datos son normales?

Grafico QQ

qqnorm(residuos)
qqline(residuos)

Conclusion

De acuerdo a las gráficas seleccione los valores donde habia mayor cantidad de datos representados en puntos, a partir de ahi note que que la producción de miel se realiza a nieveles bajos por lo que no hay produccion a mas volumen, puede ser la falta de apicultores o a su vez que las abejas estan casi extintas por lo que se complica la producción de miel. En el grafico Cuantil-Cuantil Q-Q Se observa que los puntos van conforme ala recta, nos da a entender que es un modelo confiable ya que los datos son normales