library(readr)
prod <- read_csv("~/Estadistica/docs/Prodmiel2018muni.csv",show_col_types = FALSE)
prod <- data.frame( volumen = prod$Volumen , valor = prod$Valor)
var(prod$volumen)
## [1] 14278.97
sd(prod$valor)
## [1] 4623.515
mean(prod$volumen)
## [1] 41.4816
pairs(prod, cex=.5)
En estadística, el coeficiente de correlación de Pearson es una medida de dependencia lineal entre dos variables aleatorias cuantitativas. A diferencia de la covarianza, la correlación de Pearson es independiente de la escala de medida de las variables. De manera menos formal, podemos definir el coeficiente de correlación de Pearson como un índice que puede utilizarse para medir el grado de relación de dos variables siempre y cuando ambas sean cuantitativas y continuas.
cor(prod)
## volumen valor
## volumen 1.0000000 0.9920269
## valor 0.9920269 1.0000000
El comando básico es lm (linear models). El primer argumento de este comando es una fórmula y ~ x \[ Y = valor \\ X = volumen \]
en la que se especifica cuál es la variable respuesta o dependiente (y ) y cuál es la variable regresora o independiente (x). El segundo argumento, llamado data especifica cuál es el fichero (prod) en el que se encuentran las variables. El resultado lo guardamos en un objeto llamado regresion. Este objeto es una lista que contiene toda la información relevante sobre el análisis. Mediante el comando summary obtenemos un resumen de los principales resultados:
regresion <- lm (valor ~ volumen, data = prod)
summary(regresion)
##
## Call:
## lm(formula = valor ~ volumen, data = prod)
##
## Residuals:
## Min 1Q Median 3Q Max
## -6163.6 -168.9 -121.8 20.0 7667.8
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 186.117 15.677 11.87 <2e-16 ***
## volumen 38.384 0.124 309.60 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 582.9 on 1547 degrees of freedom
## Multiple R-squared: 0.9841, Adjusted R-squared: 0.9841
## F-statistic: 9.585e+04 on 1 and 1547 DF, p-value: < 2.2e-16
Los parámetros de la ecuación de la recta de mínimos cuadrados que relaciona la cantidad de grasas en la sangre en función del peso vienen dados por la columna ´Estimate´ de la tabla ´Coefficients´ de la salida anterior. Por lo tanto, en este ejemplo la ecuación de la recta de mínimos cuadrados es:
\[ y = 186.117 + 38.384x \]
Con el argumento cex indicamos el tamaño de los puntos, en este caso como es demasiada información se coloco .5
plot(prod$volumen, prod$valor, xlab="volumen", ylab = "valor", cex = .5)
abline(regresion)
El coeficiente de determinación (es decir, el coeficiente de correlación al cuadrado) mide la bondad del ajuste de la recta a los datos. A partir de la salida anterior, vemos que su valor en este caso es Multiple R-squared: 0.9841.
nuevos.volumenes <- data.frame(volumen=(seq(0,500)))
predict(regresion, nuevos.volumenes)
## 1 2 3 4 5 6 7
## 186.1166 224.5003 262.8841 301.2678 339.6516 378.0353 416.4191
## 8 9 10 11 12 13 14
## 454.8028 493.1865 531.5703 569.9540 608.3378 646.7215 685.1053
## 15 16 17 18 19 20 21
## 723.4890 761.8727 800.2565 838.6402 877.0240 915.4077 953.7915
## 22 23 24 25 26 27 28
## 992.1752 1030.5589 1068.9427 1107.3264 1145.7102 1184.0939 1222.4777
## 29 30 31 32 33 34 35
## 1260.8614 1299.2451 1337.6289 1376.0126 1414.3964 1452.7801 1491.1639
## 36 37 38 39 40 41 42
## 1529.5476 1567.9313 1606.3151 1644.6988 1683.0826 1721.4663 1759.8501
## 43 44 45 46 47 48 49
## 1798.2338 1836.6175 1875.0013 1913.3850 1951.7688 1990.1525 2028.5362
## 50 51 52 53 54 55 56
## 2066.9200 2105.3037 2143.6875 2182.0712 2220.4550 2258.8387 2297.2224
## 57 58 59 60 61 62 63
## 2335.6062 2373.9899 2412.3737 2450.7574 2489.1412 2527.5249 2565.9086
## 64 65 66 67 68 69 70
## 2604.2924 2642.6761 2681.0599 2719.4436 2757.8274 2796.2111 2834.5948
## 71 72 73 74 75 76 77
## 2872.9786 2911.3623 2949.7461 2988.1298 3026.5136 3064.8973 3103.2810
## 78 79 80 81 82 83 84
## 3141.6648 3180.0485 3218.4323 3256.8160 3295.1998 3333.5835 3371.9672
## 85 86 87 88 89 90 91
## 3410.3510 3448.7347 3487.1185 3525.5022 3563.8859 3602.2697 3640.6534
## 92 93 94 95 96 97 98
## 3679.0372 3717.4209 3755.8047 3794.1884 3832.5721 3870.9559 3909.3396
## 99 100 101 102 103 104 105
## 3947.7234 3986.1071 4024.4909 4062.8746 4101.2583 4139.6421 4178.0258
## 106 107 108 109 110 111 112
## 4216.4096 4254.7933 4293.1771 4331.5608 4369.9445 4408.3283 4446.7120
## 113 114 115 116 117 118 119
## 4485.0958 4523.4795 4561.8633 4600.2470 4638.6307 4677.0145 4715.3982
## 120 121 122 123 124 125 126
## 4753.7820 4792.1657 4830.5495 4868.9332 4907.3169 4945.7007 4984.0844
## 127 128 129 130 131 132 133
## 5022.4682 5060.8519 5099.2357 5137.6194 5176.0031 5214.3869 5252.7706
## 134 135 136 137 138 139 140
## 5291.1544 5329.5381 5367.9218 5406.3056 5444.6893 5483.0731 5521.4568
## 141 142 143 144 145 146 147
## 5559.8406 5598.2243 5636.6080 5674.9918 5713.3755 5751.7593 5790.1430
## 148 149 150 151 152 153 154
## 5828.5268 5866.9105 5905.2942 5943.6780 5982.0617 6020.4455 6058.8292
## 155 156 157 158 159 160 161
## 6097.2130 6135.5967 6173.9804 6212.3642 6250.7479 6289.1317 6327.5154
## 162 163 164 165 166 167 168
## 6365.8992 6404.2829 6442.6666 6481.0504 6519.4341 6557.8179 6596.2016
## 169 170 171 172 173 174 175
## 6634.5854 6672.9691 6711.3528 6749.7366 6788.1203 6826.5041 6864.8878
## 176 177 178 179 180 181 182
## 6903.2715 6941.6553 6980.0390 7018.4228 7056.8065 7095.1903 7133.5740
## 183 184 185 186 187 188 189
## 7171.9577 7210.3415 7248.7252 7287.1090 7325.4927 7363.8765 7402.2602
## 190 191 192 193 194 195 196
## 7440.6439 7479.0277 7517.4114 7555.7952 7594.1789 7632.5627 7670.9464
## 197 198 199 200 201 202 203
## 7709.3301 7747.7139 7786.0976 7824.4814 7862.8651 7901.2489 7939.6326
## 204 205 206 207 208 209 210
## 7978.0163 8016.4001 8054.7838 8093.1676 8131.5513 8169.9351 8208.3188
## 211 212 213 214 215 216 217
## 8246.7025 8285.0863 8323.4700 8361.8538 8400.2375 8438.6213 8477.0050
## 218 219 220 221 222 223 224
## 8515.3887 8553.7725 8592.1562 8630.5400 8668.9237 8707.3074 8745.6912
## 225 226 227 228 229 230 231
## 8784.0749 8822.4587 8860.8424 8899.2262 8937.6099 8975.9936 9014.3774
## 232 233 234 235 236 237 238
## 9052.7611 9091.1449 9129.5286 9167.9124 9206.2961 9244.6798 9283.0636
## 239 240 241 242 243 244 245
## 9321.4473 9359.8311 9398.2148 9436.5986 9474.9823 9513.3660 9551.7498
## 246 247 248 249 250 251 252
## 9590.1335 9628.5173 9666.9010 9705.2848 9743.6685 9782.0522 9820.4360
## 253 254 255 256 257 258 259
## 9858.8197 9897.2035 9935.5872 9973.9710 10012.3547 10050.7384 10089.1222
## 260 261 262 263 264 265 266
## 10127.5059 10165.8897 10204.2734 10242.6571 10281.0409 10319.4246 10357.8084
## 267 268 269 270 271 272 273
## 10396.1921 10434.5759 10472.9596 10511.3433 10549.7271 10588.1108 10626.4946
## 274 275 276 277 278 279 280
## 10664.8783 10703.2621 10741.6458 10780.0295 10818.4133 10856.7970 10895.1808
## 281 282 283 284 285 286 287
## 10933.5645 10971.9483 11010.3320 11048.7157 11087.0995 11125.4832 11163.8670
## 288 289 290 291 292 293 294
## 11202.2507 11240.6345 11279.0182 11317.4019 11355.7857 11394.1694 11432.5532
## 295 296 297 298 299 300 301
## 11470.9369 11509.3207 11547.7044 11586.0881 11624.4719 11662.8556 11701.2394
## 302 303 304 305 306 307 308
## 11739.6231 11778.0069 11816.3906 11854.7743 11893.1581 11931.5418 11969.9256
## 309 310 311 312 313 314 315
## 12008.3093 12046.6930 12085.0768 12123.4605 12161.8443 12200.2280 12238.6118
## 316 317 318 319 320 321 322
## 12276.9955 12315.3792 12353.7630 12392.1467 12430.5305 12468.9142 12507.2980
## 323 324 325 326 327 328 329
## 12545.6817 12584.0654 12622.4492 12660.8329 12699.2167 12737.6004 12775.9842
## 330 331 332 333 334 335 336
## 12814.3679 12852.7516 12891.1354 12929.5191 12967.9029 13006.2866 13044.6704
## 337 338 339 340 341 342 343
## 13083.0541 13121.4378 13159.8216 13198.2053 13236.5891 13274.9728 13313.3566
## 344 345 346 347 348 349 350
## 13351.7403 13390.1240 13428.5078 13466.8915 13505.2753 13543.6590 13582.0427
## 351 352 353 354 355 356 357
## 13620.4265 13658.8102 13697.1940 13735.5777 13773.9615 13812.3452 13850.7289
## 358 359 360 361 362 363 364
## 13889.1127 13927.4964 13965.8802 14004.2639 14042.6477 14081.0314 14119.4151
## 365 366 367 368 369 370 371
## 14157.7989 14196.1826 14234.5664 14272.9501 14311.3339 14349.7176 14388.1013
## 372 373 374 375 376 377 378
## 14426.4851 14464.8688 14503.2526 14541.6363 14580.0201 14618.4038 14656.7875
## 379 380 381 382 383 384 385
## 14695.1713 14733.5550 14771.9388 14810.3225 14848.7063 14887.0900 14925.4737
## 386 387 388 389 390 391 392
## 14963.8575 15002.2412 15040.6250 15079.0087 15117.3925 15155.7762 15194.1599
## 393 394 395 396 397 398 399
## 15232.5437 15270.9274 15309.3112 15347.6949 15386.0786 15424.4624 15462.8461
## 400 401 402 403 404 405 406
## 15501.2299 15539.6136 15577.9974 15616.3811 15654.7648 15693.1486 15731.5323
## 407 408 409 410 411 412 413
## 15769.9161 15808.2998 15846.6836 15885.0673 15923.4510 15961.8348 16000.2185
## 414 415 416 417 418 419 420
## 16038.6023 16076.9860 16115.3698 16153.7535 16192.1372 16230.5210 16268.9047
## 421 422 423 424 425 426 427
## 16307.2885 16345.6722 16384.0560 16422.4397 16460.8234 16499.2072 16537.5909
## 428 429 430 431 432 433 434
## 16575.9747 16614.3584 16652.7422 16691.1259 16729.5096 16767.8934 16806.2771
## 435 436 437 438 439 440 441
## 16844.6609 16883.0446 16921.4283 16959.8121 16998.1958 17036.5796 17074.9633
## 442 443 444 445 446 447 448
## 17113.3471 17151.7308 17190.1145 17228.4983 17266.8820 17305.2658 17343.6495
## 449 450 451 452 453 454 455
## 17382.0333 17420.4170 17458.8007 17497.1845 17535.5682 17573.9520 17612.3357
## 456 457 458 459 460 461 462
## 17650.7195 17689.1032 17727.4869 17765.8707 17804.2544 17842.6382 17881.0219
## 463 464 465 466 467 468 469
## 17919.4057 17957.7894 17996.1731 18034.5569 18072.9406 18111.3244 18149.7081
## 470 471 472 473 474 475 476
## 18188.0919 18226.4756 18264.8593 18303.2431 18341.6268 18380.0106 18418.3943
## 477 478 479 480 481 482 483
## 18456.7781 18495.1618 18533.5455 18571.9293 18610.3130 18648.6968 18687.0805
## 484 485 486 487 488 489 490
## 18725.4642 18763.8480 18802.2317 18840.6155 18878.9992 18917.3830 18955.7667
## 491 492 493 494 495 496 497
## 18994.1504 19032.5342 19070.9179 19109.3017 19147.6854 19186.0692 19224.4529
## 498 499 500 501
## 19262.8366 19301.2204 19339.6041 19377.9879
La ecuacion de la recta, tiene la siguiente forma:
\[ y_i = \beta_0 + \beta_1 x_i + \epsilon_i, \ \ \ \ i=1,\ldots,n, \]
Donde los errores aleatorios ϵi son independientes con distribución normal de media 0 y varianza σ2.
Bajo este modelo,
Los errores típicos de los estimadores de los parámetros β0 y β1 se encuentran en la columna Std Error de la salida anterior. En el ejemplo, sus valores son 15.677 y 0.124 respectivamente.
La columna t value contiene el estadístico t, es decir, cociente entre cada estimador y su error típico. Estos cocientes son la base para llevar a cabo los contrastes H0:β0=0 y H0:β1=0 . Los correspondientes p-valores aparecen en la columna Pr(>|t|). En este caso son muy pequeños por lo que se rechazan ambas hipótesis para los niveles de significación habituales.
El estimador de la desviación típica de los errores σ aparece como Residual standard error y su valor en el ejemplo es: 582.9
Los intervalos de confianza para los parámetros se obtienen con el comando confint. El parámetro level permite elegir el nivel de confianza (por defecto es 0.95):
confint(regresion)
## 2.5 % 97.5 %
## (Intercept) 155.36564 216.86758
## volumen 38.14056 38.62692
Los intervalos de confianza para la respuesta media y los intervalos de predicción para la respuesta se pueden obtener usando el comando predict. Por ejemplo, el siguiente código calcula y representa los dos tipos de intervalos para el rango de Volumenes que va de 0 a 500 :
nuevos.volumenes <- data.frame(volumen = seq(0,500))
#Grafico de dispersion y recta
plot(prod$volumen, prod$valor, xlab="volumen", ylab = "valor",cex = .5)
abline(regresion)
#Intervalo de confianza de la respuesta media
# ic es una matriz con tres columnas: la prediccion, el limite inferior y el limite superior
ic <- predict(regresion, nuevos.volumenes, interval = 'confidence')
lines(nuevos.volumenes$volumen, ic[, 2], lty = 2,col="#4b00ff")
lines(nuevos.volumenes$volumen, ic[, 3], lty = 2, col="#4b00ff")
ic <- predict(regresion, nuevos.volumenes, interval = 'prediction')
lines(nuevos.volumenes$volumen, ic[, 2], lty = 2,col="red")
lines(nuevos.volumenes$volumen, ic[, 3], lty = 2, col="red")
ANOVA
anova(regresion)
## Analysis of Variance Table
##
## Response: valor
## Df Sum Sq Mean Sq F value Pr(>F)
## volumen 1 3.2566e+10 3.2566e+10 95855 < 2.2e-16 ***
## Residuals 1547 5.2558e+08 3.3974e+05
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
El análisis de varianza (ANOVA) puede determinar si las medias de tres o más grupos son diferentes. ANOVA utiliza la prueba F para evaluar estadísticamente la igualdad de las medias. En esta publicación, les mostraré cómo funcionan el ANOVA y la prueba F utilizando un ejemplo de ANOVA de un solo factor.
Pero, esperen un momento ¿alguna vez se han detenido a pensar por qué usarían un análisis de varianza para determinar si las medias son diferentes? También les mostraré de qué manera las varianzas proveen información sobre las medias.
Prueba F, F de Fisher La prueba F llevan el nombre de su estadística de prueba, F, que fue nombrado así en honor al científico inglés Ronald Fisher. La estadística F es simplemente un cociente de dos varianzas. Las varianzas son una medida de dispersión, es decir, qué tan dispersos están los datos con respecto a la media. Los valores más altos representan mayor dispersión.
La varianza es el cuadrado de la desviación estándar. Para nosotros los seres humanos, las desviaciones estándar son más fáciles de entender que las varianzas, porque están en las mismas unidades que los datos y no en unidades elevadas al cuadrado. Sin embargo, muchos análisis en realidad utilizan las varianzas en los cálculos.
Las estadísticas F se basan en la proporción de cuadrados medios. El término “cuadrados medios” puede parecer confuso, pero simplemente es una estimación de la varianza de la población que explica los grados de libertad (GL) utilizados para calcular esa estimación.
A pesar de ser una relación de varianzas, la prueba F se puede utilizar en una amplia variedad de situaciones. Como era de esperar, la prueba F puede evaluar la igualdad de las varianzas. Sin embargo, al cambiar las varianzas que se incluyen en la relación, la prueba F se convierte en una prueba muy flexible. Por ejemplo, las estadísticas F y las pruebas F se pueden utilizar para evaluar la significancia general de un modelo de regresión, para comparar el ajuste de diferentes modelos, para probar términos de regresión específicos y para evaluar la igualdad de las medias.
Los valores ajustados ŷ i y los residuos ei=ŷ i−yi se pueden obtener con los comandos fitted y residuals respectivamente. Los residuos estandarizados se obtienen con rstandard. Por ejemplo, el siguiente código obtiene una representación de los residuos estandarizados frente a los valores ajustados, que resulta útil al llevar a cabo el diagnóstico del modelo:
residuos <- rstandard(regresion)
valores.ajustados <- fitted(regresion)
plot(valores.ajustados, residuos)
En estadística se dice que un modelo predictivo presenta homocedasticidad cuando la varianza del error condicional a las variables explicativas es constante a lo largo de las observaciones.1.
No se observa ningún patrón especial, por lo que tanto la homocedasticidad como la linealidad resultan hipótesis razonables.
Grafico QQ
qqnorm(residuos)
qqline(residuos)
De acuerdo a las gráficas seleccione los valores donde habia mayor cantidad de datos representados en puntos, a partir de ahi note que que la producción de miel se realiza a nieveles bajos por lo que no hay produccion a mas volumen, puede ser la falta de apicultores o a su vez que las abejas estan casi extintas por lo que se complica la producción de miel. En el grafico Cuantil-Cuantil Q-Q Se observa que los puntos van conforme ala recta, nos da a entender que es un modelo confiable ya que los datos son normales