Para abrir un documento en línea en R
datos=read.csv("https://docs.google.com/spreadsheets/d/e/2PACX-1vT-3Lnp6oZ3fOvt36f-79P4Rcw05-tnlXxJ-kIMElfZsxVPgDaP5eCa1b009n9O2NwZeyOTtDnMfnbs/pub?output=csv", dec=",")
Para ver la lista de variables
head(datos)
## PROVINCIA Ubigeo IDH esperanza secundaria educa percapitaf
## 1 ABANCAY 30100 0.3538328 73.43 66.50041 7.877932 288.5724
## 2 ACOBAMBA 90200 0.1911213 71.43 36.69992 4.670571 116.6439
## 3 ACOMAYO 80200 0.2090776 66.15 41.63205 4.716717 147.3322
## 4 AIJA 20200 0.2543539 66.65 34.62627 6.954080 199.8291
## 5 ALTO AMAZONAS 160200 0.2584460 70.55 31.91735 6.624111 205.2203
## 6 AMBO 100200 0.2374165 72.83 34.92477 4.583533 193.1539
## IDE identidad salud educacion saneamiento electrificacion poblacion
## 1 0.7466 97.9042 16.9311 93.6909 63.0011 90.5064 105694
## 2 0.5771 98.7516 2.6282 77.5408 31.1721 76.7208 73243
## 3 0.6331 97.1990 10.4537 83.1267 48.2393 70.5703 28318
## 4 0.6579 98.2344 8.5940 89.4989 47.7841 79.1220 7974
## 5 0.5685 94.0398 10.8140 61.7112 44.4909 66.0007 117163
## 6 0.5594 97.9204 11.1829 74.8834 25.5836 62.6859 57957
## costa capital tamano fecundidad desnutricion densidadpob mortalidadinf
## 1 NO SI 3 2.52 24.42078 27.87 17.5
## 2 NO NO 2 2.63 55.16297 70.04 23.9
## 3 NO NO 1 3.94 63.59085 28.85 44.0
## 4 NO NO 1 3.27 38.89286 11.48 41.9
## 5 NO NO 3 3.35 31.50458 5.58 26.8
## 6 NO NO 2 3.31 44.29124 35.09 19.3
## analfabetismo analfabetismo_urb analfabetismo_rural analfabetismo_h
## 1 13.45 6.31 26.77 6.95
## 2 22.00 13.81 25.92 10.36
## 3 25.25 21.98 29.12 9.14
## 4 8.25 3.70 10.54 3.22
## 5 10.37 4.50 20.94 5.89
## 6 21.11 12.99 25.55 10.73
## analfabetismo_m pob pob_ur pob_rural pob_h pob_m Voto_PPK Voto_FP
## 1 19.59 96064 60810 35254 47611 48453 26226 26089
## 2 32.82 63792 19345 44447 31399 32393 9303 8726
## 3 40.32 27357 14460 12897 13514 13843 8111 3465
## 4 13.12 7995 2528 5467 3994 4001 1820 2217
## 5 15.08 104667 62782 41885 53459 51208 32491 18620
## 6 31.35 55483 18453 37030 27878 27605 11506 14409
Para ver parámetros que te ofrece R
?read.csv
## starting httpd help server ... done
REGRESIÓN MULTIVARIABLE Para presentarle una hipótesis a R: Y = X1 + X2
explicacion=lm(educacion ~ desnutricion + saneamiento, data=datos)
R te indica si tu hipótesis tiene resultados
summary(explicacion)
##
## Call:
## lm(formula = educacion ~ desnutricion + saneamiento, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -24.0326 -5.6014 -0.2818 6.0137 26.9117
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 89.54230 3.85276 23.241 < 2e-16 ***
## desnutricion -0.36850 0.05541 -6.650 2.96e-10 ***
## saneamiento 0.05633 0.04171 1.351 0.178
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 9.245 on 192 degrees of freedom
## Multiple R-squared: 0.3325, Adjusted R-squared: 0.3255
## F-statistic: 47.81 on 2 and 192 DF, p-value: < 2.2e-16
Las estrellas (asteriscos) te indica el nivel (probabilidad) de impacto sobre la variable Y. Por ejemplo, en base a los datos, es probable que desnutrición sí tenga impacto en la educaión. Además, es negativo, por ende tiene una correlación inversa con la variable educación, es decir a menos desnutrición, mayor educación. Por el contrario, saneamiento, como no tiene estrellitas, es probable que no tenga impacto en la educación. Con una estrella, ya existe una probabilidad de impacto. A más estrellas, no hay más impacto, son probabilidades.
explicacion=lm(educacion ~ desnutricion, data=datos)
summary(explicacion)
##
## Call:
## lm(formula = educacion ~ desnutricion, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -25.9850 -5.8892 0.0709 6.0761 25.6682
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 94.28944 1.58084 59.645 <2e-16 ***
## desnutricion -0.41581 0.04302 -9.665 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 9.265 on 193 degrees of freedom
## Multiple R-squared: 0.3261, Adjusted R-squared: 0.3226
## F-statistic: 93.41 on 1 and 193 DF, p-value: < 2.2e-16
explicacion=lm(educacion ~ desnutricion + electrificacion, data=datos)
summary(explicacion)
##
## Call:
## lm(formula = educacion ~ desnutricion + electrificacion, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -21.6106 -4.3869 -0.2248 4.7966 27.9022
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 59.04119 4.56505 12.933 < 2e-16 ***
## desnutricion -0.17807 0.04744 -3.754 0.000231 ***
## electrificacion 0.37884 0.04681 8.094 6.49e-14 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 8.021 on 192 degrees of freedom
## Multiple R-squared: 0.4976, Adjusted R-squared: 0.4923
## F-statistic: 95.07 on 2 and 192 DF, p-value: < 2.2e-16
Electrificación tiene mayor impacto en la educación que desnutrición.
explicacion=lm(educacion~ desnutricion + electrificacion + saneamiento, data=datos)
summary(explicacion)
##
## Call:
## lm(formula = educacion ~ desnutricion + electrificacion + saneamiento,
## data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -22.3893 -4.4834 -0.0559 4.7905 26.3213
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 61.80472 4.70849 13.126 < 2e-16 ***
## desnutricion -0.21951 0.05092 -4.311 2.60e-05 ***
## electrificacion 0.42523 0.05130 8.290 1.98e-14 ***
## saneamiento -0.08400 0.03966 -2.118 0.0354 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 7.949 on 191 degrees of freedom
## Multiple R-squared: 0.5091, Adjusted R-squared: 0.5014
## F-statistic: 66.02 on 3 and 191 DF, p-value: < 2.2e-16
Cuando las variables cambian, tmabién cambian los valores. Por ejemplo, electrificación tenía un impacto de 0.37 cuando la otra variable era solo desnutrición. Por el contrario, electrificación tiene un mayor impacto si se considera también el saneamiento.