Ejercicio 1.
a) explicar si hay una relación determinista entre CI y SM.
No, un diagrama de dispersión no nos permite llegar a la conclusión de que exista una relación determinista. La nube de puntos nos indica que existe una tendencia positiva, negativa lo que nos indica correlación y no necesariamente causalidad. Existen varias fuentes de variación como el PIB, nivel educativo, etc. Que pueden influir en CI y estar correlacionadas con SM
b) Escribe un modelo de regresión lineal
en el cual se pueda analizar el comportamiento esperado de CI dado
SM.
CIi=β0+β1SMi+ui
c) Escribe un modelo de regresión lineal en el cual se pueda analizar el comportamiento esperado de CI dado SM.
β_1: Captura el efecto marginal esperado de una unidad adicional de penetración de redes sociales sobre el índice de corrupción: β_1=(∂E[“CI” ∣“SM” ])/∂“SM” . u_i: Agrupa todas las causas de CI que no están incluidas en el regresor SM (por ejemplo, instituciones, historia, corrupción endémica, diferencias culturales, errores de medición).
Ejercicio 5.
a) Escribe un guión de comandos de R que genere una
muestra de 80 observaciones de este mecanismo
para el caso de σ 2 = 144. Utiliza como
semilla: 123.
## y x u
## 1 33.41227 15.06899 -6.7257078
## 2 28.47214 10.61714 -2.7621299
## 3 67.70361 19.49955 18.7044998
## 4 33.32894 11.24142 0.8461007
## 5 32.87818 10.66336 1.5514528
## 6 62.60206 16.01064 20.5807798
## y x u
## 1 33.412266 15.068987 -6.7257078
## 2 28.472144 10.617137 -2.7621299
## 3 67.703609 19.499555 18.7044998
## 4 33.328938 11.241419 0.8461007
## 5 32.878176 10.663361 1.5514528
## 6 62.602057 16.010638 20.5807798
## 7 59.951056 22.210031 5.5309945
## 8 8.085441 6.633088 -15.1807348
## 9 26.522533 12.382384 -8.2422342
## 10 20.593258 7.970601 -5.3479436
b) Ejecuta el guión. Haz un plot (scatter) con las 80 observaciones (xi , yi) generadas. No incluyas la recta ajustada. ¿Te sorprende? Comenta. Tienen una correlación positiva débil, a medida que una variable aumenta, la otra también los hace
c) Repite los apartados (a) y (b) para el caso de
σ 2 = 16. Compara los gráficos y comenta.
## y x u
## 1 37.89607 15.068987 -2.2419026
## 2 30.31356 10.617137 -0.9207100
## 3 55.23394 19.499555 6.2348333
## 4 32.76487 11.241419 0.2820336
## 5 31.84387 10.663361 0.5171509
## 6 48.88154 16.010638 6.8602599
## 7 56.26373 22.210031 1.8436648
## 8 18.20593 6.633088 -5.0602449
## 9 32.01736 12.382384 -2.7474114
## 10 24.15855 7.970601 -1.7826479
## y x u
## 1 37.89607 15.06899 -2.2419026
## 2 30.31356 10.61714 -0.9207100
## 3 55.23394 19.49955 6.2348333
## 4 32.76487 11.24142 0.2820336
## 5 31.84387 10.66336 0.5171509
## 6 48.88154 16.01064 6.8602599
Cuando la varianza disminuye, Los puntos se agrupan y se concentran
alrededor del promedio
Ejercicio 7.
## EDUC EXPE EDSUP MUJER SALARIO
## 1 6 51 0 0 6.814942
## 2 10 33 0 1 7.240459
## 3 10 12 0 0 9.954426
## 4 10 18 0 1 7.531282
## 5 12 10 0 0 15.032330
## 6 10 33 0 0 8.635691
EJERCICIO 7
a) ¿Qué puedes decir sobre la diferencia salarial entre gente con estudios superiores y gente sin estudios superiores? Se específico.
Las personas que tienen estudios superiores tienen mayor salario que uno que no tiene estudios
##
## ===============================================
## Dependent variable:
## ---------------------------
## SALARIO
## -----------------------------------------------
## EDSUP 6.709***
## (0.277)
##
## Constant 10.330***
## (0.142)
##
## -----------------------------------------------
## Observations 5,000
## R2 0.105
## Adjusted R2 0.105
## Residual Std. Error 8.626 (df = 4998)
## F Statistic 586.859*** (df = 1; 4998)
## ===============================================
## Note: *p<0.1; **p<0.05; ***p<0.01
##
## Call:
## lm(formula = SALARIO ~ EDSUP, data = data_ej7)
##
## Coefficients:
## (Intercept) EDSUP
## 10.330 6.709
##
## Call:
## lm(formula = SALARIO ~ EDSUP, data = data_ej7)
##
## Residuals:
## Min 1Q Median 3Q Max
## -12.792 -4.020 -1.815 1.660 162.059
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 10.3296 0.1421 72.67 <2e-16 ***
## EDSUP 6.7091 0.2769 24.23 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 8.626 on 4998 degrees of freedom
## Multiple R-squared: 0.1051, Adjusted R-squared: 0.1049
## F-statistic: 586.9 on 1 and 4998 DF, p-value: < 2.2e-16
b) Comenta la bondad del ajuste. La bondad de ajuste nos indica que tan cerca o lejos estamos en cuando a los datos muestrales de los datos reales (poblacionales), en este caso nos indica que hay un 0,1 (10%) , lo que nos indica, que hay una discrepancia entre los datos y el modelo teórico que es débil.
## [1] "El R^2 del modelo de regresión estimado es: 0.105080428614229"
## [1] "Además del R^2, también podemos calcular el BIC: 11.5387991039759"
c) Hacer el análisis que se pide (los resultados ya
han sido presentados en el apartado a).
d) Proporciona una predicción del salario de una
persona que no tiene estudios superiores y de una que sí los tiene.
Muestra los pasos.
## [1] "Salario persona sin estudio superior = 10.3296113312517"
## [1] "Salario persona con estudio superior = 17.0387468003038"
EJERCICIO 8
EJERCICIO 8
a) Con la ayuda de R estima este modelo por MCO con el mismo fichero de datos que la pregunta anterior. ¿Qué puedes decir sobre la diferencia salarial entre gente con estudios superiores y gente sin estudios superiores? Se específico.
A través del B1 podemos estimar que las personas con estudios
superiores tienen un mayor salario en promedio (56,6%), que una persona
que no los tiene
##
## Call:
## lm(formula = log(SALARIO) ~ EDSUP, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.22593 -0.32079 -0.04959 0.26092 2.92664
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.223107 0.007662 290.13 <2e-16 ***
## EDSUP 0.448927 0.014930 30.07 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.465 on 4998 degrees of freedom
## Multiple R-squared: 0.1532, Adjusted R-squared: 0.153
## F-statistic: 904.1 on 1 and 4998 DF, p-value: < 2.2e-16
b) En el mismo fichero de datos tenemos la variable EDUC, que corresponde al número de años de escolarización. Considera ahora que definimos el siguiente modelo de regresión:
un año más de educación incrementa el salario promedio en un 5.05 %.
##
## Call:
## lm(formula = log(SALARIO) ~ EDUC, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.16140 -0.32357 -0.04716 0.26108 3.07606
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.76334 0.02237 78.83 <2e-16 ***
## EDUC 0.04928 0.00182 27.07 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.4719 on 4998 degrees of freedom
## Multiple R-squared: 0.1279, Adjusted R-squared: 0.1277
## F-statistic: 732.8 on 1 and 4998 DF, p-value: < 2.2e-16
## EDUC EDUC
## 5.051656 4.928201
c) ¿Bajo que condiciones podrías utilizar la estimación del parámetro β1 como medida del efecto de la escolarización sobre los salarios ?
Cuando E[u∣EDUC]=0
EJERCICIO
10
a) Utilitzando el fichero corruption.csv estima per MCO la regressión que has propuestoen la Pregunta 1. Comenta sobre la bondad del ajuste. Utilitzando la estimación de los paràmetros obtenida, ¿ qué puedes concluir sobre la relación entre CI y SM? Argumenta rigorosamente.
El modelo explica un 73,51% de la variabilidad observada en la
variable dependiente
## [1] "obs" "wbcode" "SM" "corruption" "lngdp"
## obs wbcode SM corruption
## Length:35 Length:35 Min. :0.0700 Min. :82.48
## Class :character Class :character 1st Qu.:0.3800 1st Qu.:85.08
## Mode :character Mode :character Median :0.5900 Median :88.05
## Mean :0.5486 Mean :88.64
## 3rd Qu.:0.7300 3rd Qu.:93.01
## Max. :0.8500 Max. :95.24
## lngdp
## Min. : 6.261
## 1st Qu.: 8.187
## Median : 9.475
## Mean : 9.023
## 3rd Qu.:10.097
## Max. :10.588
##
## Call:
## lm(formula = corruption ~ SM, data = corrupcion)
##
## Residuals:
## Min 1Q Median 3Q Max
## -4.4938 -1.3067 0.2025 1.1093 4.2884
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 98.078 1.035 94.796 < 2e-16 ***
## SM -17.201 1.761 -9.766 2.92e-11 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.189 on 33 degrees of freedom
## Multiple R-squared: 0.7429, Adjusted R-squared: 0.7351
## F-statistic: 95.37 on 1 and 33 DF, p-value: 2.92e-11