Modelo de regresión lineal
El modelo de regresión lineal se usa para estudiar la relación entre una variable dependiente y una o más variables independientes.
La forma genérica de un modelo de regresión lineal es:
\[
\begin{equation}
y=f(x_1+x_2+\ldots+ x_k)+ \varepsilon
\end{equation}
\]
\[
=\beta_1x_1+\beta_2x_2+\ldots+ \beta_kx_k+\varepsilon
\]
donde:
\(y\) es la variable dependiente o explicada
\(\begin{equation} x_1+x_2+\ldots+ x_k \end{equation}\) son las variables independientes o explicativas
\(\beta_1+ \beta_2, \ldots, \beta_k\) son los parámetros
\(\begin{equation} f(x_1+x_2+\ldots+ x_k) \end{equation}\) es una funcion especificada por una teoria y es conocida como la ecuación de regresión poblacional de \(y\) sobre \(\begin{equation} x_1+x_2+\ldots+ x_k \end{equation}\). En este contexto
\(\varepsilon\) es el término perturbación aleatoria, llamado asi porque “perturba” una relación estable. La perturbacion surge por las siguientes razones:
La teoría especificará a las variables dependientes e independientes en el model; sin embargo, no siempre será obvio cúal será definida.
En un modelo teórico, no se puede captar toda la influencia en una variable económica dentro de un modelo, sin importar cuán elaborado sea. El factor neto, ya sea positivo o negativo, de estos factores omitidos se captura en la perturbación.
En un modelo empírico el factor contribuyente a la perturbación es el error de medición. Es fácil teorizar sobre las relaciones entre variables definidas con precisión. Otra muy distinta es obtener medidas precisasde estas variables
Ejemplo de modelo económico
LA FUNCIÓN DE CONSUMO DE KEYNES
- La teoría que plantea Keynes sugiere que existe una relación entre consumo (C) y el ingreso (Y) de una persona \[
C=f(X)
\] cuya forma funcional más básica es \[
C=\alpha+\beta X
\] A continuación, se muestra un tutorial tomado de YouTube que muestra la funcion de Keynes
Ejemplo de modelo econométrico
CAPACIDAD LABORAL Y PRODUCTIVIDAD DE LOS TRABAJADORES
- Analiza el efecto sobre la productividad de los trabajadores considerando los factores como la educacion, experiencia y la capacitación laboral.
Modelo econométrico \[
salario=\beta_0+\beta_1educ+\beta_2exper+\beta_3capacitación+\mu
\] donde:
salario: salario por hora
educ: años de escolaridad formal
exper: años de experiencia laboral
capacitación: semanas de capacitación laboral
Observación
El término de perturbación \(\mu\) comprende factores como habilidades innatas, calidad de la educación, antecedentes familiares y otros factores que influyen en el salario de una persona.
Representación del modelo econométrico
\[
Y_i = \beta_0 + \beta_1 x_{i1}+ \cdots+\beta_kx_{ik}+\varepsilon_i, \hspace{3mm} i=1,2, \dots , n
\] Para las \(n\) ecuaciones queda de la siguiente manera:
\[
Y_1= \beta_0+ \beta_1 x_{11} + \cdots + \beta_k x_{1k} +\varepsilon_1
\]
\[
Y_2= \beta_0+ \beta_1 x_{21} + \cdots + \beta_k x_{2k} +\varepsilon_2
\] \[
\vdots
\]
\[
Y_n= \beta_0+ \beta_1 x_{n1} + \cdots + \beta_k x_{nk} +\varepsilon_n
\]
Matricialmente queda asi: \[
\begin{bmatrix}
Y_1\\ Y_2\\ \vdots \\ Y_n
\end{bmatrix}
=
\begin{bmatrix}
1 & x_{11} & \cdots & x_{1k} \\
1 & x_{21} & \cdots & x_{2k} \\
\vdots & \vdots & \vdots & \vdots \\
1 & x_{n1} & \cdots & x_{nk} \\
\end{bmatrix}
\begin{bmatrix}
\beta_0 \\
\beta_1 \\
\vdots \\
\beta_k
\end{bmatrix}
+
\begin{bmatrix}
\varepsilon_1 \\
\varepsilon_2 \\
\vdots \\
\varepsilon_n
\end{bmatrix}
\]
Supuestos del modelo de regresión lineal
Los supuestos que describen la forma del modeloy las relaciones entre sus partes e implican procedimientos apropiados de estimación e inferencia son los siguientes:
1)Linealidad del modelo de regresión
- El modelo especifica una relación lineal entre la variable \(y\) (regresando) y \(\begin{equation} x_1+x_2+\ldots+ x_k \end{equation}\) (regresores) \[
y=\beta_1x_1+\beta_2x_2+\beta_3x_3+\ldots+\beta_kx_k+\mu
\] Puede representarse vectorialmente como \[
y_i={x}'_i\pmb{\beta}+\varepsilon
\]
2)Exogeneidad de las variables independientes
Esto indica que el valor esperado de la perturbación en la i-ésima observación en la muestra no es una función de las K variables independeintes observables en ninguna j-ésima observación, incluida la i-ésima \[
E[\varepsilon_i|X_j]=E[\varepsilon_i|x_{j1},x_{j2},\ldots,x_{jk}]=0\hspace{10mm} i,j=1,2,\ldots, n
\] Esto significa que las variables independientes no guardan información útil para la predicción de \(\varepsilon_i\)
En otras palabras, se asume que la perturbación tiene valor esperado condicionado cero en cada observación.
\[
E[\varepsilon_i|X]=0
\]
3)Perturbaciones esféricas (Homocedasticidad y no Autocorrelación
- Una perturbación \(\varepsilon_i\) se denomina esférica cuando:
- Es Homocedástica, esto es, tiene la misma varianza finita \(\sigma^2\).
\[
var[\varepsilon_i|X]=\sigma^2,\hspace{10mm} para \quad i=1,2,\ldots, n
\]
- Y no está correlacionada con cualquier otra perturbación \(\varepsilon_j\)
\[
cov=[\varepsilon_i,\varepsilon_j|X]=0 \hspace{10mm} para \quad i\neq j
\]
4)Distribución normal
-Las perturbaciones estan normalmente distribuidas con media cero \[
E[\varepsilon|X]=0
\]
y varianza diagonal constante (perturbación esférica) \[
var[\varepsilon|X]=\sigma^2I~
\]
esto es \[
\varepsilon[X \sim N|0,\sigma^2]
\]
El supuesto de normalidad no es necesario para obtener muchos de los resultados que se utilizan en el análisis de regresión múltiple; sin embargo, permitirá obtener varios resultados estadísticos exactos, construir intervalos de confianza y estadísticos de pruebas.
Aplicacion
Se quiere encontrar la relacion entre el pbiper (PBI per capita) y lexp (espereanza de vida) a nivel mundial
setwd("E:/RMARKDOWN/clase4")
ejemplo=read_dta("lifeexp.dta")
theme_set(theme_bw())
ggplot(ejemplo, aes(x=pbiper, y=lexp)) + geom_point() + theme_light() + ggtitle ("Diagrama de dispersión: PBI per capita vs. Esperanza de vida nivel mundial")
## Warning: Removed 5 rows containing missing values (geom_point).

modelo=lm(lexp ~ pbiper, data = ejemplo)
summary(modelo)
##
## Call:
## lm(formula = lexp ~ pbiper, data = ejemplo)
##
## Residuals:
## Min 1Q Median 3Q Max
## -15.5810 -1.3539 0.5005 2.1939 4.9889
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 6.945e+01 5.480e-01 126.735 < 2e-16 ***
## pbiper 3.234e-04 4.012e-05 8.061 3.45e-11 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.36 on 61 degrees of freedom
## (5 observations deleted due to missingness)
## Multiple R-squared: 0.5158, Adjusted R-squared: 0.5079
## F-statistic: 64.98 on 1 and 61 DF, p-value: 3.452e-11
El modelo tiene un R2 de 0.51 y el coeficiente es significativo
Modelo estimado
\[\widehat{esperanzaVida}_i = \hat{\beta}_0 + \hat{\beta}_1 PBIpc_i= 60.94+ 0.000323 PBIpc_i\] Interpretación Si el PBIpc se incrementa el 1000 Um la esperanza de vida aumenta en 0.32 años
ggplot(ejemplo, aes(x=pbiper,y= lexp )) +
geom_point() +
geom_smooth(method='lm', formula= y ~ x, se=FALSE, col='tomato') +
theme_light()+ ggtitle ("Recta estimada")
## Warning: Removed 5 rows containing non-finite values (stat_smooth).
## Warning: Removed 5 rows containing missing values (geom_point).

