El presente informe técnico verifica, haciendo uso de la metodología econométrica, el planteamiento de Keynes con relación a la Propensión Marginal a Consumir para Alemania entre los años 1991 y 2022.
Los econometristas al momento de analizar un problema económico emplean la siguiente metodología:
Planteamiento de la teoría o de la hipótesis
Especificación del modelo matemático de la teoría
Especificación del modelo econométrico o estadístico de la teoría
Obtención de los datos
Estimación del modelo econométrico
Pruebas de hipótesis
Pronóstico o predicción
Utilización del modelo para fines de control o de políticas
De acuerdo con el economista John M. Keynes, los individuos aumentan su consumo cuando su ingreso aumenta, pero no en la misma proporción en el que este último lo hace.
De lo anterior podemos deducir que la tasa de cambio en la que una unidad de ingreso se convierte e una unidad adicional consumida, es decir, la propensión marginal al consumo, es mayor que cero (0) y menor a uno (1).
Aunque Keynes planteó la relación positiva entre ingreso y consumo, no específicó de que manera se daba esta relación. Ante esta situación, es posible proponer un modelo lineal para explicar el comportamiento del consumo dado el ingreso. A esta función lineal la podemos llamar función consumo, donde el ingreso es la variable independiente \(X\), el consumo es la variable dependiente \(Y\), el intercepto con el eje de las ordenadas \(𝛃_0\) representará el consumo autónomo y el coficiente \(𝛃_1\) que acompaña al ingreso será la propensión marginal a consumir.
\[ Y = 𝛃 _0 + 𝛃 _1 X \]
La econometría debe contemplar las relaciones inexactas entre las variables económicas. Por lo tanto, se debe agregar el término de perturbación \(u\) para representar todos los factores que afectan la variable respuesta, en este caso el consumo, pero que no se consideran en el modelo en forma explícita. Este término es una variable aleatoria con probabilidades estadísticas bien definidas.
\[ Y = 𝛃 _0 + 𝛃 _1 X + u \]
Para comprobar el planteamiento de Keynes, usaremos el caso de Alemania, país reunificado en 1990 que es hoy en día una potencia económica europea. Tomamos la serie de tiempo desde 1991 hasta 2022 para los indicadores del PIB y el gasto en consumo, estando ambos valorados en millones de euros y en indices de volumen encadenados al año base 2010. La fuente de los datos es la oficina de estadística de la Union Europea, la cual brinda acceso a sus datos en su página web oficial, Eurostat.
library(readxl)
Datos_Alemania_Actividad_1 <- read_excel("C:/Users/Andrés Neira/Desktop/Econometría/Econometría 1/Datos Alemania Actividad 1.xlsx", sheet=1)
data<-Datos_Alemania_Actividad_1
print(data)
## # A tibble: 32 × 3
## TIEMPO `PIB ALEMANIA` `GASTO EN CONSUMO ALEMANIA`
## <chr> <dbl> <dbl>
## 1 1991 2044382 1541731.
## 2 1992 2083697 1597211.
## 3 1993 2063342. 1601115.
## 4 1994 2112695. 1631732.
## 5 1995 2145318. 1659678.
## 6 1996 2162606. 1690705.
## 7 1997 2201363. 1703856.
## 8 1998 2245697. 1732624.
## 9 1999 2288079. 1771665.
## 10 2000 2354720. 1800844.
## # … with 22 more rows
x<-data$`PIB ALEMANIA`
y<-data$`GASTO EN CONSUMO ALEMANIA`
model<-lm(y~x)
model
##
## Call:
## lm(formula = y ~ x)
##
## Coefficients:
## (Intercept) x
## 2.659e+05 6.450e-01
summary(model)
##
## Call:
## lm(formula = y ~ x)
##
## Residuals:
## Min 1Q Median 3Q Max
## -71292 -12765 5529 18163 51812
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.659e+05 4.299e+04 6.186 8.31e-07 ***
## x 6.450e-01 1.697e-02 38.016 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 28610 on 30 degrees of freedom
## Multiple R-squared: 0.9797, Adjusted R-squared: 0.979
## F-statistic: 1445 on 1 and 30 DF, p-value: < 2.2e-16
Una vez obtenidos y organizados los datos, se realiza el análisis de regresión construyendo un modelo lineal clásico utilizando el lenguaje de programación R. A partir de este análisis se obtuvieron los valores estimados de 265994.52728 para \(𝛃_0\) y 0.64496 para \(𝛃_1\). El segundo coeficiente corresponde a la pendiente de la función, en otras palabras, a la Propensión Marginal al Consumo. Por lo tanto, para el periodo 1991 a 2022 en el caso de Alemania, se muestra que un incremento de un euro en el ingreso real produjo, en promedio, un incremento cercano a 64 centavos y medio en el gasto de consumo real. Decimos en promedio porque la relación entre consumo e ingreso es inexacta.
El coeficiente de correlación encontrado nos permite afirmar que el modelo explica aproximadamente en un 98% la relación entre el PIB y el gasto en consumo. A su vez, ambos coeficientes resultan significativos para el modelo, puesto que el valor p correspondiente a cada uno es menor que el nivel de significancia (5%).
\[ Y = 265994.52728 + 0.64496 X \]
Para afrimar con mayor certeza que el modelo encontrado corresponde a la realidad, es necesario establecer criterios para comprobar si los valores estimados obtenidos confirman la teoría que se pretende probar.
De acuerdo con Keynes, la Propención Marginal al Consumo no solo debia ser positiva, sino menor a 1 Y mayor que 0. Por lo tanto, debemos averiguar si la estimación encontrada es lo suficientemente lejana de tales valor para convencernos que efectivamente la PMC real es menor que 1 y menor que 0, de tal forma que la estimación realizada no corresponde a un designio del azar.
Gracias a los datos se obtiene una PMC alrededor de 0.64. Para comprobar que efectivamente este parámetro es estadísticamente significativo se debe en primer lugar, realizar pruebas de significancia particulares para cada estimador del modelo y una prueba de significancia global Anova del mismo. En segundo lugar, es necesario averiguar si 0.64 es estadísticamente menor que 1, para aceptar este resultado como confirmación de la teoría keynesiana de consumo. Para ello es necesario plantear el siguiente sistema de hipótesis para \(𝛃_1\):
\[ H_0: 𝛃_1 = 1 \]
\[ H_1: 𝛃_1 \leqslant 1 \]
anova(model)
## Analysis of Variance Table
##
## Response: y
## Df Sum Sq Mean Sq F value Pr(>F)
## x 1 1.1834e+12 1.1834e+12 1445.2 < 2.2e-16 ***
## Residuals 30 2.4564e+10 8.1880e+08
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
confint(model,level=0.95)
## 2.5 % 97.5 %
## (Intercept) 1.781405e+05 3.537485e+05
## x 6.103124e-01 6.796084e-01
r<-cor(x,y)
beta_1=(r*sd(y))/sd(x)
beta_0=mean(y)-(beta_1*mean(x))
beta_0
## [1] 265944.5
beta_1
## [1] 0.6449604
Construyendo intervalos de confianza, con el mismo nivel de significancia, encontramos que para el intercepto el límite inferior del intervalo se encuentra alrededor de 178140.5 millones de euros, mientras que el superior se encuentra alrededor de 353748.5 millones de euros. Por otro lado, para la pendiente el límite inferior del intervalo se encuentra alrededor de 0.61031 millones de euros, mientras que el superior alrededor de 0.67960 millones de euros.
Tanto los intervalos de confianza obtenidos como los valores p para cada una de las prubas de significancia, arrojan que ambos estimadores \(𝛃_0\) y \(𝛃_1\) son significativos dentro del modelo, y por tanto, diferentes de 0. Asimismo, la prueba anova confirma que al menos uno de los estimadores es relevante para explicar la variación total de y, es decir que al menos uno es diferente de 0.
Utilizando el estadístico de prueba, evidenciamos la hipótesis de Keynes
\[ t = \dfrac{b_1 - 𝛃_1}{se(b_j)} \]
t1=(beta_1-1)/(0.01697)
pt(t1,31,lower.tail = TRUE)
## [1] 3.825607e-20
t0=beta_1/(0.01697)
pt(t0,31,lower.tail = FALSE)
## [1] 7.142236e-28
La probabilidad encontrada con el estadístico de prueba adecuado para los coeficientes del modelo lineal corresponde a valores mucho menores al nivel de significancia por defecto (5%). Por lo anterior, se puede afirmar con un nivel de confianza del 95% que la PMC es menor que 1 y mayor que 0.
Para finalizar la valoración de nuestro modelo, realizamos una predicción del gasto de consumo real a partir de la función contruida y los datos de nuestra variable regresora.
Por ejemplo, elejimos el año 2007, cuando el PIB de la República Federal Alemania fue de 2.585312 billones de euros.
\[ Y_i = 265994.52728 + 0.64496 (2585312) \]
Y2007 = 265994.52728+ (0.64496*2585312)
Y2007
## [1] 1933417
Con el valor del PIB escogido, la predicción para el año 2007 indica que la media o el promedio del gasto de consumo debería corresponder a 1.933417 billones de euros. El valor real para el consumo ese año fue de 1.862077 billones de euros.
Y2007-1862077
## [1] 71340.35
(Y2007-1862077)/2585312
## [1] 0.02759449
Contrastando con los datos reales, el modelo estimado sobrepredijo el gasto de consuño real por 71340.35 millones de euros para el año 2007, lo cual representa casi el 2,76% del valor del PIB real para ese año. Lo anterior consiste en el error de predicción de este modelo.
Un modelo estimado sirve para fines de control o de políticas públicas. Mediante una mezcla apropiada de política fiscal y monetaria, el gobierno aleman puede manejar la variable de control (en este caso, el PIB) para producir el nivel deseado de la variable objetivo (en este caso, el gasto en consumo)
La prueba individual de un coeficiente de regresión puede se útil para determinar si:
Se incluyen otra variable regresora
Se elimina una una o más variables regresoras presentes en el modelo
La adición de variables regresoras en el modelo implica:
La \(SCR\) incremente
La \(SCE\) disminuya
Pero se debe decidir si el incremento en la \(SCR\) es tan significativo que justifique la inclusión de otra variable regresora en el modelo, ya que la inclusión de variables que no deberían ser incluidas puede aumentar la \(SCE\).
La hipótesis para probar la significancia dede cualquier coeficiente de regresión es:
\[ H_0: 𝛃_j = 0 \]
\[ H_1: 𝛃_j \neq 0 \]
Si la hipótesis nula no es rechazada, es un indicador de que la variable regresora puede ser eliminada del modelo.
La prueba estadística para la hipótesis es
Se utiliza la distribución \(t-Student\) en tres casos:
Ahora bien, es importante tener presente que:
Esta prueba es una prueba marginal, es decir se está determinando la contribución de dado que las otras variables regresoras estan presentes en el modelo. Por ello, no se debe apresurar en eliminar una variable regresora cuando la prueba no sea significativa.
Se emplea esta distribución para verificar el nivel de significancia de un coeficiente en una regresión lineal, sin importar si el tamaño de muestra es mayor a 30. Esto es así, porque porque tiene en cuenta tanto la variación del parametro \(𝛃_1\), la cual se distribuye de forma normal, y la variación de los residuales (\(e\)), la cual sigue una distribución chi-cuadrado. En otras palabras
La distribución t se obtiene entonces de la división entre una distribución normal - que en este caso corresponde a la distribución del beta - y una distribución chi cuadrado (con sus respectivos grados de libertad) - que en este caso corresponde a la Suma de Cuadrados de los Residuales. La operación entre estas dos distribuciones arroja el estadístico de prueba que se utiliza para la prueba de hipótesis, que en este caso, como se mostró anteriormente produce como resultado una distribución t.
A continuación se presentará el desarrollo de la actividad 2. En principio se deben instalar y llamar los paquetes necesarios para la actividad:
## Librerias
library(wooldridge)
library(tidyverse)
library(ggplot2)
library(readr)
library(knitr)
Una vez se realiza este paso, es posible visualizar las diferentes bases de datos utilizadas para realizar cada uno de los puntos. La primera base de datos que se utiliza es wage1. La cual incluye datos salariales transversales consistentes de una muestra aleatoria tomada de la U.S. Current Population Survey para el año 1976. Hay 526 observaciones en total.
head(wage1)
## wage educ exper tenure nonwhite female married numdep smsa northcen south
## 1 3.10 11 2 0 0 1 0 2 1 0 0
## 2 3.24 12 22 2 0 1 1 3 1 0 0
## 3 3.00 11 2 0 0 0 0 2 0 0 0
## 4 6.00 8 44 28 0 0 1 0 1 0 0
## 5 5.30 12 7 2 0 0 1 1 0 0 0
## 6 8.75 16 9 8 0 0 1 0 1 0 0
## west construc ndurman trcommpu trade services profserv profocc clerocc
## 1 1 0 0 0 0 0 0 0 0
## 2 1 0 0 0 0 1 0 0 0
## 3 1 0 0 0 1 0 0 0 0
## 4 1 0 0 0 0 0 0 0 1
## 5 1 0 0 0 0 0 0 0 0
## 6 1 0 0 0 0 0 1 1 0
## servocc lwage expersq tenursq
## 1 0 1.131402 4 0
## 2 1 1.175573 484 4
## 3 0 1.098612 4 0
## 4 0 1.791759 1936 784
## 5 0 1.667707 49 4
## 6 0 2.169054 81 64
Ahora bien, el nivel educativo promedio de la muestra y los niveles de educación menor y mayor son:
mean(wage1$educ)
## [1] 12.56274
max(wage1$educ)
## [1] 18
min(wage1$educ)
## [1] 0
El nivel educativo promedio son 12.56 años, el mayor nivel de educación son 18 años y el menos nivel de educación son 0 años.
El salario promedio por hora (wage) en la muestra es 5.896 dólares.
mean(wage1$wage)
## [1] 5.896103
Este salario promedio por hora parece ser bajo para un país como Estados Unidos. De hecho, el salario mínimo federal en los Estados Unidos en el 2009 se fijó en 7,25 dólares por hora. Esto significa que en 1976 los trabajadores ganaban incluso menos que el mínimo que se fijó en el 2009. A pesar de que a medida que pase el tiempo este salario se incrementa, sigue siendo un salario promedio por hora bajo.
El total de mujeres (females) la muestra se obtiene sumando las observaciones de cada columna de la base de datos:
colSums(wage1)
## wage educ exper tenure nonwhite female
## 3101.3500 6608.0000 8951.0000 2685.0000 54.0000 252.0000
## married numdep smsa northcen south west
## 320.0000 549.0000 380.0000 132.0000 187.0000 89.0000
## construc ndurman trcommpu trade services profserv
## 24.0000 60.0000 23.0000 151.0000 53.0000 136.0000
## profocc clerocc servocc lwage expersq tenursq
## 193.0000 88.0000 74.0000 853.8392 249027.0000 41107.0000
Esto me indica que hay 252 mujeres en la muestra. El número de hombres se obtiene extrayendo un subconjunto de la muestra que solo incluya hombres:
wage1_hombres <- subset(wage1, female==0)
nrow(wage1_hombres)
## [1] 274
Lo anterior me indica que hay 274 hombres en la muestra.
En esta sección se utiliza la base de datos bwght. Esta base de datos se obtiene de la investigación del profesor Woolridge denominada “Instrumental Variable Estimation of Count Data Models: Applications to Models of Cigarette Smoking Behavior”. Los datos Woolridge los obtuvo de la Encuesta Nacional de Entrevistas de Salud de 1988.
head(bwght)
## faminc cigtax cigprice bwght fatheduc motheduc parity male white cigs
## 1 13.5 16.5 122.3 109 12 12 1 1 1 0
## 2 7.5 16.5 122.3 133 6 12 2 1 0 0
## 3 0.5 16.5 122.3 129 NA 12 2 0 0 0
## 4 15.5 16.5 122.3 126 12 12 2 1 0 0
## 5 27.5 16.5 122.3 134 14 12 2 1 1 0
## 6 7.5 16.5 122.3 118 12 14 6 1 0 0
## lbwght bwghtlbs packs lfaminc
## 1 4.691348 6.8125 0 2.6026897
## 2 4.890349 8.3125 0 2.0149031
## 3 4.859812 8.0625 0 -0.6931472
## 4 4.836282 7.8750 0 2.7408400
## 5 4.897840 8.3750 0 3.3141861
## 6 4.770685 7.3750 0 2.0149031
El número de mujeres (male = 0) que hay en la muestra es 665:
female = sum(bwght$male == 0)
female
## [1] 665
El número de mujeres que fumaron durante el embarazo es 112:
bwght_female <- subset(bwght, male==0)
bwght_female_cigs <- subset(bwght_female, cigs != 0)
nrow(bwght_female_cigs)
## [1] 112
El promedio de cigarros consumidos por día de las mujeres (cigs) es 2.090226:
cigapordia = mean(bwght_female$cigs)
cigapordia
## [1] 2.090226
Para que el promedio sea una medida representativa de la mujer “tipica” es necesario que la muestra sea representativa, sea lo suficientemente grande y finalmente, no discrimine a las mujeres que fuman en estado de embarazo, etc., sino que calcule el promedio utilizando la totalidad de mujeres de la muestra.
La cantidad promedio de cigarros consumidos por día ente las mujeres que fumaron durante el embarazo fue de 12.41:
meancigsbwght_female_cigs = mean(bwght_female_cigs$cigs)
meancigsbwght_female_cigs
## [1] 12.41071
La relación de este promedio con el resultado promedio de cigarros fumados por día, es que el promedio de cigarros fumados por día incluye en su cálculo a mujeres que no fuman. Mientras que este último promedio es mayor porque incluye mujeres que fuman durante el embarazo.
El promedio de años de educación del padre es 13.18624:
meanfaedu = mean(bwght$fatheduc, na.rm = TRUE)
meanfaedu
## [1] 13.18624
Solo se emplean 1192 observaciones porque se excluyen del cálculo observaciones con un valor igual a No Aplica (N/A). En este sentido, sólo se tienen datos númericos diferentes a N/A en 1192, los cuales se utilizan para calcular el promedio.
Finalmente, el ingreso familiar promedio y su desviación estándar en dólares es:
meanfaminc = mean(bwght$faminc)
desviacion = sd(bwght$faminc)
meanfaminc
## [1] 29.02666
desviacion
## [1] 18.73928
El promedio es 29 mil dólares y la desviación es 18.73 mil dólares.
En eta sección se utiliza la base de datos meap01 pertenecen al estado de Michigan en el año 2001.
head(meap01)
## dcode bcode math4 read4 lunch enroll expend exppp lenroll lexpend
## 1 1010 4937 83.3 77.8 40.60 468 2747475 5870.673 6.148468 14.82619
## 2 2070 597 90.3 82.3 27.10 679 1505772 2217.632 6.520621 14.22482
## 3 2080 4860 61.9 71.4 41.75 400 2121871 5304.678 5.991465 14.56781
## 4 3010 790 85.7 60.0 12.75 251 1211034 4824.836 5.525453 14.00698
## 5 3010 1403 77.3 59.1 17.08 439 1913501 4358.772 6.084499 14.46445
## 6 3010 4056 85.2 67.0 23.17 561 2637483 4701.396 6.329721 14.78534
## lexppp
## 1 8.677725
## 2 7.704195
## 3 8.576344
## 4 8.481532
## 5 8.379946
## 6 8.455615
summary(meap01$math4)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00 61.60 76.40 71.91 87.00 100.00
El menor valor es igual a 0 y el mayor es igual a 100. Este intervalo es lógico puesto que nos representa el valor procentual que corresponde a la proporción de estudiantes aprobados dentro del area de matematicas. Los casos extremos consisten en que ningún estudiante del curso apruebe (0%) y que todos aprueben (100%), independientemente de cuantos sean.
3¿Cuántas escuelas tienen una tasa perfecta de aprobados en el examen de matemáticas? ¿A qué porcentaje del total de la muestra corresponde esta cantidad
meap01_mathperfec <- subset(meap01, math4 == 100.0)
nrow(meap01_mathperfec)
## [1] 38
Así pues, 38 escuelas tienen una tasa perfecta de aprobados en el examen de matemáticas.
TasaPerfectaMath <- (38/1823)*100
TasaPerfectaMath
## [1] 2.084476
Esta cantidad de escuelas corresponde al 2.08% del total de la muestra.
meap01_math50 <- subset(meap01, math4 == 50.0)
nrow(meap01_math50)
## [1] 17
En 17 escuelas la tasa de aprobados en matemáticas es exactamente 50%.
mean(meap01$math4)
## [1] 71.909
mean(meap01$read4)
## [1] 60.06188
El promedio de la tasa de aprobados en matemáticas es 71.9% y el promedio de la tasa de aprobados en lectura es de 60.06%. Lo que significa que es más difícil de aprobar lectura porque su promedio de aprobación es menor.
cor(x=meap01$math4,
y=meap01$read4)
## [1] 0.8427281
La correlación entre las dos variables es de 0.84, lo cual implica una correlación lineal positiva y fuerte.
mean(meap01$exppp)
## [1] 5194.865
sd(meap01$exppp)
## [1] 1091.89
La variable gasto por alumno tiene un promedio de 5194.865 por estudiante y una desvisión estándar por alumno de 1091.89. Es decir, se puede tener un gasto en 1091 superior a 5194 o inferior en 1091 a 5194. Esto último implica una variación considerable en el gasto por alumno.