Actividad 1

El presente informe técnico verifica, haciendo uso de la metodología econométrica, el planteamiento de Keynes con relación a la Propensión Marginal a Consumir para Alemania entre los años 1991 y 2022.

Los econometristas al momento de analizar un problema económico emplean la siguiente metodología:

  1. Planteamiento de la teoría o de la hipótesis

  2. Especificación del modelo matemático de la teoría

  3. Especificación del modelo econométrico o estadístico de la teoría

  4. Obtención de los datos

  5. Estimación del modelo econométrico

  6. Pruebas de hipótesis

  7. Pronóstico o predicción

  8. Utilización del modelo para fines de control o de políticas

Punto 1: Una aplicación de la econometría a la teoría de Keynes

1. La hipótesis de Keynes

De acuerdo con el economista John M. Keynes, los individuos aumentan su consumo cuando su ingreso aumenta, pero no en la misma proporción en el que este último lo hace.

De lo anterior podemos deducir que la tasa de cambio en la que una unidad de ingreso se convierte e una unidad adicional consumida, es decir, la propensión marginal al consumo, es mayor que cero (0) y menor a uno (1).

2. Un modelo matemático para la teoría

Aunque Keynes planteó la relación positiva entre ingreso y consumo, no específicó de que manera se daba esta relación. Ante esta situación, es posible proponer un modelo lineal para explicar el comportamiento del consumo dado el ingreso. A esta función lineal la podemos llamar función consumo, donde el ingreso es la variable independiente \(X\), el consumo es la variable dependiente \(Y\), el intercepto con el eje de las ordenadas \(𝛃_0\) representará el consumo autónomo y el coficiente \(𝛃_1\) que acompaña al ingreso será la propensión marginal a consumir.

\[ Y = 𝛃 _0 + 𝛃 _1 X \]

3. Pasar del modelo matemático al estadístico

La econometría debe contemplar las relaciones inexactas entre las variables económicas. Por lo tanto, se debe agregar el término de perturbación \(u\) para representar todos los factores que afectan la variable respuesta, en este caso el consumo, pero que no se consideran en el modelo en forma explícita. Este término es una variable aleatoria con probabilidades estadísticas bien definidas.

\[ Y = 𝛃 _0 + 𝛃 _1 X + u \]

4. Datos para nuestro caso de estudio: Alemania

Para comprobar el planteamiento de Keynes, usaremos el caso de Alemania, país reunificado en 1990 que es hoy en día una potencia económica europea. Tomamos la serie de tiempo desde 1991 hasta 2022 para los indicadores del PIB y el gasto en consumo, estando ambos valorados en millones de euros y en indices de volumen encadenados al año base 2010. La fuente de los datos es la oficina de estadística de la Union Europea, la cual brinda acceso a sus datos en su página web oficial, Eurostat.

library(readxl)
Datos_Alemania_Actividad_1 <- read_excel("C:/Users/Andrés Neira/Desktop/Econometría/Econometría 1/Datos Alemania Actividad 1.xlsx", sheet=1)
data<-Datos_Alemania_Actividad_1
print(data)
## # A tibble: 32 × 3
##    TIEMPO `PIB ALEMANIA` `GASTO EN CONSUMO ALEMANIA`
##    <chr>           <dbl>                       <dbl>
##  1 1991         2044382                     1541731.
##  2 1992         2083697                     1597211.
##  3 1993         2063342.                    1601115.
##  4 1994         2112695.                    1631732.
##  5 1995         2145318.                    1659678.
##  6 1996         2162606.                    1690705.
##  7 1997         2201363.                    1703856.
##  8 1998         2245697.                    1732624.
##  9 1999         2288079.                    1771665.
## 10 2000         2354720.                    1800844.
## # … with 22 more rows

5. Estimación de los parámetros del modelo econométrico

x<-data$`PIB ALEMANIA`
y<-data$`GASTO EN CONSUMO ALEMANIA`
model<-lm(y~x)
model
## 
## Call:
## lm(formula = y ~ x)
## 
## Coefficients:
## (Intercept)            x  
##   2.659e+05    6.450e-01
summary(model)
## 
## Call:
## lm(formula = y ~ x)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -71292 -12765   5529  18163  51812 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 2.659e+05  4.299e+04   6.186 8.31e-07 ***
## x           6.450e-01  1.697e-02  38.016  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 28610 on 30 degrees of freedom
## Multiple R-squared:  0.9797, Adjusted R-squared:  0.979 
## F-statistic:  1445 on 1 and 30 DF,  p-value: < 2.2e-16

Una vez obtenidos y organizados los datos, se realiza el análisis de regresión construyendo un modelo lineal clásico utilizando el lenguaje de programación R. A partir de este análisis se obtuvieron los valores estimados de 265994.52728 para \(𝛃_0\) y 0.64496 para \(𝛃_1\). El segundo coeficiente corresponde a la pendiente de la función, en otras palabras, a la Propensión Marginal al Consumo. Por lo tanto, para el periodo 1991 a 2022 en el caso de Alemania, se muestra que un incremento de un euro en el ingreso real produjo, en promedio, un incremento cercano a 64 centavos y medio en el gasto de consumo real. Decimos en promedio porque la relación entre consumo e ingreso es inexacta.

El coeficiente de correlación encontrado nos permite afirmar que el modelo explica aproximadamente en un 98% la relación entre el PIB y el gasto en consumo. A su vez, ambos coeficientes resultan significativos para el modelo, puesto que el valor p correspondiente a cada uno es menor que el nivel de significancia (5%).

\[ Y = 265994.52728 + 0.64496 X \]

6. Prueba de hipótesis necesaria para corroborar la teoría

Para afrimar con mayor certeza que el modelo encontrado corresponde a la realidad, es necesario establecer criterios para comprobar si los valores estimados obtenidos confirman la teoría que se pretende probar.

De acuerdo con Keynes, la Propención Marginal al Consumo no solo debia ser positiva, sino menor a 1 Y mayor que 0. Por lo tanto, debemos averiguar si la estimación encontrada es lo suficientemente lejana de tales valor para convencernos que efectivamente la PMC real es menor que 1 y menor que 0, de tal forma que la estimación realizada no corresponde a un designio del azar.

Gracias a los datos se obtiene una PMC alrededor de 0.64. Para comprobar que efectivamente este parámetro es estadísticamente significativo se debe en primer lugar, realizar pruebas de significancia particulares para cada estimador del modelo y una prueba de significancia global Anova del mismo. En segundo lugar, es necesario averiguar si 0.64 es estadísticamente menor que 1, para aceptar este resultado como confirmación de la teoría keynesiana de consumo. Para ello es necesario plantear el siguiente sistema de hipótesis para \(𝛃_1\):

\[ H_0: 𝛃_1 = 1 \]

\[ H_1: 𝛃_1 \leqslant 1 \]

anova(model)
## Analysis of Variance Table
## 
## Response: y
##           Df     Sum Sq    Mean Sq F value    Pr(>F)    
## x          1 1.1834e+12 1.1834e+12  1445.2 < 2.2e-16 ***
## Residuals 30 2.4564e+10 8.1880e+08                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
confint(model,level=0.95)
##                    2.5 %       97.5 %
## (Intercept) 1.781405e+05 3.537485e+05
## x           6.103124e-01 6.796084e-01
r<-cor(x,y)
beta_1=(r*sd(y))/sd(x)
beta_0=mean(y)-(beta_1*mean(x))
beta_0
## [1] 265944.5
beta_1
## [1] 0.6449604

Construyendo intervalos de confianza, con el mismo nivel de significancia, encontramos que para el intercepto el límite inferior del intervalo se encuentra alrededor de 178140.5 millones de euros, mientras que el superior se encuentra alrededor de 353748.5 millones de euros. Por otro lado, para la pendiente el límite inferior del intervalo se encuentra alrededor de 0.61031 millones de euros, mientras que el superior alrededor de 0.67960 millones de euros.

Tanto los intervalos de confianza obtenidos como los valores p para cada una de las prubas de significancia, arrojan que ambos estimadores \(𝛃_0\) y \(𝛃_1\) son significativos dentro del modelo, y por tanto, diferentes de 0. Asimismo, la prueba anova confirma que al menos uno de los estimadores es relevante para explicar la variación total de y, es decir que al menos uno es diferente de 0.

Utilizando el estadístico de prueba, evidenciamos la hipótesis de Keynes

\[ t = \dfrac{b_1 - 𝛃_1}{se(b_j)} \]

t1=(beta_1-1)/(0.01697)
pt(t1,31,lower.tail = TRUE)
## [1] 3.825607e-20
t0=beta_1/(0.01697)
pt(t0,31,lower.tail = FALSE)
## [1] 7.142236e-28

La probabilidad encontrada con el estadístico de prueba adecuado para los coeficientes del modelo lineal corresponde a valores mucho menores al nivel de significancia por defecto (5%). Por lo anterior, se puede afirmar con un nivel de confianza del 95% que la PMC es menor que 1 y mayor que 0.

7. Pronóstico o predicción

Para finalizar la valoración de nuestro modelo, realizamos una predicción del gasto de consumo real a partir de la función contruida y los datos de nuestra variable regresora.

Por ejemplo, elejimos el año 2007, cuando el PIB de la República Federal Alemania fue de 2.585312 billones de euros.

\[ Y_i = 265994.52728 + 0.64496 (2585312) \]

Y2007 = 265994.52728+ (0.64496*2585312)
Y2007
## [1] 1933417

Con el valor del PIB escogido, la predicción para el año 2007 indica que la media o el promedio del gasto de consumo debería corresponder a 1.933417 billones de euros. El valor real para el consumo ese año fue de 1.862077 billones de euros.

Y2007-1862077
## [1] 71340.35
(Y2007-1862077)/2585312
## [1] 0.02759449

Contrastando con los datos reales, el modelo estimado sobrepredijo el gasto de consuño real por 71340.35 millones de euros para el año 2007, lo cual representa casi el 2,76% del valor del PIB real para ese año. Lo anterior consiste en el error de predicción de este modelo.

8. Utilización del modelo para fines de control o de políticas

Un modelo estimado sirve para fines de control o de políticas públicas. Mediante una mezcla apropiada de política fiscal y monetaria, el gobierno aleman puede manejar la variable de control (en este caso, el PIB) para producir el nivel deseado de la variable objetivo (en este caso, el gasto en consumo)

Punto 2: Investigación: prueba de hipótesis para \(𝛃_1\)

La prueba individual de un coeficiente de regresión puede se útil para determinar si:

  1. Se incluyen otra variable regresora

  2. Se elimina una una o más variables regresoras presentes en el modelo

La adición de variables regresoras en el modelo implica:

La \(SCR\) incremente

La \(SCE\) disminuya

Pero se debe decidir si el incremento en la \(SCR\) es tan significativo que justifique la inclusión de otra variable regresora en el modelo, ya que la inclusión de variables que no deberían ser incluidas puede aumentar la \(SCE\).

La hipótesis para probar la significancia dede cualquier coeficiente de regresión es:

\[ H_0: 𝛃_j = 0 \]

\[ H_1: 𝛃_j \neq 0 \]

Si la hipótesis nula no es rechazada, es un indicador de que la variable regresora puede ser eliminada del modelo.

La prueba estadística para la hipótesis es

Se utiliza la distribución \(t-Student\) en tres casos:

  1. Desviación estándar poblacional o varianza poblacional desconocida
  2. Tamaño de muestra menor a 30
  3. Distribución de la población normal

Ahora bien, es importante tener presente que:

Esta prueba es una prueba marginal, es decir se está determinando la contribución de dado que las otras variables regresoras estan presentes en el modelo. Por ello, no se debe apresurar en eliminar una variable regresora cuando la prueba no sea significativa.

Se emplea esta distribución para verificar el nivel de significancia de un coeficiente en una regresión lineal, sin importar si el tamaño de muestra es mayor a 30. Esto es así, porque porque tiene en cuenta tanto la variación del parametro \(𝛃_1\), la cual se distribuye de forma normal, y la variación de los residuales (\(e\)), la cual sigue una distribución chi-cuadrado. En otras palabras

Fuente: ¿Porque se utiliza la distribución t-student para realizar pruebas de hipótesis a los coeficientes de un modelo lineal?

La distribución t se obtiene entonces de la división entre una distribución normal - que en este caso corresponde a la distribución del beta - y una distribución chi cuadrado (con sus respectivos grados de libertad) - que en este caso corresponde a la Suma de Cuadrados de los Residuales. La operación entre estas dos distribuciones arroja el estadístico de prueba que se utiliza para la prueba de hipótesis, que en este caso, como se mostró anteriormente produce como resultado una distribución t.

Actividad 2

A continuación se presentará el desarrollo de la actividad 2. En principio se deben instalar y llamar los paquetes necesarios para la actividad:

## Librerias 
library(wooldridge)
library(tidyverse)
library(ggplot2)
library(readr)
library(knitr)

Punto 1

Una vez se realiza este paso, es posible visualizar las diferentes bases de datos utilizadas para realizar cada uno de los puntos. La primera base de datos que se utiliza es wage1. La cual incluye datos salariales transversales consistentes de una muestra aleatoria tomada de la U.S. Current Population Survey para el año 1976. Hay 526 observaciones en total.

head(wage1)
##   wage educ exper tenure nonwhite female married numdep smsa northcen south
## 1 3.10   11     2      0        0      1       0      2    1        0     0
## 2 3.24   12    22      2        0      1       1      3    1        0     0
## 3 3.00   11     2      0        0      0       0      2    0        0     0
## 4 6.00    8    44     28        0      0       1      0    1        0     0
## 5 5.30   12     7      2        0      0       1      1    0        0     0
## 6 8.75   16     9      8        0      0       1      0    1        0     0
##   west construc ndurman trcommpu trade services profserv profocc clerocc
## 1    1        0       0        0     0        0        0       0       0
## 2    1        0       0        0     0        1        0       0       0
## 3    1        0       0        0     1        0        0       0       0
## 4    1        0       0        0     0        0        0       0       1
## 5    1        0       0        0     0        0        0       0       0
## 6    1        0       0        0     0        0        1       1       0
##   servocc    lwage expersq tenursq
## 1       0 1.131402       4       0
## 2       1 1.175573     484       4
## 3       0 1.098612       4       0
## 4       0 1.791759    1936     784
## 5       0 1.667707      49       4
## 6       0 2.169054      81      64

Ahora bien, el nivel educativo promedio de la muestra y los niveles de educación menor y mayor son:

mean(wage1$educ)
## [1] 12.56274
max(wage1$educ)
## [1] 18
min(wage1$educ)
## [1] 0

El nivel educativo promedio son 12.56 años, el mayor nivel de educación son 18 años y el menos nivel de educación son 0 años.

El salario promedio por hora (wage) en la muestra es 5.896 dólares.

mean(wage1$wage)
## [1] 5.896103

Este salario promedio por hora parece ser bajo para un país como Estados Unidos. De hecho, el salario mínimo federal en los Estados Unidos en el 2009 se fijó en 7,25 dólares por hora. Esto significa que en 1976 los trabajadores ganaban incluso menos que el mínimo que se fijó en el 2009. A pesar de que a medida que pase el tiempo este salario se incrementa, sigue siendo un salario promedio por hora bajo.

El total de mujeres (females) la muestra se obtiene sumando las observaciones de cada columna de la base de datos:

colSums(wage1)
##        wage        educ       exper      tenure    nonwhite      female 
##   3101.3500   6608.0000   8951.0000   2685.0000     54.0000    252.0000 
##     married      numdep        smsa    northcen       south        west 
##    320.0000    549.0000    380.0000    132.0000    187.0000     89.0000 
##    construc     ndurman    trcommpu       trade    services    profserv 
##     24.0000     60.0000     23.0000    151.0000     53.0000    136.0000 
##     profocc     clerocc     servocc       lwage     expersq     tenursq 
##    193.0000     88.0000     74.0000    853.8392 249027.0000  41107.0000

Esto me indica que hay 252 mujeres en la muestra. El número de hombres se obtiene extrayendo un subconjunto de la muestra que solo incluya hombres:

wage1_hombres <- subset(wage1, female==0)
nrow(wage1_hombres)
## [1] 274

Lo anterior me indica que hay 274 hombres en la muestra.

Punto 2

En esta sección se utiliza la base de datos bwght. Esta base de datos se obtiene de la investigación del profesor Woolridge denominada “Instrumental Variable Estimation of Count Data Models: Applications to Models of Cigarette Smoking Behavior”. Los datos Woolridge los obtuvo de la Encuesta Nacional de Entrevistas de Salud de 1988.

head(bwght)
##   faminc cigtax cigprice bwght fatheduc motheduc parity male white cigs
## 1   13.5   16.5    122.3   109       12       12      1    1     1    0
## 2    7.5   16.5    122.3   133        6       12      2    1     0    0
## 3    0.5   16.5    122.3   129       NA       12      2    0     0    0
## 4   15.5   16.5    122.3   126       12       12      2    1     0    0
## 5   27.5   16.5    122.3   134       14       12      2    1     1    0
## 6    7.5   16.5    122.3   118       12       14      6    1     0    0
##     lbwght bwghtlbs packs    lfaminc
## 1 4.691348   6.8125     0  2.6026897
## 2 4.890349   8.3125     0  2.0149031
## 3 4.859812   8.0625     0 -0.6931472
## 4 4.836282   7.8750     0  2.7408400
## 5 4.897840   8.3750     0  3.3141861
## 6 4.770685   7.3750     0  2.0149031

El número de mujeres (male = 0) que hay en la muestra es 665:

female = sum(bwght$male == 0)
female
## [1] 665

El número de mujeres que fumaron durante el embarazo es 112:

bwght_female <- subset(bwght, male==0)
bwght_female_cigs <- subset(bwght_female, cigs != 0)
nrow(bwght_female_cigs)
## [1] 112

El promedio de cigarros consumidos por día de las mujeres (cigs) es 2.090226:

cigapordia = mean(bwght_female$cigs)
cigapordia
## [1] 2.090226

Para que el promedio sea una medida representativa de la mujer “tipica” es necesario que la muestra sea representativa, sea lo suficientemente grande y finalmente, no discrimine a las mujeres que fuman en estado de embarazo, etc., sino que calcule el promedio utilizando la totalidad de mujeres de la muestra.

La cantidad promedio de cigarros consumidos por día ente las mujeres que fumaron durante el embarazo fue de 12.41:

meancigsbwght_female_cigs = mean(bwght_female_cigs$cigs)
meancigsbwght_female_cigs
## [1] 12.41071

La relación de este promedio con el resultado promedio de cigarros fumados por día, es que el promedio de cigarros fumados por día incluye en su cálculo a mujeres que no fuman. Mientras que este último promedio es mayor porque incluye mujeres que fuman durante el embarazo.

El promedio de años de educación del padre es 13.18624:

meanfaedu = mean(bwght$fatheduc, na.rm = TRUE)
meanfaedu
## [1] 13.18624

Solo se emplean 1192 observaciones porque se excluyen del cálculo observaciones con un valor igual a No Aplica (N/A). En este sentido, sólo se tienen datos númericos diferentes a N/A en 1192, los cuales se utilizan para calcular el promedio.

Finalmente, el ingreso familiar promedio y su desviación estándar en dólares es:

meanfaminc = mean(bwght$faminc)
desviacion = sd(bwght$faminc)
meanfaminc
## [1] 29.02666
desviacion
## [1] 18.73928

El promedio es 29 mil dólares y la desviación es 18.73 mil dólares.

Punto 3

En eta sección se utiliza la base de datos meap01 pertenecen al estado de Michigan en el año 2001.

head(meap01)
##   dcode bcode math4 read4 lunch enroll  expend    exppp  lenroll  lexpend
## 1  1010  4937  83.3  77.8 40.60    468 2747475 5870.673 6.148468 14.82619
## 2  2070   597  90.3  82.3 27.10    679 1505772 2217.632 6.520621 14.22482
## 3  2080  4860  61.9  71.4 41.75    400 2121871 5304.678 5.991465 14.56781
## 4  3010   790  85.7  60.0 12.75    251 1211034 4824.836 5.525453 14.00698
## 5  3010  1403  77.3  59.1 17.08    439 1913501 4358.772 6.084499 14.46445
## 6  3010  4056  85.2  67.0 23.17    561 2637483 4701.396 6.329721 14.78534
##     lexppp
## 1 8.677725
## 2 7.704195
## 3 8.576344
## 4 8.481532
## 5 8.379946
## 6 8.455615
  1. Determine los valores mayor y menor de math4. ¿Es lógico este intervalo? Explique.
summary(meap01$math4)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00   61.60   76.40   71.91   87.00  100.00

El menor valor es igual a 0 y el mayor es igual a 100. Este intervalo es lógico puesto que nos representa el valor procentual que corresponde a la proporción de estudiantes aprobados dentro del area de matematicas. Los casos extremos consisten en que ningún estudiante del curso apruebe (0%) y que todos aprueben (100%), independientemente de cuantos sean.

3¿Cuántas escuelas tienen una tasa perfecta de aprobados en el examen de matemáticas? ¿A qué porcentaje del total de la muestra corresponde esta cantidad

meap01_mathperfec <- subset(meap01, math4 == 100.0)
nrow(meap01_mathperfec)
## [1] 38

Así pues, 38 escuelas tienen una tasa perfecta de aprobados en el examen de matemáticas.

TasaPerfectaMath <- (38/1823)*100
TasaPerfectaMath
## [1] 2.084476

Esta cantidad de escuelas corresponde al 2.08% del total de la muestra.

  1. ¿En cuántas escuelas la tasa de aprobados en matemáticas es exactamente 50%?
meap01_math50 <- subset(meap01, math4 == 50.0)
nrow(meap01_math50)
## [1] 17

En 17 escuelas la tasa de aprobados en matemáticas es exactamente 50%.

  1. Compare el promedio de las tasas de aprobados en matemáticas y en lectura. ¿Cuál de estas pruebas es más difícil de aprobar?
mean(meap01$math4)
## [1] 71.909
mean(meap01$read4)
## [1] 60.06188

El promedio de la tasa de aprobados en matemáticas es 71.9% y el promedio de la tasa de aprobados en lectura es de 60.06%. Lo que significa que es más difícil de aprobar lectura porque su promedio de aprobación es menor.

  1. Encuentre la correlación entre math4 y read4. ¿Qué concluye?
cor(x=meap01$math4, 
    y=meap01$read4)
## [1] 0.8427281

La correlación entre las dos variables es de 0.84, lo cual implica una correlación lineal positiva y fuerte.

  1. La variable exppp es gasto por alumno. Determine el promedio y la desviación estándar de exppp. ¿Parece haber una gran variación en el gasto por alumno?
mean(meap01$exppp)
## [1] 5194.865
sd(meap01$exppp)
## [1] 1091.89

La variable gasto por alumno tiene un promedio de 5194.865 por estudiante y una desvisión estándar por alumno de 1091.89. Es decir, se puede tener un gasto en 1091 superior a 5194 o inferior en 1091 a 5194. Esto último implica una variación considerable en el gasto por alumno.