Problema 1

Se desea establecer un modelo de regresión logística que permita calcular la probabilidad de lograr concretar un emprendimiento (Emprendimiento) en función de la edad de la persona (Edad). Los datos se encuentran en la base de datos denominada

#Carga de datos
data1 <- read.csv("Data1.csv")

#Variable emprendimiento como factor 
data1$Emprendimiento <- factor(data1$Emprendimiento,levels = c(0,1),labels = c("No", "Sí"))

1. Realiza una visualización donde puedas ver la relación del Emprendimiento con la Edad e interpreta la gráfica.

# Visualización de los datos
library(ggplot2)
ggplot(data1, aes(x = Edad, y = Emprendimiento, color = factor(Emprendimiento))) +
  geom_point(size = 4, alpha = 0.8) +
  scale_color_manual(values = c("red", "green"),
                     labels = c("No emprende", "Emprende"),
                     name = "Estado") +
  labs(title = "Gráfico de edad y emprendimiento",
       x = "Edad",y = "Emprendimiento") +
  theme_minimal(base_size = 14)

Se observa que las personas clasificadas como emprendedoras (Sí, en verde) se concentran principalmente en edades más jóvenes, aproximadamente entre los 20 y 30 años, con algunos casos aislados alrededor de los 50 a 55 años. Por otro lado, las personas que no emprenden (No, en rojo) se distribuyen en un rango más amplio de edades, aproximadamente entre los 30 y 80 años, exceptuando las edades entre 50 a 55 años.

2. Ajusta un modelo de regresión logística, e interpreta los coeficientes.

#Modelo de regresión logística
mod1 <- glm(Emprendimiento ~ ., data = data1, family = binomial)
# Resumen del modelo
summary(mod1)

## 
## Call:
## glm(formula = Emprendimiento ~ ., family = binomial, data = data1)
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)    
## (Intercept)  2.96604    0.53096   5.586 2.32e-08 ***
## Edad        -0.09626    0.01305  -7.375 1.64e-13 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 318.66  on 299  degrees of freedom
## Residual deviance: 229.42  on 298  degrees of freedom
## AIC: 233.42
## 
## Number of Fisher Scoring iterations: 5

Por cada año adicional de edad, el logaritmo de la razón de probabilidades de emprender disminuye en 0.09626 unidades.

#Calculo de la exponencial para los coeficientes
exp(coef(mod1))

## (Intercept)        Edad 
##  19.4149053   0.9082291

Por cada año adicional de edad multiplica las probabilidades de emprender por aproximadamente 0.91, es decir, las probabilidades de emprender por cada año adicional de edad disminuyen cerca de un 9% (1−0.91)×100.

3. Calcula e interpreta la relación entre personas emprendedoras y no emprendedoras.

#Proporciones de emprendimiento
prop1  <- prop.table(table(data1$Emprendimiento))
# Probabilidades 
p1 <- prop1["Sí"]
q1 <- prop1["No"]
# Odds de emprendimiento
odds1 <- p1 / q1
odds1

##        Sí 
## 0.2875536

Por cada 28 personas que emprenden, hay 100 que no emprenden.

Problema 2

Se desea plantear un modelo de datos de panel para analizar cuánto afecta la variable Manufacturing al GDP en algunos países de las Antillas Mayores (Puerto Rico, Cuba, Haití y República Dominicana), medido desde 1990. Estos datos fueron recopilados del Banco Mundial, y se encuentran en la base de datos denominada Data2.

y: GDP x1: manufacturing

sucursales tiempo

#Carga de datos
data2 <- read.csv("Data2.csv")

# Declarar la estructura panel
pdata2 <- pdata.frame(data2, index = c("Country", "Year"))

1. Realiza un gráfico de dispersión donde se pueda visualizar el comportamiento de Manufacturing de cada país a través del tiempo. Interprete la gráfica.

ggplot(data2, aes(x = Year, y = Manufacturing, color = Country)) +
  geom_point(size = 2) +
  geom_line(linewidth = 1) +
  labs(
    title = "Manufacturing por país a través del tiempo",
    x = "Año",
    y = "Manufacturing (%)",
    color = "País"
  ) +
  theme_minimal(base_size = 14)

En la gráfica que observa que Puerto Rico presenta consistentemente los valores más altos de Manufacturing durante todo el período desde 1990 a 2020, entre 40% y 48% de manufacturing. Sin embargo, en el final del período hay disminución.

República Dominicana inicia con valores relativamente altos a principios de los años noventa, cercanos al 26%, pero muestra una tendencia descendente a lo largo del tiempo. Para los años más recientes, el indicador ronda el 15%.

Haití parece tener la mayor variabilidad entre los países analizados. Aunque inicia con valores bajos, después de 2000 se observa una tendencia creciente. En los años recientes ocurre un aumento alcanzando valores superiores al 20%.

Cuba durante los 1990’s muestra un aumento gradual, alcanzando cerca de 18%, pero luego presenta una tendencia leve a la baja y se estabiliza alrededor de 14%–16%. En los últimos años se observa otra reducción, acercándose a 10%.

Según los datos observados se puede usar un modelo de datos de panel, ya que permite analizar al mismo tiempo la variación temporal y las particularidades de cada país.

2. Estima los modelos vistos en clase y concluya cual sería el mejor modelo.

# Modelo agrupado
modelo_pool <- plm(GDP ~ Manufacturing,data = pdata2,model = "pooling")

# Modelo de efectos fijos
modelo_fe <- plm(GDP ~ Manufacturing,data = pdata2,model = "within",effect = "individual")

# Modelo de efectos aleatorios
modelo_re <- plm(GDP ~ Manufacturing,data = pdata2, model = "random",effect = "individual")

Selección del modelo

Paso 1

# Paso 1. Modelo agrupado vs efectos fijos
pFtest(modelo_fe, modelo_pool)

## 
##  F test for individual effects
## 
## data:  GDP ~ Manufacturing
## F = 36.008, df1 = 3, df2 = 127, p-value < 2.2e-16
## alternative hypothesis: significant effects

Interpretación:

H0: no existen efectos individuales -> usar modelo agrupado

H1: existen efectos individuales -> usar modelo de efectos fijos

Como p-value < 2.2e-16 se rechaza H0. Por lo tanto, existen efectos individuales y no se puede usar el modelo agrupado.

Paso 2

# Paso 2. Modelo efectos fijos vs efectos aleatorios
phtest(modelo_fe, modelo_re)

## 
##  Hausman Test
## 
## data:  GDP ~ Manufacturing
## chisq = 4.0174, df = 1, p-value = 0.04503
## alternative hypothesis: one model is inconsistent

Interpretación:

H0: existen efectos aleatorios -> usar modelo de efectos aleatorios

H1: existen efectos fijos -> usar modelo de efectos fijos

Como p-value = 0.04503 se retiene H0. Por lo tanto, existen efectos aleatorios, por lo que, se debe usar el modelo de efectos aleatorios.

Paso 3

# Paso 3. Evaluar el efecto del tiempo en el modelo elegido
modelo_ret <- plm(GDP ~ Manufacturing,data = pdata2,model = "random",effect = "twoways")

#Comparar los dos modelos
summary(modelo_re) # modelo sin el timepo

## Oneway (individual) effect Random Effect Model 
##    (Swamy-Arora's transformation)
## 
## Call:
## plm(formula = GDP ~ Manufacturing, data = pdata2, effect = "individual", 
##     model = "random")
## 
## Balanced Panel: n = 4, T = 33, N = 132
## 
## Effects:
##                     var   std.dev share
## idiosyncratic 5.939e+09 7.707e+04 0.418
## individual    8.277e+09 9.098e+04 0.582
## theta: 0.8541
## 
## Residuals:
##      Min.   1st Qu.    Median   3rd Qu.      Max. 
## -158359.4  -37572.0   -7894.8   24514.3  367804.0 
## 
## Coefficients:
##               Estimate Std. Error z-value  Pr(>|z|)    
## (Intercept)   234017.0    63473.0  3.6869  0.000227 ***
## Manufacturing  -7530.5     1904.6 -3.9537 7.694e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Total Sum of Squares:    8.8334e+11
## Residual Sum of Squares: 7.8852e+11
## R-Squared:      0.10734
## Adj. R-Squared: 0.10047
## Chisq: 15.632 on 1 DF, p-value: 7.6941e-05

summary(modelo_ret) # modelo con el tiempo

## Twoways effects Random Effect Model 
##    (Swamy-Arora's transformation)
## 
## Call:
## plm(formula = GDP ~ Manufacturing, data = pdata2, effect = "twoways", 
##     model = "random")
## 
## Balanced Panel: n = 4, T = 33, N = 132
## 
## Effects:
##                     var   std.dev share
## idiosyncratic 3.341e+09 5.780e+04 0.244
## individual    8.356e+09 9.141e+04 0.609
## time          2.017e+09 4.491e+04 0.147
## theta: 0.8906 (id) 0.4589 (time) 0.4573 (total)
## 
## Residuals:
##      Min.   1st Qu.    Median   3rd Qu.      Max. 
## -122806.3  -38495.1   -4460.9   25966.5  288947.7 
## 
## Coefficients:
##               Estimate Std. Error z-value  Pr(>|z|)    
## (Intercept)   280484.1    60737.6  4.6180 3.875e-06 ***
## Manufacturing  -9577.4     1599.8 -5.9865 2.144e-09 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Total Sum of Squares:    6.0362e+11
## Residual Sum of Squares: 4.7318e+11
## R-Squared:      0.2161
## Adj. R-Squared: 0.21007
## Chisq: 35.8378 on 1 DF, p-value: 2.1444e-09

Se concluye que el mejor modelo es el de efectos aleatorios con efectos de tiempo. Ya que, muestra un mayor poder explicativo (R² = 0.216).

3. Interpreta los resultados del mejor modelo encontrado.

Variables explicativas: Un aumento en Manufacturing se asocia con una disminución promedio del GDP de aproximadamente 9,577 unidades. Manteniendo constantes los efectos del país y del tiempo. Además, como el p-value=2.144e-09 indica una relación estadísticamente significativa entre Manufacturing y GDP en los países analizados.

Efectos individuales: Varianza individual = 60.9%. Por ende, la mayor parte de la variación del GDP proviene de diferencias entre países.

Efectos de tiempo: Varianza temporal = 14.7%. El GDP también cambia a través del tiempo.

Calidad del modelo: El modelo explica aproximadamente 21.6% de la variación del GDP. El modelo tiene poder explicativo moderado, pero estadísticamente relevante.

Examen grupal 2

Lizbeth Alvarado Vargas y Ariana Rodríguez Flores