Se desea establecer un modelo de regresión logística que permita calcular la probabilidad de lograr concretar un emprendimiento (Emprendimiento) en función de la edad de la persona (Edad). Los datos se encuentran en la base de datos denominada
#Carga de datos
data1 <- read.csv("Data1.csv")
#Variable emprendimiento como factor
data1$Emprendimiento <- factor(data1$Emprendimiento,levels = c(0,1),labels = c("No", "Sí"))# Visualización de los datos
library(ggplot2)
ggplot(data1, aes(x = Edad, y = Emprendimiento, color = factor(Emprendimiento))) +
geom_point(size = 4, alpha = 0.8) +
scale_color_manual(values = c("red", "green"),
labels = c("No emprende", "Emprende"),
name = "Estado") +
labs(title = "Gráfico de edad y emprendimiento",
x = "Edad",y = "Emprendimiento") +
theme_minimal(base_size = 14)Se observa que las personas clasificadas como emprendedoras (Sí, en verde) se concentran principalmente en edades más jóvenes, aproximadamente entre los 20 y 30 años, con algunos casos aislados alrededor de los 50 a 55 años. Por otro lado, las personas que no emprenden (No, en rojo) se distribuyen en un rango más amplio de edades, aproximadamente entre los 30 y 80 años, exceptuando las edades entre 50 a 55 años.
#Modelo de regresión logística
mod1 <- glm(Emprendimiento ~ ., data = data1, family = binomial)
# Resumen del modelo
summary(mod1)##
## Call:
## glm(formula = Emprendimiento ~ ., family = binomial, data = data1)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 2.96604 0.53096 5.586 2.32e-08 ***
## Edad -0.09626 0.01305 -7.375 1.64e-13 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 318.66 on 299 degrees of freedom
## Residual deviance: 229.42 on 298 degrees of freedom
## AIC: 233.42
##
## Number of Fisher Scoring iterations: 5
Por cada año adicional de edad, el logaritmo de la razón de probabilidades de emprender disminuye en 0.09626 unidades.
## (Intercept) Edad
## 19.4149053 0.9082291
Por cada año adicional de edad multiplica las probabilidades de emprender por aproximadamente 0.91, es decir, las probabilidades de emprender por cada año adicional de edad disminuyen cerca de un 9% (1−0.91)×100.
#Proporciones de emprendimiento
prop1 <- prop.table(table(data1$Emprendimiento))
# Probabilidades
p1 <- prop1["Sí"]
q1 <- prop1["No"]
# Odds de emprendimiento
odds1 <- p1 / q1
odds1## Sí
## 0.2875536
Por cada 28 personas que emprenden, hay 100 que no emprenden.
Se desea plantear un modelo de datos de panel para analizar cuánto afecta la variable Manufacturing al GDP en algunos países de las Antillas Mayores (Puerto Rico, Cuba, Haití y República Dominicana), medido desde 1990. Estos datos fueron recopilados del Banco Mundial, y se encuentran en la base de datos denominada Data2.
y: GDP x1: manufacturing
sucursales tiempo
#Carga de datos
data2 <- read.csv("Data2.csv")
# Declarar la estructura panel
pdata2 <- pdata.frame(data2, index = c("Country", "Year"))ggplot(data2, aes(x = Year, y = Manufacturing, color = Country)) +
geom_point(size = 2) +
geom_line(linewidth = 1) +
labs(
title = "Manufacturing por país a través del tiempo",
x = "Año",
y = "Manufacturing (%)",
color = "País"
) +
theme_minimal(base_size = 14)En la gráfica que observa que Puerto Rico presenta consistentemente los valores más altos de Manufacturing durante todo el período desde 1990 a 2020, entre 40% y 48% de manufacturing. Sin embargo, en el final del período hay disminución.
República Dominicana inicia con valores relativamente altos a principios de los años noventa, cercanos al 26%, pero muestra una tendencia descendente a lo largo del tiempo. Para los años más recientes, el indicador ronda el 15%.
Haití parece tener la mayor variabilidad entre los países analizados. Aunque inicia con valores bajos, después de 2000 se observa una tendencia creciente. En los años recientes ocurre un aumento alcanzando valores superiores al 20%.
Cuba durante los 1990’s muestra un aumento gradual, alcanzando cerca de 18%, pero luego presenta una tendencia leve a la baja y se estabiliza alrededor de 14%–16%. En los últimos años se observa otra reducción, acercándose a 10%.
Según los datos observados se puede usar un modelo de datos de panel, ya que permite analizar al mismo tiempo la variación temporal y las particularidades de cada país.
# Modelo agrupado
modelo_pool <- plm(GDP ~ Manufacturing,data = pdata2,model = "pooling")
# Modelo de efectos fijos
modelo_fe <- plm(GDP ~ Manufacturing,data = pdata2,model = "within",effect = "individual")
# Modelo de efectos aleatorios
modelo_re <- plm(GDP ~ Manufacturing,data = pdata2, model = "random",effect = "individual")Selección del modelo
Paso 1
##
## F test for individual effects
##
## data: GDP ~ Manufacturing
## F = 36.008, df1 = 3, df2 = 127, p-value < 2.2e-16
## alternative hypothesis: significant effects
Interpretación:
H0: no existen efectos individuales -> usar modelo agrupado
H1: existen efectos individuales -> usar modelo de efectos fijos
Como p-value < 2.2e-16 se rechaza H0. Por lo tanto, existen efectos individuales y no se puede usar el modelo agrupado.
Paso 2
##
## Hausman Test
##
## data: GDP ~ Manufacturing
## chisq = 4.0174, df = 1, p-value = 0.04503
## alternative hypothesis: one model is inconsistent
Interpretación:
H0: existen efectos aleatorios -> usar modelo de efectos aleatorios
H1: existen efectos fijos -> usar modelo de efectos fijos
Como p-value = 0.04503 se retiene H0. Por lo tanto, existen efectos aleatorios, por lo que, se debe usar el modelo de efectos aleatorios.
Paso 3
# Paso 3. Evaluar el efecto del tiempo en el modelo elegido
modelo_ret <- plm(GDP ~ Manufacturing,data = pdata2,model = "random",effect = "twoways")
#Comparar los dos modelos
summary(modelo_re) # modelo sin el timepo## Oneway (individual) effect Random Effect Model
## (Swamy-Arora's transformation)
##
## Call:
## plm(formula = GDP ~ Manufacturing, data = pdata2, effect = "individual",
## model = "random")
##
## Balanced Panel: n = 4, T = 33, N = 132
##
## Effects:
## var std.dev share
## idiosyncratic 5.939e+09 7.707e+04 0.418
## individual 8.277e+09 9.098e+04 0.582
## theta: 0.8541
##
## Residuals:
## Min. 1st Qu. Median 3rd Qu. Max.
## -158359.4 -37572.0 -7894.8 24514.3 367804.0
##
## Coefficients:
## Estimate Std. Error z-value Pr(>|z|)
## (Intercept) 234017.0 63473.0 3.6869 0.000227 ***
## Manufacturing -7530.5 1904.6 -3.9537 7.694e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Total Sum of Squares: 8.8334e+11
## Residual Sum of Squares: 7.8852e+11
## R-Squared: 0.10734
## Adj. R-Squared: 0.10047
## Chisq: 15.632 on 1 DF, p-value: 7.6941e-05
## Twoways effects Random Effect Model
## (Swamy-Arora's transformation)
##
## Call:
## plm(formula = GDP ~ Manufacturing, data = pdata2, effect = "twoways",
## model = "random")
##
## Balanced Panel: n = 4, T = 33, N = 132
##
## Effects:
## var std.dev share
## idiosyncratic 3.341e+09 5.780e+04 0.244
## individual 8.356e+09 9.141e+04 0.609
## time 2.017e+09 4.491e+04 0.147
## theta: 0.8906 (id) 0.4589 (time) 0.4573 (total)
##
## Residuals:
## Min. 1st Qu. Median 3rd Qu. Max.
## -122806.3 -38495.1 -4460.9 25966.5 288947.7
##
## Coefficients:
## Estimate Std. Error z-value Pr(>|z|)
## (Intercept) 280484.1 60737.6 4.6180 3.875e-06 ***
## Manufacturing -9577.4 1599.8 -5.9865 2.144e-09 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Total Sum of Squares: 6.0362e+11
## Residual Sum of Squares: 4.7318e+11
## R-Squared: 0.2161
## Adj. R-Squared: 0.21007
## Chisq: 35.8378 on 1 DF, p-value: 2.1444e-09
Se concluye que el mejor modelo es el de efectos aleatorios con efectos de tiempo. Ya que, muestra un mayor poder explicativo (R² = 0.216).
Variables explicativas: Un aumento en Manufacturing se asocia con una disminución promedio del GDP de aproximadamente 9,577 unidades. Manteniendo constantes los efectos del país y del tiempo. Además, como el p-value=2.144e-09 indica una relación estadísticamente significativa entre Manufacturing y GDP en los países analizados.
Efectos individuales: Varianza individual = 60.9%. Por ende, la mayor parte de la variación del GDP proviene de diferencias entre países.
Efectos de tiempo: Varianza temporal = 14.7%. El GDP también cambia a través del tiempo.
Calidad del modelo: El modelo explica aproximadamente 21.6% de la variación del GDP. El modelo tiene poder explicativo moderado, pero estadísticamente relevante.