EXAMEN 2

I. Se desea establecer un modelo de regresión logística que permita calcular la probabilidad de lograr concretar un emprendimiento (Emprendimiento) en función del edad de la persona (Edad). Los datos se encuentran en la base de datos denominada Data1.

Realiza una visualizacióndonde puedas ver la relación del Emprendimeinto con la Edad e interpreta la gráfica.
Ajusta un modelo de regresión logística, e interpreta los coeficientes.
Calcula e interpreta la relación entre persona emprendedora y no emprendedora.

# Cargar la base de datos
data1 <- read.csv("data1.csv")
# Explorar la estructura de los datos
str(data1)

## 'data.frame':    300 obs. of  2 variables:
##  $ Emprendimiento: int  1 1 0 0 1 0 0 0 0 0 ...
##  $ Edad          : int  54 24 42 44 28 30 62 57 41 56 ...

# Resumen estadístico de las variables
summary(data1)

##  Emprendimiento        Edad      
##  Min.   :0.0000   Min.   :20.00  
##  1st Qu.:0.0000   1st Qu.:36.75  
##  Median :0.0000   Median :51.00  
##  Mean   :0.2233   Mean   :50.72  
##  3rd Qu.:0.0000   3rd Qu.:66.00  
##  Max.   :1.0000   Max.   :80.00

1.Visualización donde puedas ver la relación del Emprendimeinto con la Edad

#Visualización de la relación entre Emprendimiento y Edad
# Gráfico de dispersión
library(ggplot2)

## Warning: package 'ggplot2' was built under R version 4.3.3

ggplot(data1, aes(x = Edad, y = Emprendimiento)) +
  geom_point(color = "blue") +  # Gráfico de dispersión
  geom_smooth(method = "glm", method.args = list(family = "binomial"), 
              se = FALSE, color = "red") +  # Línea de regresión logística
  labs(x = "Edad", y = "Probabilidad de Emprendimiento", 
       title = "Relación entre Emprendimiento y Edad") +
  theme_minimal()

## `geom_smooth()` using formula = 'y ~ x'

El análisis de la relación entre emprendimiento y edad tiene una tendencia negativa: a medida que la edad aumenta, los chances de que una persona decida emprendendefinedr tiende a disminuir. Este patrón es visible en el gráfico de dispersión, donde la línea de regresión muestra una pendiente negativa, indicando una asociación inversa entre edad y emprendimiento.

2.Ajusta un modelo de regresión logística, e interpreta los coeficientes.

# Ajuste del modelo 

modelo <- glm(Emprendimiento ~ Edad, data = data1, family = "binomial") 


summary(modelo)

## 
## Call:
## glm(formula = Emprendimiento ~ Edad, family = "binomial", data = data1)
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)    
## (Intercept)  2.96604    0.53096   5.586 2.32e-08 ***
## Edad        -0.09626    0.01305  -7.375 1.64e-13 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 318.66  on 299  degrees of freedom
## Residual deviance: 229.42  on 298  degrees of freedom
## AIC: 233.42
## 
## Number of Fisher Scoring iterations: 5

El ajuste del modelo parece ser adecuado, con un AIC de 233.42. Esto sugiere que el modelo de regresión logística proporciona un buen ajuste a los datos observados.

exp(coefficients(modelo))

## (Intercept)        Edad 
##  19.4149053   0.9082291

El modelo de regresión logística confirma esta relación. La edad tiene un efecto significativo, aunque negativo, en las probabilidades de emprendimiento (p < 0.001), con un coeficiente estimado de -0.09626. Esto indica que, al aumentar la edad, los chances de emprender disminuyen en un factor de exp(-0.09626) ≈ 0.908, es decir, ((1-0.908)*100) alrededor de un 9.2%.

3. Calcula e interpreta la relación entre persona emprendedora y no emprendedora.

table(data1$Emprendimiento)

## 
##   0   1 
## 233  67

prop.table(table(data1$Emprendimiento))

## 
##         0         1 
## 0.7766667 0.2233333

addmargins(table(data1$Emprendimiento))

## 
##   0   1 Sum 
## 233  67 300

#################################
n    <- 300
p    <- round(sum(data1$Emprendimiento)/n,2)
print(p)

## [1] 0.22

La probabilidad estimada de emprender es de 0.22, por ende el chance de no (p= 1-0.22) hacerlo es 0.78. Al ya tener estos datos podemos calcular los odds (0.22/0.78)..

Odds <- round(p/(1-p),2)
print(Odds)

## [1] 0.28

Los odds son de 0.28. Es decir, por cada emprendedor hay 0.28 no emprendedor, pero para hacer más sentido, invertimos los odds (1/028)

#Proporción entre Emprendedores y No Emprendedores
Prop <- (1/Odds)
print(Prop)

## [1] 3.571429

Por lo tanto, por cada emprendedor, hay aproximadamente 4 personas que no emprenden.

# Calcular la relación entre personas emprendedoras y no emprendedoras 

prop.table(table(data1$Emprendimiento))

## 
##         0         1 
## 0.7766667 0.2233333

II. Se desea plantear un modelo de datos de panel para analizar que tanto afecta la variable Manufacturing al GDP en algunos países de las Antillas Mayores (Puerto Rico, Cuba, Haití y República Dominicana), medido desde 1990. Estos datos fueron recopilados del Bando Mundial, y se encuentran en la base de datos denominada Data2.

Realiza un gráfico de dispersión donde se pueda visualizar el comportamiento de Manufacturing de cada país de acuerdo al tiempo. Interprete la gráfica.
Estime un modelo de efectos fijos e interprete los resultados
Estime un modelo de efectos aleatorios e interprete los resultados.
Aplica la prueba de Hausman y concluya cual sería el modelo más acertado a utilizar.

1. Gráfico de dispersión

data <- read.csv("Data2.csv")
##########################################
library(ggplot2)

dispercionmanufactura <- ggplot(data, aes(x = Year, y = Manufacturing, color = Country)) +
geom_point(size = 3, alpha = 0.8) +  
geom_line() +
labs(title = "Manufactura por País a lo Largo del Tiempo (1990-2022)",
x = "Año",
y = "Manufactura (%)",
color = "País") +
theme_minimal()
print(dispercionmanufactura)

En comparación, Puerto Rico y la República Dominicana han mostrado más estabilidad en sus porcentajes de manufactura, aunque con tendencias decrecientes. Por otro lado, Haití muestra un crecimiento notable a partir de la mitad del periodo estudiado, y Cuba, aunque inicialmente tuvo una fuerte expansión, ha visto decrecer su sector manufacturero significativamente. No obstante, debemos reconocer que los cuatro países tienen diferencias entre sí, tanto políticas, poblacional, económicas y sectorial.

Puerto Rico

Puerto Rico muestra un incremento gradual en la manufactura hasta el año 2001, alcanzando su pico ese año con un 42.82%. Posteriormente, hay fluctuaciones con una tendencia generalmente descendente hasta 2022, cuando se registra un 43.02%. Datos importantes incluyen una notable expansión en 2010 y una contracción desde 2020 en adelante.

Cuba

Cuba exhibe una tendencia creciente en la manufactura desde 1990 hasta 1997, con un notable aumento en 1996 (17.65%), seguido de una tendencia generalmente decreciente hasta 2022. El año 2021 muestra una anomalía con un porcentaje de manufactura excepcionalmente bajo (10.54%) comparado con los años anteriores.

Haití

Haití muestra la variabilidad más pronunciada en su manufactura, con un aumento significativo en 1995 (19.19%), una caída y luego una expansión sostenida desde 2005 hasta 2022, alcanzando su máximo en el último año (23.13%).

República Dominicana

La manufactura en la República Dominicana empieza fuerte en 1990 y alcanza un pico en 1991 (26.22%). Luego, sigue una tendencia decreciente, estabilizándose alrededor del 15% en los últimos años.

library(car)

## Warning: package 'car' was built under R version 4.3.3

## Loading required package: carData

## Warning: package 'carData' was built under R version 4.3.3

scatterplot(Manufacturing  ~ Year|Country, regLine=F, data = data)

2. Modelo de efectos fijos

library(plm)

## Warning: package 'plm' was built under R version 4.3.3

pdata <- pdata.frame(data, index = c("Country", "Year"))
########################################################
modelofijo <- plm(GDP ~ Manufacturing, data = pdata, model = "within")
summary(modelofijo)

## Oneway (individual) effect Within Model
## 
## Call:
## plm(formula = GDP ~ Manufacturing, data = pdata, model = "within")
## 
## Balanced Panel: n = 4, T = 33, N = 132
## 
## Residuals:
##      Min.   1st Qu.    Median   3rd Qu.      Max. 
## -170633.4  -45287.7   -2700.9   30154.7  349066.6 
## 
## Coefficients:
##               Estimate Std. Error t-value  Pr(>|t|)    
## Manufacturing  -9653.9     2179.5 -4.4295 2.016e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Total Sum of Squares:    8.7082e+11
## Residual Sum of Squares: 7.5429e+11
## R-Squared:      0.13382
## Adj. R-Squared: 0.10654
## F-statistic: 19.6204 on 1 and 127 DF, p-value: 2.0161e-05

De acuerdo con los resultados, la manufactura es una variable altamente significativa y negativa en el GDP de los países en el modelo de efectos fijos.

2. Modelo de efectos mixtos

library(plm)
pdata <- pdata.frame(data, index = c("Country", "Year"))
########################################################
modelomixto <- plm(GDP ~ Manufacturing, data = pdata, model = "random")
summary(modelomixto)

## Oneway (individual) effect Random Effect Model 
##    (Swamy-Arora's transformation)
## 
## Call:
## plm(formula = GDP ~ Manufacturing, data = pdata, model = "random")
## 
## Balanced Panel: n = 4, T = 33, N = 132
## 
## Effects:
##                     var   std.dev share
## idiosyncratic 5.939e+09 7.707e+04 0.418
## individual    8.277e+09 9.098e+04 0.582
## theta: 0.8541
## 
## Residuals:
##      Min.   1st Qu.    Median   3rd Qu.      Max. 
## -158359.4  -37572.0   -7894.8   24514.3  367804.0 
## 
## Coefficients:
##               Estimate Std. Error z-value  Pr(>|z|)    
## (Intercept)   234017.0    63473.0  3.6869  0.000227 ***
## Manufacturing  -7530.5     1904.6 -3.9537 7.694e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Total Sum of Squares:    8.8334e+11
## Residual Sum of Squares: 7.8852e+11
## R-Squared:      0.10734
## Adj. R-Squared: 0.10047
## Chisq: 15.632 on 1 DF, p-value: 7.6941e-05

De acuerdo con los resultados, la manufactura es una variable altamente significativa y negativa en el GDP de los países en el modelo de efectos mixtos

4. Prueba de Hausman

hausman_test <- phtest(modelofijo, modelomixto)
hausman_test

## 
##  Hausman Test
## 
## data:  GDP ~ Manufacturing
## chisq = 4.0174, df = 1, p-value = 0.04503
## alternative hypothesis: one model is inconsistent

Dado que el valor p es 0.04503, que es menor que 0.05, rechazamos la hipótesis nula. Por lo tanto, la conclusión es que los efectos fijos son más consistentes con la estructura de estos datos.

En conclusión el mejor modelo es el modelo de efectos fijos.