1. Presentación

El presente proyecto se enfoca en el analisis Estadístico en Economía y Negocios, utilizando un dataset de economía Personal y empresarial. Esta base de datos simulada contiene información de adultos economicamente activos, tanto con como sin emprendimientos, de diversos sectores.

2. Planteamiento del Problema

La gestión financiera personal y los niveles de educación económica influyen directamente en el bienestar financiero de las personas. Sin embargo, no siempre es claro qué factores específicos tienen mayor impacto en la satisfacción económica y el nivel de endeudamiento. Por ello, este estudio busca identificar cómo el manejo del presupuesto, las inversiones, el nivel educativo y otros factores sociodemográficos se relacionan con estos indicadores económicos.

2.1 Objetivo General

Analizar cuáles factores financieros y educativos influyen en la satisfacción económica y en el nivel de endeudamiento de los adultos económicamente activos incluidos en la base de datos.

2.2 Objetivos Específicos

Evaluar la relación entre el nivel educativo y la realización de inversiones mediante una prueba de independencia Chi-cuadrado.

Determinar si el manejo del presupuesto está asociado con niveles más bajos de endeudamiento.

Comparar los niveles de satisfacción económica entre emprendedores y no emprendedores mediante una prueba t de medias (complemento al análisis del equipo).

Explorar la relación entre ingreso y gasto mensual utilizando un análisis de correlación.

2.3 Justificación del Análisis

Comprender los factores que determinan tanto la satisfacción económica como el nivel de endeudamiento es fundamental para diseñar estrategias de educación financiera y toma de decisiones informadas. Este tipo de análisis permite identificar patrones relevantes en el comportamiento económico, evaluar la efectividad de prácticas como el manejo de presupuesto y las inversiones, y orientar recomendaciones para mejorar la estabilidad financiera de individuos y empresas.

2.4 Referente Académico

La literatura respalda la importancia de estudiar la relación entre educación financiera y resultados económicos. Según Lusardi & Mitchell (2014), la educación financiera está directamente relacionada con mejores decisiones de ahorro, menor endeudamiento problemático y mayor estabilidad económica en los hogares.

Referencia

Lusardi, A., & Mitchell, O. S. (2014). The Economic Importance of Financial Literacy: Theory and Evidence. Journal of Economic Literature, 52(1), 5–44.

3. Análisis Exploratorio de Datos (EDA)

3.1 Librerías y carga de datos

library(readxl)
library(openxlsx)
library(ggplot2)
library(dplyr)
library(corrplot)
library(Amelia)
library(car)
url <- "https://github.com/ralomonpez75-web/Estadistica_Inferencial/raw/main/Base_Economia_Negocios.xlsx"

# Descargar el archivo en github y abrirlo
temp_file <- tempfile(fileext=".xlsx")
download.file(url,temp_file,mode="wb")
base_datos<-read_excel(temp_file)
unlink(temp_file)

3.2 Dimensiones y datos faltantes

Tamaño de la base de datos (Filas x Columnas)

dim(base_datos)
## [1] 100  11

Verificación de datos faltantes

data_df<-as.data.frame(base_datos)
missmap(data_df)

Comentario sobre datos faltantes

Efectivamente el grafico nos muestra que no hay datos faltantes ya que cada columna desde la primera hasta la onceava tiene 100 filas.

3.3 Tablas estadísticas y descriptivos

Análisis exploratorio de datos

summary(data_df)
##       edad           sexo           nivel_educativo    tiene_emprendimiento
##  Min.   :23.00   Length:100         Length:100         Length:100          
##  1st Qu.:33.00   Class :character   Class :character   Class :character    
##  Median :45.00   Mode  :character   Mode  :character   Mode  :character    
##  Mean   :45.00                                                             
##  3rd Qu.:56.25                                                             
##  Max.   :65.00                                                             
##  sector_economico   maneja_presupuesto realiza_inversiones ingreso_mensual  
##  Length:100         Length:100         Length:100          Min.   : 897963  
##  Class :character   Class :character   Class :character    1st Qu.:1935934  
##  Mode  :character   Mode  :character   Mode  :character    Median :2446856  
##                                                            Mean   :2446225  
##                                                            3rd Qu.:2983666  
##                                                            Max.   :4368968  
##  gasto_mensual     nivel_endeudamiento satisfaccion_economica
##  Min.   : 417621   Min.   : 1.00       Min.   : 1.00         
##  1st Qu.:1414284   1st Qu.: 3.00       1st Qu.: 3.00         
##  Median :1715757   Median : 6.00       Median : 6.00         
##  Mean   :1738812   Mean   : 5.54       Mean   : 5.58         
##  3rd Qu.:2098176   3rd Qu.: 9.00       3rd Qu.: 8.00         
##  Max.   :3210431   Max.   :10.00       Max.   :10.00

Parámetros estadísticos descriptivos generales (Media, Varianza y Desviación Estándar)

tabla_estadisticas <- data_df %>%
  summarise(
    edad_media = mean(edad), edad_mediana = median(edad),
    edad_var = var(edad), edad_sd = sd(edad),
    
    ingreso_media = mean(ingreso_mensual), ingreso_mediana = median(ingreso_mensual),
    ingreso_var = var(ingreso_mensual), ingreso_sd = sd(ingreso_mensual),
    
    gasto_media = mean(gasto_mensual), gasto_mediana = median(gasto_mensual),
    gasto_var = var(gasto_mensual), gasto_sd = sd(gasto_mensual),
    
    endeud_media = mean(nivel_endeudamiento), endeud_mediana = median(nivel_endeudamiento),
    endeud_var = var(nivel_endeudamiento), endeud_sd = sd(nivel_endeudamiento),
    
    satis_media = mean(satisfaccion_economica), satis_mediana = median(satisfaccion_economica),
    satis_var = var(satisfaccion_economica), satis_sd = sd(satisfaccion_economica)
  )
tabla_estadisticas
##   edad_media edad_mediana edad_var  edad_sd ingreso_media ingreso_mediana
## 1         45           45 173.2525 13.16254       2446225         2446856
##    ingreso_var ingreso_sd gasto_media gasto_mediana    gasto_var gasto_sd
## 1 502767925622   709061.3     1738812       1715757 263372520163 513198.3
##   endeud_media endeud_mediana endeud_var endeud_sd satis_media satis_mediana
## 1         5.54              6   9.725657  3.118598        5.58             6
##   satis_var satis_sd
## 1  7.033939 2.652157

Parámetros estadísticos para emprendedores y no emprendedores

estadistica_emprendedores<-data_df%>%
  group_by(tiene_emprendimiento) %>%
  summarise(
    media_satisfaccion=mean(satisfaccion_economica,na.rm=TRUE),
    desviacion_satisfaccion=sd(satisfaccion_economica,na.rm=TRUE),
    n=n()
  )%>%
  ungroup()
estadistica_emprendedores
## # A tibble: 2 × 4
##   tiene_emprendimiento media_satisfaccion desviacion_satisfaccion     n
##   <chr>                             <dbl>                   <dbl> <int>
## 1 No                                 5.59                    2.63    49
## 2 Sí                                 5.57                    2.70    51

Parámetros estadísticos nivel de endeudamiento por sector económico

estadistica_deuda_sectores<-data_df%>%
  group_by(sector_economico)%>%
  summarise(
    media_endeudamiento=mean(nivel_endeudamiento,na.rm=TRUE),
    desviacion_endeudamiento=sd(nivel_endeudamiento,na.rm=TRUE),
    n=n()
  )%>%
  ungroup()
estadistica_deuda_sectores
## # A tibble: 4 × 4
##   sector_economico media_endeudamiento desviacion_endeudamiento     n
##   <chr>                          <dbl>                    <dbl> <int>
## 1 Comercio                        6.68                     2.56    25
## 2 Manufactura                     5.48                     3.20    25
## 3 Servicios                       5.28                     2.97    25
## 4 Tecnología                      4.72                     3.52    25

Tablas de frecuencia categóricas

table(data_df$sexo)
## 
##  Femenino Masculino      Otro 
##        46        45         9
table(data_df$nivel_educativo)
## 
##     Postgrado       Técnico Universitario 
##            20            28            52
table(data_df$tiene_emprendimiento)
## 
## No Sí 
## 49 51
table(data_df$sector_economico)
## 
##    Comercio Manufactura   Servicios  Tecnología 
##          25          25          25          25
table(data_df$maneja_presupuesto)
## 
## No Sí 
## 25 75
table(data_df$realiza_inversiones)
## 
## No Sí 
## 60 40

Matriz de correlaciones numéricas

numericas <- data_df %>%
  select(edad, ingreso_mensual, gasto_mensual, nivel_endeudamiento, satisfaccion_economica)

corrplot(cor(numericas), method = "color", addCoef.col = "black",
         tl.col = "black", number.cex = 0.7)

Tabla cruzada educación vs inversiones

table(data_df$nivel_educativo, data_df$realiza_inversiones)
##                
##                 No Sí
##   Postgrado     12  8
##   Técnico       14 14
##   Universitario 34 18

3.4 Gráficos descriptivos

Gráfico circular que muestra la distribución del género

# Primero se calculan frecuencias relativas
frecuencia_relativa <- data_df %>%
  count(sexo) %>%
  mutate(
    frecuencia_relativa=n/sum(n)*100,
    etiquetas=paste0(sexo,"\n",round(frecuencia_relativa,1),"%")
  )

# Luego graficamos en base a los resultados obtenidos
ggplot(frecuencia_relativa,aes(x="",y=frecuencia_relativa,fill=sexo)) +
  geom_col(color="black") +
  geom_text(aes(label=etiquetas),
            position = position_stack(vjust=0.5),
            size=4, color = "white") +
  coord_polar(theta = "y") +
  labs(title = "Distribucion por sexo",
       fill = "sexo") +
  theme_void() +
  scale_fill_manual(values=c("lightblue","pink","lightgreen"))

Caja de bigotes (Boxplot) para analizar variables edad y sexo

ggplot(data_df,aes(x=sexo,y=edad,fill=sexo)) +
  geom_boxplot() +
  labs(title="Distribucion de edades por sexo",
       x="Sexo",
       y="Edad",
       fill="Sexo") +
  scale_fill_manual(values=c("lightblue","pink","lightgreen")) +
  theme_minimal()

Gráfico de barras agrupado por sector económico y empresas que manejan presupuesto

ggplot(data_df,aes(x=sector_economico,fill=maneja_presupuesto)) +
  geom_bar(position="dodge") +
  labs(title="¿Maneja Presupuesto?",
       x="Sector Economico",
       y="Cantidad de personas",
       fill="Maneja Presupuesto") +
  theme_minimal() +
  theme(axis.text.x=element_text(angle=45,hjust=1))

Gráfico de barras agrupado por sector económico y empresas que realizan inversiones

ggplot(data_df,aes(x=sector_economico,fill=realiza_inversiones)) +
  geom_bar(position="dodge") +
  labs(title="¿Realiza Inversiones?",
       x="Sector Economico",
       y="Cantidad de personas",
       fill="Realiza Inversiones") +
  theme_minimal() +
  theme(axis.text.x=element_text(angle=45,hjust=1))

Histograma ingreso mensual

ggplot(data_df, aes(x = ingreso_mensual/1000)) +
  geom_histogram(bins = 20, fill = "steelblue", color = "black") +
  labs(title = "Histograma de Ingreso Mensual",
       x = "Ingreso Mensual",
       y = "Frecuencia") +
  theme_minimal()

Histograma gasto mensual

ggplot(data_df, aes(x = gasto_mensual/1000)) +
  geom_histogram(bins = 20, fill = "darkgreen", color = "black") +
  labs(title = "Histograma de Gasto Mensual",
       x = "Gasto Mensual",
       y = "Frecuencia") +
  theme_minimal()

Cajas ingreso por sector económico

ggplot(data_df, aes(x = sector_economico, y = ingreso_mensual, fill = sector_economico)) +
  geom_boxplot() +
  labs(title = "Ingreso Mensual por Sector Económico",
       x = "Sector Económico", y = "Ingreso Mensual") +
  theme_minimal() +
  theme(axis.text.x = element_text(angle=45, hjust=1))

Cajas endeudamiento según manejo de presupuesto

ggplot(data_df, aes(x = maneja_presupuesto, y = nivel_endeudamiento, fill = maneja_presupuesto)) +
  geom_boxplot() +
  labs(title = "Endeudamiento según Manejo de Presupuesto",
       x = "Maneja Presupuesto", y = "Nivel de Endeudamiento") +
  theme_minimal()

Barras nivel educativo

ggplot(data_df, aes(x = nivel_educativo, fill = nivel_educativo)) +
  geom_bar() +
  labs(title = "Distribución del Nivel Educativo",
       x = "Nivel Educativo", y = "Frecuencia") +
  theme_minimal()

Barras emprendimiento

ggplot(data_df, aes(x = tiene_emprendimiento, fill = tiene_emprendimiento)) +
  geom_bar() +
  labs(title = "Distribución de Emprendimiento",
       x = "Tiene Emprendimiento", y = "Frecuencia") +
  theme_minimal()

Diagrama de dispersión ingreso vs gasto

ggplot(data_df, aes(x = ingreso_mensual/1000, y = gasto_mensual/1000)) +
  geom_point(color = "blue") +
  geom_smooth(method = "lm", se = FALSE, color = "black") +
  labs(title = "Ingreso vs Gasto Mensual",
       x = "Ingreso Mensual", y = "Gasto Mensual") +
  theme_minimal()
## `geom_smooth()` using formula = 'y ~ x'

4. Planteamiento de Hipótesis e Inferencia

4.1 Satisfacción económica entre emprendedores y no emprendedores (Prueba t)

4.1.1 Hipótesis

Hipotesis nula: No existe diferencias significativas en el promedio de satisfaccion economica entre los emprendedores y no emprendedores.

Hipotesis alternativa: Existen diferencias significativas en el promedio de satisfaccion economica entre los emprendedores y no emprendedores.

4.1.2 Técnica elegida

Usamos t-student debido a que las muestras del estudio son independientes entre si, las varianzas poblacionales son desconocidas y las varianzas muestrales son aproximadamente iguales.

prueba_t<-t.test(satisfaccion_economica~tiene_emprendimiento,
 data=data_df, var.equal=TRUE, conf.level=0.95)
prueba_t
## 
##  Two Sample t-test
## 
## data:  satisfaccion_economica by tiene_emprendimiento
## t = 0.043526, df = 98, p-value = 0.9654
## alternative hypothesis: true difference in means between group No and group Sí is not equal to 0
## 95 percent confidence interval:
##  -1.034973  1.081392
## sample estimates:
## mean in group No mean in group Sí 
##         5.591837         5.568627

4.1.3 Gráfico de regiones de aceptación y rechazo

df<-98
t_critico<-qt(0.975,df)
t_calculado<-0.044

x<-seq(-4,4,length.out=200)
y<-dt(x,df)
datos_curva<-data.frame(x=x,y=y)

ggplot(datos_curva,aes(x=x,y=y)) +
  geom_line(linewidth=1,color="black") +
  geom_area(data = subset(datos_curva,x<=-t_critico),
            aes(x=x,y=y),fill="red",alpha=0.5) +
  geom_area(data=subset(datos_curva,x>=t_critico),
            aes(x=x,y=y),fill="red",alpha=0.5) +
  geom_area(data=subset(datos_curva,x>-t_critico & x<t_critico),
            aes(x=x,y=y),fill="green",alpha=0.3) +
  geom_vline(xintercept = t_calculado,color="blue",linewidth=1.5,linetype="dashed") +
  annotate("text",x=t_calculado,y=0.1,label="t=0.044",color="blue",hjust=-0.2) +
  geom_vline(xintercept = c(-t_critico,t_critico),color="red",linetype="dashed") +
  annotate("text",x=t_critico,y=0.05,label="t critico = +/- 1.984",color="red",hjust=-0.1) +
  labs(title = "Prueba t: Regiones de Aceptación y Rechazo",
       subtitle = "Distribución t-Student con 98 grados de libertad",
       x = "Valor t", y = "Densidad") +
  theme_minimal()

4.1.4 Conclusión

Segun los resultados podemos apreciar que el valor de t=0.044 se encuentra en la region de aceptacion debido a que se encuentra entre -1.984<=t<=+1.984 lo cual nos permite concluir que no se puede afirmar que existan diferencias significativas entre las medias de ambas poblaciones.

4.2 Comparación del nivel de endeudamiento por sector económico (ANOVA)

4.2.1 Hipótesis

Hipotesis nula: Las medias de las 3 poblaciones son iguales o dicho de otra forma no existen diferencias entre las medias de las 3 poblaciones.

Hipotesis alternativa: Almenos una de las 3 medias es distinta del resto.

4.2.2 Técnica elegida

Se utiliza el modelo ANOVA debido a que vamos a estudiar las medias de mas de 2 poblaciones con el proposito de evaluar si existen diferencias significativas en almenos una de las medias comparando 2 fuentes de variacion, es decir, variacion entre grupos y variacion dentro de los grupos y de este modo determinar que fuente de variacion tiene mayor variabilidad para obtener una conclusion sobre el estudio.

ANOVA<-aov(nivel_endeudamiento~sector_economico,data=data_df)
summary(ANOVA)
##                  Df Sum Sq Mean Sq F value Pr(>F)
## sector_economico  3   51.1  17.027   1.793  0.154
## Residuals        96  911.8   9.497

4.2.3 Gráfico de la distribución F

x<-seq(0,5,length=100)
y<-df(x,df1=3,df2=96)

f_critico<-qf(0.95,df1=3,df2=96)

plot(x,y,type="l",lwd=2,col="blue",
     main="Distribucion F - Prueba ANOVA\n(Regiones de aceptacion/rechazo)",
     xlab="Valor F", ylab="Densidad"
)

polygon(x=c(f_critico,x[x>=f_critico],max(x)),
        y=c(0,y[x>=f_critico],0),
        col="red",density=20,angle=45)

abline(v=1.793,col="green",lwd=3,lty=2)
abline(v=f_critico,col="red",lwd=2,lty=2)

legend("topright",
       legend = c("Distribución F", "F crítico = 2.70", "Tu F = 1.79", "Región Rechazo"),
       col = c("blue", "red", "green", "red"),
       lwd = c(2, 2, 3, 5),
       lty = c(1, 2, 2, 1))

4.2.4 Conclusión

Aunque la variabilidad entre grupos es un 80% superior a la variabilidad dentro de los grupos, la evidencia estadistica obtenida en el modelo ANOVA no es suficiente para descartar que dicha variabilidad sea producto del azar debido a que p-value=15.4% el cual es superior al valor critico del 5% y siempre que esto ocurra llegaremos a la misma conclusion.

4.3 Asociación entre nivel educativo y realización de inversiones (Chi-cuadrado)

4.3.1 Hipótesis

H0: No existe asociación entre el nivel educativo y la realización de inversiones.

H1: Existe asociación entre el nivel educativo y la realización de inversiones.

# Asegurar que las variables sean factores
data_df$nivel_educativo <- as.factor(data_df$nivel_educativo)
data_df$realiza_inversiones <- as.factor(data_df$realiza_inversiones)

# Tabla cruzada
tabla_edu_inv <- table(data_df$nivel_educativo, data_df$realiza_inversiones)
tabla_edu_inv
##                
##                 No Sí
##   Postgrado     12  8
##   Técnico       14 14
##   Universitario 34 18
# Prueba Chi-cuadrado de independencia
prueba_chi <- chisq.test(tabla_edu_inv)
prueba_chi
## 
##  Pearson's Chi-squared test
## 
## data:  tabla_edu_inv
## X-squared = 1.7949, df = 2, p-value = 0.4076

4.3.2 Interpretación

Los resultados de la prueba Chi-cuadrado indican un estadístico χ² = 1.7949 con 2 grados de libertad y un p-value = 0.4076.

Dado que el p-value es mayor que 0.05, no se rechaza la hipótesis nula.

Por lo tanto, no existe evidencia estadística de una asociación significativa entre el nivel educativo y la realización de inversiones en esta muestra.

4.4 Normalidad y correlación ingreso–gasto

4.4.1 Prueba de normalidad para ingreso_mensual y gasto_mensual

H0: La distribución de ingresos es normal.

data <- base_datos

prueba_shapiro_ingreso <- shapiro.test(data$ingreso_mensual)
cat("Resultados Shapiro-Wilk para Ingreso Mensual:\n")
## Resultados Shapiro-Wilk para Ingreso Mensual:
print(prueba_shapiro_ingreso)
## 
##  Shapiro-Wilk normality test
## 
## data:  data$ingreso_mensual
## W = 0.99132, p-value = 0.7699
cat("\n----------------------------------------------------\n")
## 
## ----------------------------------------------------
# --- Prueba de Normalidad para 'gasto_mensual' ---
# H0: La distribución de gastos es normal.
prueba_shapiro_gasto <- shapiro.test(data$gasto_mensual)
cat("Resultados Shapiro-Wilk para Gasto Mensual:\n")
## Resultados Shapiro-Wilk para Gasto Mensual:
print(prueba_shapiro_gasto)
## 
##  Shapiro-Wilk normality test
## 
## data:  data$gasto_mensual
## W = 0.98648, p-value = 0.4038

Como para ambos grupos de datos el p-valor es mayor a 0.05, no se rechaza la H0. Por lo tanto, los datos tienen una distribución normal.

4.4.2 Linealidad y correlación de Pearson ingreso–gasto

Por otro lado, para probar la linealidad de los datos, dibujamos un gráfico de dispersión.

# 1. Crear el Diagrama de Dispersión (Scatter Plot)
# Coloca Ingreso en el eje X (variable predictora) y Gasto en el eje Y (variable de respuesta).
plot(x = data$ingreso_mensual,
     y = data$gasto_mensual,
     main = "Diagrama de Dispersión: Gasto vs. Ingreso Mensual",
     xlab = "Ingreso Mensual",
     ylab = "Gasto Mensual",
     pch = 19, # Tipo de punto
     col = "darkgray")

# 2. Añadir la Línea de Regresión Lineal (Línea de mejor ajuste)
# La función lm() calcula el modelo lineal, y abline() lo dibuja.
abline(lm(data$gasto_mensual ~ data$ingreso_mensual), col = "blue", lwd = 2)

Con este mismo gráfico nos podemos estar dando cuenta de la falta de linealidad al los datos no estar estrechamente relacionados a la línea de tendencia azul. De todos modos, hacemos la prueba de Correlación de Pearson para rectificar este supuesto:

# Aplicamos la prueba de correlación de Pearson
prueba_correlacion <- cor.test(data$ingreso_mensual, data$gasto_mensual, method = "pearson")

print(prueba_correlacion)
## 
##  Pearson's product-moment correlation
## 
## data:  data$ingreso_mensual and data$gasto_mensual
## t = 0.68293, df = 98, p-value = 0.4963
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.1293434  0.2617036
## sample estimates:
##        cor 
## 0.06882321

Como se puede rectificar en la prueba, el p-valor es mayor a 0.05, por lo que no se rechaza la H0. Por lo tanto, no existe una correlación lineal estadísticamente significativa entre el ingreso mensual y el gasto mensual de un adulto económicamente activo.

4.4.3 Interpretación y decisión

1) Coeficiente de Correlación (\(r\)): El valor \(r = 0.0595\) indica una correlación lineal muy débil y positiva. Esto sugiere que, a medida que el ingreso mensual aumenta, el gasto mensual tiende a aumentar, pero este efecto es mínimo.

2) Decisión (Basada en el Valor \(p\)): Dado que el Valor \(p\) (0.5976) es mayor que \(\alpha\) (0.05), no se rechaza la hipótesis nula (\(H_0\)).

3) Interpretación Clara: A un nivel de significancia del 5%, no existe una relación lineal estadísticamente significativa entre el ingreso mensual y el gasto mensual de los individuos encuestados. Aunque existe una correlación positiva muy leve (\(r \approx 0.06\)) en la muestra, esta correlación es tan pequeña que puede atribuirse completamente al azar.

En conclusión, no podemos inferir que la correlación entre ingresos y gastos en la población sea diferente de cero.

4.5 Regresión múltiple para explicar la satisfacción económica

4.5.1 Planteamiento del modelo y creación de variables

En esta sección se evalúa un modelo de regresión lineal múltiple donde la variable respuesta es la satisfacción económica y los predictores son variables financieras y educativas.

Hipótesis del modelo de regresión

  • Hipótesis nula H0: Los coeficientes de las variables explicativas son conjuntamente iguales a cero.
    Es decir, el modelo de regresión múltiple no explica de forma significativa la satisfacción económica.

  • Hipótesis alternativa H1: Al menos uno de los coeficientes de las variables explicativas es diferente de cero.
    Es decir, al menos una de las variables incluidas en el modelo está asociada de forma significativa con la satisfacción económica.

# Aseguramos que las variables categóricas sean factores
data_df$nivel_educativo    <- as.factor(data_df$nivel_educativo)
data_df$tiene_emprendimiento <- as.factor(data_df$tiene_emprendimiento)
data_df$maneja_presupuesto <- as.factor(data_df$maneja_presupuesto)
data_df$realiza_inversiones <- as.factor(data_df$realiza_inversiones)
data_df$sexo               <- as.factor(data_df$sexo)
data_df$sector_economico   <- as.factor(data_df$sector_economico)

# Modelo de regresión múltiple para satisfacción económica
modelo_satisfaccion <- lm(
  satisfaccion_economica ~ ingreso_mensual + gasto_mensual +
    nivel_educativo + maneja_presupuesto + realiza_inversiones +
    tiene_emprendimiento,
  data = data_df
)

summary(modelo_satisfaccion)
## 
## Call:
## lm(formula = satisfaccion_economica ~ ingreso_mensual + gasto_mensual + 
##     nivel_educativo + maneja_presupuesto + realiza_inversiones + 
##     tiene_emprendimiento, data = data_df)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -5.2541 -1.9172 -0.0906  1.8652  4.5556 
## 
## Coefficients:
##                                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                   6.243e+00  1.437e+00   4.346 3.57e-05 ***
## ingreso_mensual              -6.852e-07  3.823e-07  -1.792   0.0763 .  
## gasto_mensual                 1.838e-07  5.288e-07   0.348   0.7290    
## nivel_educativoTécnico        2.095e-01  7.715e-01   0.271   0.7866    
## nivel_educativoUniversitario -5.473e-01  6.973e-01  -0.785   0.4345    
## maneja_presupuestoSí          1.206e+00  6.349e-01   1.900   0.0605 .  
## realiza_inversionesSí        -3.094e-01  5.453e-01  -0.567   0.5719    
## tiene_emprendimientoSí        2.714e-01  5.608e-01   0.484   0.6297    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.626 on 92 degrees of freedom
## Multiple R-squared:  0.08902,    Adjusted R-squared:  0.01971 
## F-statistic: 1.284 on 7 and 92 DF,  p-value: 0.2668

4.5.3 Conclusión sobre la regresión multiple

El modelo de regresion lineal multiple planteado tiene como variable dependiente la satisfaccion economica y como variables explicativasingreso mensual, gasto mensual, nivel educativo, manejo de presupuesto, realizacion de inversiones y tener o no emprendimiento.

A partir de los resultados:

  • Ajuste global del modelo
    • El R2 multiple es 0.089 y el R2 ajustado es aproximadamente 0.020, lo que indica que el modelo explica alrededor del 2% de la variabilidad en la satisfaccion economica, una vez ajustado por el numero de predictores.
    • El estadistico F es 1.284 con un p-value de 0.2668, lo que sugiere que, en conjunto, las variables incluidas no explican de manera estadisticamente significativa la satisfaccion economica al 5% de significancia.
    • Por lo tanto, no se rechaza la hipotesis nula global del modelo, es decir, no hay evidencia suficiente para afirmar que, en conjunto, estos predictores mejoren la explicacion de la satisfaccion economica frente a un modelo sin predictores.
  • Coeficientes individuales (interpretacion descriptiva)
    Aunque globalmente el modelo no es significativo, se pueden describir los signos de los coeficientes:
    • ingreso_mensual tiene un coeficiente negativo muy pequeno (−6.852e-07) con p ≈ 0.0763, lo que sugiere una relacion debil y no significativa. El efecto es nulo
    • gasto_mensual presenta un coeficiente positivo muy pequeno (1.838e-07) y no significativo (p ≈ 0.7290), tambien con efecto practicamente nulo.
    • Los niveles de nivel_educativo (Tecnico, Universitario) no resultan significativos (p > 0.34), indicando que, dentro de este modelo, no se observa un efecto claro del nivel educativo sobre la satisfaccion economica.
    • maneja_presupuestoSi tiene un coeficiente positivo (aproximadamente 1.206) con p ≈ 0.0605, cercano al umbral de 0.05, lo que sugiere que las personas que manejan presupuesto podrian tener, en promedio, una mayor satisfaccion economica, pero la evidencia es marginal y no concluyente al 5%.
    • realiza_inversionesSi y tiene_emprendimientoSi presentan coeficientes con p-values muy superiores a 0.05, sin evidencia de efecto significativo sobre la satisfaccion economica en este modelo.

En resumen, a un nivel de significancia del 5%, el modelo de regresion multiple no resulta globalmente significativo, y ninguna de las variables incluidas se muestra claramente asociada de forma estadisticamente significativa con la satisfaccion economica, aunque el manejo del presupuesto aparece como un posible factor por su p-valor cercano a 0.05.

5. Conclusiones Generales

A partir de todo el analisis que hicimos con la base de datos de adultos economicamente activos, podemos responder mas o menos a la pregunta de que factores financieros y educativos influyen en la satisfaccion economica y en el nivel de endeudamiento.

Sobre la satisfaccion economica y el emprendimiento Con la prueba t comparamos la satisfaccion economica entre las personas que tienen emprendimiento y las que no. El resultado mostro que el p-valor es mayor a 0.05, entonces no rechazamos la hipotesis nula. Eso quiere decir que, con esta muestra, no podemos decir que exista una diferencia significativa en el promedio de satisfaccion economica entre emprendedores y no emprendedores. En otras palabras, solo por tener emprendimiento no se ve una diferencia clara en la satisfaccion.

Sobre el nivel de endeudamiento y el sector economico Con el ANOVA analizamos si el nivel de endeudamiento cambiaba segun el sector economico. Aunque hay cierta variacion entre sectores, el p-valor tambien es mayor a 0.05, asi que tampoco rechazamos la hipotesis nula. Esto indica que, segun estos datos, no se puede afirmar que algun sector tenga un nivel de endeudamiento significativamente distinto de los demas. El sector economico, al menos aqui, no parece ser un factor clave del endeudamiento.

Sobre el nivel educativo y la realizacion de inversiones Con la prueba Chi-cuadrado miramos si habia relacion entre el nivel educativo y el hecho de realizar inversiones. El p-valor salio bastante grande (mayor a 0.05), entonces no hay evidencia estadistica de una asociacion significativa. Es decir, en esta muestra, tener un nivel educativo mas alto no garantiza que la persona necesariamente haga inversiones. El comportamiento de invertir no esta fuertemente ligado al nivel educativo segun estos datos.

Sobre la relacion entre ingreso y gasto mensual Primero revisamos la normalidad del ingreso y del gasto y los dos mas o menos cumplen, pero cuando miramos la correlacion de Pearson, el coeficiente r fue muy bajo (cerca de 0.06) y con p-valor mayor a 0.05. Eso significa que no hay una relacion lineal fuerte ni estadisticamente significativa entre ingreso mensual y gasto mensual. O sea, en esta base de datos, ganar mas no implica automaticamente gastar mucho mas, al menos no de forma lineal y clara desde el punto de vista estadistico.

Sobre los factores que explican la satisfaccion economica (regresion multiple) En el modelo de regresion multiple usamos varias variables a la vez: ingreso mensual, gasto mensual, nivel educativo, manejo de presupuesto, realizacion de inversiones y si tiene emprendimiento. El R2 ajustado fue muy bajo (alrededor de 0.02) y el p-valor global del modelo fue mayor a 0.05. Eso nos dice que, en conjunto, estas variables no logran explicar bien la variacion en la satisfaccion economica. Aun asi, de forma descriptiva, la variable de manejar presupuesto salio con un coeficiente positivo y un p-valor cercano a 0.05, es decir, las personas que manejan presupuesto tienden a tener una satisfaccion economica un poco mas alta, pero la evidencia no alcanza a ser totalmente concluyente con el nivel de significancia que usamos.

Respuesta general a la pregunta problema En general, con esta base de datos y las tecnicas que aplicamos, no encontramos relaciones muy fuertes ni muy claras entre las variables financieras/educativas y la satisfaccion economica o el endeudamiento. Ni el nivel educativo, ni el sector economico, ni tener emprendimiento, ni siquiera el nivel de ingreso muestran efectos estadisticamente significativos muy marcados. El unico factor que medio se asoma como importante es el manejo del presupuesto, que parece estar asociado con una mayor satisfaccion economica, aunque el resultado queda en un punto intermedio (cerca pero no debajo de 0.05). Esto puede indicar que los habitos de gestion del dinero (como organizar y controlar el presupuesto) podrian ser tan importantes como el ingreso o la educacion formal.

Posibles implicaciones Los resultados dan la idea de que no basta solo con ganar mas o estudiar mas para garantizar mejor satisfaccion economica o menor endeudamiento, sino que tambien juega un papel como las personas administran lo que tienen. Para trabajos futuros, seria bueno usar una muestra mas grande, incluir otras variables (por ejemplo, tipo de deudas, habitos de ahorro, uso de tarjetas de credito) y probar otros modelos para ver si se encuentran patrones mas marcados en la relacion entre educacion financiera, manejo del dinero, satisfaccion economica y endeudamiento.