El presente proyecto se enfoca en el analisis Estadístico en Economía y Negocios, utilizando un dataset de economía Personal y empresarial. Esta base de datos simulada contiene información de adultos economicamente activos, tanto con como sin emprendimientos, de diversos sectores.
La gestión financiera personal y los niveles de educación económica influyen directamente en el bienestar financiero de las personas. Sin embargo, no siempre es claro qué factores específicos tienen mayor impacto en la satisfacción económica y el nivel de endeudamiento. Por ello, este estudio busca identificar cómo el manejo del presupuesto, las inversiones, el nivel educativo y otros factores sociodemográficos se relacionan con estos indicadores económicos.
Analizar cuáles factores financieros y educativos influyen en la satisfacción económica y en el nivel de endeudamiento de los adultos económicamente activos incluidos en la base de datos.
Evaluar la relación entre el nivel educativo y la realización de inversiones mediante una prueba de independencia Chi-cuadrado.
Determinar si el manejo del presupuesto está asociado con niveles más bajos de endeudamiento.
Comparar los niveles de satisfacción económica entre emprendedores y no emprendedores mediante una prueba t de medias (complemento al análisis del equipo).
Explorar la relación entre ingreso y gasto mensual utilizando un análisis de correlación.
Comprender los factores que determinan tanto la satisfacción económica como el nivel de endeudamiento es fundamental para diseñar estrategias de educación financiera y toma de decisiones informadas. Este tipo de análisis permite identificar patrones relevantes en el comportamiento económico, evaluar la efectividad de prácticas como el manejo de presupuesto y las inversiones, y orientar recomendaciones para mejorar la estabilidad financiera de individuos y empresas.
La literatura respalda la importancia de estudiar la relación entre educación financiera y resultados económicos. Según Lusardi & Mitchell (2014), la educación financiera está directamente relacionada con mejores decisiones de ahorro, menor endeudamiento problemático y mayor estabilidad económica en los hogares.
Lusardi, A., & Mitchell, O. S. (2014). The Economic Importance of Financial Literacy: Theory and Evidence. Journal of Economic Literature, 52(1), 5–44.
library(readxl)
library(openxlsx)
library(ggplot2)
library(dplyr)
library(corrplot)
library(Amelia)
library(car)
url <- "https://github.com/ralomonpez75-web/Estadistica_Inferencial/raw/main/Base_Economia_Negocios.xlsx"
# Descargar el archivo en github y abrirlo
temp_file <- tempfile(fileext=".xlsx")
download.file(url,temp_file,mode="wb")
base_datos<-read_excel(temp_file)
unlink(temp_file)
dim(base_datos)
## [1] 100 11
data_df<-as.data.frame(base_datos)
missmap(data_df)
Efectivamente el grafico nos muestra que no hay datos faltantes ya que cada columna desde la primera hasta la onceava tiene 100 filas.
summary(data_df)
## edad sexo nivel_educativo tiene_emprendimiento
## Min. :23.00 Length:100 Length:100 Length:100
## 1st Qu.:33.00 Class :character Class :character Class :character
## Median :45.00 Mode :character Mode :character Mode :character
## Mean :45.00
## 3rd Qu.:56.25
## Max. :65.00
## sector_economico maneja_presupuesto realiza_inversiones ingreso_mensual
## Length:100 Length:100 Length:100 Min. : 897963
## Class :character Class :character Class :character 1st Qu.:1935934
## Mode :character Mode :character Mode :character Median :2446856
## Mean :2446225
## 3rd Qu.:2983666
## Max. :4368968
## gasto_mensual nivel_endeudamiento satisfaccion_economica
## Min. : 417621 Min. : 1.00 Min. : 1.00
## 1st Qu.:1414284 1st Qu.: 3.00 1st Qu.: 3.00
## Median :1715757 Median : 6.00 Median : 6.00
## Mean :1738812 Mean : 5.54 Mean : 5.58
## 3rd Qu.:2098176 3rd Qu.: 9.00 3rd Qu.: 8.00
## Max. :3210431 Max. :10.00 Max. :10.00
tabla_estadisticas <- data_df %>%
summarise(
edad_media = mean(edad), edad_mediana = median(edad),
edad_var = var(edad), edad_sd = sd(edad),
ingreso_media = mean(ingreso_mensual), ingreso_mediana = median(ingreso_mensual),
ingreso_var = var(ingreso_mensual), ingreso_sd = sd(ingreso_mensual),
gasto_media = mean(gasto_mensual), gasto_mediana = median(gasto_mensual),
gasto_var = var(gasto_mensual), gasto_sd = sd(gasto_mensual),
endeud_media = mean(nivel_endeudamiento), endeud_mediana = median(nivel_endeudamiento),
endeud_var = var(nivel_endeudamiento), endeud_sd = sd(nivel_endeudamiento),
satis_media = mean(satisfaccion_economica), satis_mediana = median(satisfaccion_economica),
satis_var = var(satisfaccion_economica), satis_sd = sd(satisfaccion_economica)
)
tabla_estadisticas
## edad_media edad_mediana edad_var edad_sd ingreso_media ingreso_mediana
## 1 45 45 173.2525 13.16254 2446225 2446856
## ingreso_var ingreso_sd gasto_media gasto_mediana gasto_var gasto_sd
## 1 502767925622 709061.3 1738812 1715757 263372520163 513198.3
## endeud_media endeud_mediana endeud_var endeud_sd satis_media satis_mediana
## 1 5.54 6 9.725657 3.118598 5.58 6
## satis_var satis_sd
## 1 7.033939 2.652157
estadistica_emprendedores<-data_df%>%
group_by(tiene_emprendimiento) %>%
summarise(
media_satisfaccion=mean(satisfaccion_economica,na.rm=TRUE),
desviacion_satisfaccion=sd(satisfaccion_economica,na.rm=TRUE),
n=n()
)%>%
ungroup()
estadistica_emprendedores
## # A tibble: 2 × 4
## tiene_emprendimiento media_satisfaccion desviacion_satisfaccion n
## <chr> <dbl> <dbl> <int>
## 1 No 5.59 2.63 49
## 2 Sí 5.57 2.70 51
estadistica_deuda_sectores<-data_df%>%
group_by(sector_economico)%>%
summarise(
media_endeudamiento=mean(nivel_endeudamiento,na.rm=TRUE),
desviacion_endeudamiento=sd(nivel_endeudamiento,na.rm=TRUE),
n=n()
)%>%
ungroup()
estadistica_deuda_sectores
## # A tibble: 4 × 4
## sector_economico media_endeudamiento desviacion_endeudamiento n
## <chr> <dbl> <dbl> <int>
## 1 Comercio 6.68 2.56 25
## 2 Manufactura 5.48 3.20 25
## 3 Servicios 5.28 2.97 25
## 4 Tecnología 4.72 3.52 25
table(data_df$sexo)
##
## Femenino Masculino Otro
## 46 45 9
table(data_df$nivel_educativo)
##
## Postgrado Técnico Universitario
## 20 28 52
table(data_df$tiene_emprendimiento)
##
## No Sí
## 49 51
table(data_df$sector_economico)
##
## Comercio Manufactura Servicios Tecnología
## 25 25 25 25
table(data_df$maneja_presupuesto)
##
## No Sí
## 25 75
table(data_df$realiza_inversiones)
##
## No Sí
## 60 40
numericas <- data_df %>%
select(edad, ingreso_mensual, gasto_mensual, nivel_endeudamiento, satisfaccion_economica)
corrplot(cor(numericas), method = "color", addCoef.col = "black",
tl.col = "black", number.cex = 0.7)
table(data_df$nivel_educativo, data_df$realiza_inversiones)
##
## No Sí
## Postgrado 12 8
## Técnico 14 14
## Universitario 34 18
# Primero se calculan frecuencias relativas
frecuencia_relativa <- data_df %>%
count(sexo) %>%
mutate(
frecuencia_relativa=n/sum(n)*100,
etiquetas=paste0(sexo,"\n",round(frecuencia_relativa,1),"%")
)
# Luego graficamos en base a los resultados obtenidos
ggplot(frecuencia_relativa,aes(x="",y=frecuencia_relativa,fill=sexo)) +
geom_col(color="black") +
geom_text(aes(label=etiquetas),
position = position_stack(vjust=0.5),
size=4, color = "white") +
coord_polar(theta = "y") +
labs(title = "Distribucion por sexo",
fill = "sexo") +
theme_void() +
scale_fill_manual(values=c("lightblue","pink","lightgreen"))
ggplot(data_df,aes(x=sexo,y=edad,fill=sexo)) +
geom_boxplot() +
labs(title="Distribucion de edades por sexo",
x="Sexo",
y="Edad",
fill="Sexo") +
scale_fill_manual(values=c("lightblue","pink","lightgreen")) +
theme_minimal()
ggplot(data_df,aes(x=sector_economico,fill=maneja_presupuesto)) +
geom_bar(position="dodge") +
labs(title="¿Maneja Presupuesto?",
x="Sector Economico",
y="Cantidad de personas",
fill="Maneja Presupuesto") +
theme_minimal() +
theme(axis.text.x=element_text(angle=45,hjust=1))
ggplot(data_df,aes(x=sector_economico,fill=realiza_inversiones)) +
geom_bar(position="dodge") +
labs(title="¿Realiza Inversiones?",
x="Sector Economico",
y="Cantidad de personas",
fill="Realiza Inversiones") +
theme_minimal() +
theme(axis.text.x=element_text(angle=45,hjust=1))
ggplot(data_df, aes(x = ingreso_mensual/1000)) +
geom_histogram(bins = 20, fill = "steelblue", color = "black") +
labs(title = "Histograma de Ingreso Mensual",
x = "Ingreso Mensual",
y = "Frecuencia") +
theme_minimal()
ggplot(data_df, aes(x = gasto_mensual/1000)) +
geom_histogram(bins = 20, fill = "darkgreen", color = "black") +
labs(title = "Histograma de Gasto Mensual",
x = "Gasto Mensual",
y = "Frecuencia") +
theme_minimal()
ggplot(data_df, aes(x = sector_economico, y = ingreso_mensual, fill = sector_economico)) +
geom_boxplot() +
labs(title = "Ingreso Mensual por Sector Económico",
x = "Sector Económico", y = "Ingreso Mensual") +
theme_minimal() +
theme(axis.text.x = element_text(angle=45, hjust=1))
ggplot(data_df, aes(x = maneja_presupuesto, y = nivel_endeudamiento, fill = maneja_presupuesto)) +
geom_boxplot() +
labs(title = "Endeudamiento según Manejo de Presupuesto",
x = "Maneja Presupuesto", y = "Nivel de Endeudamiento") +
theme_minimal()
ggplot(data_df, aes(x = nivel_educativo, fill = nivel_educativo)) +
geom_bar() +
labs(title = "Distribución del Nivel Educativo",
x = "Nivel Educativo", y = "Frecuencia") +
theme_minimal()
ggplot(data_df, aes(x = tiene_emprendimiento, fill = tiene_emprendimiento)) +
geom_bar() +
labs(title = "Distribución de Emprendimiento",
x = "Tiene Emprendimiento", y = "Frecuencia") +
theme_minimal()
ggplot(data_df, aes(x = ingreso_mensual/1000, y = gasto_mensual/1000)) +
geom_point(color = "blue") +
geom_smooth(method = "lm", se = FALSE, color = "black") +
labs(title = "Ingreso vs Gasto Mensual",
x = "Ingreso Mensual", y = "Gasto Mensual") +
theme_minimal()
## `geom_smooth()` using formula = 'y ~ x'
Hipotesis nula: No existe diferencias significativas en el promedio de satisfaccion economica entre los emprendedores y no emprendedores.
Hipotesis alternativa: Existen diferencias significativas en el promedio de satisfaccion economica entre los emprendedores y no emprendedores.
Usamos t-student debido a que las muestras del estudio son independientes entre si, las varianzas poblacionales son desconocidas y las varianzas muestrales son aproximadamente iguales.
prueba_t<-t.test(satisfaccion_economica~tiene_emprendimiento,
data=data_df, var.equal=TRUE, conf.level=0.95)
prueba_t
##
## Two Sample t-test
##
## data: satisfaccion_economica by tiene_emprendimiento
## t = 0.043526, df = 98, p-value = 0.9654
## alternative hypothesis: true difference in means between group No and group Sí is not equal to 0
## 95 percent confidence interval:
## -1.034973 1.081392
## sample estimates:
## mean in group No mean in group Sí
## 5.591837 5.568627
df<-98
t_critico<-qt(0.975,df)
t_calculado<-0.044
x<-seq(-4,4,length.out=200)
y<-dt(x,df)
datos_curva<-data.frame(x=x,y=y)
ggplot(datos_curva,aes(x=x,y=y)) +
geom_line(linewidth=1,color="black") +
geom_area(data = subset(datos_curva,x<=-t_critico),
aes(x=x,y=y),fill="red",alpha=0.5) +
geom_area(data=subset(datos_curva,x>=t_critico),
aes(x=x,y=y),fill="red",alpha=0.5) +
geom_area(data=subset(datos_curva,x>-t_critico & x<t_critico),
aes(x=x,y=y),fill="green",alpha=0.3) +
geom_vline(xintercept = t_calculado,color="blue",linewidth=1.5,linetype="dashed") +
annotate("text",x=t_calculado,y=0.1,label="t=0.044",color="blue",hjust=-0.2) +
geom_vline(xintercept = c(-t_critico,t_critico),color="red",linetype="dashed") +
annotate("text",x=t_critico,y=0.05,label="t critico = +/- 1.984",color="red",hjust=-0.1) +
labs(title = "Prueba t: Regiones de Aceptación y Rechazo",
subtitle = "Distribución t-Student con 98 grados de libertad",
x = "Valor t", y = "Densidad") +
theme_minimal()
Segun los resultados podemos apreciar que el valor de t=0.044 se encuentra en la region de aceptacion debido a que se encuentra entre -1.984<=t<=+1.984 lo cual nos permite concluir que no se puede afirmar que existan diferencias significativas entre las medias de ambas poblaciones.
Hipotesis nula: Las medias de las 3 poblaciones son iguales o dicho de otra forma no existen diferencias entre las medias de las 3 poblaciones.
Hipotesis alternativa: Almenos una de las 3 medias es distinta del resto.
Se utiliza el modelo ANOVA debido a que vamos a estudiar las medias de mas de 2 poblaciones con el proposito de evaluar si existen diferencias significativas en almenos una de las medias comparando 2 fuentes de variacion, es decir, variacion entre grupos y variacion dentro de los grupos y de este modo determinar que fuente de variacion tiene mayor variabilidad para obtener una conclusion sobre el estudio.
ANOVA<-aov(nivel_endeudamiento~sector_economico,data=data_df)
summary(ANOVA)
## Df Sum Sq Mean Sq F value Pr(>F)
## sector_economico 3 51.1 17.027 1.793 0.154
## Residuals 96 911.8 9.497
x<-seq(0,5,length=100)
y<-df(x,df1=3,df2=96)
f_critico<-qf(0.95,df1=3,df2=96)
plot(x,y,type="l",lwd=2,col="blue",
main="Distribucion F - Prueba ANOVA\n(Regiones de aceptacion/rechazo)",
xlab="Valor F", ylab="Densidad"
)
polygon(x=c(f_critico,x[x>=f_critico],max(x)),
y=c(0,y[x>=f_critico],0),
col="red",density=20,angle=45)
abline(v=1.793,col="green",lwd=3,lty=2)
abline(v=f_critico,col="red",lwd=2,lty=2)
legend("topright",
legend = c("Distribución F", "F crítico = 2.70", "Tu F = 1.79", "Región Rechazo"),
col = c("blue", "red", "green", "red"),
lwd = c(2, 2, 3, 5),
lty = c(1, 2, 2, 1))
Aunque la variabilidad entre grupos es un 80% superior a la variabilidad dentro de los grupos, la evidencia estadistica obtenida en el modelo ANOVA no es suficiente para descartar que dicha variabilidad sea producto del azar debido a que p-value=15.4% el cual es superior al valor critico del 5% y siempre que esto ocurra llegaremos a la misma conclusion.
H0: No existe asociación entre el nivel educativo y la realización de inversiones.
H1: Existe asociación entre el nivel educativo y la realización de inversiones.
# Asegurar que las variables sean factores
data_df$nivel_educativo <- as.factor(data_df$nivel_educativo)
data_df$realiza_inversiones <- as.factor(data_df$realiza_inversiones)
# Tabla cruzada
tabla_edu_inv <- table(data_df$nivel_educativo, data_df$realiza_inversiones)
tabla_edu_inv
##
## No Sí
## Postgrado 12 8
## Técnico 14 14
## Universitario 34 18
# Prueba Chi-cuadrado de independencia
prueba_chi <- chisq.test(tabla_edu_inv)
prueba_chi
##
## Pearson's Chi-squared test
##
## data: tabla_edu_inv
## X-squared = 1.7949, df = 2, p-value = 0.4076
Los resultados de la prueba Chi-cuadrado indican un estadístico χ² = 1.7949 con 2 grados de libertad y un p-value = 0.4076.
Dado que el p-value es mayor que 0.05, no se rechaza la hipótesis nula.
Por lo tanto, no existe evidencia estadística de una asociación significativa entre el nivel educativo y la realización de inversiones en esta muestra.
ingreso_mensual y
gasto_mensualH0: La distribución de ingresos es normal.
data <- base_datos
prueba_shapiro_ingreso <- shapiro.test(data$ingreso_mensual)
cat("Resultados Shapiro-Wilk para Ingreso Mensual:\n")
## Resultados Shapiro-Wilk para Ingreso Mensual:
print(prueba_shapiro_ingreso)
##
## Shapiro-Wilk normality test
##
## data: data$ingreso_mensual
## W = 0.99132, p-value = 0.7699
cat("\n----------------------------------------------------\n")
##
## ----------------------------------------------------
# --- Prueba de Normalidad para 'gasto_mensual' ---
# H0: La distribución de gastos es normal.
prueba_shapiro_gasto <- shapiro.test(data$gasto_mensual)
cat("Resultados Shapiro-Wilk para Gasto Mensual:\n")
## Resultados Shapiro-Wilk para Gasto Mensual:
print(prueba_shapiro_gasto)
##
## Shapiro-Wilk normality test
##
## data: data$gasto_mensual
## W = 0.98648, p-value = 0.4038
Como para ambos grupos de datos el p-valor es mayor a 0.05, no se rechaza la H0. Por lo tanto, los datos tienen una distribución normal.
Por otro lado, para probar la linealidad de los datos, dibujamos un gráfico de dispersión.
# 1. Crear el Diagrama de Dispersión (Scatter Plot)
# Coloca Ingreso en el eje X (variable predictora) y Gasto en el eje Y (variable de respuesta).
plot(x = data$ingreso_mensual,
y = data$gasto_mensual,
main = "Diagrama de Dispersión: Gasto vs. Ingreso Mensual",
xlab = "Ingreso Mensual",
ylab = "Gasto Mensual",
pch = 19, # Tipo de punto
col = "darkgray")
# 2. Añadir la Línea de Regresión Lineal (Línea de mejor ajuste)
# La función lm() calcula el modelo lineal, y abline() lo dibuja.
abline(lm(data$gasto_mensual ~ data$ingreso_mensual), col = "blue", lwd = 2)
Con este mismo gráfico nos podemos estar dando cuenta de la falta de linealidad al los datos no estar estrechamente relacionados a la línea de tendencia azul. De todos modos, hacemos la prueba de Correlación de Pearson para rectificar este supuesto:
# Aplicamos la prueba de correlación de Pearson
prueba_correlacion <- cor.test(data$ingreso_mensual, data$gasto_mensual, method = "pearson")
print(prueba_correlacion)
##
## Pearson's product-moment correlation
##
## data: data$ingreso_mensual and data$gasto_mensual
## t = 0.68293, df = 98, p-value = 0.4963
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.1293434 0.2617036
## sample estimates:
## cor
## 0.06882321
Como se puede rectificar en la prueba, el p-valor es mayor a 0.05, por lo que no se rechaza la H0. Por lo tanto, no existe una correlación lineal estadísticamente significativa entre el ingreso mensual y el gasto mensual de un adulto económicamente activo.
1) Coeficiente de Correlación (\(r\)): El valor \(r = 0.0595\) indica una correlación lineal muy débil y positiva. Esto sugiere que, a medida que el ingreso mensual aumenta, el gasto mensual tiende a aumentar, pero este efecto es mínimo.
2) Decisión (Basada en el Valor \(p\)): Dado que el Valor \(p\) (0.5976) es mayor que \(\alpha\) (0.05), no se rechaza la hipótesis nula (\(H_0\)).
3) Interpretación Clara: A un nivel de significancia del 5%, no existe una relación lineal estadísticamente significativa entre el ingreso mensual y el gasto mensual de los individuos encuestados. Aunque existe una correlación positiva muy leve (\(r \approx 0.06\)) en la muestra, esta correlación es tan pequeña que puede atribuirse completamente al azar.
En conclusión, no podemos inferir que la correlación entre ingresos y gastos en la población sea diferente de cero.
En esta sección se evalúa un modelo de regresión lineal múltiple donde la variable respuesta es la satisfacción económica y los predictores son variables financieras y educativas.
Hipótesis nula H0: Los coeficientes de las variables explicativas
son conjuntamente iguales a cero.
Es decir, el modelo de regresión múltiple no explica de forma
significativa la satisfacción económica.
Hipótesis alternativa H1: Al menos uno de los coeficientes de las
variables explicativas es diferente de cero.
Es decir, al menos una de las variables incluidas en el modelo está
asociada de forma significativa con la satisfacción económica.
# Aseguramos que las variables categóricas sean factores
data_df$nivel_educativo <- as.factor(data_df$nivel_educativo)
data_df$tiene_emprendimiento <- as.factor(data_df$tiene_emprendimiento)
data_df$maneja_presupuesto <- as.factor(data_df$maneja_presupuesto)
data_df$realiza_inversiones <- as.factor(data_df$realiza_inversiones)
data_df$sexo <- as.factor(data_df$sexo)
data_df$sector_economico <- as.factor(data_df$sector_economico)
# Modelo de regresión múltiple para satisfacción económica
modelo_satisfaccion <- lm(
satisfaccion_economica ~ ingreso_mensual + gasto_mensual +
nivel_educativo + maneja_presupuesto + realiza_inversiones +
tiene_emprendimiento,
data = data_df
)
summary(modelo_satisfaccion)
##
## Call:
## lm(formula = satisfaccion_economica ~ ingreso_mensual + gasto_mensual +
## nivel_educativo + maneja_presupuesto + realiza_inversiones +
## tiene_emprendimiento, data = data_df)
##
## Residuals:
## Min 1Q Median 3Q Max
## -5.2541 -1.9172 -0.0906 1.8652 4.5556
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 6.243e+00 1.437e+00 4.346 3.57e-05 ***
## ingreso_mensual -6.852e-07 3.823e-07 -1.792 0.0763 .
## gasto_mensual 1.838e-07 5.288e-07 0.348 0.7290
## nivel_educativoTécnico 2.095e-01 7.715e-01 0.271 0.7866
## nivel_educativoUniversitario -5.473e-01 6.973e-01 -0.785 0.4345
## maneja_presupuestoSí 1.206e+00 6.349e-01 1.900 0.0605 .
## realiza_inversionesSí -3.094e-01 5.453e-01 -0.567 0.5719
## tiene_emprendimientoSí 2.714e-01 5.608e-01 0.484 0.6297
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.626 on 92 degrees of freedom
## Multiple R-squared: 0.08902, Adjusted R-squared: 0.01971
## F-statistic: 1.284 on 7 and 92 DF, p-value: 0.2668
El modelo de regresion lineal multiple planteado tiene como variable dependiente la satisfaccion economica y como variables explicativasingreso mensual, gasto mensual, nivel educativo, manejo de presupuesto, realizacion de inversiones y tener o no emprendimiento.
A partir de los resultados:
En resumen, a un nivel de significancia del 5%, el modelo de regresion multiple no resulta globalmente significativo, y ninguna de las variables incluidas se muestra claramente asociada de forma estadisticamente significativa con la satisfaccion economica, aunque el manejo del presupuesto aparece como un posible factor por su p-valor cercano a 0.05.
A partir de todo el analisis que hicimos con la base de datos de adultos economicamente activos, podemos responder mas o menos a la pregunta de que factores financieros y educativos influyen en la satisfaccion economica y en el nivel de endeudamiento.
Sobre la satisfaccion economica y el emprendimiento Con la prueba t comparamos la satisfaccion economica entre las personas que tienen emprendimiento y las que no. El resultado mostro que el p-valor es mayor a 0.05, entonces no rechazamos la hipotesis nula. Eso quiere decir que, con esta muestra, no podemos decir que exista una diferencia significativa en el promedio de satisfaccion economica entre emprendedores y no emprendedores. En otras palabras, solo por tener emprendimiento no se ve una diferencia clara en la satisfaccion.
Sobre el nivel de endeudamiento y el sector economico Con el ANOVA analizamos si el nivel de endeudamiento cambiaba segun el sector economico. Aunque hay cierta variacion entre sectores, el p-valor tambien es mayor a 0.05, asi que tampoco rechazamos la hipotesis nula. Esto indica que, segun estos datos, no se puede afirmar que algun sector tenga un nivel de endeudamiento significativamente distinto de los demas. El sector economico, al menos aqui, no parece ser un factor clave del endeudamiento.
Sobre el nivel educativo y la realizacion de inversiones Con la prueba Chi-cuadrado miramos si habia relacion entre el nivel educativo y el hecho de realizar inversiones. El p-valor salio bastante grande (mayor a 0.05), entonces no hay evidencia estadistica de una asociacion significativa. Es decir, en esta muestra, tener un nivel educativo mas alto no garantiza que la persona necesariamente haga inversiones. El comportamiento de invertir no esta fuertemente ligado al nivel educativo segun estos datos.
Sobre la relacion entre ingreso y gasto mensual Primero revisamos la normalidad del ingreso y del gasto y los dos mas o menos cumplen, pero cuando miramos la correlacion de Pearson, el coeficiente r fue muy bajo (cerca de 0.06) y con p-valor mayor a 0.05. Eso significa que no hay una relacion lineal fuerte ni estadisticamente significativa entre ingreso mensual y gasto mensual. O sea, en esta base de datos, ganar mas no implica automaticamente gastar mucho mas, al menos no de forma lineal y clara desde el punto de vista estadistico.
Sobre los factores que explican la satisfaccion economica (regresion multiple) En el modelo de regresion multiple usamos varias variables a la vez: ingreso mensual, gasto mensual, nivel educativo, manejo de presupuesto, realizacion de inversiones y si tiene emprendimiento. El R2 ajustado fue muy bajo (alrededor de 0.02) y el p-valor global del modelo fue mayor a 0.05. Eso nos dice que, en conjunto, estas variables no logran explicar bien la variacion en la satisfaccion economica. Aun asi, de forma descriptiva, la variable de manejar presupuesto salio con un coeficiente positivo y un p-valor cercano a 0.05, es decir, las personas que manejan presupuesto tienden a tener una satisfaccion economica un poco mas alta, pero la evidencia no alcanza a ser totalmente concluyente con el nivel de significancia que usamos.
Respuesta general a la pregunta problema En general, con esta base de datos y las tecnicas que aplicamos, no encontramos relaciones muy fuertes ni muy claras entre las variables financieras/educativas y la satisfaccion economica o el endeudamiento. Ni el nivel educativo, ni el sector economico, ni tener emprendimiento, ni siquiera el nivel de ingreso muestran efectos estadisticamente significativos muy marcados. El unico factor que medio se asoma como importante es el manejo del presupuesto, que parece estar asociado con una mayor satisfaccion economica, aunque el resultado queda en un punto intermedio (cerca pero no debajo de 0.05). Esto puede indicar que los habitos de gestion del dinero (como organizar y controlar el presupuesto) podrian ser tan importantes como el ingreso o la educacion formal.
Posibles implicaciones Los resultados dan la idea de que no basta solo con ganar mas o estudiar mas para garantizar mejor satisfaccion economica o menor endeudamiento, sino que tambien juega un papel como las personas administran lo que tienen. Para trabajos futuros, seria bueno usar una muestra mas grande, incluir otras variables (por ejemplo, tipo de deudas, habitos de ahorro, uso de tarjetas de credito) y probar otros modelos para ver si se encuentran patrones mas marcados en la relacion entre educacion financiera, manejo del dinero, satisfaccion economica y endeudamiento.