Integrantes: Marilyn Duran -Danna Muñoz -Maria José Anaya
El siguiente estudio tiene la finalidad de presentar las transformaciones e interacciones de varibles dummies de una serie de datos realizados en una encuesta a una muestra total de 104 personas en total, por medio del uso de “Google Forms” con la finalidad de obtener información acerca de sus Gastos de alimentación semanalmente.
Se procedió a la eliminación de datos del archivo de Excel debido a la presencia de respuestas inexactas o información que no resultaba correcta para el estudio. Asimismo, se realizaron modificaciones en algunos de los datos para garantizar su adecuada utilidad en el análisis, como por ejemplo: Eliminar el punto de los resultados númericos. A lo que hicimos uso de un total de 97 datos.
Como primer paso se ingresaron al sistema los datos recopilados a partir de la encuesta realizada.
library(readxl)
df <- read_excel("Registro para la obtención de gastos de alimentación (Respuestas) (3).xlsx",
col_types = c("numeric", "text", "numeric",
"text", "text", "text", "text", "numeric",
"numeric", "text", "text", "numeric"))
View(df)
attach(df)
Se llevó a cabo la primera regresión lineal múltiple (reg1) utilizando el siguiente código de la regresión lineal.
Y se le asignaron el valor de x y y a las variables gastos y veces que se alimenta al día. ###### y=> GASTO DE ALIMENTACIÓN. ###### x=>Número de veces que se alimenta al día.
reg1=lm(gasto~vecesquesealimenta+as.factor(sexo)+cuantaspersonasvive+edad+carrera+fueradecasa)
summary(reg1)
anova(reg1)
Con el comando Summary y Anova se observan los siguientes resultados:
Summary:
Anova:
A partir de la primera regresión, se pudo determinar que la única variable significativa es “Edad”. El valor del coeficiente de determinación (R cuadrado) indica que se trata de un modelo poco adecuado, ya que su valor fue de 0.1558, cuando para considerarlo un buen modelo debería ser mayor a 0.4.
F-estadistico es igual a 1.41 lo que nos confirma nuevamente que no hay significancia.
Se incluyeron el siguiente análisis de gráficas de tendencia con cada una de las variables para evaluar y= Gasto de alimentación con las variables seleccionadas.
plot(gasto~vecesquesealimenta)
plot(gasto~edad)
plot(gasto~cuantaspersonasvive)
Numero de veces que se alimenta x Gasto en alimentación.
Edad x Gasto en alimentación.
Número de personas con las que vive x Gasto de alimentación.
Se realizan las transformaciones en una Regresión Lineal (RL) con el objetivo de mejorar la calidad del modelo y aumentar su precisión en la predicción de valores.Para esto las transformaciones van a ser para las variables => Número de veces que se alimenta al día, Edad y Número de personas con las que vive. Usando los métodos Logaritmo - Raíz - Cuadrado - Cubo.
#LOGARITMOS
logaritmonvecesquesealimenta=log(vecesquesealimenta)
logartimoedad=log(edad)
Logaritmondepersonasconlasquevive=log(cuantaspersonasvive)
raiznvecesquesealimenta=sqrt(vecesquesealimenta)
raizedad=sqrt(edad)
raizndepersonasconlasquevive=sqrt(cuantaspersonasvive)
#CUADRADO
cuadradonvecesquesealimenta=vecesquesealimenta^2
cuadradoedad=edad^2
cuadradondepersonasconlasquevive=cuantaspersonasvive^2
#CUBO
cubonvecesquesealimenta=vecesquesealimenta^3
cuboedad=edad^3
cubondepersonasconlasquevive=cuantaspersonasvive^3
reglogaritmo=lm(gasto~logaritmonvecesquesealimenta+as.factor(sexo)+Logaritmondepersonasconlasquevive+logartimoedad+carrera+fueradecasa)
regraiz=lm(gasto~raiznvecesquesealimenta+as.factor(sexo)+raizndepersonasconlasquevive+raizedad+carrera+fueradecasa)
regcuadrado=lm(gasto~cuadradovecesquesealimenta+as.factor(sexo)+cuadradondepersonasconlasquevive+cuadradoedad+carrera+fueradecasa)
regcubo=lm(gasto~cubonvecesquesealimenta+as.factor(sexo)+cubondepersonasconlasquevive+cuboedad+carrera+fueradecasa)
Al realizar el análisis con el comando summary se percibe que con los cambios realizados ningún modelo tiene valores mayores a 0.4 en R^2 lo que señala que no son buenos modelos, sin embargo con el método cuadrado y cubo se nota nivel de significancia en el intercepto en cubo y número de veces que se alimenta para cuadrado.
Regresión Logaritmo:
Regresión Raíz:
Regresión Cuadrado:
Regresión Cubo:
Al realizar las gráficas se puede ver que la que tiene mejor tendencia es método de logaritmo.
plot(reg1)
plot(reglogaritmo) #=>LA MEJOR
plot(regraiz)
plot(regcuadrado)
plot(regcubo)
Interacciones
Como siguiente paso realizamos las interacciones de las variables, estas se utilizan cuando se quiere estudiar cómo afecta la combinación de dos o más variables en la variable “y” es decir Gastos de alimentación o si tienen algún tipo de relación.
Descargamos el paquete FastDummies para convertir las variables Categóricas en Binarias.
Convertimos las varibles en Dummies:
library(fastDummies) #CONVIERTE LAS VARIABLES CATEGORICAS EN VARIABLES BINARIAS (0-1)
sexodummy=dummy_cols(sexo)
practicadeportedummy=dummy_cols(practicadeporte)
profesiondummy=dummy_cols(profesion)
fueradecasadummy=dummy_cols(fueradecasa)
tipodealimentodummy=dummy_cols(tipodealimento)
carreradummy=dummy_cols(carrera)
dfdummy=data.frame(sexodummy,practicadeportedummy,profesiondummy,fueradecasadummy,tipodealimentodummy,carreradummy)
Y finalmente realizamos las múltiplicaciones de las varibles seleccionando la varible Sexo para comparar si las mujeres o hombres realizan mayor gasto dependiendo de las variables => Tipo de alimentación - Deporte - Profesión - Frecuencia con la que come fuera de casa - Carrera.
Significancia en el intercepto.
taconvencionalmujeres=sexodummy[,2]*tipodealimentodummy[,2] #Convencionales-mujeres
taorganicomujeres=sexodummy[,2]*tipodealimentodummy[,3] #Organicos-mujeres
tconvencionalhombres=sexodummy[,3]*tipodealimentodummy[,2] #Convencionales-hombres
torganicohombres=sexodummy[,3]*tipodealimentodummy[,3] #Organicos-hombres
Regsexotipodecomida=lm(gasto~taconvencionalmujeres+taorganicomujeres+tconvencionalhombres+torganicohombres)
summary(Regsexotipodecomida)
Sexo * Deporte
Significancia en el intercepto.
tnopmujeres=sexodummy[,2]*practicadeportedummy[,2]
tsipmujeres=sexodummy[,2]*practicadeportedummy[,3]
tnophombres=sexodummy[,3]*practicadeportedummy[,2]
tsiphombres=sexodummy[,3]*practicadeportedummy[,3]
Regsexodeporte=lm(gasto~tnopmujeres+tsipmujeres+tnophombres+tsiphombres)
summary(Regsexodeporte)
Sexo * Profesión.
Significancia en el Intercepto y la variable Docente Mujeres.
admimujeres=sexodummy[,2]*profesiondummy[,2]
admihombres=sexodummy[,3]*profesiondummy[,2]
docentemujeres=sexodummy[,2]*profesiondummy[,3]
docentehombres=sexodummy[,3]*profesiondummy[,3]
estudiantemujeres=sexodummy[,2]*profesiondummy[,4]
estudianteshombres=sexodummy[,3]*profesiondummy[,4]
Regsexoprofesion=lm(gasto~admimujeres+admihombres+docentemujeres+docentehombres+estudiantemujeres+estudianteshombres)
summary(Regsexoprofesion)
Significancia únicamente en el intercepto.
frecuentemujeres=sexodummy[,2]*fueradecasadummy[,2]
frecuentehombres=sexodummy[,3]*fueradecasadummy[,2]
nuncamujeres=sexodummy[,2]*fueradecasadummy[,3]
nuncahombres=sexodummy[,3]*fueradecasadummy[,3]
todoslosdiasmujeres=sexodummy[,2]*fueradecasadummy[,4]
todoslosdiashombres=sexodummy[,3]*fueradecasadummy[,4]
namujeres=sexodummy[,2]*fueradecasadummy[,5]
nahombres=sexodummy[,3]*fueradecasadummy[,5]
Regfueradecasasexo=lm(gasto~frecuentemujeres+frecuentehombres+nuncamujeres+nuncahombres+todoslosdiasmujeres+todoslosdiashombres+namujeres+nahombres)
summary(Regfueradecasasexo)
No cambio la significancia.
Arqmuje=sexodummy[,2]*carreradummy[,2]
Arqhomb=sexodummy[,3]*carreradummy[,2]
ceconomuj=sexodummy[,2]*carreradummy[,3]
ceconohomb=sexodummy[,3]*carreradummy[,3]
ingmuj=sexodummy[,2]*carreradummy[,4]
inghomb=sexodummy[,3]*carreradummy[,4]
lenmuj=sexodummy[,2]*carreradummy[,5]
lenhomb=sexodummy[,3]*carreradummy[,5]
namuj=sexodummy[,2]*carreradummy[,6]
nahomb=sexodummy[,3]*carreradummy[,6]
salmuj=sexodummy[,2]*carreradummy[,7]
salhomb=sexodummy[,3]*carreradummy[,7]
carrerasexo=lm(gasto~Arqmuje+Arqhomb+ceconomuj+ceconohomb+ingmuj+inghomb+lenmuj+lenhomb+namuj+nahomb+salmuj+salhomb)
summary(carrerasexo)
Con el objetivo de mejorar el modelo y la significancia de las variables, se llevó a cabo una regresión que incluyó las nuevas variables de transformaciones e interacciones.
regfinal= lm(gasto~cubonvecesquesealimenta+edad+docentemujeres+docentehombres+estudiantemujeres+estudianteshombres+taconvencionalmujeres+tconvencionalhombres)
summary(regfinal)
Solo se encontró significancia en la variable “docente-mujer”, lo que revela que el modelo es deficiente debido a que el valor del R cuadrado ajustado fue de 0.1625, lo que a su vez evidencia una pobre capacidad de predicción. Sin embargo, el valor del estadístico F (2.134) sugiere que al menos una de las variables es significativa, lo cual corresponde a la variable “docentemujer” que se mencionó previamente.
Se llegó a la conclusión de que el modelo utilizado carece de significancia, según los resultados obtenidos mediante el comando “Summary” de cada uno de los estudios, puede considerarse un modelo débil o inadecuado. La única variable que resultó ser significativa fue la Edad, y se encontró que los mejores métodos para mejorar la significancia del modelo fueron la inclusión de términos cuadráticos y cúbicos en el análisis, especialmente mediante el uso de la transformación logarítmica para el análisis en la gráficas.
Sin embargo, se identificó que para este tipo de estudio resulta necesario incluir la variable “Ingresos” (que no fue considerada en la encuesta), ya que esta variable podría ser de gran importancia para comprender la relación entre los gastos en alimentación* Nivel de ingresos de los individuos y su relación con otras variables como la Edad, Profesión, Género, entre otras.