Se llevó a cabo una encuesta exhaustiva que incluyó múltiples preguntas relacionadas con las actividades diarias. El objetivo de la encuesta fue recopilar datos detallados para comprender mejor las variables que impactan en las horas de sueño. El siguiente enlace lo reediccionara a la encuesta. https://docs.google.com/forms/d/e/1FAIpQLSdCz6EXj1GISTtSDHal9GZzJ5cUozV5jrVL_nT3N_TnWolZxA/viewform?usp=send_form.
En primer lugar, se insertó los datos obtenidos de la encuesta.
library(readxl)
Datos2 <- read_excel("file_show (2).xlsx",
col_types = c("numeric", "text", "numeric",
"numeric", "text", "text", "text",
"text", "numeric", "numeric"))
View(Datos2)
attach(Datos2)
Posteriormente,se realizó la primera regresión con el siguiente código:
reg1=lm(`Horas sueño`~Edad+as.factor(Sexo)+Carreras+AF+AL+`Con cuantas personas vive`)
summary(reg1)
obtuvimos los siguientes resultados:
Con la primera regresión podemos determinar que, las variables significativas son ciencias económicas administrativas y contables, ingenierias fisicomecanicas, licenciaturas y carreras N/A (personas que no estudian ninguna carrera universitaria) y con cuantas personas vive.
Del R cuadrado ajustado se puede interpretar que es un mal modelo (0.2834)
Del P valor podemos decir se acepta la hipotesis alternativa y se rechaza la nula.
Se realizaron las siguientes gráficas para mirar el tipo de tendencia.
Las transformaciones se hacen con el objetivo de mejorar la medida de ajuste del modelo, hay distintas maneras de realizar las transformaciones, en este caso lo hicimos mediante 4 métodos, en los cuales trabajamos con las variables edad, con cuantas personas vive y horas de trabajo.
En este método lo que se hace es aplicar el logaritmo a cada uno de los valores que esta dentro de la categoria de edad.
logaritmoedad=log(edad)
logartimoPersonas=log(`Con cuantas personas vive`)
LogaritmoHT=log(`horas trabajo`)
En este método se aplica la raiz cuadrada a cada uno de los valores que estan dentro de la categoria de edad.
raizedad=sqrt(edad)
raizPersonas=sqrt(`Con cuantas personas vive`)
raizHT=sqrt(`horas trabajo`)
En este método se eleva al cubo cada uno de los valores que esten dentro de la categoria de edad.
cuadradoedad=edad^2
cuadradoPersonas=`Con cuantas personas vive`^2
cuadradoHT=`horas trabajo`^2
En este método se eleva al cubo cada uno de los valores que esten dentro de la categoria de edad.
cuboedad=edad^3
Cubopersonas=`Con cuantas personas vive`^3
cuboHT=`horas trabajo`^3
La regresión logaritimica no da ningun valor debido a que algunas variables cuentan con el numero 0 dentro de sus datos, y el logaritmo de 0 es infinito.
Con la transformacion del metodo raiz no hubo ningun cambio significativo.
Con el metodo de cuadrado aumento la significancia de la variable con cuantas personas vive y el R cuadrado aumento a 0.3861.
Con el método de cubo hubo un cambio en el r cuadrado, aumento a 0.3977, la significancia de las variables no se vio afectada
```
Las variables dummys, son el cambio de variables categóricas a uno de sistema binario para indicar la ausencia o presencia de algún efecto categórico que se puede esperar que cambie el resultado.
En el siguiente código, buscamos pasar estas variables categoricas a variables dummy.
attach(datos)
names(datos)
Dummyaf=dummy_cols(AF)
dummycarreras=dummy_cols(Carreras)
dummyal=dummy_cols(AL)
dummysex=dummy_cols(Sexo)
Se elabora la tabla con las variables convertidas en dummy
dummy_df=data.frame(Dummyaf, dummycarreras, dummyal)
Utilizamos las interacciones para encontrar variables que tienen algo en común o esten relacionadas
Se realiazó la multiplicación de la carrera por la actividad laboral, no hubo cambio en la significancia cambio en la significancia de las variables en la regresion.
ALarqui=dummy_df[,5]*dummyal[,3]
ALsalud=dummy_df[,6]*dummyal[,3]
ALadmin=dummy_df[,7]*dummyal[,3]
ALjur=dummy_df[,8]*dummyal[,3]
ALinge=dummy_df[,9]*dummyal[,3]
ALlic=dummy_df[,10]*dummyal[,3]
ALvet=dummy_df[,11]*dummyal[,3]
ALarquiHombreNo=dummy_df[,5]*dummyal[,2]
ALsaludNo=dummy_df[,6]*dummyal[,2]
ALadminNo=dummy_df[,7]*dummyal[,2]
ALjurNo=dummy_df[,8]*dummyal[,2]
ALingeNo=dummy_df[,9]*dummyal[,2]
ALlicNo=dummy_df[,10]*dummyal[,2]
ALvetNo=dummy_df[,11]*dummyal[,2]
RegCrrActl=lm(`Horas sueño`~ALarqui+ALsalud+ALadmin+ALjur+ALinge+ALlic+ALvet+ALarquiHombreNo+ALsaludNo+ALadminNo+ALjurNo+ALingeNo+ALlicNo+ALvetNo)
summary(RegCrrActl)
Resultado de esta regresión:
Nota: Al momento de realizar las multiplicaciones se tomaron las variables de Si realiza y No realiza, se encontró una mayor significancia en los que realizan actividad laboral en Estudiantes de ciencias de la salud, ciencias jurídicas. Para los que no realizan actividad laboral hay mayor significancia tambien en ciencias de la salud.
En estudiantes de licenciatura y veterinaria ninguno de los entrevistados realiza actividad laboral.
Posteriormente, se realizó la multiplicación de la carrera por la actividad física, no hubo cambio en la significancia cambio en la significancia de las variables en la regresion.
AFarqui=dummy_df[,5]*Dummyaf[,3]
AFsalud=dummy_df[,6]*Dummyaf[,3]
AFadmin=dummy_df[,7]*Dummyaf[,3]
AFjur=dummy_df[,8]*Dummyaf[,3]
AFinge=dummy_df[,9]*Dummyaf[,3]
AFlic=dummy_df[,10]*Dummyaf[,3]
AFvet=dummy_df[,11]*Dummyaf[,3]
AFarquiNo=dummy_df[,5]*Dummyaf[,2]
AFsaludNo=dummy_df[,6]*Dummyaf[,2]
AFadminNo=dummy_df[,7]*Dummyaf[,2]
AFjurNo=dummy_df[,8]*Dummyaf[,2]
AFingeNo=dummy_df[,9]*Dummyaf[,2]
AFlicNo=dummy_df[,10]*Dummyaf[,2]
AFvetNo=dummy_df[,11]*Dummyaf[,2]
RegCrrActf=lm(`Horas sueño`~AFarqui+AFsalud+AFadmin+AFjur+AFinge+AFlic+AFvet+AFarquiNo+AFsaludNo+AFadminNo+AFjurNo+AFingeNo+AFlicNo+AFvetNo)
summary(RegCrrActf)
Resultado de esta regresión:
Nota: Al momento de realizar las multiplicaciones se tomaron las variables de Si realiza y No realiza, se encontró una mayor significancia en los estudiantes que no realizan actividad física en Arquitectura, ciencias de la salud, administración y licenciaturas.
Se realizó la multiplicación de la carrera por el sexo, se halló una mayor significancia en las mujeres entre las carreras de arquitectura, salud y derecho. Por el lado de los hombre se halló una mayor significancia en la carrera de salud y veterinaria.
View(dummysex)
SEXarquiMujer=dummy_df[,5]*dummysex[,2]
SEXsaludMujer=dummy_df[,6]*dummysex[,2]
SEXadminMujer=dummy_df[,7]*dummysex[,2]
SEXjurMujer=dummy_df[,8]*dummysex[,2]
SEXingeMujer=dummy_df[,9]*dummysex[,2]
SEXflicMujer=dummy_df[,10]*dummysex[,2]
SEXvetmujer=dummy_df[,11]*dummysex[,2]
SEXarquiHombre=dummy_df[,5]*dummysex[,3]
SEXsaludHombre=dummy_df[,6]*dummysex[,3]
SEXadminHombre=dummy_df[,7]*dummysex[,3]
SEXjurHombre=dummy_df[,8]*dummysex[,3]
SEXingeHombre=dummy_df[,9]*dummysex[,3]
SEXflicHombre=dummy_df[,10]*dummysex[,3]
SEXvetHombre=dummy_df[,11]*dummysex[,3]
RegcrrSEX=lm(`Horas sueño`~SEXarquiMujer+SEXsaludMujer+SEXadminMujer+SEXjurMujer+SEXingeMujer+SEXflicMujer+SEXvetmujer+SEXarquiHombre+SEXsaludHombre+SEXadminHombre+SEXjurHombre+SEXingeHombre+SEXflicHombre+SEXvetHombre)
summary(RegcrrSEX)
Resultado de esta regresión:
Nota: Al momento de realizar las multiplicaciones se tomaron las variables de hombre y mujer, se encontró una mayor significancia Mujeres que estudian Arquitectura, ciencias de la salud, administración. Por el lado de los hombres se encontró mayor significancia en los que estudian ciencias de la salud y veterinaria.
Se realizo una regresion con las nuevas variables de transformaciones e interacciones con el objetivo de mejorar el modelo y la significancia de las variables.
Regfinal=lm(`Horas sueño`~cuadradoPersonas+AFarquiNo+AFsaludNo+AFadminNo+AFjurNo+AFingeNo+AFlicNo+AFvetNo+ALarqui+ALsalud+ALadmin+ALjur+ALinge+SEXarquiMujer+SEXsaludMujer+SEXadminMujer+SEXjurMujer+SEXingeMujer+SEXflicMujer)
summary(Regfinal)
anova(Regfinal)
abs(qt(0.025,80))
Hubo una significancia en las variables cuantas personas vive, los que no hacian actividad fisica en arquitectura, los que no hacian actividad fisica de veterinaria y las mujeres de arquitectura. Es un mal modelo porque el R cuadrado ajustado dio un valor de 0.3517, con el f estadistico se puede interpretar que el t calculado es mayor en las siguientes variables: cuadradoPersonas AFlicNo SEXarquiMujer por lo tanto se rechaza la hipotesis nula y el coeficiente estimado es diferente de 0.
Se encontró que las variables más significativas son ciencias económicas administrativas y contables, ingenierías fisicomecánicas, licenciaturas y carreras N/A (personas que no estudian ninguna carrera), y con cuántas personas vive. Sin embargo, el valor del R cuadrado indica que el modelo no es muy preciso para predecir los resultados.
Se realizaron varias transformaciones y se llevaron a cabo interacciones entre las variables, pero no se encontraron grandes cambios en la significancia de las variables y en el valor del R cuadrado. Se observó una mayor significancia en las carreras de arquitecturas y licenciaturas al multiplicarlas por la actividad laboral, actividad física o género.
En conclusión, el modelo utilizado es un mal modelo.