Variables cualitativas seleccionadas:
Variables cunatitativas seleccionadas;
Los estatísticos obtenidos en el dato de promedio académico son los siguientes:
summary(datos_estudiantes$Promedio)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 6.900 7.487 7.710 7.750 7.933 8.870
La desviación estándar es de:
sd(datos_estudiantes$Materias_Promedio_x_Termino)
## [1] 0.4863036
La curtosis es de :
kurtosis(datos_estudiantes$Materias_Promedio_x_Termino)
## [1] 2.810635
El sesgo es de:
skewness(datos_estudiantes$Materias_Promedio_x_Termino)
## [1] -0.512083
Los cuartiles son;
quantile(datos_estudiantes$Materias_Promedio_x_Termino)
## 0% 25% 50% 75% 100%
## 4 4 5 5 6
La distribucion de los datos arroja el siguiente histograma:
polygon.freq(hist(datos_estudiantes$Promedio,main="Histograma de Promedio académico"))
Los estatísticos obtenidos en el dato de horas de estudio diario son los siguientes:
summary(datos_estudiantes$Horas_promedio_diarias_estudio)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.000 5.000 5.000 5.895 7.000 12.000
La desviación estándar es de:
sd(datos_estudiantes$Horas_promedio_diarias_estudio)
## [1] 1.963527
La curtosis es de :
kurtosis(datos_estudiantes$Horas_promedio_diarias_estudio)
## [1] 3.497466
El sesgo es de:
skewness(datos_estudiantes$Horas_promedio_diarias_estudio)
## [1] 0.9137976
Los cuartiles son;
quantile(datos_estudiantes$Horas_promedio_diarias_estudio)
## 0% 25% 50% 75% 100%
## 2 5 5 7 12
La distribucion de los datos arroja el siguiente histograma:
polygon.freq(hist(datos_estudiantes$Horas_promedio_diarias_estudio,main="Histograma Horas promedio de estudio"))
Los estatísticos obtenidos en el dato de horas de estudio diario son los siguientes:
summary(datos_estudiantes$Materias_Promedio_x_Termino)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 4.000 4.000 5.000 4.763 5.000 6.000
La desviación estándar es de:
sd(datos_estudiantes$Materias_Promedio_x_Termino)
## [1] 0.4863036
La curtosis es de :
kurtosis(datos_estudiantes$Materias_Promedio_x_Termino)
## [1] 2.810635
El sesgo es de:
skewness(datos_estudiantes$Materias_Promedio_x_Termino)
## [1] -0.512083
Los cuartiles son;
quantile(datos_estudiantes$Materias_Promedio_x_Termino)
## 0% 25% 50% 75% 100%
## 4 4 5 5 6
La distribucion de los datos arroja el siguiente histograma:
polygon.freq(hist(datos_estudiantes$Materias_Promedio_x_Termino,main="Histograma Cantidad promedio de materias por término"))
Los estatísticos obtenidos en el dato de promedio de horas en redes a diario son los siguientes:
summary(datos_estudiantes$Horas_promedio_diarias_en_redes)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.000 2.000 3.000 3.151 4.000 6.000
La desviación estándar es de:
sd(datos_estudiantes$Horas_promedio_diarias_en_redes)
## [1] 1.224799
La curtosis es de :
kurtosis(datos_estudiantes$Horas_promedio_diarias_en_redes)
## [1] 2.718123
El sesgo es de:
skewness(datos_estudiantes$Horas_promedio_diarias_en_redes)
## [1] -0.2553968
Los cuartiles son;
quantile(datos_estudiantes$Horas_promedio_diarias_en_redes)
## 0% 25% 50% 75% 100%
## 0 2 3 4 6
La distribucion de los datos arroja el siguiente histograma:
polygon.freq(hist(datos_estudiantes$Horas_promedio_diarias_en_redes,main="Histograma Cantidad promedio de horas en redes a diario"))
Los estatísticos obtenidos en el dato de horas de sueño promedio por día son los siguientes:
summary(datos_estudiantes$Horas_promedio_diarias_sueño)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 4.000 6.000 6.000 6.184 7.000 9.000
La desviación estándar es de:
sd(datos_estudiantes$Horas_promedio_diarias_sueño)
## [1] 0.9339597
La curtosis es de :
kurtosis(datos_estudiantes$Horas_promedio_diarias_sueño)
## [1] 3.934719
El sesgo es de:
skewness(datos_estudiantes$Horas_promedio_diarias_sueño)
## [1] 0.02259064
Los cuartiles son;
quantile(datos_estudiantes$Horas_promedio_diarias_sueño)
## 0% 25% 50% 75% 100%
## 4 6 6 7 9
La distribucion de los datos arroja el siguiente histograma:
polygon.freq(hist(datos_estudiantes$Horas_promedio_diarias_sueño,main="Histograma Horas promedio diarias de sueño"))
A partir de los datos recolectados se construyeron las siguientes gráficas:
plot(datos_estudiantes$Sexo, main="Distribucion por sexo")
plot(datos_estudiantes$Trabaja, main="Cuenta con trabajo?")
plot(datos_estudiantes$Computador_uso_exclusivo, main="Cuenta con computador propio?")
plot(datos_estudiantes$Despierta_mas_de_1vez_durante_noche, main="Despierta mas de una vez en la noche?")
datos_estudiantes_cunatitativos.cor = cor(datos_estudiantes_cunatitativos,method = "pearson")
datos_estudiantes_cunatitativos.cor
## Promedio materias Sueño Horas_estudio Horas_redes
## Promedio 1.00000000 0.03939995 -0.01502003 0.21293617 -0.15601761
## materias 0.03939995 1.00000000 -0.16686807 -0.06834766 0.03858551
## Sueño -0.01502003 -0.16686807 1.00000000 -0.04745061 0.02775945
## Horas_estudio 0.21293617 -0.06834766 -0.04745061 1.00000000 -0.03486996
## Horas_redes -0.15601761 0.03858551 0.02775945 -0.03486996 1.00000000
corrplot(datos_estudiantes_cunatitativos.cor)
ggplot(data=datos_estudiantes, aes(y = Promedio, x = Sexo)) +
geom_boxplot()
ggplot(data=datos_estudiantes, aes(y = Horas_promedio_diarias_estudio, x = Trabaja)) +
geom_boxplot()
ggplot(data=datos_estudiantes, aes(y = Materias_Promedio_x_Termino, x = Paralelo)) +
geom_boxplot()
ggplot(data=datos_estudiantes, aes(y = Horas_promedio_diarias_sueño, x = Despierta_mas_de_1vez_durante_noche)) +
geom_boxplot()
ggplot(data=datos_estudiantes, aes(y = Horas_promedio_diarias_en_redes, x = Sexo)) +
geom_boxplot()
Sabiendo que la media del promedio académico de la poblacion es de 7.75 se procederá a analizar si aquellos estudiantes que trabajan tienen un promedio menor a la media.
Se toma una muestra aleatoria de 15 estudiantes que trabajan y se define la siguiente prueba de hipotesis de una cola H0 = 7.75 y H1 < 7.75.
La muestra cuenta con una desviacion estandar de 0.392 y un promedio muestral de 7.61. Se puede afirmar con estos datos que los estudiantes que trabajan tienen menor promedio que la poblacion?
desv_muestral = sd(si_trabaja$Promedio)
prom_muestral = mean(si_trabaja$Promedio)
estadist_prueba = (prom_muestral-7.75)/(desv_muestral*sqrt(15))
## Estadistico de prueba
estadist_prueba
## [1] -0.09286196
estadist_comparacion = qt(0.05,df= 14,lower.tail = TRUE)
## Estadistico de comparacion
estadist_comparacion
## [1] -1.76131
Dado que el estadistico de prueba sale de la region de rechazo no se descarta la hipotesis H0 y se puede concluir que aquellos estudiantes que cuentan con trabajo tienen un promedio menor a la poblacion de estudiantes de estadistica
Dado que es imposible realizar una regresion lineal entre una variable cualitativa y cuantitativa se desarrollará este proceso con una regresion entre promedio de horas de estudio diario y promedio academico.
horas_estudio = c(datos_estudiantes$Horas_promedio_diarias_estudio)
promedio = c(datos_estudiantes$Promedio)
tabla_regresion = data.frame(horas_estudio,promedio)
modelo = lm(promedio ~ horas_estudio, data=tabla_regresion, na.action = na.exclude)
summary(modelo)
##
## Call:
## lm(formula = promedio ~ horas_estudio, data = tabla_regresion,
## na.action = na.exclude)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.81219 -0.23921 0.00442 0.17918 0.94651
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 7.50088 0.13997 53.591 <2e-16 ***
## horas_estudio 0.04226 0.02254 1.875 0.0648 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.3833 on 74 degrees of freedom
## Multiple R-squared: 0.04534, Adjusted R-squared: 0.03244
## F-statistic: 3.515 on 1 and 74 DF, p-value: 0.06477
## sqrt(0.04534)
Los datos mostrados en el analisis del modelo a generar muestran que el intercepto con el eje es de caracter significativo en el comportamiento de la variable promedio mientras que el B1 apenas cuenta con un 0.2129 de significancia, esto debido a que existen una combinacion de variables que describen el promedio.
Posterior a este analisis se procede a generar el modelo que describe graficamente el comportamiento de la variable promedio.
grafica1 = ggplot(tabla_regresion, aes(horas_estudio, promedio))
grafica1 + geom_point() + geom_smooth(method = "lm", colour = "Red")
## `geom_smooth()` using formula 'y ~ x'
Gracias al modelo de regresion lineal se obtiene la siguiente formula que describe el promedio en funcion de las horas de estudio “promedio = 7.50 + 0.042 * horas_estudio”.