Variables cualitativas seleccionadas:

Variables cunatitativas seleccionadas;

Estadística descriptiva univariante

Variables cuantitativas

Promedio académico

Los estatísticos obtenidos en el dato de promedio académico son los siguientes:

summary(datos_estudiantes$Promedio)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   6.900   7.487   7.710   7.750   7.933   8.870

La desviación estándar es de:

sd(datos_estudiantes$Materias_Promedio_x_Termino)
## [1] 0.4863036

La curtosis es de :

kurtosis(datos_estudiantes$Materias_Promedio_x_Termino)
## [1] 2.810635

El sesgo es de:

skewness(datos_estudiantes$Materias_Promedio_x_Termino)
## [1] -0.512083

Los cuartiles son;

quantile(datos_estudiantes$Materias_Promedio_x_Termino)
##   0%  25%  50%  75% 100% 
##    4    4    5    5    6

La distribucion de los datos arroja el siguiente histograma:

polygon.freq(hist(datos_estudiantes$Promedio,main="Histograma de Promedio académico"))

Horas promedio de estudio diario

Los estatísticos obtenidos en el dato de horas de estudio diario son los siguientes:

summary(datos_estudiantes$Horas_promedio_diarias_estudio)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   2.000   5.000   5.000   5.895   7.000  12.000

La desviación estándar es de:

sd(datos_estudiantes$Horas_promedio_diarias_estudio)
## [1] 1.963527

La curtosis es de :

kurtosis(datos_estudiantes$Horas_promedio_diarias_estudio)
## [1] 3.497466

El sesgo es de:

skewness(datos_estudiantes$Horas_promedio_diarias_estudio)
## [1] 0.9137976

Los cuartiles son;

quantile(datos_estudiantes$Horas_promedio_diarias_estudio)
##   0%  25%  50%  75% 100% 
##    2    5    5    7   12

La distribucion de los datos arroja el siguiente histograma:

polygon.freq(hist(datos_estudiantes$Horas_promedio_diarias_estudio,main="Histograma Horas promedio de estudio"))

Cantidad de materias promedio por término

Los estatísticos obtenidos en el dato de horas de estudio diario son los siguientes:

summary(datos_estudiantes$Materias_Promedio_x_Termino)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   4.000   4.000   5.000   4.763   5.000   6.000

La desviación estándar es de:

sd(datos_estudiantes$Materias_Promedio_x_Termino)
## [1] 0.4863036

La curtosis es de :

kurtosis(datos_estudiantes$Materias_Promedio_x_Termino)
## [1] 2.810635

El sesgo es de:

skewness(datos_estudiantes$Materias_Promedio_x_Termino)
## [1] -0.512083

Los cuartiles son;

quantile(datos_estudiantes$Materias_Promedio_x_Termino)
##   0%  25%  50%  75% 100% 
##    4    4    5    5    6

La distribucion de los datos arroja el siguiente histograma:

polygon.freq(hist(datos_estudiantes$Materias_Promedio_x_Termino,main="Histograma Cantidad promedio de materias por término"))

Horas promedio en redes a diario

Los estatísticos obtenidos en el dato de promedio de horas en redes a diario son los siguientes:

summary(datos_estudiantes$Horas_promedio_diarias_en_redes)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   2.000   3.000   3.151   4.000   6.000

La desviación estándar es de:

sd(datos_estudiantes$Horas_promedio_diarias_en_redes)
## [1] 1.224799

La curtosis es de :

kurtosis(datos_estudiantes$Horas_promedio_diarias_en_redes)
## [1] 2.718123

El sesgo es de:

skewness(datos_estudiantes$Horas_promedio_diarias_en_redes)
## [1] -0.2553968

Los cuartiles son;

quantile(datos_estudiantes$Horas_promedio_diarias_en_redes)
##   0%  25%  50%  75% 100% 
##    0    2    3    4    6

La distribucion de los datos arroja el siguiente histograma:

polygon.freq(hist(datos_estudiantes$Horas_promedio_diarias_en_redes,main="Histograma Cantidad promedio de horas en redes a diario"))

Número de horas promedio de sueño por día

Los estatísticos obtenidos en el dato de horas de sueño promedio por día son los siguientes:

summary(datos_estudiantes$Horas_promedio_diarias_sueño)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   4.000   6.000   6.000   6.184   7.000   9.000

La desviación estándar es de:

sd(datos_estudiantes$Horas_promedio_diarias_sueño)
## [1] 0.9339597

La curtosis es de :

kurtosis(datos_estudiantes$Horas_promedio_diarias_sueño)
## [1] 3.934719

El sesgo es de:

skewness(datos_estudiantes$Horas_promedio_diarias_sueño)
## [1] 0.02259064

Los cuartiles son;

quantile(datos_estudiantes$Horas_promedio_diarias_sueño)
##   0%  25%  50%  75% 100% 
##    4    6    6    7    9

La distribucion de los datos arroja el siguiente histograma:

polygon.freq(hist(datos_estudiantes$Horas_promedio_diarias_sueño,main="Histograma Horas promedio diarias de sueño"))

Variables cualitativas

A partir de los datos recolectados se construyeron las siguientes gráficas:

plot(datos_estudiantes$Sexo, main="Distribucion por sexo")

plot(datos_estudiantes$Trabaja, main="Cuenta con trabajo?")

plot(datos_estudiantes$Computador_uso_exclusivo, main="Cuenta con computador propio?")

plot(datos_estudiantes$Despierta_mas_de_1vez_durante_noche, main="Despierta mas de una vez en la noche?")

Estadística descriptiva bivariante o multivariante

Matriz de correlacion para variables cuantitativas

datos_estudiantes_cunatitativos.cor = cor(datos_estudiantes_cunatitativos,method = "pearson")
datos_estudiantes_cunatitativos.cor
##                  Promedio    materias       Sueño Horas_estudio Horas_redes
## Promedio       1.00000000  0.03939995 -0.01502003    0.21293617 -0.15601761
## materias       0.03939995  1.00000000 -0.16686807   -0.06834766  0.03858551
## Sueño         -0.01502003 -0.16686807  1.00000000   -0.04745061  0.02775945
## Horas_estudio  0.21293617 -0.06834766 -0.04745061    1.00000000 -0.03486996
## Horas_redes   -0.15601761  0.03858551  0.02775945   -0.03486996  1.00000000
corrplot(datos_estudiantes_cunatitativos.cor)

Segmentacion de variables cuantitativas

ggplot(data=datos_estudiantes, aes(y = Promedio, x = Sexo)) +
    geom_boxplot()

ggplot(data=datos_estudiantes, aes(y = Horas_promedio_diarias_estudio, x = Trabaja)) +
    geom_boxplot()

ggplot(data=datos_estudiantes, aes(y = Materias_Promedio_x_Termino, x = Paralelo)) +
    geom_boxplot()

ggplot(data=datos_estudiantes, aes(y = Horas_promedio_diarias_sueño, x = Despierta_mas_de_1vez_durante_noche)) +
    geom_boxplot()

ggplot(data=datos_estudiantes, aes(y = Horas_promedio_diarias_en_redes, x = Sexo)) +
    geom_boxplot()

Prueba de hipótesis

Sabiendo que la media del promedio académico de la poblacion es de 7.75 se procederá a analizar si aquellos estudiantes que trabajan tienen un promedio menor a la media.

Se toma una muestra aleatoria de 15 estudiantes que trabajan y se define la siguiente prueba de hipotesis de una cola H0 = 7.75 y H1 < 7.75.

La muestra cuenta con una desviacion estandar de 0.392 y un promedio muestral de 7.61. Se puede afirmar con estos datos que los estudiantes que trabajan tienen menor promedio que la poblacion?

desv_muestral = sd(si_trabaja$Promedio)
prom_muestral = mean(si_trabaja$Promedio)
estadist_prueba = (prom_muestral-7.75)/(desv_muestral*sqrt(15))
## Estadistico de prueba 
estadist_prueba
## [1] -0.09286196
estadist_comparacion = qt(0.05,df= 14,lower.tail = TRUE)
## Estadistico de comparacion
estadist_comparacion
## [1] -1.76131

Dado que el estadistico de prueba sale de la region de rechazo no se descarta la hipotesis H0 y se puede concluir que aquellos estudiantes que cuentan con trabajo tienen un promedio menor a la poblacion de estudiantes de estadistica

Modelo de regresion lineal

Dado que es imposible realizar una regresion lineal entre una variable cualitativa y cuantitativa se desarrollará este proceso con una regresion entre promedio de horas de estudio diario y promedio academico.

horas_estudio = c(datos_estudiantes$Horas_promedio_diarias_estudio)
promedio = c(datos_estudiantes$Promedio)
tabla_regresion = data.frame(horas_estudio,promedio)
modelo = lm(promedio ~ horas_estudio, data=tabla_regresion, na.action = na.exclude)
summary(modelo)
## 
## Call:
## lm(formula = promedio ~ horas_estudio, data = tabla_regresion, 
##     na.action = na.exclude)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.81219 -0.23921  0.00442  0.17918  0.94651 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    7.50088    0.13997  53.591   <2e-16 ***
## horas_estudio  0.04226    0.02254   1.875   0.0648 .  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.3833 on 74 degrees of freedom
## Multiple R-squared:  0.04534,    Adjusted R-squared:  0.03244 
## F-statistic: 3.515 on 1 and 74 DF,  p-value: 0.06477
## sqrt(0.04534)

Los datos mostrados en el analisis del modelo a generar muestran que el intercepto con el eje es de caracter significativo en el comportamiento de la variable promedio mientras que el B1 apenas cuenta con un 0.2129 de significancia, esto debido a que existen una combinacion de variables que describen el promedio.

Posterior a este analisis se procede a generar el modelo que describe graficamente el comportamiento de la variable promedio.

grafica1 = ggplot(tabla_regresion, aes(horas_estudio, promedio))

grafica1 + geom_point() + geom_smooth(method = "lm", colour = "Red")
## `geom_smooth()` using formula 'y ~ x'

Gracias al modelo de regresion lineal se obtiene la siguiente formula que describe el promedio en funcion de las horas de estudio “promedio = 7.50 + 0.042 * horas_estudio”.