Trabajo de campo-Entrega Final: 06

Grupo:06

Integrantes:

-Paredes Solis Emilio -Chuquispuma Huaracha Juan Jeanpierre

Población Objetivo:

-Los alumnos de la UTEC.

Variables de Interes:

  • 1.CICLO: Los diferentes ciclos universitarios a los cuales los alumnos pertenecen
  • 2.CARRERA: Las diferentes carreras a la cual los alumnos pertenecen
  • 3.A.D.ESTUDIAR: Ambiente en el cual los alumnos dedican estudiar
  • 4.A.D.TIEMPO: Ambiente en donde los estudiantes dedican mas de su tiempo para asuntos que no se relacionan con los estudios
  • 5.T.CLASE: Se considera la preferencia de los alumnos al momento de desarrolar una clase
  • 6.O.UTECI+: Se considera la opinion de los alumnos respecto al sistema de evaluacion Utec I+.
  • 7.E.C.ANTERIOR: Evaluaciones del ciclo anterior
  • 8.E.C.ACTUAL: Evaluaciones del ciclo actual en el cual se esta implementando el sistema de evaluacion Utec I+
  • 9.ESCALA: Escala socio-economica de los alumnos.
Datos1 <- read.csv('FINALDATOSGR-6-Factores-Influyentes-en-el-Rendimiento-Acad-mico-csv (2).csv',header=TRUE,sep=",")

Preguntas de Investigación:

  • DESCRIPTIVA

1.¿Cuál es la aceptación de la comunidad estudiantil respecto a la metodologia Utec I+?

Queremos saber el porque de la molestia que ciertos alumnos manifiestan acerca de que la metodologia utec i+,muchos de ellos culpan al sistema utec i+ del porque de sus notas estan bajando. Analizamos el siguente grafico:

list.of.packages <- c("ggplot2")
new.packages <- list.of.packages[!(list.of.packages %in% installed.packages()[,"Package"])]
if(length(new.packages)) install.packages(new.packages,repos = "http://cran.us.r-project.org")
library(ggplot2)

GGPLOT2 PARA GRÁFICAS LAS DIVERSAS TABLAS DE NUESTRA FUENTE DE INFORMACION,es necesario recordar que se necesita tener la libreria instalada para poder ejecutar los siguientes comandos

library(ggplot2)
ggplot(Datos1,aes(x =O.UTECI.)) + geom_bar()

de una comunidad de alumnos UTEC : #CON LAS GRÁFICAS SE HIZO ESTADISTICAMENTE EL PORCENTAJE DE CADA CARRERA EN ESTE ESTUDIO

tab.carreras <- as.data.frame(prop.table(table(Datos1$CARRERA))*100)
tab.carreras
##                         Var1       Freq
## 1              Bioingenieria  4.9180328
## 2 Ciencias de la computacion  1.6393443
## 3             Ing. Ambiental  0.8196721
## 4         Ing. de la Energia  6.5573770
## 5           Ing. Electronica  9.0163934
## 6            Ing. Industrial 37.7049180
## 7              Ing. Mecanica 22.9508197
## 8           Ing. Mecatronica  6.5573770
## 9               Ing. Quimica  9.8360656

Tenemos gráficas de las carreras en UTEC

colnames(tab.carreras) <- c("CARRERAS", "Porcentaje")
ggplot(tab.carreras, aes(x=CARRERAS, y=Porcentaje)) + geom_bar(stat="identity")

# FIN DE COMANDO

Como podemos ver, la mayor parte de los encuestados opinan que el sitema utec i+ se encuentra entre Regular y bien.Comon se puede observar la mayor parte de la comunidad estudiantil no rechasa el sistema utec i+.

Entonces el porque se debe de que ellos esten experimentando esta situacion: Analizemos la siguiente tabla:

ggplot(Datos1, aes(x =CICLO)) + geom_bar()

p10 <- ggplot(Datos1, aes(x = O.UTECI., y = CICLO)) +
        geom_boxplot()
p10

Podemos apreciar que la mayor participacion en nuestra encuesta es de alumnos del 1 y 3 ciclo, De lo cual nosotros deducimos a primera vista que los alumnos del ciclo 1 quienes son “recien ingresantes”, no les afecta a gran medida el cambio de metodologia, debido a que no han conocido o no estan a costumbrados a una metodologia que era ineficiente para el aprendizaje hasta el ciclo anterior.Analizando el Diagrama de caja podemos observar que es cierto debido a que los unicos que categorizaron “Bien” y “Excelente” han sido los alumnos del ciclo 1. Por otro lado existe una concentracion en las categorias “Mal” y “Muy mal” para los alumnos del 2 y 5 ciclo, esta tendencia tambien es similar para la categoria “Regular”.

Entonces nosotros podemos deducir que la metodologia Utec I+ no es perjudicial para los alumnos como se venia rumoreando por los pasillos de la Universidad, sino mas bien que afecto el cambio abrupto de metodologia a los alumnos de 2-5 ciclo en su mayoria debido a que, ellos estan a costumbrados a una metodologia en la cual solo era necesario aprobar un examen parcial y final para aprobar un curso, pero ahora el utec i+ descarta estas facilidades, por el contrario para aprobar el curso, deben de aprobar todos los ambitos calificativos del curso.

-PREGUNTA EXPLORATIVA:

¿Existe una relación socio-economica con la frecuencia en la permanencia del uso en mobiliario del campus de la universidad?

  • Variables: -Escalas Ecónomicas -Lugares de Estudio

Crearemos un nuevo data.frame:

launch2 <- read.csv("dataframe3 - Hoja 1.csv",header= TRUE,sep=",")
head(launch2)
##   LUGAR.STUDY ESCALA     CARRERA
## 1           1    414  Industrial
## 2           2    618     Energia
## 3           3    414  Industrial
## 4           4    618 Electronica
## 5           5    414 Mecatronica
## 6           4    618    Química
DFI1<-launch2


plot(jitter(DFI1$LUGAR.STUDY),jitter(DFI1$ESCALA)
     ,main="Diagrama de dispersión de Escala Educativa vs. Lugares frecuentes de estudio"
     ,xlab="Lugares de Estudio"
     ,ylab="Escalas Ecónomicas"
     ,col=DFI1$ESCALA)

HISTORIA: AULAS LIBRES: 1 PIZARRAS Y PUFF: 2 BIBLIOTECA: 3 CUBICULO:4

PISO1:5 PISO2:6 PISO 6:7

Escala A: S/. 875.00 Escala B: S/. 733.00 Escala C: S/. 618.00 Escala D: S/. 500.00 Escala E: S/. 414.00

La respuesta es sí,porque se puede observar en la gráfica una relación directa de las variables en las diversas categorías de escalas económicas con la permanencia del campus. Generalmente las personas de escala E suelen tener mayor dificultad de volver a sus casas ,por lo que tienen que permanecer en la universidad todo el día aprovechando al maximo del mobiliario de la universidad para poder estudiar y tener muy buenas calificaciones. En caso contrario de los estudiantes de escalas altas como la : A,B,C y D ,que suelen estar domiciliados muy cercanamente,y cuentas con mayores comodidades en la realización de sus estudios. Esta pregunta de obtiene luego de tener la abstracción de que al realizar el estudio se tenía en cuenta que los chicos de escalas altas suelen tener mayor éxito en la aprobación de sus cursos,,cuentan con las mejores notas en las diversas carreras,lo cual motivo explotar el factor del uso de los diversos lugares de estudio de cada categoría socio-economica,compararando cada una entre sí.

launch3 <- read.csv('Copia de FactoresDatos-1.1 - Factores Influyentes en el Rendimiento Académico  (1).csv')
names(launch3)
##  [1] "CICLO"        "CARRERA"      "A.D.ESTUDIAR" "A.D.TIEMPO"  
##  [5] "T.CLASE"      "O.UTECI."     "E.C.ANTERIOR" "E.C.ACTUAL"  
##  [9] "ESCALA"       "LUGAR.STUDY"

Con el comando pairs se busco encontrar alguna relacion con toda la data importada en el dataframe launch,para poder llegar a la siguiente hipotesis:

-Hipotesis: La metodología UTEC I+ presenta un rechazo por parte de la comunidad estudiantil debido al cambio subito de la metodología de enseñanza.

PREGUNTA INFERENCIAL:

-¿La enseñanza tradicional generaba mayor aprendizaje a los estudiantes que la actual metodología de enseñanza UTEC I+?

pairs(launch3) 

Habiendo analizado todas las gráficas generadas se opto por la relación de CICLO ACTUAL VS CICLO ANTERIOR,porque se puede apreciar una breve tendencia en la data. Además que permitirá culminar el presente estudio,ya que la primera pregunta se logró demostrar que existe una aceptación por parte de la población estudiantil de la universidad,pero aún existe una gran población que aún no puede adaptarse a la actual metodología. La presente pregunta busca demostrar si la actual hipotesis plateada es verdadero o no.

*Variables: -NOTAS CICLO ANTERIOR -NOTAS CICLO ACTUAL -CARRERAS -ESCALAS -OPINION UTEC I+

regresion <- lm(E.C.ANTERIOR~ E.C.ACTUAL, data = launch3)
summary(regresion)
## 
## Call:
## lm(formula = E.C.ANTERIOR ~ E.C.ACTUAL, data = launch3)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -2.4805 -0.4805  0.2748  0.5195  1.7643 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 32.20217    3.38154   9.523 2.36e-16 ***
## E.C.ACTUAL   0.24472    0.08015   3.053  0.00279 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.8175 on 120 degrees of freedom
## Multiple R-squared:  0.07209,    Adjusted R-squared:  0.06436 
## F-statistic: 9.323 on 1 and 120 DF,  p-value: 0.002788

Los parámetros de la ecuación de la recta de mínimos cuadrados que relaciona la cantidad de personas con las calificaciones del ciclo anterior en función de las calificaciones que obtienen en la actualidad en el presente ciclo .La columna ´Estimate´ de la tabla ´Coefficients´ de la salida anterior. Por lo tanto, en este ejemplo la ecuación de la recta de mínimos cuadrados es: \[ y = 32.20217 + 0.24472x \]

Se representan en una nube de puntos (comando plot) y añaden la representación gráfica de la recta de mínimos cuadrados (comando abline aplicado al objeto generado por lm):

plot(launch3$E.C.ANTERIOR, launch3$E.C.ACTUAL, xlab = "ciclo actual", ylab = "ciclo anterior")
abline(regresion)

-Hay una breve tendencia de crecimiento a la excelencia,obtenida en la comparación de las variables de las notas del ciclo anterior y ciclo actual

Inferencia en el modelo de regresión simple

Suponemos ahora que los datos proceden de un modelo de regresión simple de la forma: \[ y_i = \beta_0 + \beta_1 x_i + \epsilon_i, \ \ \ \ i=1,\ldots,n, \] donde los errores aleatorios ( _i ) son independientes con distribución normal de media 0 y varianza ( ^2 ).

Bajo este modelo,

Los errores típicos de los estimadores de los parámetros ( _0 ) y ( _1 ) se encuentran en la columna Std Error de la salida anterior. En el ejemplo, sus valores son 3.38154 y 0.08015 respectivamente.

La columna t value contiene el estadístico t, es decir, cociente entre cada estimador y su error típico. Estos cocientes son la base para llevar a cabo los contrastes ( H_0:, _0 = 0 ) y ( H_0:, _1 = 0 ) . Los correspondientes p-valores aparecen en la columna Pr(>|t|). En este caso son muy pequeños por lo que se rechazan ambas hipótesis para los niveles de significación y se reconsideraría un analisis mucho más profundo con la data obtenida.

El estimador de la desviación típica de los errores ( ) aparece como Residual standard error y su valor en el ejemplo es 0.8175.

Los intervalos de confianza para los parámetros se obtienen con el comando confint. El parámetro level permite elegir el nivel de confianza (por defecto es 0.95):

confint(regresion)
##                   2.5 %     97.5 %
## (Intercept) 25.50696478 38.8973844
## E.C.ACTUAL   0.08603085  0.4034113
confint(regresion, level = 0.9)
##                    5 %       95 %
## (Intercept) 26.5967652 37.8075840
## E.C.ACTUAL   0.1118614  0.3775808

Los intervalos de confianza para la respuesta media y los intervalos de predicción para la respuesta se pueden obtener usando el comando predict. El siguiente código calcula y representa los dos tipos de intervalos para el rango de notas que va de excelente a muy mal(44-40) en todo nuestro muestreo (los de predicción en rojo):

nuevos.valores <- data.frame(E.C.ACTUAL = seq(40, 44))
# Grafico de dispersion y recta
plot(launch3$E.C.ACTUAL, launch3$E.C.ANTERIOR, xlab = "ESTUDIOS CICLO ACTUAL", ylab = "ESTUDIOS CICLO ANTERIOR")
abline(regresion)

# Intervalos de confianza de la respuesta media: ic es una matriz con tres
# columnas: la primera es la prediccion, las otras dos son los extremos
# del intervalo
ic <- predict(regresion, nuevos.valores, interval = "confidence")
lines(nuevos.valores$E.C.ACTUAL, ic[, 2], lty = 2)
lines(nuevos.valores$E.C.ACTUAL, ic[, 3], lty = 2)

# Intervalos de prediccion
ic <- predict(regresion, nuevos.valores, interval = "prediction")
lines(nuevos.valores$E.C.ACTUAL, ic[, 2], lty = 2, col = "red")
lines(nuevos.valores$E.C.ACTUAL, ic[, 3], lty = 2, col = "red")

La tabla de análisis de la varianza de los errores se obtiene con el comando anova:

anova(regresion)
## Analysis of Variance Table
## 
## Response: E.C.ANTERIOR
##             Df Sum Sq Mean Sq F value   Pr(>F)   
## E.C.ACTUAL   1  6.230  6.2304  9.3227 0.002788 **
## Residuals  120 80.196  0.6683                    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

ANALISIS DEL MODELO Los residuos estandarizados se obtienen con rstandard. El siguiente código tiene una representación de los residuos estandarizados frente a los valores ajustados, que resulta útil al llevar a cabo el diagnóstico del modelo:

residuos <- rstandard(regresion)
valores.ajustados <- fitted(regresion)
plot(valores.ajustados, residuos)

y apartir de aquí se puede obtener la naturaleza verdadera de nuestra distribución:

qqnorm(residuos, main="Gráfica 02.3.: Gráfico Cuantil-Cuantil (Normal Q-Q Plot")
qqline(residuos, col = "red")

La cual se aprecia una gráfica binomial en el Q-Q plot,pero se demostrará con mucha mayor precisión con el siguiente comando.

Para calcular el valor de p,se usó la libreria nortest ,que brinda la facilidad de su obtencion para el presente analisis

list.of.packages <- c("nortest")
new.packages <- list.of.packages[!(list.of.packages %in% installed.packages()[,"Package"])]
if(length(new.packages)) install.packages(new.packages,repos = "http://cran.us.r-project.org")
library(nortest)
library(nortest)
ad.test(residuos)
## 
##  Anderson-Darling normality test
## 
## data:  residuos
## A = 2.1222, p-value = 2.012e-05

Obteniendose un valor de p : 2.012e-05 ,la cual es una probabilidad muy baja de obtener exito la hipotesis inicial. En consecuencia,se puede observar que la comunidad estudiantil se ha adaptado exitosamente al cambio. Como conclusion final se podría decir que la diferencia a la probabilidad 1-(p),obtieniendose por medio del manejo de la data de la comunidad estudiantil UTEC que la actual metodología de enseñanza,a pesar de haber iniciado con un ingreso algo disruptivo,y rápido. Se han adaptado y aceptado el sistema actual de enseñanza. Los factores externos también se pudo resaltar que tiene un factor deteminante en nuestro estudio y notas,tratados en las preguntas exploratorias y descriptivas. Por lo cual se demuestra que la actual metodología es un acierto muy grande que ha tenido la universidad,crear una enseñanza diferente,pero tomar en cuenta las diferentes consideraciones tomadas en las variables en este presente estudio.