Utilizaremos un dataset que contiene las notas de los examens parciales del curso de matematicas impartido desde 2011 hasta 2016.

Intentaremos utilizar las tecnicas de clustering para identificar si existe alguna relación interesante en el dataset, posteriormente constuiremos dos modelos paara tratar de predecir la nota final de un alumno a partir de sus notas de examenes parcales, el año en el que recibío el curso y la variable de clustering que encontremos.

Cargamos librerias y dataset

library(readr)
library(caret)
Loading required package: lattice
Loading required package: ggplot2
library(tidyverse)
Loading tidyverse: tibble
Loading tidyverse: tidyr
Loading tidyverse: purrr
Loading tidyverse: dplyr
Conflicts with tidy packages ------------------------------------------
filter(): dplyr, stats
lag():    dplyr, stats
lift():   purrr, caret
dataset<-read.csv("Research2filePreng.csv")

1) Limpiez y acondicionamiento del dataset:

dataset.new<-dataset%>%
  #Eliminamos observaciones faltantes 
  filter(GESID01 != "NA") %>% 
  
  #Eliminamos columnas con    informacion de lis alumnos.
  select(-Estudiante09, -Carnet08, -GESID01) 
#Eliminamos observaciones restantes que contentan NA
dataset.new<-na.omit(dataset.new)
dataset.new
dim(dataset.new)
[1] 1739   11
colnames(dataset.new)
 [1] "Curso02"          "Seccion03"        "Carrera04"       
 [4] "Facultad05"       "Fecha06"          "Ciclo07"         
 [7] "Genero10"         "PrimerParcial11"  "SegundoParcial13"
[10] "ExamenFinal15"    "NotaFinal17"     

2) Creación de Datasets: Training y Test

#Mexclamos los datos para formar dos data sets: entrenamiento y prueba.
index<-1:nrow(dataset.new)
shuff_index<-sample(index)
dataset.new<-dataset.new[shuff_index,] #Data Frame desordenado.
#Generamos datos para entrenamiento y pruebas
#subdataset de entrenamiento.
train_dataset<-dataset.new[1:(0.7*nrow(dataset.new)),] 
#subdataset de prueba.
test_dataset<-dataset.new[(0.7*nrow(dataset.new)+1): nrow(dataset.new),]
dim(train_dataset)
[1] 1217   11

3) Custering

Ahora buscaremos la cantidad optima de clusters para clasificar a partir de las notas obtenidas por los alumnos:

wss <- 0
# Iteramos de 1 a 15 clusters
for (i in 1:15) {
  km.out <- kmeans(train_dataset[8:11], centers = i
                   , nstart=20, iter.max = 50)
  # Save total within sum of squares to wss variable
  wss[i] <- km.out$tot.withinss
}
#Graficamos
plot(1:15, wss, type = "b", 
     xlab = "Numero de Clusters", 
     ylab = "Suma de cuadrados entre grupos",main = "Scree Plot para el dataset de cancer de mamas", col="blue", lwd=2)
points(3,wss[3],col = "red",pch = 16)

#Creamos Dos Clusters ya que es el optimo.
km.out <- kmeans(train_dataset[8:11], centers = 3, nstart=20, iter.max = 50)

Plots de Notas de Exámenes vrs Nota Final

#Plot primer parcial y Nota Final
plot(train_dataset$PrimerParcial11, train_dataset$NotaFinal17, col=km.out$cluster, pch=19, xlab="Primer Parcial", ylab="Nota Final")

#Plot Segundo parial y Nota Final
plot(train_dataset$SegundoParcial13, train_dataset$NotaFinal17, col=km.out$cluster, pch=19, xlab="Segundo Parcial", ylab="Nota Final")

#Plot Nota Examen Final y Nota Final
plot(train_dataset$ExamenFinal15, train_dataset$NotaFinal17, col=km.out$cluster, pch=19, xlab="Examen Final", ylab="Nota Final")

Plots de relación entre Parciales y Examen Final

#Plot Nota Primer Parcial y Segundo Parcial
plot(train_dataset$PrimerParcial11, train_dataset$SegundoParcial13, col=km.out$cluster, pch=19, xlab="Primer Parcial", ylab="Segundo Parcial")

#Plot Nota Primer Parcial y Examen Final
plot(train_dataset$PrimerParcial11, train_dataset$ExamenFinal15, col=km.out$cluster, pch=19, xlab="Primer Parcial", ylab="Examen Final")

#Plot Nota Segundo Parcial y Examen Final
plot(train_dataset$SegundoParcial13, train_dataset$ExamenFinal15, col=km.out$cluster, pch=19, xlab="Segundo Parcial", ylab="Examen Final")

A partir de la información anterior podemos deducir que existe una estrecha realación con los alumnos que les va bien en los examens y terminan bien durante el curso.

Es decir que si a un alumno le va bien en el primer examen parcial, es muy probabable que le vaa bien en un examen su examen final y como consecuencia, bien durante todo el curso.

A partir del análisis de clusters hay un par de observaciones interesantes:

  • Aparentemente existe una relación positiva entre las notas cada examen y la nota final del curso.

  • El algortmo de clustering encontro tres clusters distintos que aparentemente están relacionados con el desempeño del alumno, podríamos decir que los clusters se refieren a la categoría del estudiante.

  • A partir de los clusters formados no existe una relación directa con alguna de las variables que conforman el dataset. Sin embargo podemos definir 3 categoría dentro de los estudiantes que inician en primer año.

  • Existen algunos puntos atipicos, que rerpesentan alumnos que iniciaron mal durante el curso, pero terminaron bien.

  • Existen varios puntos que se encuentran mezclados entre los clusters que representan una característica de cada uno de los estudiantes.

4) Modelo de Regresión.

A continuación mostraremos un modelo para predecir la nota final de un alumno dependiendo de 5 variables:

  • Nota del Primer Parcial.
  • Nota del Segundo Parcial.
  • Nota del Examen Final.
  • Carrera.
  • Genero.

Modelo de Regresión Lineal

#Modelo de regresión lineal
lm.fit1<-lm(NotaFinal17 ~ PrimerParcial11 + 
              SegundoParcial13 + ExamenFinal15 
            + Carrera04 + Genero10,
            data=train_dataset)
summary(lm.fit1)

Call:
lm(formula = NotaFinal17 ~ PrimerParcial11 + SegundoParcial13 + 
    ExamenFinal15 + Carrera04 + Genero10, data = train_dataset)

Residuals:
    Min      1Q  Median      3Q     Max 
-27.883  -5.035  -0.114   4.495  48.918 

Coefficients:
                  Estimate Std. Error t value Pr(>|t|)    
(Intercept)      10.340995   1.091440   9.475  < 2e-16 ***
PrimerParcial11   0.179333   0.009484  18.909  < 2e-16 ***
SegundoParcial13  0.303629   0.011250  26.988  < 2e-16 ***
ExamenFinal15     0.420446   0.009728  43.219  < 2e-16 ***
Carrera04IE      -2.769050   1.122315  -2.467  0.01375 *  
Carrera04II      -1.623830   0.764089  -2.125  0.03377 *  
Carrera04IME     -2.707497   0.885593  -3.057  0.00228 ** 
Carrera04ISE     -4.176924   1.297043  -3.220  0.00131 ** 
Carrera04ITR     -2.104896   0.959055  -2.195  0.02837 *  
Carrera04IU      -1.422686   0.734395  -1.937  0.05295 .  
Genero10          1.527838   0.637917   2.395  0.01677 *  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 7.663 on 1206 degrees of freedom
Multiple R-squared:  0.9254,    Adjusted R-squared:  0.9247 
F-statistic:  1495 on 10 and 1206 DF,  p-value: < 2.2e-16

A partir de la información anterior todas las variables seleccionadas son estadisticamente significativas y el modelo como tal es significativo.

Ahora construirmemos una tabla que nos permita hacer comparaciones de los valores Observados y Predichos.

#Predicción del prueba con modelo lineal
lm.pred1<-predict(lm.fit1, newdata=test_dataset)
#Tabla de salida para comparación.
Table1<-data.frame(test_dataset$NotaFinal17, round(lm.pred1, 0))
colnames(Table1)<-c("Observado", "Prediccion")
#Eliminamos el Nombre de la columan
row.names(Table1)<-NULL 
#Mostramos Tabla
Table1
save(lm.fit1, "nota_model.rda")
Error in save(lm.fit1, "nota_model.rda") : 
  object ‘nota_model.rda’ not found

#Prueba de Predicción para Shiny app
datatest<-data.frame(
      PrimerParcial11=57,
      SegundoParcial13=87,
      ExamenFinal15=60,
      Carrera04="IME",
      Genero10=2
    )
salida<-predict(lm.fit1, newdata=datatest)
salida
