##CARGAR BASE DE DATOS
data <- read.csv("StudentPerformanceFactors.csv", header = TRUE)
head(data)
## Hours_Studied Attendance Parental_Involvement Access_to_Resources
## 1 23 84 Low High
## 2 19 64 Low Medium
## 3 24 98 Medium Medium
## 4 29 89 Low Medium
## 5 19 92 Medium Medium
## 6 19 88 Medium Medium
## Extracurricular_Activities Sleep_Hours Previous_Scores Motivation_Level
## 1 No 7 73 Low
## 2 No 8 59 Low
## 3 Yes 7 91 Medium
## 4 Yes 8 98 Medium
## 5 Yes 6 65 Medium
## 6 Yes 8 89 Medium
## Internet_Access Tutoring_Sessions Family_Income Teacher_Quality School_Type
## 1 Yes 0 Low Medium Public
## 2 Yes 2 Medium Medium Public
## 3 Yes 2 Medium Medium Public
## 4 Yes 1 Medium Medium Public
## 5 Yes 3 Medium High Public
## 6 Yes 3 Medium Medium Public
## Peer_Influence Physical_Activity Learning_Disabilities
## 1 Positive 3 No
## 2 Negative 4 No
## 3 Neutral 4 No
## 4 Negative 4 No
## 5 Neutral 4 No
## 6 Positive 3 No
## Parental_Education_Level Distance_from_Home Gender Exam_Score
## 1 High School Near Male 67
## 2 College Moderate Female 61
## 3 Postgraduate Near Male 74
## 4 High School Moderate Male 71
## 5 College Near Female 70
## 6 Postgraduate Near Male 71
##SELECCIÓN DE VARIABLES Y DEFINICIÓN DE EVENTOS.
sub_datos <- data[, c("Motivation_Level", "Internet_Access")]
str(sub_datos)
## 'data.frame': 6607 obs. of 2 variables:
## $ Motivation_Level: chr "Low" "Low" "Medium" "Medium" ...
## $ Internet_Access : chr "Yes" "Yes" "Yes" "Yes" ...
A <- data$Motivation_Level == "High"
B <- data$Internet_Access == "Yes"
##PROBABILIDAD DEL COMPLEMENTO DE AL MENOS UNO DE LOS EVENTOS.
# Probabilidades individuales
p_A <- sum(data$Motivation_Level == "High") / nrow(data)
p_B <- sum(data$Internet_Access == "Yes") / nrow(data)
p_A ; p_B
## [1] 0.1996367
## [1] 0.924474
p_A_complemento <- 1 - p_A
p_B_complemento <- 1 - p_B
p_A_complemento ; p_B_complemento
## [1] 0.8003633
## [1] 0.07552596
#La probabilidad de que un estudiante elegido al azar no tenga un nivel de motivación alto es de 0.8003, lo que indica que alrededor del 80% de los estudiantes poseeen niveles de motivación medio o bajo.
##PROBABILIDAD DE LA UNIÓN DE DOS EVENTOS.
# Probabilidad de A y B (Intersección)
p_interseccion <- sum(data$Motivation_Level == "High" & data$Internet_Access == "Yes") / nrow(data)
# Probabilidad de la unión (A ∪ B)
p_union <- p_A + p_B - p_interseccion
#Mostrar resultado
p_union
## [1] 0.9383987
#La probabilidad de que un estudiante elegido al azar tenga al menos una de las dos condiciones, es decir, motivación alta, acceso a internet o ambas es de 0.9383, lo que indica que alrededor del 94% de los estudiantes poseen algunas de estas características.
##PROBABILIDAD DE LA INTERSECCIÓN
p_interseccion <- sum(data$Motivation_Level == "High" & data$Internet_Access == "Yes") / nrow(data)
#Mostrar resultado
p_interseccion
## [1] 0.1857121
#La probabilidad de que un estudiante elegido al azar tenga motivación alta y acceso a internet es de aproximadamente 0.186, lo que indica que el 18.6% una pequeña proporción de los estudiantes cuentas con ambas condiciones al mismo tiempo.
##PROBABILIDAD CONDICIONAL.
#Pregunta planteada.
#¿Cómo cambia la probabilidad de que un estudiante tenga alta motivación cuando se sabe que tiene acceso a Internet, en comparación con la probabilidad general de tener alta motivación?
p_A_dado_B <- p_interseccion / p_B
#Mostrar resultado
p_A; p_A_dado_B
## [1] 0.1996367
## [1] 0.2008841
#La probabilidad de que un estudiante elegido al azar tenga alta motivación en general es de 0.199 (19.9%). Sin embargo al conocer que el estudiante tiene acceso a internet, esta probabilidad aumenta a 0.2008 (20.1%), solo incrementa. Lo indica que el acceso a internet no influye de manera significativa en el nivel de motivación del estudiante.
##PROBABILIDAD TOTAL.
#La probabilidad de que un estudiante tenga alta motivación (A), considerando si tiene o no acceso a internet.
p_A_dado_p_B_complemento <- p_interseccion / p_B_complemento
p_A_total <- p_A_dado_B * p_B + p_A_dado_p_B_complemento * p_B_complemento
p_A_total
## [1] 0.3714242
#La probabilidad total de que un estudiante presente alta motivación es de 0.3714 (37.1%). Este valor indica que, considerando tanto el estudiante con y sin acceso a internet, este factor puede influir parcialmente, la motivación de los estudiantes depende también de otros factores, y no únicamente de la disponibilidad de este recurso.
##TEOREMA DE BAYES
p_B_dado_A <- p_interseccion / p_A
p_A_dado_B <- (p_B_dado_A * p_A) / p_B
p_A_dado_B
## [1] 0.2008841
#La probabilidad de que un estudiante tenga alta motivación, dado que tiene acceso a internet, es de aproximadamente 0.2008. Esto significa que, aunque la mayoría de los estudiantes cuentan con acceso a internet, solo alrededor del 20.1% de ellos presentan alta motivación. En otras palabras, el acceso a internet por sí solo no garantiza altos niveles de motivación.