##CARGAR BASE DE DATOS 

data <- read.csv("StudentPerformanceFactors.csv", header = TRUE)
head(data)
##   Hours_Studied Attendance Parental_Involvement Access_to_Resources
## 1            23         84                  Low                High
## 2            19         64                  Low              Medium
## 3            24         98               Medium              Medium
## 4            29         89                  Low              Medium
## 5            19         92               Medium              Medium
## 6            19         88               Medium              Medium
##   Extracurricular_Activities Sleep_Hours Previous_Scores Motivation_Level
## 1                         No           7              73              Low
## 2                         No           8              59              Low
## 3                        Yes           7              91           Medium
## 4                        Yes           8              98           Medium
## 5                        Yes           6              65           Medium
## 6                        Yes           8              89           Medium
##   Internet_Access Tutoring_Sessions Family_Income Teacher_Quality School_Type
## 1             Yes                 0           Low          Medium      Public
## 2             Yes                 2        Medium          Medium      Public
## 3             Yes                 2        Medium          Medium      Public
## 4             Yes                 1        Medium          Medium      Public
## 5             Yes                 3        Medium            High      Public
## 6             Yes                 3        Medium          Medium      Public
##   Peer_Influence Physical_Activity Learning_Disabilities
## 1       Positive                 3                    No
## 2       Negative                 4                    No
## 3        Neutral                 4                    No
## 4       Negative                 4                    No
## 5        Neutral                 4                    No
## 6       Positive                 3                    No
##   Parental_Education_Level Distance_from_Home Gender Exam_Score
## 1              High School               Near   Male         67
## 2                  College           Moderate Female         61
## 3             Postgraduate               Near   Male         74
## 4              High School           Moderate   Male         71
## 5                  College               Near Female         70
## 6             Postgraduate               Near   Male         71
##SELECCIÓN DE VARIABLES Y DEFINICIÓN DE EVENTOS.

sub_datos <- data[, c("Motivation_Level", "Internet_Access")]
str(sub_datos)
## 'data.frame':    6607 obs. of  2 variables:
##  $ Motivation_Level: chr  "Low" "Low" "Medium" "Medium" ...
##  $ Internet_Access : chr  "Yes" "Yes" "Yes" "Yes" ...
A <- data$Motivation_Level == "High"
B <- data$Internet_Access == "Yes"
##PROBABILIDAD DEL COMPLEMENTO DE AL MENOS UNO DE LOS EVENTOS.

# Probabilidades individuales
p_A <- sum(data$Motivation_Level == "High") / nrow(data)
p_B <- sum(data$Internet_Access == "Yes") / nrow(data)
p_A ; p_B
## [1] 0.1996367
## [1] 0.924474
p_A_complemento <- 1 - p_A
p_B_complemento <- 1 - p_B
p_A_complemento ; p_B_complemento
## [1] 0.8003633
## [1] 0.07552596
#La probabilidad de que un estudiante elegido al azar no tenga un nivel de motivación alto es de 0.8003, lo que indica que alrededor del 80% de los estudiantes poseeen niveles de motivación medio o bajo. 
##PROBABILIDAD DE LA UNIÓN DE DOS EVENTOS. 

# Probabilidad de A y B (Intersección)
p_interseccion <- sum(data$Motivation_Level == "High" & data$Internet_Access == "Yes") / nrow(data)

# Probabilidad de la unión (A ∪ B)
p_union <- p_A + p_B - p_interseccion
#Mostrar resultado
p_union
## [1] 0.9383987
#La probabilidad de que un estudiante elegido al azar tenga al menos una de las dos condiciones, es decir, motivación alta, acceso a internet o ambas es de 0.9383, lo que indica que alrededor del 94% de los estudiantes poseen algunas de estas características.
##PROBABILIDAD DE LA INTERSECCIÓN
p_interseccion <- sum(data$Motivation_Level == "High" & data$Internet_Access == "Yes") / nrow(data)
#Mostrar resultado
p_interseccion
## [1] 0.1857121
#La probabilidad de que un estudiante elegido al azar tenga motivación alta y acceso a internet es de aproximadamente 0.186, lo que indica que el 18.6% una pequeña proporción de los estudiantes cuentas con ambas condiciones al mismo tiempo.
##PROBABILIDAD CONDICIONAL.
#Pregunta planteada.
#¿Cómo cambia la probabilidad de que un estudiante tenga alta motivación cuando se sabe que tiene acceso a Internet, en comparación con la probabilidad general de tener alta motivación?
p_A_dado_B <- p_interseccion / p_B
#Mostrar resultado
p_A; p_A_dado_B
## [1] 0.1996367
## [1] 0.2008841
#La probabilidad de que un estudiante elegido al azar tenga alta motivación en general es de 0.199 (19.9%). Sin embargo al conocer que el estudiante tiene acceso a internet, esta probabilidad aumenta a 0.2008 (20.1%), solo incrementa. Lo indica que el acceso a internet no influye de manera significativa en el nivel de motivación del estudiante. 
##PROBABILIDAD TOTAL.
#La probabilidad de que un estudiante tenga alta motivación (A), considerando si tiene o no acceso a internet.
p_A_dado_p_B_complemento <- p_interseccion / p_B_complemento
p_A_total <- p_A_dado_B * p_B + p_A_dado_p_B_complemento * p_B_complemento
p_A_total
## [1] 0.3714242
#La probabilidad total de que un estudiante presente alta motivación es de 0.3714 (37.1%). Este valor indica que, considerando tanto el estudiante con y sin acceso a internet, este factor puede influir parcialmente, la motivación de los estudiantes depende también de otros factores, y no únicamente de la disponibilidad de este recurso.
##TEOREMA DE BAYES
p_B_dado_A <- p_interseccion / p_A
p_A_dado_B <- (p_B_dado_A * p_A) / p_B
p_A_dado_B
## [1] 0.2008841
#La probabilidad de que un estudiante tenga alta motivación, dado que tiene acceso a internet, es de aproximadamente 0.2008. Esto significa que, aunque la mayoría de los estudiantes cuentan con acceso a internet, solo alrededor del 20.1% de ellos presentan alta motivación. En otras palabras, el acceso a internet por sí solo no garantiza altos niveles de motivación.