Determinar probabilidades

Cargar librerías

library(readr)
library(dplyr)
library(fdth)

Cargar datos

alumnos <- read_csv("~/Mis clases ITD/Semestre Enero Junio 2020/Probabilidad y Estatistica/datos/alumnos.genero.lentes.deporte.musica ver 2.0.csv")
alumnos <- data.frame(alumnos) # Asegurarnos que es un df
alumnos
##    obs mujer hombre lentes deporte musica
## 1    1    Si     No     Si      Si     Si
## 2    2    Si     No     Si      Si     Si
## 3    3    Si     No     Si      No     Si
## 4    4    Si     No     Si      No     Si
## 5    5    Si     No     No      Si     Si
## 6    6    Si     No     No      Si     Si
## 7    7    Si     No     No      No     No
## 8    8    Si     No     No      No     Si
## 9    9    Si     No     No      No     Si
## 10  10    Si     No     No      No     Si
## 11  11    Si     No     No      Si     Si
## 12  12    No     Si     No      Si     Si
## 13  13    No     Si     Si      Si     Si
## 14  14    No     Si     Si      Si     No
## 15  15    No     Si     Si      No     Si
## 16  16    No     Si     Si      No     Si
## 17  17    No     Si     No      No     Si
## 18  18    No     Si     No      Si     Si
## 19  19    No     Si     No      Si     Si
## 20  20    No     Si     No      Si     No
## 21  21    No     Si     No      No     Si
## 22  22    No     Si     No      No     No
## 23  23    No     Si     No      No     Si
## 24  24    No     Si     No      No     No
## 25  25    No     Si     No      No     Si
## 26  26    No     Si     No      Si     Si
## 27  27    No     Si     No      Si     No
## 28  28    No     Si     No      Si     Si
## 29  29    No     Si     No      Si     Si
## 30  30    No     Si     No      Si     Si
## 31  31    No     Si     No      Si     No
## 32  32    No     Si     No      No     Si
## 33  33    No     Si     No      No     No
## 34  34    Si     No     Si      No     Si
## 35  35    No     Si     Si      Si     No
## 36  36    No     Si     No      No     Si
## 37  36    No     Si     Si      No     Si
## 38  38    Si     No     Si      No     Si
## 39  39    No     Si     No      Si     No
## 40  40    No     Si     No      Si     Si
## 41  41    Si     No     Si      No     Si
n <- nrow(alumnos) # Número de observaciones o registros

Depurar datos

alumnos$mujer <- as.factor(alumnos$mujer)
alumnos$hombre <- as.factor(alumnos$hombre)
alumnos$lentes <- as.factor(alumnos$lentes)
alumnos$deporte <- as.factor(alumnos$deporte)
alumnos$musica <- as.factor(alumnos$musica)

Limpiar los datos

# Ya vienen homogéneos, consistentes, ... limpios

Explorar datos

summary(alumnos)
##       obs        mujer   hombre  lentes  deporte musica 
##  Min.   : 1.00   No:27   No:14   No:28   No:21   No:10  
##  1st Qu.:11.00   Si:14   Si:27   Si:13   Si:20   Si:31  
##  Median :21.00                                          
##  Mean   :20.98                                          
##  3rd Qu.:31.00                                          
##  Max.   :41.00

Determinar frecuencias de cada variable

tablaFrecuencia.mujer <- fdt_cat(alumnos$mujer)
tablaFrecuencia.mujer
##  Category  f   rf rf(%) cf  cf(%)
##        No 27 0.66 65.85 27  65.85
##        Si 14 0.34 34.15 41 100.00
tablaFrecuencia.hombre <- fdt_cat(alumnos$hombre)
tablaFrecuencia.hombre
##  Category  f   rf rf(%) cf  cf(%)
##        Si 27 0.66 65.85 27  65.85
##        No 14 0.34 34.15 41 100.00
tablaFrecuencia.lentes <- fdt_cat(alumnos$lentes)
tablaFrecuencia.lentes
##  Category  f   rf rf(%) cf  cf(%)
##        No 28 0.68 68.29 28  68.29
##        Si 13 0.32 31.71 41 100.00
tablaFrecuencia.deporte <- fdt_cat(alumnos$deporte)
tablaFrecuencia.deporte
##  Category  f   rf rf(%) cf  cf(%)
##        No 21 0.51 51.22 21  51.22
##        Si 20 0.49 48.78 41 100.00
tablaFrecuencia.musica <- fdt_cat(alumnos$musica)
tablaFrecuencia.musica
##  Category  f   rf rf(%) cf  cf(%)
##        Si 31 0.76 75.61 31  75.61
##        No 10 0.24 24.39 41 100.00

Análisis probabilístico

Algunas respuestas

cuantos <- filter(alumnos, musica == 'Si' & lentes == 'Si' & mujer == 'Si')  %>% 
  select(musica, lentes, mujer)

cuantos
##   musica lentes mujer
## 1     Si     Si    Si
## 2     Si     Si    Si
## 3     Si     Si    Si
## 4     Si     Si    Si
## 5     Si     Si    Si
## 6     Si     Si    Si
## 7     Si     Si    Si
frecuencia <- nrow(cuantos) / n * 100
frecuencia
## [1] 17.07317
# {r echo=FALSE} # Para que no se vea el código
cat(" Hay ",nrow(cuantos), " casos de que una persona le guste la música y use lentes además de que sea mujer "," de ", n, "  \n observaciones que representan una probabilidad del ",round(frecuencia, 4), " % "
)
##  Hay  7  casos de que una persona le guste la música y use lentes además de que sea mujer   de  41   
##  observaciones que representan una probabilidad del  17.0732  %