Determinar probabilidades

Cargar librerías

library(readr)
library(dplyr)
library(fdth)

Cargar datos

alumnos <- read_csv("~/Mis clases ITD/Semestre Enero Junio 2020/Probabilidad y Estatistica/datos/alumnos.genero.lentes.deporte.musica ver 1.0.csv")
alumnos <- data.frame(alumnos) # Asegurarnos que es un df
alumnos
##    obs genero lentes deporte musica
## 1    1  Mujer     Si      Si     Si
## 2    2  Mujer     Si      Si     Si
## 3    3  Mujer     Si      No     Si
## 4    4  Mujer     Si      No     Si
## 5    5  Mujer     No      Si     Si
## 6    6  Mujer     No      Si     Si
## 7    7  Mujer     No      No     No
## 8    8  Mujer     No      No     Si
## 9    9  Mujer     No      No     Si
## 10  10  Mujer     No      No     Si
## 11  11  Mujer     No      Si     Si
## 12  12 Hombre     No      Si     Si
## 13  13 Hombre     Si      Si     Si
## 14  14 Hombre     Si      Si     No
## 15  15 Hombre     Si      No     Si
## 16  16 Hombre     Si      No     Si
## 17  17 Hombre     No      No     Si
## 18  18 Hombre     No      Si     Si
## 19  19 Hombre     No      Si     Si
## 20  20 Hombre     No      Si     No
## 21  21 Hombre     No      No     Si
## 22  22 Hombre     No      No     No
## 23  23 Hombre     No      No     Si
## 24  24 Hombre     No      No     No
## 25  25 Hombre     No      No     Si
## 26  26 Hombre     No      Si     Si
## 27  27 Hombre     No      Si     No
## 28  28 Hombre     No      Si     Si
## 29  29 Hombre     No      Si     Si
## 30  30 Hombre     No      Si     Si
## 31  31 Hombre     No      Si     No
## 32  32 Hombre     No      No     Si
## 33  33 Hombre     No      No     No
n <- nrow(alumnos) # Número de observaciones o registros

Depurar datos

alumnos$genero <- as.factor(alumnos$genero)
alumnos$lentes <- as.factor(alumnos$lentes)
alumnos$deporte <- as.factor(alumnos$deporte)
alumnos$musica <- as.factor(alumnos$musica)

Limpiar los datos

# Ya vienen homogéneos, consistentes, ... limpios, desde origen

Explorar datos

summary(alumnos)
##       obs        genero   lentes  deporte musica 
##  Min.   : 1   Hombre:22   No:25   No:16   No: 8  
##  1st Qu.: 9   Mujer :11   Si: 8   Si:17   Si:25  
##  Median :17                                      
##  Mean   :17                                      
##  3rd Qu.:25                                      
##  Max.   :33

Determinar frecuencias de cada variable

tablaFrecuencia.genero <- fdt_cat(alumnos$genero)
tablaFrecuencia.genero
##  Category  f   rf rf(%) cf  cf(%)
##    Hombre 22 0.67 66.67 22  66.67
##     Mujer 11 0.33 33.33 33 100.00
tablaFrecuencia.lentes <- fdt_cat(alumnos$lentes)
tablaFrecuencia.lentes
##  Category  f   rf rf(%) cf  cf(%)
##        No 25 0.76 75.76 25  75.76
##        Si  8 0.24 24.24 33 100.00
tablaFrecuencia.deporte <- fdt_cat(alumnos$deporte)
tablaFrecuencia.deporte
##  Category  f   rf rf(%) cf  cf(%)
##        Si 17 0.52 51.52 17  51.52
##        No 16 0.48 48.48 33 100.00
tablaFrecuencia.musica <- fdt_cat(alumnos$musica)
tablaFrecuencia.musica
##  Category  f   rf rf(%) cf  cf(%)
##        Si 25 0.76 75.76 25  75.76
##        No  8 0.24 24.24 33 100.00

Análisis probabilístico

Algunas respuestas

cuantos <- filter(alumnos, musica == 'Si' & lentes == 'Si' & genero == 'Mujer')  %>% 
  select(musica, lentes, genero)

cuantos
##   musica lentes genero
## 1     Si     Si  Mujer
## 2     Si     Si  Mujer
## 3     Si     Si  Mujer
## 4     Si     Si  Mujer
frecuencia <- nrow(cuantos) / n * 100
frecuencia
## [1] 12.12121
# {r echo=FALSE} # Para que no se vea el código
cat(" Hay ",nrow(cuantos), " casos de que una persona le guste la música y use lentes además de que sea mujer "," de ", n, "  \n observaciones que representan una probabilidad del ",round(frecuencia, 4), " % "
)
##  Hay  4  casos de que una persona le guste la música y use lentes además de que sea mujer   de  33   
##  observaciones que representan una probabilidad del  12.1212  %

8. ¿Cuál es la probabilidad de que una persona le guste la música y sea hombre?

cuantos <- filter(alumnos, musica == 'Si' & genero == 'Hombre')  %>% 
  select(musica, genero)

cuantos
##    musica genero
## 1      Si Hombre
## 2      Si Hombre
## 3      Si Hombre
## 4      Si Hombre
## 5      Si Hombre
## 6      Si Hombre
## 7      Si Hombre
## 8      Si Hombre
## 9      Si Hombre
## 10     Si Hombre
## 11     Si Hombre
## 12     Si Hombre
## 13     Si Hombre
## 14     Si Hombre
## 15     Si Hombre
frecuencia <- nrow(cuantos) / n * 100
frecuencia
## [1] 45.45455

La probabilidad es del 45.45% de que a una persona seleccionada al azar sea hombre y le guste la música.