Desarrollar ejercicios de probabilidad
Construir ejercicios de probabilidad conforme a partir de datos conforme la teoría de probabilidad
Para cuando los espacios muestrales tienen un espacio finito o un número de elementos finito, la probabilidad de ocurrencia de un evento que resulta de tal experimento estadístico se evalúa utilizando un conjunto de números reales denominados pesos o probabilidades, que van de 00 a 11. (Walpole, Myers, and Myers 2012)
Para todo punto en el espacio muestral se asigna una probabilidad tal que la suma de todas las probabilidades es 11.(Walpole, Myers, and Myers 2012)
Si se tiene certeza para creer que al llevar a cabo el experimento es bastante probable que ocurra cierto punto muestral, le tendríamos que asignar a éste una probabilidad cercana a uno. Por el contrario, si se cree que no hay probabilidades de que ocurra cierto punto muestral, se tendría que asignar a éste una probabilidad cercana a cero.
En un espacio muestral en donde todos los puntos muestrales tienen la misma oportunidad de ocurrencia, por lo tanto, se les asignan probabilidades iguales.
A los puntos fuera del espacio muestral, es decir, a los eventos simples que no tienen posibilidades de ocurrir, se les asigna una probabilidad de cero.
Entonces: La probabilidad de un evento A debe estar entre cero y uno
En un espacio muestral de los números del 1 al 50, empezando en 1 y con saltos de tres en tres \(S = 1,4,7,10,13,16,10...\)
¿Cuál es la probabilidad de elegir un número primo?,
¿Cuál es la probabilidad de elegir un número par?,
¿Cuál es la probabilidad de elegir un número impar o non?
S <- seq(1, 50, 3)
primos <- c(1, 7, 13, 19, 31, 37, 43)
pares <- c(4, 10, 16, 22, 28, 34, 40, 46)
nones <- c(1, 7, 13, 19, 25, 31, 37, 43, 49)
S
## [1] 1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49
primos
## [1] 1 7 13 19 31 37 43
pares
## [1] 4 10 16 22 28 34 40 46
nones
## [1] 1 7 13 19 25 31 37 43 49
La probabilidad de elegir un número primo
La función length(primos %in% S) que utiliza el operador %in% devuelve valor booleano TRUE o FALSE para saber si un valor está contenido en un conjunto y combinado con length() determina la cantidad de ocasiones.
n.primos <- length(primos %in% S)
N <- length(S) #
n.primos
## [1] 7
N
## [1] 17
prob <- n.primos/N #
prob <- round(prob * 100,2)
paste ("La probabilidad de que elegir un número primo es : ", prob, "%")
## [1] "La probabilidad de que elegir un número primo es : 41.18 %"
La probabilidad de elegir un número par
n.pares <- length(pares %in% S)
N <- length(S) #
n.pares
## [1] 8
N
## [1] 17
prob <- n.pares/N #
prob <- round(prob * 100,2)
paste ("La probabilidad de que elegir un número par es : ", prob, "%")
## [1] "La probabilidad de que elegir un número par es : 47.06 %"
La probabilidad de elegir un número non o impar
n.nones <- length(nones %in% S)
N <- length(S) #
n.nones
## [1] 9
N
## [1] 17
prob <- n.nones/N #
prob <- round(prob * 100,2)
paste ("La probabilidad de que elegir un número non es : ", prob, "%")
## [1] "La probabilidad de que elegir un número non es : 52.94 %"
Una bolsa contiene canicas 20 canicas, 14 rojas y 6 canicas negras,
¿cuál es la probabilidad de extraer de la bolsa una canica de color negra? 6/20
o una canica de color roja? 14/20
o una canica de color blanca?. CERO
S <- c(rep("NEGRA", 6), rep("ROJA", 14))
S
## [1] "NEGRA" "NEGRA" "NEGRA" "NEGRA" "NEGRA" "NEGRA" "ROJA" "ROJA" "ROJA"
## [10] "ROJA" "ROJA" "ROJA" "ROJA" "ROJA" "ROJA" "ROJA" "ROJA" "ROJA"
## [19] "ROJA" "ROJA"
N <- length(S) #
N
## [1] 20
negras <- rep("NEGRA", 6)
rojas <- rep("ROJA", 14)
n.negras <- length(negras %in% S)
n.rojas <- length(rojas %in% S)
n.negras
## [1] 6
n.rojas
## [1] 14
Probabilidad de canicas negras
prob <- n.negras / N
prob
## [1] 0.3
Probabilidad de canicas rojas
prob = n.rojas/N
prob
## [1] 0.7
En un espacio muestral de una lista de 70 nombres, algunos se repiten?, cual es la probabilidad de elegir a un nombre en particular?
\(S\) es el espacio muestral que contiene una lista de nombres de personas.
\(N\) El total de nombres en la lista.
n la cantidad de ocasiones que aparece un nombre en la lista.
probprob es la probabilidad de elegir aleatoriamente a un nombre de la lista.
Con la función sample() se genera un nombre aleatorio a partir del espacio muestral \(S\)
Se utiliza length(which(S == nombre )) para determinar en cuántas veces existe en S el valor del nombre que ha sido generado aleatoriamente.
S <- c("Juan", "Paty", "Pedro", "Joaquín", "Lourdes", "Agustín", "Manuel", "Olga",
"Lucy", "José", "Rubén", "Pedro",
"Olga", "Luis", "Fernando", "Oscar",
"María", "Esmeralda", "Ernesto", "Saúl", "José", "María", "Pedro", "Saúl", "Ernesto", "María", "Luis", "Gerardo", "Héctor", "Saúl", "María", "Luis", "Lourdes", "Saúl", "Luis", "Fernando", "Rubén", "Agustín", "Joaquín", "Agustín", "Lucy", "José", "Juan", "Lucy", "Olga", "María", "Paty", "Olga", "María", "Paty", "Luis", "Rubén", "Oscar", "Gerardo", "Lucy", "Luis", "María", "José", "Juan", "Luis", "Lucy", "María", "Juan", "José", "Saúl", "María", "Fernando", "Oscar", "José", "Luis")
S
## [1] "Juan" "Paty" "Pedro" "Joaquín" "Lourdes" "Agustín"
## [7] "Manuel" "Olga" "Lucy" "José" "Rubén" "Pedro"
## [13] "Olga" "Luis" "Fernando" "Oscar" "María" "Esmeralda"
## [19] "Ernesto" "Saúl" "José" "María" "Pedro" "Saúl"
## [25] "Ernesto" "María" "Luis" "Gerardo" "Héctor" "Saúl"
## [31] "María" "Luis" "Lourdes" "Saúl" "Luis" "Fernando"
## [37] "Rubén" "Agustín" "Joaquín" "Agustín" "Lucy" "José"
## [43] "Juan" "Lucy" "Olga" "María" "Paty" "Olga"
## [49] "María" "Paty" "Luis" "Rubén" "Oscar" "Gerardo"
## [55] "Lucy" "Luis" "María" "José" "Juan" "Luis"
## [61] "Lucy" "María" "Juan" "José" "Saúl" "María"
## [67] "Fernando" "Oscar" "José" "Luis"
N <- length(S)
N
## [1] 70
nombre <- sample(x = S,size = 1 )
nombre
## [1] "Luis"
n <- length(which(S == nombre ))
n
## [1] 8
prob <- n/N #
prob <- round(prob * 100,2)
paste ("La probabilidad de elegir a ", nombre, " de la lista de pesonas es del:" , prob, "%")
## [1] "La probabilidad de elegir a Luis de la lista de pesonas es del: 11.43 %"
En un espacio muestral en donde existen 6500 alumnos en una institución educativa de nivel superior que cursan diferentes carreras cada uno de ellos ¿cual es la probabilidad de elegir aleatoriamente a un estudiante una carrera en particular?
Se crea por medio de una simulación un conjunto de datos semejante al utilizado en el caso 2. El data.frame contiene dos variables: un identificador de número de alumno y la carrera que cursa.
La variable carrera contiene las carreras profesionales de una institución educativa de nivel superior.
La variable distribuyen contiene la cantidad de alumnos por cada carrera.
carreras <- c("Arquitectura", "Civil", "Sistemas", "TIC", "Gestión")
distribuyen <- c(2000, 1800, 650, 150, 1800)
carreras
## [1] "Arquitectura" "Civil" "Sistemas" "TIC" "Gestión"
distribuyen
## [1] 2000 1800 650 150 1800
Generando los datos o el espacio muestral \(S\)
En la variable S.datos se crea un conjunto de datos aleatorio de 6500 alumnos distribuidos en distintas carreras, conorme y de acuerdo a la distribución.
Dentro de la función sample() que genera valores aleatorios, existe el atributo prob que se usa prob = c(distribuyen/N) para determinar las proporciones de alumnos por carrera.
\(N\) es el total de elementos del espacio muestral 6500
Se utiliza la semilla set.seed(2021) para que salgan los mismos resultados en la generación de alumnos.
head() y tail() indican que sólo se presenten los primeros y últimos diez registros.
N = 6500
set.seed(2021)
S.datos <- data.frame(numero = 1:N, carrera = sample(x = carreras, size = N, replace = TRUE, prob = c(distribuyen/N)))
head(S.datos, 10)
## numero carrera
## 1 1 Gestión
## 2 2 Civil
## 3 3 Civil
## 4 4 Gestión
## 5 5 Civil
## 6 6 Civil
## 7 7 Civil
## 8 8 Arquitectura
## 9 9 Civil
## 10 10 TIC
tail(S.datos, 10)
## numero carrera
## 6491 6491 Civil
## 6492 6492 Sistemas
## 6493 6493 Sistemas
## 6494 6494 Arquitectura
## 6495 6495 Sistemas
## 6496 6496 Gestión
## 6497 6497 TIC
## 6498 6498 Civil
## 6499 6499 Civil
## 6500 6500 Gestión
Generando una tabla de distribución para conocer cantidad de alumnos que se generaron o simulados por cada carrera utilizando precisamente la variable carrera del data.frame o del espacio meustral S.Datos.
tabla.distribucion <- table(S.datos$carrera)
tabla.distribucion
##
## Arquitectura Civil Gestión Sistemas TIC
## 2050 1787 1827 662 174
Se utiliza which(S.datos$carrera == “TIC”) para determinar la cantidad de nn, o sea el número de alumnos de esa carrera y debe concordar con la tabla de distribución
Luego se determina de manera natural la probabilidad de que sea elegido un alumno de esa carrera.
n <- length(which(S.datos$carrera == "TIC"))
n
## [1] 174
prob <- n/N #
prob <- round(prob * 100,2)
paste ("La probabilidad de elegir a un alumno de TIC es:" , prob, "%")
## [1] "La probabilidad de elegir a un alumno de TIC es: 2.68 %"
n <- length(which(S.datos$carrera == "Arquitectura"))
n
## [1] 2050
prob <- n/N #
prob <- round(prob * 100,2)
paste ("La probabilidad de elegir a un alumno de Arquitectura es:" , prob, "%")
## [1] "La probabilidad de elegir a un alumno de Arquitectura es: 31.54 %"
n <- length(which(S.datos$carrera == "Sistemas"))
n
## [1] 662
prob <- n/N #
prob <- round(prob * 100,2)
paste ("La probabilidad de elegir a un alumno de Sistemas es:" , prob, "%")
## [1] "La probabilidad de elegir a un alumno de Sistemas es: 10.18 %"
n <- length(which(S.datos$carrera == "Civil"))
n
## [1] 1787
prob <- n/N #
prob <- round(prob * 100,2)
paste ("La probabilidad de elegir a un alumno de Civil es:" , prob, "%")
## [1] "La probabilidad de elegir a un alumno de Civil es: 27.49 %"
n <- length(which(S.datos$carrera == "Gestión"))
n
## [1] 1827
prob <- n/N #
prob <- round(prob * 100,2)
paste ("La probabilidad de elegir a un alumno de Gestión es:" , prob, "%")
## [1] "La probabilidad de elegir a un alumno de Gestión es: 28.11 %"
En este caso el tema principal que tratamos es acerca de la probabilidad, tratamos diferente ejemplos como conocer cual es la probabilidad de elegir ciertos numeros, colores de canicas, personas y alumnos de distintas carreras. Recordamos que para obetener dicho porcentaje primero obtenemos cual es el numero o longitud del conjunto de datos en total, por ejemplo en el caso de “canicas” el total de datos es de 20, en el ejemplo de personas el total de datos es de 70, etc.
Ahora ya que tenemos identificado la cantidad o la longitud de los datos en total identificamos con cual dato deseamos trabajar para poder obtener la probabilidad de que esto suceda, por ejemplo en el caso de “canicas” nos indica que respondamos cual es la probabilidad de obtener una canica negra, tenemos el dato que del total de conjunto de datos solo 6 son canicas negras. Una vez conociendo esto podemos realizar la operacion que es el numero o longitud del dato en especifico (6) sobre el numero total de datos (20) . En este caso que mencionamos obtenemos que la probabilidad es de 0.3 o del 30%.
Asi como mencionamos en el ejemplo anterior este proceso se puede aplicar a una infinidad de casos,en esta practica solo tratamos 4 ejemplos pero nos da mas conocimiento acerca de como obtener la probabilidad de distintos datos y como utilizarlo en lenguaje de programacion R, como por ejemplo en el ultimo caso que es el de los alumnos de distintas carreras utilizamos el lenguaje de R para simular distintos datos y apartir de estos conocer la probabilidad de dato en especifico que nos piden.
Me parece de suma importancia el tener conocimientos acerca de estas herramientas ya que asi podemos calcular o predecir ciertos resultados o eventos y tambien es muy util para la planeacion en ambitos economicos, sociales, etc.
Walpole, Ronald E., Raymond H. Myers, and Sharon L. Myers. 2012. Probabilidad y Estadística Para Ingeniería y Ciencias. Novena Edición. México: Pearson.