Resolver cuestiones de casos de probabilidad en casos mediante la identificación de variables aleatorias, funciones de probabilidad,funciones acumuladas, media, varianza y desviación estándar de distribuciones de variables discretas; visualización gráfica relacionada con variables discretas.
Desarrollar ejercicios relacionados con variables discretas para identificar variables discretas, las funciones de probabilidad de cada variable, la función acumulada, su visualización gráfica para su correcta implementación.
Se incluye en el caso, media, varianza y desviación estándar de distribuciones de variables discretas.
Los casos son identificados de la literatura relacionada con variables aleatorias discretas. Se deben elaborar tres ejercicios en este caso 13 encontrados en la literatura que se encuentran en el caso 14.
Una variable aleatoria es una descripción numérica del resultado de un experimento (anderson2008c?).
Las variables aleatorias deben tomar valores numéricos. En efecto, una variable aleatoria asocia un valor numérico a cada uno de los resultados experimentales.
El valor numérico de la variable aleatoria depende del resultado del experimento. Una variable aleatoria puede ser discreta o continua, depende del tipo de valores numéricos que asuma.(anderson_estadistica_2008?).
Para este documento se tratan únicamente variables del tipo discreta.
En cualquier experimento aleatorio, los resultados se presentan al azar; así, a este se le denomina variable aleatoria. Por ejemplo, lanzar un dado constituye un experimento: puede ocurrir cualquiera de los seis resultados posibles. Cada valor de la variable aleatoria se relaciona con una probabilidad que indica la posibilidad de un resultado determinado (lind_estadistica_2015?).
En su libro (walpole_probabilidad_2012?) define que una variable aleatoria es una función que asocia un número real con cada elemento del espacio muestral.
Una función de probabilidad, una función de masa de probabilidad o una distribución de probabilidad de la variable aleatoria discreta X si, para cada resultado x posible.
\[f(x)≥0\]
\[∑f(x)=1\]
(walpole_probabilidad_2012?).
Por otra parte, la función de la distribución acumulativa F(x) ó probabilidad acumulada de una variable aleatoria discreta X con distribución de probabilidad f(x) está dada por la suma de sus probabilidades de t siendo t menor o igual a x. Es decir, la probabilidad acumulada suma los valores de las funciones de probabilidad a partir del valor inicial de x. El valor final con respecto a valor final de x debe ser igual a 1.
\[F(x)=P(X≤x)=∑f(t)\]
(walpole_probabilidad_2012?).
La media de una distribución discreta es también recibe el nombre de valor esperado. Se trata de un promedio ponderado de los posibles valores de una variable aleatoria se ponderan con sus correspondientes probabilidades de ocurrencia (lind_estadistica_2015?)
La fórmula para el valor esperado es:
\[μ=∑x⋅P(x)\]
La varianza de una distribución discreta constituye un valor típico para resumir una distribución de probabilidad discreta, describe el grado de dispersión (variación) en una distribución (lind_estadistica_2015?).
Su fórmula es:
\[α^2=∑(x−μ)^2⋅P(x)\]
La fórmula anterior significa:
La media se resta de cada valor de la variable aleatoria y la diferencia se eleva al cuadrado.
Cada diferencia al cuadrado se multiplica por su probabilidad.
Se suman los productos resultantes para obtener la varianza.
La desviación estándar, α, se determina al extraer la raíz cuadrada positiva de α2; es decir, α=√α2 (lind_estadistica_2015?).
Posiblemente se utilicen algunas de ellas
library(ggplot2)
library(stringr) # String
library(stringi) # String
library(gtools)
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(knitr)
library(gtools)
options(scipen = 999) # Notación normal
Se venden 5000 billetes para una rifa a 1 euro cada uno. Existe un único premio de cierta cantidad, calcular los valores de las variables aleatorias y sus probabilidades para 0 para no gana y 1 para si gana cuando un comprador adquiere cincuenta billetes. (course_hero_variables_nodate?).
discretas <- c(0,1) # 0 Que no gane, 1 que gane
n <- 5000 # sum(casos)
casos <- c(4950,50)
probabilidades <- casos / n
acumulada <- cumsum(probabilidades) # Acumulada
tabla <- data.frame(x=discretas,
casos = casos,
f.prob.x = probabilidades,
F.acum.x = acumulada,
x.f.prob.x = (discretas * probabilidades))
kable(tabla, caption = "Tabla de probabilidad con la columna para valor esperado")
| x | casos | f.prob.x | F.acum.x | x.f.prob.x |
|---|---|---|---|---|
| 0 | 4950 | 0.99 | 0.99 | 0.00 |
| 1 | 50 | 0.01 | 1.00 | 0.01 |
Se determina el valor esperado de acuerdo a la fórmula:
\[μ=∑xP(x)\]
# VE <- sum(tabla$x * tabla$f.prob.x)
VE <- sum(tabla$x.f.prob.x)
VE
## [1] 0.01
El valor esperado significa la media ponderada de las probabilidades o lo que es lo mismo es lo que se puede esperar.
Significa muy muy muy …. remoto la probabilidad de ganar en el sorteo de 5000 boletos 0.01
tabla <- cbind(tabla, 'VE' = VE, 'x-VE.cuad.f.prob.x' = (tabla$x - VE)^2 * tabla$f.prob.x)
#tabla
kable(tabla, caption = "Tabla de probabilidad con valor esperado y columnas para varianza")
| x | casos | f.prob.x | F.acum.x | x.f.prob.x | VE | x-VE.cuad.f.prob.x |
|---|---|---|---|---|---|---|
| 0 | 4950 | 0.99 | 0.99 | 0.00 | 0.01 | 0.000099 |
| 1 | 50 | 0.01 | 1.00 | 0.01 | 0.01 | 0.009801 |
\[α^2=∑(x−μ)^2P(x)\] * varianza = varianza de la distribución
varianza <- sum((tabla$x - VE)^2 * tabla$f.prob.x)
varianza
## [1] 0.0099
\[α=√α^2\] * desv.std = desviación estándard
desv.std <- sqrt(varianza)
desv.std
## [1] 0.09949874
tabla.sumatorias <- rbind(tabla, apply(tabla, 2, sum))
tabla.sumatorias[nrow(tabla.sumatorias), c(1,4,6)] <- '****'
kable(tabla.sumatorias, caption = "Tabla de probabilidad con sumatorias")
| x | casos | f.prob.x | F.acum.x | x.f.prob.x | VE | x-VE.cuad.f.prob.x |
|---|---|---|---|---|---|---|
| 0 | 4950 | 0.99 | 0.99 | 0.00 | 0.01 | 0.000099 |
| 1 | 50 | 0.01 | 1 | 0.01 | 0.01 | 0.009801 |
| **** | 5000 | 1.00 | **** | 0.01 | **** | 0.009900 |
ggplot(data = tabla, aes(x = x, y=f.prob.x, fill=x)) +
geom_bar(stat="identity")
ggplot(data = tabla, aes(x = x, y=F.acum.x)) +
geom_point(colour="blue") +
geom_line(colour="red")
Un vendedor llamado John Rasgdale vende la mayor cantidad de automóviles el sábado, así que desarrolló la siguiente distribución de probabilidades, en la cual se muestra la cantidad de automóviles que espera vender un sábado determinado.
La variable discreta venta de automóviles: 0,1,2,3,4 el sábado. Los valores de la probabilidad son : 0.1,0.2,0.3,0.3,0.1, previamente definidos.
Ya se dan las probabilidades de tal forma que la cantidad de casos no se dispone en este ejercicio.
¿De qué tipo de distribución se trata?, variables discretas
¿Cuántos automóviles espera vender John un sábado normal?
¿Cuál es la varianza de la distribución? (lind_estadistica_2015?).
discretas <- 0:4
casos <- rep(0, 5)
probabilidades <- c(0.1, 0.2, 0.3, 0.3, 0.1)
acumulada <- cumsum(probabilidades) # Acumulada
tabla <- data.frame(x=discretas,
casos = casos,
f.prob.x = probabilidades,
F.acum.x = acumulada,
x.f.prob.x = (discretas * probabilidades))
kable(tabla, caption = "Tabla de probabilidad con la columna para valor esperado (sin número de casos)")
| x | casos | f.prob.x | F.acum.x | x.f.prob.x |
|---|---|---|---|---|
| 0 | 0 | 0.1 | 0.1 | 0.0 |
| 1 | 0 | 0.2 | 0.3 | 0.2 |
| 2 | 0 | 0.3 | 0.6 | 0.6 |
| 3 | 0 | 0.3 | 0.9 | 0.9 |
| 4 | 0 | 0.1 | 1.0 | 0.4 |
Se determina el valor esperado de acuerdo a la fórmula:
\[μ=∑x⋅P(x)\]
VE <- sum(tabla$x * tabla$f.prob.x)
VE
## [1] 2.1
El valor esperado significa la media ponderada de las probabilidades o lo que es lo mismo es lo que se puede esperar.
Agregando columna para obtención de la varianza a partir de los datos de la tabla previamente generada
tabla <- cbind(tabla, 'VE' = VE, 'x-VE.cuad.f.prob.x' = (tabla$x - VE)^2 * tabla$f.prob.x)
kable(tabla, caption = "Tabla de probabilidad con valor esperado y columnas para varianza (sin número de casos)")
| x | casos | f.prob.x | F.acum.x | x.f.prob.x | VE | x-VE.cuad.f.prob.x |
|---|---|---|---|---|---|---|
| 0 | 0 | 0.1 | 0.1 | 0.0 | 2.1 | 0.441 |
| 1 | 0 | 0.2 | 0.3 | 0.2 | 2.1 | 0.242 |
| 2 | 0 | 0.3 | 0.6 | 0.6 | 2.1 | 0.003 |
| 3 | 0 | 0.3 | 0.9 | 0.9 | 2.1 | 0.243 |
| 4 | 0 | 0.1 | 1.0 | 0.4 | 2.1 | 0.361 |
\[α^2=∑(x−μ)^2⋅P(x)\]
varianza = varianza de la distribución
varianza <- sum((tabla$x - VE)^2 * tabla$f.prob.x)
varianza
## [1] 1.29
La raiz cuadrada de la varianza
\[α=√α^2\]
desv.std = desviación estándard
desv.std <- sqrt(varianza)
desv.std
## [1] 1.135782
tabla.sumatorias <- rbind(tabla, apply(tabla, 2, sum))
tabla.sumatorias[nrow(tabla.sumatorias), c(1,2,4,6)] <- '****'
kable(tabla.sumatorias, caption = "Tabla de probabilidad con sumatorias,(sin número de casos)")
| x | casos | f.prob.x | F.acum.x | x.f.prob.x | VE | x-VE.cuad.f.prob.x |
|---|---|---|---|---|---|---|
| 0 | 0 | 0.1 | 0.1 | 0.0 | 2.1 | 0.441 |
| 1 | 0 | 0.2 | 0.3 | 0.2 | 2.1 | 0.242 |
| 2 | 0 | 0.3 | 0.6 | 0.6 | 2.1 | 0.003 |
| 3 | 0 | 0.3 | 0.9 | 0.9 | 2.1 | 0.243 |
| 4 | 0 | 0.1 | 1 | 0.4 | 2.1 | 0.361 |
| **** | **** | 1.0 | **** | 2.1 | **** | 1.290 |
ggplot(data = tabla, aes(x = x, y=f.prob.x, fill=x)) +
geom_bar(stat="identity")
ggplot(data = tabla, aes(x = x, y=F.acum.x)) +
geom_point(colour="blue") +
geom_line(colour="red")
Una compañía tiene cinco solicitantes para dos puestos de trabajo: dos mujeres y tres hombres. Suponga que los cinco solicitantes son igualmente calificados y que no hay preferencia para elegir su género al igual que no importa el orden de género de hombres y mujeres (combinaciones).
Sea x la variable aleatoria discreta al número de mujeres elegidas para ocupar los dos puestos de trabajo. Encuentre las probabilidades para elegir 0 mujeres, 1 mujer o 2 mujeres. (mendenhall_introduccion_2010?).
Haciendo las combinaciones en donde M=Mujer y H=Hombre
personas <- c("H1", "H2", "H3", "M1", "M2")
S.espacio.muestral <- combinations(n = 5, r = 2, v=personas)
S.espacio.muestral
## [,1] [,2]
## [1,] "H1" "H2"
## [2,] "H1" "H3"
## [3,] "H1" "M1"
## [4,] "H1" "M2"
## [5,] "H2" "H3"
## [6,] "H2" "M1"
## [7,] "H2" "M2"
## [8,] "H3" "M1"
## [9,] "H3" "M2"
## [10,] "M1" "M2"
De cuerdo al espacio muestral n con diez elementos, ¿en cúantas ocasiones hay cero mujeres?, ¿en cuántas ocasiones hay una mujer? y en cuántas ocasiones hay dos mujeres?
discretas <- c(0, 1, 2)
casos <- c(3, 6, 1 )
n <- sum(casos)
probabilidades <- casos / n
acumulada <- cumsum(probabilidades) # Acumulada
tabla <- data.frame(x=discretas,
casos = casos,
f.prob.x = probabilidades,
F.acum.x = acumulada,
x.f.prob.x = (discretas * probabilidades))
kable(tabla, caption = "Tabla de probabilidad con la columna para valor esperado")
| x | casos | f.prob.x | F.acum.x | x.f.prob.x |
|---|---|---|---|---|
| 0 | 3 | 0.3 | 0.3 | 0.0 |
| 1 | 6 | 0.6 | 0.9 | 0.6 |
| 2 | 1 | 0.1 | 1.0 | 0.2 |
Se determina el valor esperado de acuerdo a la fórmula:
\[μ=∑x⋅P(x)\]
VE es el valor esperado
VE <- sum(tabla$x * tabla$f.prob.x)
VE
## [1] 0.8
\[α^2=∑(x−μ)^2⋅P(x)\]
tabla <- cbind(tabla, 'VE' = VE, 'x-VE.cuad.f.prob.x' = (tabla$x - VE)^2 * tabla$f.prob.x)
kable(tabla, caption = "Tabla de probabilidad con valor esperado y columnas para varianza")
| x | casos | f.prob.x | F.acum.x | x.f.prob.x | VE | x-VE.cuad.f.prob.x |
|---|---|---|---|---|---|---|
| 0 | 3 | 0.3 | 0.3 | 0.0 | 0.8 | 0.192 |
| 1 | 6 | 0.6 | 0.9 | 0.6 | 0.8 | 0.024 |
| 2 | 1 | 0.1 | 1.0 | 0.2 | 0.8 | 0.144 |
Calculando la varianza
varianza <- sum((tabla$x - VE)^2 * tabla$f.prob.x)
varianza
## [1] 0.36
\[α=√α^2\]
Con la raiz cuadrada de la varianza se determina la desviación estándard de la distribución de variables aleatorias.
desv.std <- sqrt(varianza)
desv.std
## [1] 0.6
tabla.sumatorias <- rbind(tabla, apply(tabla, 2, sum))
tabla.sumatorias[nrow(tabla.sumatorias), c(1,4,6)] <- '****'
kable(tabla.sumatorias, caption = "Tabla de probabilidad con sumatorias")
| x | casos | f.prob.x | F.acum.x | x.f.prob.x | VE | x-VE.cuad.f.prob.x |
|---|---|---|---|---|---|---|
| 0 | 3 | 0.3 | 0.3 | 0.0 | 0.8 | 0.192 |
| 1 | 6 | 0.6 | 0.9 | 0.6 | 0.8 | 0.024 |
| 2 | 1 | 0.1 | 1 | 0.2 | 0.8 | 0.144 |
| **** | 10 | 1.0 | **** | 0.8 | **** | 0.360 |
ggplot(data = tabla, aes(x = x, y=f.prob.x, fill=x)) +
geom_bar(stat="identity")
ggplot(data = tabla, aes(x = x, y=F.acum.x)) +
geom_point(colour="blue") +
geom_line(colour="red")
En la siguiente tabla se presenta la distribución del número de hijos de un grupo de 100 parejas (humanos): Ejercicio extraído de: (web_descartes_estadistica_2018?).
variable aleatoria x No hijos |
cantidad de parejas |
|---|---|
| 0 | 15 |
| 1 | 40 |
| 2 | 23 |
| 3 | 10 |
| 4 | 7 |
| 5 | 4 |
| 6 | 1 |
| Total parejas encuestadas | 100 |
discretas <- c(0, 1, 2, 3, 4, 5, 6)
casos <- c(15, 40, 23, 10, 7, 4, 1 )
n <- sum(casos)
probabilidades <- casos / n
acumulada <- cumsum(probabilidades) # Acumulada
tabla <- data.frame(x=discretas,
casos = casos,
f.prob.x = probabilidades,
F.acum.x = acumulada,
x.f.prob.x = (discretas * probabilidades))
kable(tabla, caption = "Tabla de probabilidad con la columna para valor esperado")
| x | casos | f.prob.x | F.acum.x | x.f.prob.x |
|---|---|---|---|---|
| 0 | 15 | 0.15 | 0.15 | 0.00 |
| 1 | 40 | 0.40 | 0.55 | 0.40 |
| 2 | 23 | 0.23 | 0.78 | 0.46 |
| 3 | 10 | 0.10 | 0.88 | 0.30 |
| 4 | 7 | 0.07 | 0.95 | 0.28 |
| 5 | 4 | 0.04 | 0.99 | 0.20 |
| 6 | 1 | 0.01 | 1.00 | 0.06 |
Se determina el valor esperado de acuerdo a la fórmula:
\[μ=∑x⋅P(x)\]
VE es el valor esperado
VE <- sum(tabla$x * tabla$f.prob.x)
VE
## [1] 1.7
\[α^2=∑(x−μ)^2⋅P(x )\]
tabla <- cbind(tabla, 'VE' = VE, 'x-VE.cuad.f.prob.x' = (tabla$x - VE)^2 * tabla$f.prob.x)
kable(tabla, caption = "Tabla de probabilidad con valor esperado y columnas para varianza")
| x | casos | f.prob.x | F.acum.x | x.f.prob.x | VE | x-VE.cuad.f.prob.x |
|---|---|---|---|---|---|---|
| 0 | 15 | 0.15 | 0.15 | 0.00 | 1.7 | 0.4335 |
| 1 | 40 | 0.40 | 0.55 | 0.40 | 1.7 | 0.1960 |
| 2 | 23 | 0.23 | 0.78 | 0.46 | 1.7 | 0.0207 |
| 3 | 10 | 0.10 | 0.88 | 0.30 | 1.7 | 0.1690 |
| 4 | 7 | 0.07 | 0.95 | 0.28 | 1.7 | 0.3703 |
| 5 | 4 | 0.04 | 0.99 | 0.20 | 1.7 | 0.4356 |
| 6 | 1 | 0.01 | 1.00 | 0.06 | 1.7 | 0.1849 |
Calculando la varianza
varianza <- sum((tabla$x - VE)^2 * tabla$f.prob.x)
varianza
## [1] 1.81
\[α=√α^2 \]
Con la raiz cuadrada de la varianza se determina la desviación estándard de la distribución de variables aleatorias.
desv.std <- sqrt(varianza)
desv.std
## [1] 1.345362
tabla.sumatorias <- rbind(tabla, apply(tabla, 2, sum))
tabla.sumatorias[nrow(tabla.sumatorias), c(1,4,6)] <- '****'
kable(tabla.sumatorias, caption = "Tabla de probabilidad con sumatorias")
| x | casos | f.prob.x | F.acum.x | x.f.prob.x | VE | x-VE.cuad.f.prob.x |
|---|---|---|---|---|---|---|
| 0 | 15 | 0.15 | 0.15 | 0.00 | 1.7 | 0.4335 |
| 1 | 40 | 0.40 | 0.55 | 0.40 | 1.7 | 0.1960 |
| 2 | 23 | 0.23 | 0.78 | 0.46 | 1.7 | 0.0207 |
| 3 | 10 | 0.10 | 0.88 | 0.30 | 1.7 | 0.1690 |
| 4 | 7 | 0.07 | 0.95 | 0.28 | 1.7 | 0.3703 |
| 5 | 4 | 0.04 | 0.99 | 0.20 | 1.7 | 0.4356 |
| 6 | 1 | 0.01 | 1 | 0.06 | 1.7 | 0.1849 |
| **** | 100 | 1.00 | **** | 1.70 | **** | 1.8100 |
ggplot(data = tabla, aes(x = x, y=f.prob.x, fill=x)) +
geom_bar(stat="identity")
ggplot(data = tabla, aes(x = x, y=F.acum.x)) +
geom_point(colour="blue") +
geom_line(colour="red")
En el presente caso se muestran varios casos de variables aleatorias discretas ( valores enteros para la variable aleatoria) y posteriormente se generaron los gráficos de las funcions de probabilidad y acumulada, así como la media, varianza y desviación estandar.
Como se puede apreciar del caso de sorteo, se obtiene una probabilidad de 1%, por lo que existe una probailidad muy baja de ganar el sorteo.
En el caso del planteamiento de los automoviles, se obruvo un valor esperado de 2.1, lo cual nos indica que se esperaria que la variable aleatoria (en este caso autos vendidos) sea de 2 automoviles.
En el caso de los puestos para hombres y mujeres en un trabajo, se obtuiene un valor esperado de 0.8, lo cual indica que indica la probabilidad de contratar a una mujer en promedio, ademas se tiene una desviación estandar de 0.6, lo cual muestra que existe variación significativa para este valor de 0.8.
Del ejercicio de parejas contestar las preguntas:
¿Cuál es la probabilidad de una pareja elegida al azar tenga menos de dos hijos? P(x<2)
paste("Dado que se solicita f(x<2), se suman las probabilidades de f(0) y f(1), lo cual da una probabilidad de 55%")
## [1] "Dado que se solicita f(x<2), se suman las probabilidades de f(0) y f(1), lo cual da una probabilidad de 55%"
¿Cuál es la probabilidad de que tenga más de tres hijos? P(x>3)
paste("Se requiere sumar las probabilidades de los puntos muestrales f(4), f(5) y f(6), lo cual da un resultado de: 12%")
## [1] "Se requiere sumar las probabilidades de los puntos muestrales f(4), f(5) y f(6), lo cual da un resultado de: 12%"
Si se elige un hijo al azar, ¿cuál es la probabilidad de que no tenga hermanos? P(x=0)
paste("Si es un hijo, se nos pregunta cual es la probabilidad que sea el único hijo (sin hermanos). Por tanto la condición es que x>0 (es un hijo) y que sea el único (P(x=1)). Esta probabilidad condicional es: La porobabilidad que si se elje un hijo, sea el único. Dando una probbilidad de 40/85= 47%")
## [1] "Si es un hijo, se nos pregunta cual es la probabilidad que sea el único hijo (sin hermanos). Por tanto la condición es que x>0 (es un hijo) y que sea el único (P(x=1)). Esta probabilidad condicional es: La porobabilidad que si se elje un hijo, sea el único. Dando una probbilidad de 40/85= 47%"
Determina el número de hijos esperado al seleccionar una familia al azar. ¿Cuál es el valor esperado y qué significa?
paste("El valor esperado es de μ=1.7. Este dato nos indica que al elegir ua familia al azar, lo mas probable es que tenga practicamente 2 hijos")
## [1] "El valor esperado es de µ=1.7. Este dato nos indica que al elegir ua familia al azar, lo mas probable es que tenga practicamente 2 hijos"
Calcula la varianza y la desviación de la distribución e interpretar su significado.
paste("La varianza es de: ", varianza, " y la desviación estandar es de: ", desv.std, ". Este resultado indica que al valor esperado de 1.7 (o practicamente 2 hijos) se puede variar alrededor de el en 1.34 hacia arriba o hacia abajo, lo cual indica que la distribución usualmente varia entre 1 y 3 hijos")
## [1] "La varianza es de: 1.81 y la desviación estandar es de: 1.34536240470737 . Este resultado indica que al valor esperado de 1.7 (o practicamente 2 hijos) se puede variar alrededor de el en 1.34 hacia arriba o hacia abajo, lo cual indica que la distribución usualmente varia entre 1 y 3 hijos"
Lind, Douglas, William Marchal, and Samuel Wathen. 2015. Estadística Aplicada a Los Negocios y La Economía. Decimo Sexta. México, D.F.: McGraw-Hill.