Resolver cuestiones de casos de probabilidad en casos mediante la identificación de variables aleatorias, funciones de probabilidad, funciones acumuladas y visualización gráficas relacionados con variables discretas.
Identificar casos relacionados con variables discretas para elaborar mediante programación R y markdown las variables discretas, las funciones de probabilidad de cada variable, la función acumulada y su visualización gráfica para su adecuada interpretación.
#Carga de librerías
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.0.4
library(stringr) # String
library(stringi) # String
library(gtools)
library(dplyr)
## Warning: package 'dplyr' was built under R version 4.0.4
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(knitr)
## Warning: package 'knitr' was built under R version 4.0.4
Se presentan ejercicios relacionadas con variables aleatorias y su probabilidad, para cada ejercicio, se describe y define el contexto, se construye la tabla de probabilidad que contiene los valores de la variable aleatoria, la función de probabilidad y su función acumulada, la gráfica de barra de los valores de las variables aleatoria y la gráfica lineal de la función acumulada.
Se venden 5000 billetes para una rifa a 1 euro cada uno. Existe un único premio de cierta cantidad, calcular los valores de las variables aleatorias y sus probabilidades para 0 para no gana y 1 para si gana cuando un comprador adquiere tres billetes. (Course Hero, n.d.).
discretas <- c(0,1) # 0 Que no gane, 1 que gane
n <- 5000
casos <- c(4997,3)
probabilidades <- casos / n
acumulada <- cumsum(probabilidades) # Acumulada
tabla <- data.frame(x=discretas,
casos = casos,
f.prob.x = probabilidades,
F.acum.x = acumulada)
tabla
## x casos f.prob.x F.acum.x
## 1 0 4997 0.9994 0.9994
## 2 1 3 0.0006 1.0000
ggplot(data = tabla, aes(x = x, y=f.prob.x)) +
geom_bar(stat="identity")
ggplot(data = tabla, aes(x = x, y=F.acum.x)) +
geom_point() +
geom_line()
Las ventas de automóviles de una empresa durante los últimos 300 días de operación, los datos de ventas muestran que hubo:
54 días en los que no se vendió ningún automóvil,
117 días en los que se vendió 1 automóvil,
72 días en los que se vendieron 2 automóviles,
42 días en los que se vendieron 3 automóviles,
12 días en los que se vendieron 4 automóviles y
3 días en los que se vendieron 5 automóviles.
discretas <- 0:5 # c(0,1,2,3,4,5)
n <- 300
casos <- c(54, 117, 72, 42, 12, 3)
probabilidades <- casos /n
acumulada <- cumsum(probabilidades) # Acumulada
tabla <- data.frame(x=discretas,
casos = casos,
f.prob.x = probabilidades,
F.acum.x = acumulada)
tabla
## x casos f.prob.x F.acum.x
## 1 0 54 0.18 0.18
## 2 1 117 0.39 0.57
## 3 2 72 0.24 0.81
## 4 3 42 0.14 0.95
## 5 4 12 0.04 0.99
## 6 5 3 0.01 1.00
¿Cuál es la probabilidad de que se venda exactamente un automóvil? \(prob=\frac{117}{300}=0.39\)
¿Cuál es la la probabilidad de que se venda al menos 2 automóviles?.
\(prob=1 - \sum P(x_0, x_1) = 1 - Prob.Acum(x_1)=0.43\)
ggplot(data = tabla, aes(x = x, y=f.prob.x)) + geom_bar(stat="identity")
ggplot(data = tabla, aes(x = x, y=F.acum.x)) +
geom_point() +
geom_line()
En Estados Unidos un porcentaje de los niños de cuarto grado no pueden leer un libro adecuado a su edad.
La tabla muestra, de acuerdo con las edades de entre 6 y 14 años, el número de niños que tienen problemas de lectura. La mayoría de estos niños tienen problemas de lectura que debieron ser detectados y corregidos antes del tercer grado(Anderson, Sweeney, and Williams 2008b).
discretas <- 6:14
#n <- '?'
casos <- c(37369, 87436, 160840,239719,286719,306533,310787,302604,289168)
n <- sum(casos)
probabilidades <- casos /n
acumulada <- cumsum(probabilidades) # Acumulada
tabla <- data.frame(x=discretas,
casos = casos,
f.prob.x = probabilidades,
F.acum.x = acumulada)
tabla
## x casos f.prob.x F.acum.x
## 1 6 37369 0.01848875 0.01848875
## 2 7 87436 0.04325998 0.06174874
## 3 8 160840 0.07957747 0.14132621
## 4 9 239719 0.11860378 0.25992999
## 5 10 286719 0.14185758 0.40178757
## 6 11 306533 0.15166079 0.55344837
## 7 12 310787 0.15376551 0.70721387
## 8 13 302604 0.14971687 0.85693075
## 9 14 289168 0.14306925 1.00000000
¿Cuál es la probabilidad de elegir alumnos que tienen problemas de exactamente 10 años?.
\[prob=P(x_{10})=\frac{286719}{n} = 0.1418\] ¿Cuál es la probabilidad de encontrar alumnos de 11 años o menos?.
\[ prob=\sum Prob(x_6, x_7, x_8, x_9, x\_{10}, x\_{11}) = Prob.Acum(x\_{11}) = 0.5534 \]
Se muestra la distribución de frecuencias porcentuales para las puntuaciones dadas a la satisfacción con el trabajo por una muestra de directivos en sistemas de información de nivel alto y de nivel medio. Las puntuaciones van de 1 (muy insatisfecho) a 5 (muy satisfecho).(Anderson, Sweeney, and Williams 2008b).
include_graphics("../Imagenes/satisfaccion en el trabajo ejecutivos.jpg")
Para este ejercicio se utiliza tabla1 y tabla2 como variables para identificar los valores de acuerdo al tipo de ejecutivo.
¿Cuál es la probabilidad de que un ejecutivo de nivel alto tenga una puntuación de 4 o 5 en satisfacción con el trabajo?
discretas <- 1:5
#n <- '?'
casos <- c(5,9,3,42,41)
n <- sum(casos)
probabilidades <- casos /n
acumulada <- cumsum(probabilidades)
tabla1 <- data.frame(x=discretas,
casos = casos,
f.prob.x = probabilidades,
F.acum.x = acumulada)
tabla1
## x casos f.prob.x F.acum.x
## 1 1 5 0.05 0.05
## 2 2 9 0.09 0.14
## 3 3 3 0.03 0.17
## 4 4 42 0.42 0.59
## 5 5 41 0.41 1.00
paste("La probabilidad de que un ejecutivo de nivel alto dé una puntuación de 4 o 5 a su satisfacción con el trabajo es:", round(sum(tabla1$f.prob.x[4], tabla1$f.prob.x[5]) * 100, 2), "%")
## [1] "La probabilidad de que un ejecutivo de nivel alto dé una puntuación de 4 o 5 a su satisfacción con el trabajo es: 83 %"
ggplot(data = tabla1, aes(x = x, y=f.prob.x, fill=x)) +
geom_bar(stat="identity")
ggplot(data = tabla1, aes(x = x, y=F.acum.x)) +
geom_point(colour="blue") +
geom_line(colour="red")
¿Cuál es la probabilidad de que un ejecutivo de nivel medio esté muy satisfecho?
discretas <- 1:5
#n <- '?'
casos <- c(4, 10, 12, 46, 28)
n <- sum(casos)
probabilidades <- casos /n
acumulada <- cumsum(probabilidades)
tabla2 <- data.frame(x=discretas,
casos = casos,
f.prob.x = probabilidades,
F.acum.x = acumulada)
tabla2
## x casos f.prob.x F.acum.x
## 1 1 4 0.04 0.04
## 2 2 10 0.10 0.14
## 3 3 12 0.12 0.26
## 4 4 46 0.46 0.72
## 5 5 28 0.28 1.00
paste(" La probabilidad de que un ejecutivo de nivel medio esté muy satisfecho es:", round(tabla2$f.prob.x[5] * 100, 2), "%")
## [1] " La probabilidad de que un ejecutivo de nivel medio esté muy satisfecho es: 28 %"
ggplot(data = tabla2, aes(x = x, y=f.prob.x, fill=x)) +
geom_bar(stat="identity")
ggplot(data = tabla2, aes(x = x, y=F.acum.x)) +
geom_point(colour="blue") +
geom_line(colour="red")
Observando las gráficas de barras y las tablas de probabilidad, los directivos de alto nivel están más satisfechos con el trabajo comparado con directivos de nivel bajo.
La prueba de un número de componentes electrónicos se prueban tres componentes electrónicos, el espacio muestral que ofrece una descripción detallada de cada posible resultado se escribe como ‘N’ No Defectuoso y ‘D’ Defectuoso:
S <- c("NNN", "NND", "NDN", "DNN",
"NDD", "DND", "DDN", "DDD")
S
## [1] "NNN" "NND" "NDN" "DNN" "NDD" "DND" "DDN" "DDD"
Se define N como No defectuoso y D como defectuoso.
Se identifican las variables discretas como:
0 defectos, no hay D en el espacio muestral
1 defecto existe, existe una D en el espacio muestral
2 defectos hay dos D en el espacio muestral y
3 defectos hay tres D en el espacio muestral
Los variables aleatorias \(x_0, x_1, x_2, x_3\) tiene valores de cero a tres defectos determinadas por el resultado del experimento. Se determina como valores que toma la variable aleatoria \(x\), es decir, el número de artículos defectuosos cuando se prueban tres componentes electrónicos.
¿Cuál es la probabilidad de que haya 1 defecto?
discretas <- 0:3
#n <- '?'
casos <- c(1,3,3,1)
n <- sum(casos)
probabilidades <- casos /n
acumulada <- cumsum(probabilidades) # Acumulada
tabla <- data.frame(x=discretas,
casos = casos,
f.prob.x = probabilidades,
F.acum.x = acumulada)
tabla
## x casos f.prob.x F.acum.x
## 1 0 1 0.125 0.125
## 2 1 3 0.375 0.500
## 3 2 3 0.375 0.875
## 4 3 1 0.125 1.000
Se utiliza la variable \(x\) dado que el valor de la variable aleatoria \(x\) empieza en \(0\) y los vectores en R comienzan en \(1\).
x <- 1
paste("La probabilidad de que haya 1 defecto es: ",round(tabla$f.prob.x[x+1] * 100, 2), "%")
## [1] "La probabilidad de que haya 1 defecto es: 37.5 %"
¿Cuál es la probabilidad de que haya 2 defectos o mas?
x <- 2
paste("La probabilidad de que haya 2 defectos o mas es: ",round(sum(tabla$f.prob.x[x+1], tabla$f.prob.x[x+2]) * 100, 2), "%")
## [1] "La probabilidad de que haya 2 defectos o mas es: 50 %"
ggplot(data = tabla, aes(x = x, y=f.prob.x)) +
#geom_bar(stat="identity")
geom_bar(stat="identity")
ggplot(data = tabla, aes(x = x, y=F.acum.x)) +
geom_point() +
geom_line()
Una variable aleatoria es aquella función que asocia a cada elemento del espacio muestral con un número real, se utilizan las letras mayúsculas (X,Y,Z…) para designar variables y las minúsculas para los valores concretos de cada una. El valor numérico de la variable aleatoria depende del resultado del experimento. Una variable aleatoria puede ser discreta o continua, depende del tipo de valores numéricos que asuma.
En el caso de los billetes de rifa sería cada uno de los compradores de los billetes, en el de la venta de los automóviles serían cada una de las opciones de la cantidad de vehículos vendidos cada día, En el de los niños de cuarto grado sería la cantidad de niños dependiendo de la edad de cada uno, en el caso de los trabajadores sería la puntuación que haya dado cada uno de los directivos y todavía dividiéndose en dos para el caso de los directivos de nivel alto y los de nivel medio y finalmente en el de los componentes electrónicos las variables serían la cantidad de componentes defectuosos y no defectuosos en rondas de 3.
Una variable discreta es aquella que solo puede tomar un número finito de valores entre dos valores cualesquiera de una característica, osease que no puede ser infinitesimal ni puede estar en un rango de 0 a infinito.
El espacio muestral está formado por todos los posibles resultados de un experimento aleatorio. Es decir, se compone de todos y cada uno de los sucesos elementales.
En el primer caso sería la cantidad de personas que compraron boletos separadas por la cantidad que adquirieron, en ese caso todos compran de a 3, así que sólo hay una variable; en el segundo hay seis variables, de 0 a 6 coches vendidos, en el de los niños es la edad de los niños, que pueden ir desde los 6 hasta los 14 años, en el de los directivos se divide en dos, la de los de alto nivel y la de los de bajo nivel y cada uno de ellos pueden dar una calificación desde 1 hasta 5 sólo con enteros; y ya por último en el caso de los componentes electrónicos hay cuatro opciones, de 0 a 3 componentes defectuosos por cada 3 componentes.
La gráfica de barras muestra de manera gráfica la probabilidad de que suceda cada una de las variables acumuladas, en este caso de manera decimal y no porcentual; el gráfico lineal acumulado muestra el crecimiento de la suma de los totales de los porcentajes de cada variable discreta hasta llegar a 1, puesto que la probabilidad de que suceda alguno de los casos no puede ser mayor a 1.
Por lo visto en el caso tenemos que aprender a diferenciar las variables discretas y continuas, entender cómo calcular la posibilidad de algún evento para las variables discretas (las vistas en este caso) y cómo las gráficas pueden ayudarnos a poder entender de manera más simple y sin necesidad de hacer cálculos o tener nociones avanzadas de matemáticas para entender los resultados que hayamos conseguido.
Anderson, David R., Dennis J. Sweeney, and Thomas A. Williams. 2008. Estadística Para Administración y Economía. 10th ed. Australia • Brasil • Corea • España • Estados Unidos • Japón • México • Reino Unido • Singapur: Cengage Learning,.
Lind, Douglas, William Marchal, and Samuel Wathen. 2015. Estadística Aplicada a Los Negocios y La Economía. Decimo Sexta. México, D.F.: McGraw-Hill.
Walpole, Ronald E., Raymond H. Myers, and Sharon L. Myers. 2012. Probabilidad y Estadística Para Ingeniería y Ciencias. Novena Edición. México: Pearson.