Resolver cuestiones de casos de probabilidad en casos mediante la identificación de variables aleatorias, funciones de probabilidad, funciones acumuladas y visualización gráficas relacionados con variables discretas.
Identificar casos relacionados con variables discretas para elaborar mediante programación R y markdown las variables discretas, las funciones de probabilidad de cada variable, la función acumulada y su visualización gráfica para su adecuada interpretación.
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.0.3
library(stringr) # String
library(stringi) # String
## Warning: package 'stringi' was built under R version 4.0.3
library(gtools)
## Warning: package 'gtools' was built under R version 4.0.3
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(knitr)
## Warning: package 'knitr' was built under R version 4.0.3
Para cada ejercicio, se describe y define el contexo Se construye su tabla de probabilidad que contenga los valores de la variable aleatoria, la función de probabilidad y su función acumulada, la gráfica de barra de los valores de las variables aleatoria y la gráfica lineal de la función acumulada. * 2.1. Ejercicio 1 Se venden 5000 billetes para una rifa a 1 euro cada uno. Existe un único premio de cierta cantidad, calcular los valores de las variables aleatorias y sus probabilidades para 0 para no gana y 1 para si gana cuando un comprador adquiere tres billetes. (Hero, n.d.)
Tabla de probabilidad
discretas <- c(0,1) # 0 Que no gane, 1 que gane
n <- 5000
casos <- c(4997,3)
probabilidades <- casos / n
acumulada <- cumsum(probabilidades) # Acumulada
tabla <- data.frame(x=discretas,
casos = casos,
f.prob.x = probabilidades,
F.acum.x = acumulada)
tabla
## x casos f.prob.x F.acum.x
## 1 0 4997 0.9994 0.9994
## 2 1 3 0.0006 1.0000
ggplot(data = tabla, aes(x = x, y=f.prob.x)) +
geom_bar(stat="identity")
ggplot(data = tabla, aes(x = x, y=F.acum.x)) +
geom_point() +
geom_line()
Las ventas de automóviles de una empresa
Durante los últimos 300 días de operación, los datos de ventas muestran que hubo
*54 días en los que no se vendió ningún automóvil,
*117 días en los que se vendió 1 automóvil,
*72 días en los que se vendieron 2 automóviles,
*42 días en los que se vendieron 3 automóviles,
*12 días en los que se vendieron 4 automóviles y
*3 días en los que se vendieron 5 automóviles.
*¿Cuál es la probabilida de que se venda exactamente un automoviles?
*¿Cuál es la la probabilidad de que se venda al menos 2 automóviles?
Tabla de probabilidad o Contingencia
discretas <- 0:5 # c(0,1,2,3,4,5)
n <- 300
casos <- c(54, 117, 72, 42, 12, 3)
probabilidades <- casos /n
acumulada <- cumsum(probabilidades) # Acumulada
tabla <- data.frame(x=discretas,
casos = casos,
f.prob.x = probabilidades,
F.acum.x = acumulada)
tabla
## x casos f.prob.x F.acum.x
## 1 0 54 0.18 0.18
## 2 1 117 0.39 0.57
## 3 2 72 0.24 0.81
## 4 3 42 0.14 0.95
## 5 4 12 0.04 0.99
## 6 5 3 0.01 1.00
Gráfica de barra
ggplot(data = tabla, aes(x = x, y=f.prob.x)) +
#geom_bar(stat="identity")
geom_bar(stat="identity")
Gráfica lineal acumulada
ggplot(data = tabla, aes(x = x, y=F.acum.x)) +
geom_point() +
geom_line()
2.3. Ejercicio 3 En Estados Unidos un porcentaje de los niños de cuarto grado no pueden leer un libro adecuado a su edad. La tabla siguiente muestra, de acuerdo con las edades de entre 6 y 14 años, el número de niños que tienen problemas de lectura. La mayoría de estos niños tienen problemas de lectura que debieron ser detectados y corregidos antes del tercer grado.(Anderson et al., 2008)
¿Cuál es la probabilida de elegir alumnos que tienen problemas de exactamente 10 años? 0.14185758 ¿Cuál es la probabilidad de encontrar alumnos por de 11 años o menos? 0.55344837
Tabla de probabilidad o Contingencia
discretas <- 6:14
#n <- '?'
casos <- c(37369, 87436, 160840,239719,286719,306533,310787,302604,289168)
n <- sum(casos)
probabilidades <- casos /n
acumulada <- cumsum(probabilidades) # Acumulada
tabla <- data.frame(x=discretas,
casos = casos,
f.prob.x = probabilidades,
F.acum.x = acumulada)
tabla
## x casos f.prob.x F.acum.x
## 1 6 37369 0.01848875 0.01848875
## 2 7 87436 0.04325998 0.06174874
## 3 8 160840 0.07957747 0.14132621
## 4 9 239719 0.11860378 0.25992999
## 5 10 286719 0.14185758 0.40178757
## 6 11 306533 0.15166079 0.55344837
## 7 12 310787 0.15376551 0.70721387
## 8 13 302604 0.14971687 0.85693075
## 9 14 289168 0.14306925 1.00000000
¿Cuál es la probabilida de elegir alumnos que tienen problemas de exactamente 10 años? es: 14.18%
¿Cuál es la probabilidad de encontrar alumnos por de 11 años o menos? 55.34%
Gráfica debarra
ggplot(data = tabla, aes(x = x, y=f.prob.x)) +
geom_bar(stat="identity")
Gráfica lineal acumulada
ggplot(data = tabla, aes(x = x, y=F.acum.x)) +
geom_point() +
geom_line()
2.4. Ejercicio 4. Se muestra la distribución de frecuencias porcentuales para las puntuaciones dadas a la satisfacción con el trabajo por una muestra de directivos en sistemas de información de nivel alto y de nivel medio. Las puntuaciones van de 1 (muy insatisfecho) a 5 (muy satisfecho).(Anderson et al., 2008)
#include_graphics("../imagenes/satisfaccion en el trabajo ejecutivos.jpg")
Tabla de probabilidad o Contingencia Para directivos de alto nivel Para este ejercicio se utiliza tabla1 y tabla2 como variables para identificar los valores de acuerdo al tipo de ejecutivo.
¿Cuál es la probabilidad de que un ejecutivo de nivel alto dé una puntuación de 4 o 5 a su satisfacción con el trabajo?
discretas <- 1:5
#n <- '?'
casos <- c(5,9,3,42,41)
n <- sum(casos)
probabilidades <- casos /n
acumulada <- cumsum(probabilidades)
tabla1 <- data.frame(x=discretas,
casos = casos,
f.prob.x = probabilidades,
F.acum.x = acumulada)
tabla1
## x casos f.prob.x F.acum.x
## 1 1 5 0.05 0.05
## 2 2 9 0.09 0.14
## 3 3 3 0.03 0.17
## 4 4 42 0.42 0.59
## 5 5 41 0.41 1.00
paste("La probabilidad de que un ejecutivo de nivel alto dé una puntuación de 4 o 5 a su satisfacción con el trabajo es:", round(sum(tabla1$f.prob.x[4], tabla1$f.prob.x[5]) * 100, 2), "%")
## [1] "La probabilidad de que un ejecutivo de nivel alto dé una puntuación de 4 o 5 a su satisfacción con el trabajo es: 83 %"
Gráfica de barra
ggplot(data = tabla1, aes(x = x, y=f.prob.x, fill=x)) +
geom_bar(stat="identity")
Gráfica lineal acumulada
ggplot(data = tabla1, aes(x = x, y=F.acum.x)) +
geom_point(colour="blue") +
geom_line(colour="red")
Para directivos de nivel medio ¿Cuál es la probabilidad de que un ejecutivo de nivel medio esté muy satisfecho?
discretas <- 1:5
#n <- '?'
casos <- c(4, 10, 12, 46, 28)
n <- sum(casos)
probabilidades <- casos /n
acumulada <- cumsum(probabilidades)
tabla2 <- data.frame(x=discretas,
casos = casos,
f.prob.x = probabilidades,
F.acum.x = acumulada)
tabla2
## x casos f.prob.x F.acum.x
## 1 1 4 0.04 0.04
## 2 2 10 0.10 0.14
## 3 3 12 0.12 0.26
## 4 4 46 0.46 0.72
## 5 5 28 0.28 1.00
paste(" La probabilidad de que un ejecutivo de nivel medio esté muy satisfecho es:", round(tabla2$f.prob.x[5] * 100, 2), "%")
## [1] " La probabilidad de que un ejecutivo de nivel medio esté muy satisfecho es: 28 %"
Gráfica de barra
ggplot(data = tabla2, aes(x = x, y=f.prob.x, fill=x)) +
geom_bar(stat="identity")
Gráfica lineal acumulada
ggplot(data = tabla2, aes(x = x, y=F.acum.x)) +
geom_point(colour="blue") +
geom_line(colour="red")
Observando las gráficas de barras y las tablas de probabilidad, los directivos de alto nivel están más satisfechos con el trabajo. 2.5. Ejercicio 5. La prueba de un número de componentes electrónicos se prueban tres componentes electrónicos, el espacio muestral que ofrece una descripción detallada de cada posible resultado se escribe como:
S <- c("NNN", "NND", "NDN", "DNN",
"NDD", "DND", "DDN", "DDD")
S
## [1] "NNN" "NND" "NDN" "DNN" "NDD" "DND" "DDN" "DDD"
Se define N como No defectuoso y D como defectuoso. Se identifican las variables discretas como: 0 defectos, no hay D en el espacio muestral 1 defecto existe, existe una D en el espacio muestral 2 defectos hay dos D en el espacio muestral y 3 defectos hay tres D en el espacio muestral Los valores son de las variables x con cantidades aleatorias determinadas por el resultado del experimento. Se determina como valores que toma la variable aleatoria X, es decir, el número de artículos defectuosos cuando se prueban tres componentes electrónicos.
¿Cuál es la probabilida de que haya 1 defecto? 0.125 ¿Cuál es la probabilida de que haya 2 defectos o mas? 0.125
Tabla de probabilidad o Contingencia
discretas <- 0:3
n <- 24
casos <- c(12,3,3,6)
n <- sum(casos)
probabilidades <- casos /n
acumulada <- cumsum(probabilidades) # Acumulada
tabla <- data.frame(x=discretas,
casos = casos,
f.prob.x = probabilidades,
F.acum.x = acumulada)
tabla
## x casos f.prob.x F.acum.x
## 1 0 12 0.500 0.500
## 2 1 3 0.125 0.625
## 3 2 3 0.125 0.750
## 4 3 6 0.250 1.000
Se utiliza la variable x dado que el valor de la variable aleatoria x empieza en 0 y los vectores en R comienzan en, 1
x <- 1
paste("La probabilidad de que haya 1 defecto es: ",round(tabla$f.prob.x[x+1] * 100, 2), "%")
## [1] "La probabilidad de que haya 1 defecto es: 12.5 %"
x <- 2
paste("La probabilidad de que haya 2 defectos o mas es: ",round(sum(tabla$f.prob.x[x+1], tabla$f.prob.x[x+2]) * 100, 2), "%")
## [1] "La probabilidad de que haya 2 defectos o mas es: 37.5 %"
Gráfica de barra
ggplot(data = tabla, aes(x = x, y=f.prob.x)) +
#geom_bar(stat="identity")
geom_bar(stat="identity")
Gráfica lineal acumulada
ggplot(data = tabla, aes(x = x, y=F.acum.x)) +
geom_point() +
geom_line()
3. Interpretación de cada caso 3.1. ¿Cuál es la variable aleatoria y su significado en el contexto? Una variable aleatoria es una función que asigna un valor, usualmente numérico, al resultado de un experimento aleatorio.
3.2. ¿Qué valores puede tomar la variable aleatoria? Las variables aleatorias suelen tomar valores reales, pero se pueden considerar valores aleatorios como valores lógicos
3.3. ¿Cuál es el espacio muestral? todos los elementos que hayan sido seleccionados como muestra
3.4. ¿Cuántos elementos hay en espacio muestral (S)? El espacio muestral consiste de todos los resultados posibles, no sólo aquellos del evento. En este caso hay 3.
3.5. ¿Cuántos casos hay de cada valor de cada variable aleatoria? Hay 2 casos
3.6. ¿Cuáles son las probabilidades más altas de cada variable aleatoria? 50%
3.7. Resolver lo que se solicita encontrando al menos dos probabilidades de variables aleatorias.
3.7.1. Que sea exactamente igual a un valor de variable aleatoria 50%
3.7.2. Qué sea menor o igual 50% 3.7.3. Que sea mayor o igual 50% 3.7.4. Alguna otra pregunta del caso.
3.8. ¿Que significado tiene el gráfico de barra? Es la representación entre 2 valores
3.9. ¿Qué significado tiene el gráfico lineal acumulado? Son los valores acomulados de cada caso