###Objetivo Resolver cuestiones de casos de probabilidad en casos mediante la identificación de variables aleatorias, funciones de probabilidad, funciones acumuladas y visualización gráficas relacionados con variables discretas.
###Descripción Identificar casos relacionados con variables discretas para elaborar mediante programación R y markdown las variables discretas, las funciones de probabilidad de cada variable, la función acumulada y su visualización gráfica para su adecuada interpretación.
###1. Cargar librerías
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.0.3
library(stringr) # String
## Warning: package 'stringr' was built under R version 4.0.3
library(stringi) # String
## Warning: package 'stringi' was built under R version 4.0.3
library(gtools)
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(knitr)
library(gapminder)
## Warning: package 'gapminder' was built under R version 4.0.3
library(gganimate)
## Warning: package 'gganimate' was built under R version 4.0.3
## No renderer backend detected. gganimate will default to writing frames to separate files
## Consider installing:
## - the `gifski` package for gif output
## - the `av` package for video output
## and restarting the R session
###2. Ejercicios
###2.1. Ejercicio 1 Se venden 5000 billetes para una rifa a 1 euro cada uno. Existe un único premio de cierta cantidad, calcular los valores de las variables aleatorias y sus probabilidades para 0 para no gana y 1 para si gana cuando un comprador adquiere tres billetes. (Hero, n.d.)
Tabla de probabilidad o Contingencia
discretas <- c(0,1) # 0 Que no gane, 1 que gane
n <- 5000
casos <- c(4997,3)
probabilidades <- casos / n
acumulada <- cumsum(probabilidades) # Acumulada
tabla <- data.frame(x=discretas,
casos = casos,
f.prob.x = probabilidades,
F.acum.x = acumulada)
tabla
## x casos f.prob.x F.acum.x
## 1 0 4997 0.9994 0.9994
## 2 1 3 0.0006 1.0000
Gráfica de barra
ggplot(data = tabla, aes(x = x, y=f.prob.x)) +
geom_bar(stat="identity")
Gráfica lineal acumulada
ggplot(data = tabla, aes(x = x, y=F.acum.x)) +
geom_point() +
geom_line()
###2.2. Ejercicio 2 Las ventas de automóviles de una empresa
Durante los últimos 300 días de operación, los datos de ventas muestran que hubo
54 días en los que no se vendió ningún automóvil,
117 días en los que se vendió 1 automóvil,
72 días en los que se vendieron 2 automóviles,
42 días en los que se vendieron 3 automóviles,
12 días en los que se vendieron 4 automóviles y
3 días en los que se vendieron 5 automóviles.
¿Cuál es la probabilida de que se venda exactamente un automoviles?
¿Cuál es la la probabilidad de que se venda al menos 2 automóviles?
Tabla de probabilidad o Contingencia
discretas <- 0:5 # c(0,1,2,3,4,5)
n <- 300
casos <- c(54, 117, 72, 42, 12, 3)
probabilidades <- casos /n
acumulada <- cumsum(probabilidades) # Acumulada
tabla <- data.frame(x=discretas,
casos = casos,
f.prob.x = probabilidades,
F.acum.x = acumulada)
tabla
## x casos f.prob.x F.acum.x
## 1 0 54 0.18 0.18
## 2 1 117 0.39 0.57
## 3 2 72 0.24 0.81
## 4 3 42 0.14 0.95
## 5 4 12 0.04 0.99
## 6 5 3 0.01 1.00
Gráfica de barra
ggplot(data = tabla, aes(x = x, y=f.prob.x)) +
geom_bar(stat="identity")
Gráfica lineal acumulada
ggplot(data = tabla, aes(x = x, y=F.acum.x)) +
geom_point() +
geom_line()
###2.3. Ejercicio 3 En Estados Unidos un porcentaje de los niños de cuarto grado no pueden leer un libro adecuado a su edad. La tabla siguiente muestra, de acuerdo con las edades de entre 6 y 14 años, el número de niños que tienen problemas de lectura. La mayoría de estos niños tienen problemas de lectura que debieron ser detectados y corregidos antes del tercer grado.(Anderson et al., 2008)
¿Cuál es la probabilida de elegir alumnos que tienen problemas de exactamente 10 años?
¿Cuál es la probabilidad de encontrar alumnos por de 11 años o menos?
Tabla de probabilidad o Contingencia
discretas <- 6:14
#n <- '?'
casos <- c(37369, 87436, 160840,239719,286719,306533,310787,302604,289168)
n <- sum(casos)
probabilidades <- casos /n
acumulada <- cumsum(probabilidades) # Acumulada
tabla <- data.frame(x=discretas,
casos = casos,
f.prob.x = probabilidades,
F.acum.x = acumulada)
tabla
## x casos f.prob.x F.acum.x
## 1 6 37369 0.01848875 0.01848875
## 2 7 87436 0.04325998 0.06174874
## 3 8 160840 0.07957747 0.14132621
## 4 9 239719 0.11860378 0.25992999
## 5 10 286719 0.14185758 0.40178757
## 6 11 306533 0.15166079 0.55344837
## 7 12 310787 0.15376551 0.70721387
## 8 13 302604 0.14971687 0.85693075
## 9 14 289168 0.14306925 1.00000000
¿Cuál es la probabilida de elegir alumnos que tienen problemas de exactamente 10 años? es: 14.18%
¿Cuál es la probabilidad de encontrar alumnos por de 11 años o menos? 55.34%
Gráfica de barra
ggplot(data = tabla, aes(x = x, y=f.prob.x)) +
geom_bar(stat="identity")
Gráfica lineal acumulada
ggplot(data = tabla, aes(x = x, y=F.acum.x)) +
geom_point() +
geom_line()
###2.4. Ejercicio 4. Se muestra la distribución de frecuencias porcentuales para las puntuaciones dadas a la satisfacción con el trabajo por una muestra de directivos en sistemas de información de nivel alto y de nivel medio. Las puntuaciones van de 1 (muy insatisfecho) a 5 (muy satisfecho).(Anderson et al., 2008)
Tabla de probabilidad o Contingencia
Para directivos de alto nivel
Para este ejercicio se utiliza tabla1 y tabla2 como variables para identificar los valores de acuerdo al tipo de ejecutivo.
¿Cuál es la probabilidad de que un ejecutivo de nivel alto dé una puntuación de 4 o 5 a su satisfacción con el trabajo?
discretas <- 1:5
#n <- '?'
casos <- c(5,9,3,42,41)
n <- sum(casos)
probabilidades <- casos /n
acumulada <- cumsum(probabilidades)
tabla1 <- data.frame(x=discretas,
casos = casos,
f.prob.x = probabilidades,
F.acum.x = acumulada)
tabla1
## x casos f.prob.x F.acum.x
## 1 1 5 0.05 0.05
## 2 2 9 0.09 0.14
## 3 3 3 0.03 0.17
## 4 4 42 0.42 0.59
## 5 5 41 0.41 1.00
paste("La probabilidad de que un ejecutivo de nivel alto dé una puntuación de 4 o 5 a su satisfacción con el trabajo es:", round(sum(tabla1$f.prob.x[4], tabla1$f.prob.x[5]) * 100, 2), "%")
## [1] "La probabilidad de que un ejecutivo de nivel alto dé una puntuación de 4 o 5 a su satisfacción con el trabajo es: 83 %"
Gráfica de barra
ggplot(data = tabla1, aes(x = x, y=f.prob.x, fill=x)) +
geom_bar(stat="identity")
Gráfica lineal acumulada
ggplot(data = tabla1, aes(x = x, y=F.acum.x)) +
geom_point(colour="blue") +
geom_line(colour="red")
Para directivos de nivel medio
¿Cuál es la probabilidad de que un ejecutivo de nivel medio esté muy satisfecho?
discretas <- 1:5
#n <- '?'
casos <- c(4, 10, 12, 46, 28)
n <- sum(casos)
probabilidades <- casos /n
acumulada <- cumsum(probabilidades)
tabla2 <- data.frame(x=discretas,
casos = casos,
f.prob.x = probabilidades,
F.acum.x = acumulada)
tabla2
## x casos f.prob.x F.acum.x
## 1 1 4 0.04 0.04
## 2 2 10 0.10 0.14
## 3 3 12 0.12 0.26
## 4 4 46 0.46 0.72
## 5 5 28 0.28 1.00
paste(" La probabilidad de que un ejecutivo de nivel medio esté muy satisfecho es:", round(tabla2$f.prob.x[5] * 100, 2), "%")
## [1] " La probabilidad de que un ejecutivo de nivel medio esté muy satisfecho es: 28 %"
Gráfica de barra
ggplot(data = tabla2, aes(x = x, y=f.prob.x, fill=x)) +
geom_bar(stat="identity")
Gráfica lineal acumulada
ggplot(data = tabla2, aes(x = x, y=F.acum.x)) +
geom_point(colour="blue") +
geom_line(colour="red")
Observando las gráficas de barras y las tablas de probabilidad, los directivos de alto nivel están más satisfechos con el trabajo.
En el ejercicio 2.1 nos dice que esta trabajando con la probabilidad de 5000 billetes para una rifa a los que nos dio las variables aleatorias de que 4997 no ganaron y los 3 que son restantes si ganaron, en el ejercicio 2.2 se trabaja con los datos de ventas de automoviles en la hornada de 300 dias , de lo cual esto se disperso en varios puntos con diferentes cantidades de dias, pero lo que observe fue que en una hornada de 3 dias de los 300 dias se lograron vender 5 automoviles y fue la cantidad mas alta de todas,en el 2.3 trabaja con los datos de niños de Estados Unidos de que no pueden leer un libro la variable aleatoria es que se trabajan con diferentes edades y cada una de ellas tiene cierto registro y que la mayor cantidad de niños que tiene este problema de leer son los niños de 12 años ya que el registro fue de 310,787 casos, en el ejercicio 4 nos dice que trabaja con la puntuacion de satisfaccion con el trabajo, que esta se deriva en nivel alto y medio, y ttrabaja con las variables aleatorias del 1 al 5 , de lo cuales la variable mas alta fue el numero 4 con un registro de 42 casos que indica que la satisfaccion es buena.
En la variable aleatoria del ejercicio 2.1 seria los 5000 billetes y que de esta cantidad unos pueden ganar y otros perder, en el ejercicio 2.2 la variable es 300 dias y se dispersa en diferentes cantidades de dias, en el 2.3 la variable seria las diferentes edades de los niños de cuarto grado, en el 2.4 la variable es la satisfaccion de lo cual 1 es mala y 5 es buena.
El espacio muestral del ejercicio 2.1 es (si ganaron, no ganaron), en el ejercicio 2.2 trabaja con dias de trabajo (54,117,72,42,12,3), en el ejercicio 2.3 trabaja con (edades de niños de 6 a 14 años), en el 2.4 trabaja con (satisfaccion del trabajo sea buena o mala)
Los elemetos del espacio muestral del ejercicio 2.1 son (1,2), en el 2.2 son (1,2,3,4,5,6), en el 2.3 son (1,2,3,4,5,6,7,8,9), en el 2.4 son(1,2,3,4,5)
los casos de cada variable son: del 2.1 son x(0,1) casos(4997, 3), del 2.2 son x(1,2,3,4,5) casos(54, 117, 72, 42, 12, 3), del 2.3 son x(6, 7, 8, 9, 10, 11, 12, 13, 14) casos(37369, 87436, 160840, 239719, 286719, 306533, 310787, 302604, 289168), del 2.4 son x(1,2,3,4,5) casos(5, 9, 3, 42, 41)
las probabilidades mas altas del ejercicio 2.1 es 0.9994, en el 2.2, la probabilidad mas alta es la de 0.39, en el 2.3 la probabilidad mas alta es el 0.15376551, en el 2.4 la probabilidad mas alta es el 0.4.
Un gráfico de barras es una forma de resumir un conjunto de datos por categorías. Muestra los datos usando varias barras de la misma anchura, cada una de las cuales representa una categoría concreta. La altura de cada barra es proporcional a una agregación específica (por ejemplo, la suma de los valores de la categoría que representa). Las categorías podrían ser desde grupos de edad a ubicaciones geográficas.
El gráfico lineal (gráfico de líneas o diagrama lineal) se compone de una serie de datos representados por puntos, unidos por segmentos lineales. Mediante este gráfico se puede comprobar rápidamente el cambio de tendencia de los datos.El diagrama lineal se suele utilizar con variables cuantitativas, para ver su comportamiento en el transcurso del tiempo.