Resolver cuestiones de casos de probabilidad en casos mediante la identificación de variables aleatorias, funciones de probabilidad, funciones acumuladas, media, varianza y desviación estándar de distribuciones de variables discretas; visualización gráfica relacionada con variables discretas.
Identificar casos relacionados con variables discretas para elaborar mediante programación R y markdown las variables discretas, las funciones de probabilidad de cada variable, la función acumulada, su visualización gráfica para su correcta implementación.
Se incluye en el caso, media, varianza y desviación estándar de distribuciones de variables discretas.
Los casos son identificados de la literatura relacionada con variables aleatorias discretas. Se deben elaborar tres ejercicios en este caso 15 encontrados en la literatura, se pueden apoyar de los mismos ejercicios del caso 14.
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.0.3
library(stringr) # String
## Warning: package 'stringr' was built under R version 4.0.3
library(stringi) # String
## Warning: package 'stringi' was built under R version 4.0.3
library(gtools)
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(knitr)
options(scipen = 999) # Notación normal
Se venden 5000 billetes para una rifa a 1 euro cada uno. Existe un único premio de cierta cantidad, calcular los valores de las variables aleatorias y sus probabilidades para 0 para no gana y 1 para si gana cuando un comprador adquiere tres billetes. (Hero, n.d.)
Tabla de probabilidad
discretas <- c(0,1) # 0 Que no gane, 1 que gane
n <- 5000
casos <- c(4997,3)
probabilidades <- casos / n
acumulada <- cumsum(probabilidades) # Acumulada
tabla <- data.frame(x=discretas,
casos = casos,
f.prob.x = probabilidades,
F.acum.x = acumulada,
x.f.prob.x = (discretas * probabilidades))
kable(tabla, caption = "Tabla de probabilidad con la columna para valor esperado")
| x | casos | f.prob.x | F.acum.x | x.f.prob.x |
|---|---|---|---|---|
| 0 | 4997 | 0.9994 | 0.9994 | 0.0000 |
| 1 | 3 | 0.0006 | 1.0000 | 0.0006 |
VE <- sum(tabla$x * tabla$f.prob.x)
VE
## [1] 0.0006
tabla <- cbind(tabla, 'VE' = VE, 'x-VE.cuad.f.prob.x' = (tabla$x - VE)^2 * tabla$f.prob.x)
kable(tabla, caption = "Tabla de probabilidad con valor esperado y columnas para varianza")
| x | casos | f.prob.x | F.acum.x | x.f.prob.x | VE | x-VE.cuad.f.prob.x |
|---|---|---|---|---|---|---|
| 0 | 4997 | 0.9994 | 0.9994 | 0.0000 | 0.0006 | 0.0000004 |
| 1 | 3 | 0.0006 | 1.0000 | 0.0006 | 0.0006 | 0.0005993 |
varianza <- sum((tabla$x - VE)^2 * tabla$f.prob.x)
varianza
## [1] 0.00059964
desv.std <- sqrt(varianza)
desv.std
## [1] 0.02448755
Las ventas de automóviles de una empresa
Durante los últimos 300 días de operación, los datos de ventas muestran que hubo
54 días en los que no se vendió ningún automóvil,
117 días en los que se vendió 1 automóvil,
72 días en los que se vendieron 2 automóviles,
42 días en los que se vendieron 3 automóviles,
12 días en los que se vendieron 4 automóviles y
3 días en los que se vendieron 5 automóviles.
discretas <- c(0:5) # c(1,2,3,4,5)
n <- 300
casos <- c(54,117,72,42,12,3)
probabilidades <- casos / n
acumulada <- cumsum(probabilidades) # Acumulada
tabla <- data.frame(x=discretas,
casos = casos,
f.prob.x = probabilidades,
F.acum.x = acumulada,
x.f.prob.x = (discretas * probabilidades))
kable(tabla, caption = "Tabla de probabilidad con la columna para valor esperado")
| x | casos | f.prob.x | F.acum.x | x.f.prob.x |
|---|---|---|---|---|
| 0 | 54 | 0.18 | 0.18 | 0.00 |
| 1 | 117 | 0.39 | 0.57 | 0.39 |
| 2 | 72 | 0.24 | 0.81 | 0.48 |
| 3 | 42 | 0.14 | 0.95 | 0.42 |
| 4 | 12 | 0.04 | 0.99 | 0.16 |
| 5 | 3 | 0.01 | 1.00 | 0.05 |
VE <- sum(tabla$x * tabla$f.prob.x)
VE
## [1] 1.5
tabla <- cbind(tabla, 'VE' = VE, 'x-VE.cuad.f.prob.x' = (tabla$x - VE)^2 * tabla$f.prob.x)
kable(tabla, caption = "Tabla de probabilidad con valor esperado y columnas para varianza")
| x | casos | f.prob.x | F.acum.x | x.f.prob.x | VE | x-VE.cuad.f.prob.x |
|---|---|---|---|---|---|---|
| 0 | 54 | 0.18 | 0.18 | 0.00 | 1.5 | 0.4050 |
| 1 | 117 | 0.39 | 0.57 | 0.39 | 1.5 | 0.0975 |
| 2 | 72 | 0.24 | 0.81 | 0.48 | 1.5 | 0.0600 |
| 3 | 42 | 0.14 | 0.95 | 0.42 | 1.5 | 0.3150 |
| 4 | 12 | 0.04 | 0.99 | 0.16 | 1.5 | 0.2500 |
| 5 | 3 | 0.01 | 1.00 | 0.05 | 1.5 | 0.1225 |
varianza <- sum((tabla$x - VE)^2 * tabla$f.prob.x)
varianza
## [1] 1.25
desv.std <- sqrt(varianza)
desv.std
## [1] 1.118034
En Estados Unidos un porcentaje de los niños de cuarto grado no pueden leer un libro adecuado a su edad. La tabla siguiente muestra, de acuerdo con las edades de entre 6 y 14 años, el número de niños que tienen problemas de lectura. La mayoría de estos niños tienen problemas de lectura que debieron ser detectados y corregidos antes del tercer grado.(Anderson et al., 2008).
discretas <- 6:14
n <- '?'
casos <- c(37369, 87436, 160840,239719,286719,306533,310787,302604,289168)
n <- sum(casos)
probabilidades <- casos / n
acumulada <- cumsum(probabilidades) # Acumulada
tabla <- data.frame(x=discretas,
casos = casos,
f.prob.x = probabilidades,
F.acum.x = acumulada,
x.f.prob.x = (discretas * probabilidades))
kable(tabla, caption = "Tabla de probabilidad con la columna para valor esperado")
| x | casos | f.prob.x | F.acum.x | x.f.prob.x |
|---|---|---|---|---|
| 6 | 37369 | 0.0184888 | 0.0184888 | 0.1109325 |
| 7 | 87436 | 0.0432600 | 0.0617487 | 0.3028199 |
| 8 | 160840 | 0.0795775 | 0.1413262 | 0.6366198 |
| 9 | 239719 | 0.1186038 | 0.2599300 | 1.0674340 |
| 10 | 286719 | 0.1418576 | 0.4017876 | 1.4185758 |
| 11 | 306533 | 0.1516608 | 0.5534484 | 1.6682687 |
| 12 | 310787 | 0.1537655 | 0.7072139 | 1.8451861 |
| 13 | 302604 | 0.1497169 | 0.8569307 | 1.9463193 |
| 14 | 289168 | 0.1430693 | 1.0000000 | 2.0029696 |
VE <- sum(tabla$x * tabla$f.prob.x)
VE
## [1] 10.99913
tabla <- cbind(tabla, 'VE' = VE, 'x-VE.cuad.f.prob.x' = (tabla$x - VE)^2 * tabla$f.prob.x)
kable(tabla, caption = "Tabla de probabilidad con valor esperado y columnas para varianza")
| x | casos | f.prob.x | F.acum.x | x.f.prob.x | VE | x-VE.cuad.f.prob.x |
|---|---|---|---|---|---|---|
| 6 | 37369 | 0.0184888 | 0.0184888 | 0.1109325 | 10.99913 | 0.4620571 |
| 7 | 87436 | 0.0432600 | 0.0617487 | 0.3028199 | 10.99913 | 0.6918572 |
| 8 | 160840 | 0.0795775 | 0.1413262 | 0.6366198 | 10.99913 | 0.7157799 |
| 9 | 239719 | 0.1186038 | 0.2599300 | 1.0674340 | 10.99913 | 0.4740005 |
| 10 | 286719 | 0.1418576 | 0.4017876 | 1.4185758 | 10.99913 | 0.1416097 |
| 11 | 306533 | 0.1516608 | 0.5534484 | 1.6682687 | 10.99913 | 0.0000001 |
| 12 | 310787 | 0.1537655 | 0.7072139 | 1.8451861 | 10.99913 | 0.1540345 |
| 13 | 302604 | 0.1497169 | 0.8569307 | 1.9463193 | 10.99913 | 0.5993912 |
| 14 | 289168 | 0.1430693 | 1.0000000 | 2.0029696 | 10.99913 | 1.2883739 |
varianza <- sum((tabla$x - VE)^2 * tabla$f.prob.x)
varianza
## [1] 4.527104
desv.std <- sqrt(varianza)
desv.std
## [1] 2.127699
Se muestra la distribución de frecuencias porcentuales para las puntuaciones dadas a la satisfacción con el trabajo por una muestra de directivos en sistemas de información de nivel alto y de nivel medio. Las puntuaciones van de 1 (muy insatisfecho) a 5 (muy satisfecho).(Anderson et al., 2008)
Tabla de probabilidad o Contingencia
Para directivos de alto nivel
discretas <- 1:5
n <- 5000
casos <- c(5,9,3,42,41)
probabilidades <- casos / n
acumulada <- cumsum(probabilidades)
tabla <- data.frame(x=discretas,
casos = casos,
f.prob.x = probabilidades,
F.acum.x = acumulada,
x.f.prob.x = (discretas * probabilidades))
kable(tabla, caption = "Tabla de probabilidad con la columna para valor esperado")
| x | casos | f.prob.x | F.acum.x | x.f.prob.x |
|---|---|---|---|---|
| 1 | 5 | 0.0010 | 0.0010 | 0.0010 |
| 2 | 9 | 0.0018 | 0.0028 | 0.0036 |
| 3 | 3 | 0.0006 | 0.0034 | 0.0018 |
| 4 | 42 | 0.0084 | 0.0118 | 0.0336 |
| 5 | 41 | 0.0082 | 0.0200 | 0.0410 |
VE <- sum(tabla$x * tabla$f.prob.x)
VE
## [1] 0.081
tabla <- cbind(tabla, 'VE' = VE, 'x-VE.cuad.f.prob.x' = (tabla$x - VE)^2 * tabla$f.prob.x)
kable(tabla, caption = "Tabla de probabilidad con valor esperado y columnas para varianza")
| x | casos | f.prob.x | F.acum.x | x.f.prob.x | VE | x-VE.cuad.f.prob.x |
|---|---|---|---|---|---|---|
| 1 | 5 | 0.0010 | 0.0010 | 0.0010 | 0.081 | 0.0008446 |
| 2 | 9 | 0.0018 | 0.0028 | 0.0036 | 0.081 | 0.0066286 |
| 3 | 3 | 0.0006 | 0.0034 | 0.0018 | 0.081 | 0.0051123 |
| 4 | 42 | 0.0084 | 0.0118 | 0.0336 | 0.081 | 0.1290119 |
| 5 | 41 | 0.0082 | 0.0200 | 0.0410 | 0.081 | 0.1984118 |
varianza <- sum((tabla$x - VE)^2 * tabla$f.prob.x)
varianza
## [1] 0.3400092
desv.std <- sqrt(varianza)
desv.std
## [1] 0.5831031
las variables aleatorias en el ejercicio 2.1 se pueden car a conocer (0,1) que cero quiere decir que no ganan y uno que si ganan, en el ejercicio 2.2 las variables que se pueden dar a notar o a conocer que son los diferentes tipos de ventas ya que un periodo de 300 dias se dividio en diferentes cantidades de dias y en estos dias se realizaron diferentes tipos de ventas de autos esto se puede tomar como la variable aleatoria, en el ejercicio 2.3 las variables aleatorias son las edades de los niños entre la edad de 6 a 14 años, en el ejercicio 2.4 se puede dar a conocer (1,5) que uno significa que la satisfaccion es mala y que 5 la satisfaccion es excelente.
Las variables aleatorias suelen tomar valores reales, pero se pueden considerar valores aleatorios como valores lógicos, funciones o cualquier tipo de elementos (de un espacio medible). El término elemento aleatorio se utiliza para englobar todo ese tipo de conceptos relacionados
El espacio muestral está formado por todos los posibles resultados de un experimento aleatorio. Es decir, se compone de todos y cada uno de los sucesos elementales. en el ejercicio 2.1 el espacio muestral serian 4997 billetes de una rida de los cuales estos no ganaron y los otros 3 sobrantes si ganaron, en el ejercicio 2.2 el espacio muestral es dias(54,117,72,42,12,3), venta de automoviles(0,1,2,3,4,5), en el ejercicio 2.3 el espacio muestral es la diferente cantidad de casos generada de cada una de las edades de los niños que no pueden leer, el espacio muestral del ejercicio 2.4 es (1,2,3,4,5)
Los elemetos del espacio muestral del ejercicio 2.1 son (1,2), en el 2.2 son (1,2,3,4,5,6), en el 2.3 son (1,2,3,4,5,6,7,8,9), en el 2.4 son(1,2,3,4,5)
en el ejercico 2.1 son 5000 casos de los cuales se dividen 4997 y 3, en el ejercicio 2.2 los casos son (54,117,72,42,12,3), en el ejercicio 2.3 los casos son (37369, 87436, 160840,239719,286719,306533,310787,302604,289168), en el ejercicio 2.4 los casos obtenidos son (5,9,3,42,41)
la variable mas alta del ejercicio 2.1 fue 0.9994, en el 2.2 la mas alta es 0.39, en el ejercicio 2.3 es 0.1537655, en el ejercicio 2.4 es 0.0084 .
Los gráficos de barras pueden ser usados para comparar cantidades de una variable en diferentes momentos o diferentes variables para el mismo momento. Las barras pueden orientarse horizontal y verticalmente.
representa la frecuencia absoluta, relativa o porcentaje de cada categoría de la variable; o bien, también se puede representar la frecuencia repitiendo los íconos, en algunos ejemplos presentes en los libros es muy similar a un gráfico de barra, reemplazando las barras por íconos alusivos a la variable.
La media de distribucion es la suma de todos los datos dividida entre el número total de datos. Se calculan dependiendo de cómo vengan ordenados los datos.los valores de la mediana son en el ejercicio 2.1 es 0.0006, en el ejercicio 2.2 son 1.5, en el ejercicio 2.3 son 10.99913, en el ejercicio 2.4 son 0.081.
de una variable aleatoria es una medida de dispersión definida como la esperanza del cuadrado de la desviación de dicha variable respecto a su media. la varianza del ejercicio 2.1 es 0.00059964, en el ejercicio 2.2 es 1.25, en el ejercicio 2.3 es 4.527104, en el 2.4 es 0.3400092.
Si una variable aleatoria x tiene distribución normal suele representarse como N(m,σ) donde m=mx es la media o valor esperado de la variable y σ= σx es la desviación típica de la variable, que son los dos parámetros que caracterizan la distribución normal. la desviacion del ejercicio 2.1 es 0.02448755, en el ejercicio 2.2 es 1.118034, en el ejercicio 2.3 es 2.127699, en el ejercicio 2.4 la desviacion es 0.5831031.