Obetivo: Resolver cuestiones de casos de probabilidad en casos mediante la identificación de variables aleatorias, funciones de probabilidad, funciones acumuladas, media, varianza y desviación estándar de distribuciones de variables discretas; visualización gráfica relacionada con variables discretas.

Descripcion: Identificar casos relacionados con variables discretas para elaborar mediante programación R y markdown las variables discretas, las funciones de probabilidad de cada variable, la función acumulada, su visualización gráfica para su correcta implementación. Se incluye en el caso, media, varianza y desviación estándar de distribuciones de variables discretas. Los casos son identificados de la literatura relacionada con variables aleatorias discretas.

1. Cargar librerias

library(ggplot2)
library(stringr)
library(stringi)
library(gtools)
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(knitr)

2. Identificar ejercicios de la literatura

Fuente: https://www3.uji.es/~mateu/t4-alumnos.pdf

Una variable aleatoria toma los valores de 15,6,19,28,31 cada uno con la probabilidad de 30%,25%,10%,15% y 20%. calcular los valores de las variables aleatorias y sus probabilidades

discretas=1:5
casos=c(15,6,19,28,31)
probabilidades=c(0.30,0.25,0.10,0.15,0.20)
n=sum(casos)
probabilidades=casos/n
acumulada=cumsum(probabilidades)  
tabla=data.frame(x=discretas, 
                    casos = casos,
                    f.prob.x = probabilidades,
                    F.acum.x = acumulada)
tabla
##   x casos   f.prob.x  F.acum.x
## 1 1    15 0.15151515 0.1515152
## 2 2     6 0.06060606 0.2121212
## 3 3    19 0.19191919 0.4040404
## 4 4    28 0.28282828 0.6868687
## 5 5    31 0.31313131 1.0000000
VE=sum(tabla$x * tabla$f.prob.x)
VE
## [1] 3.545455
tabla=cbind(tabla, 'VE' = VE, 'x-VE.cuad.f.prob.x' = (tabla$x - VE)^2 * tabla$f.prob.x)
kable(tabla, caption = "Tabla de probabilidad con valor esperado y columnas para varianza")
Tabla de probabilidad con valor esperado y columnas para varianza
x casos f.prob.x F.acum.x VE x-VE.cuad.f.prob.x
1 15 0.1515152 0.1515152 3.545454 0.9817180
2 6 0.0606061 0.2121212 3.545454 0.1447533
3 19 0.1919192 0.4040404 3.545454 0.0570999
4 28 0.2828283 0.6868687 3.545454 0.0584356
5 31 0.3131313 1.0000000 3.545454 0.6624927
varianza=sum((tabla$x - VE)^2 * tabla$f.prob.x)
varianza
## [1] 1.9045
desv.std=sqrt(varianza)
desv.std
## [1] 1.380036
ggplot(data=tabla,aes(x=x, y=f.prob.x)) +
  geom_bar(stat="identity")

ggplot(data = tabla,aes(x=x, y=F.acum.x))+
  geom_point()+
  geom_line()

Fuente : https://campusvirtual.ull.es/ocw/pluginfile.php/6033/mod_resource/content/1/tema8/PR8.2-valeatorias.pdf

Se venden 5000 billetes para una rifa a 1 euro cada uno. Existe un único premio de cierta cantidad, calcular los valores de las variables aleatorias y sus probabilidades para 0 para no gana y 1 para si gana cuando un comprador adquiere tres billetes. (Hero, n.d.)

discretas <- c(0,1)   # 0 Que no gane, 1 que gane
n <- 5000
casos <- c(4997,50)
probabilidades <- casos / n

acumulada <- cumsum(probabilidades)   # Acumulada

tabla <- data.frame(x=discretas, 
                    casos = casos,
                    f.prob.x = probabilidades,
                    F.acum.x = acumulada)
tabla
##   x casos f.prob.x F.acum.x
## 1 0  4997   0.9994   0.9994
## 2 1    50   0.0100   1.0094
valor.esperado <- sum(tabla$x * tabla$f.prob.x)

valor.esperado
## [1] 0.01
tabla <- cbind(tabla, 'valor.esperado' = valor.esperado, 'x-valor.esperado.cuad.f.prob.x' = (tabla$x - valor.esperado)^2 * tabla$f.prob.x)

kable(tabla, caption = "Tabla probabilidad con valor esperado y columnas para varianza")
Tabla probabilidad con valor esperado y columnas para varianza
x casos f.prob.x F.acum.x valor.esperado x-valor.esperado.cuad.f.prob.x
0 4997 0.9994 0.9994 0.01 0.0000999
1 50 0.0100 1.0094 0.01 0.0098010
varianza <- sum((tabla$x - valor.esperado)^2 * tabla$f.prob.x)
varianza
## [1] 0.00990094
desviacion <- sqrt(varianza)
desviacion
## [1] 0.09950347
ggplot(data = tabla, aes(x = x, y=f.prob.x)) +
  geom_bar(stat="identity")

ggplot(data = tabla, aes(x = x, y=F.acum.x)) +
    geom_point(color="black") + 
  geom_line(color="red")

Fuente: https://www.vadenumeros.es/sociales/variable-aleatoria-discreta.htm

Lanzamos un dado perfecto 240 veces, anotamos el resultado obtenido en la cara superior obteniendo los siguientes resultados: 40, 39, 42, 38, 42, 39. Las probabilidades de que le primer tiro sea 2 y los demas tiros sean 4 y 6.

lanzadas <- c(1,2,3,4,5,6)
n <- 240
resultados <- c(40, 39, 42, 38, 42, 39)
probabilidades <- resultados / n

acumulada <- cumsum(probabilidades)

tabla <- data.frame(x=lanzadas, 
                    resultados = resultados,
                    f.prob.x = probabilidades,
                    F.acum.x = acumulada)
tabla
##   x resultados  f.prob.x  F.acum.x
## 1 1         40 0.1666667 0.1666667
## 2 2         39 0.1625000 0.3291667
## 3 3         42 0.1750000 0.5041667
## 4 4         38 0.1583333 0.6625000
## 5 5         42 0.1750000 0.8375000
## 6 6         39 0.1625000 1.0000000
valor.esperado <- sum(tabla$x * tabla$f.prob.x)

paste("El  valor de la media de la distribución es: ", valor.esperado, "%")
## [1] "El  valor de la media de la distribución es:  3.5 %"
varianza <- sum((tabla$x - valor.esperado)^2 * tabla$f.prob.x)

paste("El valor de la varianza de la distribución es: ", varianza,"%")
## [1] "El valor de la varianza de la distribución es:  2.9 %"
desviacion <- sqrt(varianza)

paste("El valor de desviación de la distribución es: ", desviacion,"%")
## [1] "El valor de desviación de la distribución es:  1.70293863659264 %"
ggplot(data = tabla, aes(x = x, y=f.prob.x)) +
  geom_bar(stat="identity")

ggplot(data = tabla, aes(x = x, y=F.acum.x)) +
    geom_point() + 
  geom_line()

3. Interpretacion

Para este caso vamos a rutilizar los ejercicios vistos en el caso numero 14, para tener un mejor control de los datos ya que son valores que ya conocemos y ya trabajamos con ellos, se nos realiza las siguientes preguntas en base a los resultados obtenidos en los 3 ejercicios en este caso #15:

Las variables aleatorias nos permiten sacar los posibles resultados de un experimento que aun no esta realizado o los posibles valores de una cantidad cuyo valor actualmente es incierto.

Suelen tomar valores reales, pero se pueden considerar valores aleatorios como valores lógicos, funciones o cualquier tipo de elementos (de un espacio medible).

El espacio muestral es el que toma todos los posibles posibilidades que pueda tener las variables.

Estos pueden varian segun su caso, por ejemplo al lanzar una moneda dos veces, esta daria en total como 8 combinaciones, las cuales pueden dar una probabilidad de un grupo de los 8 casos que se conocen.

Ejercicio 1: 5 casos Ejercicio 2: 2 casos Ejercicio 3: 6 casos

Ejercicio 1: 0.28% Ejercicio 2: 99.94%, 0.0100% Ejercicio 3: 0.31%

Es la forma de representar gráficamente el conjunto de datos mediante barras rectangulares de longitud proporcional a los valores representados.

Con este grafico podemos comprobar rápidamente el cambio de tendencia de los datos.

El valor de la media de la distribucion es 3.5%, 5.86% y de 10.9%, lo que significa que la es la media del valor y la probabilidad dada por los ejercicios.

Ejercicio 1: 2.91% Ejercicio 2: 0.01% Ejercicio 3: 3.5%

Es una medida de dispersión que nos indica qué tan lejos se encuentran los cuadrados de la desviación de la media.

Ejercicio 1: 1.90% Ejercicio 2: 0.00990094% Ejercicio 3: 4.52%

La desviación es un promedio de las desviaciones individuales de cada observación con respecto a la media de una distribución.

Ejercicio 1: 1.31 Ejercicio 2: 0.09950347 Ejercicio 3: 1.7