Los datos de tipo discretos son aquellos conformados por números enteros positivos, por lo general corresponden a conteos
Los datos de tipo continuo son aquellos conformados por números reales, pueden tomar cualquier valor dentro de un intervalo
Los datos de tipo discreto se distribuyen de la siguiente manera:
\[ X\sim Unif(x_1,x_2,...,x_n) \]
Sea X una variable aleatoria que toma valores x1,x2,…,xn tales la probabilidad de tomar cada uno de los valores es P(X=xi)=1/n
La distribución uniforme discreta describe el comportamiento de una variable discreta que puede tomar n valores distintos con la misma probabilidad cada uno de ellos.
Parámetros \[ a,b\in \mathbb{N} \]
Dominio \[ x\in [a,b] \]
Función de densidad
x <- sample(1:10,10,FALSE)
fx <- rep(1/length(x),length(x))
ggplot()+geom_point(aes(x=x,y=fx))+ggtitle("Distribución uniforme discreta")+geom_line(aes(x=x,y=fx))
Fx <- cumsum(fx)
ggplot()+geom_point(aes(x=1:10,y=Fx))+ggtitle("Distribución uniforme discreta acumulada")+geom_line(aes(x=1:10,y=Fx))
\[ X\sim Binom(n,p) \] La distribución binomial fue obtenida por Jakob Bernoulli (1654-1705) y publicada en su obra póstuma Ars Conjectandi en 1713. Esta distribución aparece de forma natural al realizar repeticiones independientes de un experimento que tenga respuesta binaria, generalmente clasificada como “éxito” o “fracaso”; este experimento recibe el nombre de experimento de Bernoulli.
\[n\geq 0\] \[0\leq p\leq1\]
\[ x\in \begin{Bmatrix} 0,1,2,...,n \end{Bmatrix} \]
\[ f(x)=\left\{\begin{matrix} \binom{n}{x}p^{x}(1-p)^{n-x} si\ x=0,1,...,n \\ 0 \ en \ cualquier \ otro \ caso \end{matrix}\right. \]
x <- rbinom(10000,10,0.20)
fx <- prop.table(table(x))
ggplot()+geom_point(aes(x=1:length(fx),y=fx))+geom_line(aes(x=1:length(fx),y=fx))+ggtitle("Distribución binomial")
Fx <- cumsum(fx)
ggplot()+geom_point(aes(x=1:length(Fx),y=Fx))+geom_line(aes(x=1:length(Fx),y=Fx))+ggtitle("Distribución binomial acumulada")
\[ X\sim Hipergeo(N,k,n) \]
Una variable aleatoria discreta X tiene una distribución hipergeométrica con parámetros N=0,1,… K=0,1,…,N y n=0,1,…,N
La distribución hipergeométrica es una distribución de probabilidad discreta relacionada con muestreos aleatorios y sin reemplazo.
\[ N\in \begin{Bmatrix}0,1,2,...\end{Bmatrix} \]
\[ K\in \begin{Bmatrix}0,1,2,...,N\end{Bmatrix} \]
\[ n\in \begin{Bmatrix}0,1,2,...,N\end{Bmatrix} \]
\[ x\in \begin{Bmatrix}0,1,2,...,min\begin{Bmatrix}k,N-k\end{Bmatrix}\end{Bmatrix} \]
\[ f(x)=\left\{\begin{matrix} \frac{\binom{k}{n}\binom{N-k}{n-x}}{\binom{N}{n}} \ si \ x=0,1,2,...,n \\ 0 \ en \ otro \ caso \end{matrix}\right. \]
x <- rhyper(nn = 10000,m = 100,n = 100,k = 50)
fx <- prop.table(table(x))
ggplot()+geom_point(aes(x=1:length(fx),y=fx))+geom_line(aes(x=1:length(fx),y=fx))+ggtitle("Distribución hipergeométrica ")
Fx <- cumsum(fx)
ggplot()+geom_point(aes(x=1:length(Fx),y=Fx))+geom_line(aes(x=1:length(Fx),y=Fx))+ggtitle("Distribución hipergeométrica acumulada")
\[ X\sim Geo(p) \]
Si la variable aleatoria discreta X se usa para modelar el número de fracasos antes de obtener el primer éxito en una sucesión de ensayos independientes Bernoulli en donde en cada uno de ellos la probabilidad de éxito es p. La distribución geométrica permite calcular la probabilidad de que tenga que realizarse un número k de repeticiones antes de obtener un éxito por primera vez; esta probabilidad decrece a medida que aumenta k con lo que la función de masa de probabilidad es siempre decreciente. Así pues, se diferencia de la distribución binomial en que el número de repeticiones no está predeterminado, sino que es la variable aleatoria que se mide y, por otra parte, el conjunto de valores posibles de la variable es ilimitado.
\[ 0\leq p\leq 1 \]
\[ x\in \begin{Bmatrix}0,1,2,...\end{Bmatrix} \]
\[ f(x)=\left\{\begin{matrix} p(1-p)^{x} \ si \ x=0,1,2,...\\ 0 \ en \ cualquier \ otro \ caso \end{matrix}\right. \]
x <- rgeom(n = 10000,prob = 0.1)
fx <- prop.table(table(x))
ggplot()+geom_point(aes(x=1:length(fx),y=fx))+ggtitle("Distribución geométrica")+geom_line(aes(x=1:length(fx),y=fx))
Fx <- cumsum(fx)
ggplot()+geom_point(aes(x=1:length(Fx),y=Fx))+ggtitle("Distribución geométrica acumulada")+geom_line(aes(x=1:length(Fx),y=Fx))
\[ X \sim Bin.neg(r,p) \]
La distribución binomial negativa aparece en un estudio de Pierre Rémond de Montmort (1678-1719) sobre los juegos de azar en 1714, pero años antes ya había sido descrita por Blaise Pascal (1623-1662). Más adelante, esta distribución fue propuesta como una alternativa a la distribución de Poisson para modelar el número de ocurrencias de un suceso cuando los datos presentan lo que se conoce como variación extra-Poisson o sobredispersión.
\[ r\in \mathbb{Z}^{+} \]
\[ 0<p<1 \]
\[ x\in \begin{Bmatrix}0,1,2,...\end{Bmatrix} \]
\[ f(x)=\left\{\begin{matrix} \binom{r+x-1}{x}p^{r}(1-p)^{x} \ si \ x=0,1,2,...\\ 0 \ en \ otro \ caso \end{matrix}\right. \]
x <- rbinom(n = 10000,size = 20,0.2)
fx <- prop.table(table(x))
ggplot()+geom_point(aes(x=1:length(fx),y=fx))+ggtitle("Distribución binomial negativa")+geom_line(aes(x=1:length(fx),y=fx))
Fx <- cumsum(fx)
ggplot()+geom_point(aes(x=1:length(Fx),y=Fx))+ggtitle("Distribución binomial negativa acumulada")+geom_line(aes(x=1:length(Fx),y=Fx))
\[ X\sim Poisson(\lambda) \]
La distribución de Poisson debe su nombre al matemático francés Simeón Denis Poisson (1781-1840), aunque ya había sido introducida en 1718 por Abraham De Moivre (1667-1754) como una forma límite de la distribución binomial que surge cuando se observa un evento raro después de un número grande de repeticiones. La distribución de Poisson también surge cuando un evento o suceso “raro” ocurre aleatoriamente en el espacio o el tiempo. La variable asociada es el número de ocurrencias del evento en un intervalo o espacio continuo, por tanto, es una variable aleatoria discreta que toma valores enteros de 0 en adelante (0, 1, 2,…).
\[ \lambda \in \begin{pmatrix}0,\infty\end{pmatrix} \]
\[ k\in \begin{Bmatrix}0,1,2,...,\end{Bmatrix} \]
\[ f(x)=\left\{\begin{matrix} e^{-\lambda}\frac{\lambda^{x}}{x!} \ si \ x=0,1,2,... \\ 0 \ en \ otro \ caso \end{matrix}\right. \]
x <- rpois(n = 10000,lambda = 2)
fx <- prop.table(table(x))
ggplot()+geom_point(aes(x=1:length(fx),y=fx))+ggtitle("Distribución Poisson")+geom_line(aes(x=1:length(fx),y=fx))
Fx <- cumsum(fx)
ggplot()+geom_point(aes(x=1:length(Fx),y=Fx))+ggtitle("Distribución Poisson acumulada")+geom_line(aes(x=1:length(Fx),y=Fx))