Tipos de datos

Datos cuantitativos

Datos Discretos

Los datos de tipo discretos son aquellos conformados por números enteros positivos, por lo general corresponden a conteos

Datos Continuos

Los datos de tipo continuo son aquellos conformados por números reales, pueden tomar cualquier valor dentro de un intervalo

Distribuciones Discretas

Los datos de tipo discreto se distribuyen de la siguiente manera:

Distribución uniforme discreta

\[ X\sim Unif(x_1,x_2,...,x_n) \]

Sea X una variable aleatoria que toma valores x1,x2,…,xn tales la probabilidad de tomar cada uno de los valores es P(X=xi)=1/n
La distribución uniforme discreta describe el comportamiento de una variable discreta que puede tomar n valores distintos con la misma probabilidad cada uno de ellos.

  • Parámetros \[ a,b\in \mathbb{N} \]

  • Dominio \[ x\in [a,b] \]

  • Función de densidad

x <- sample(1:10,10,FALSE)
fx <- rep(1/length(x),length(x))
ggplot()+geom_point(aes(x=x,y=fx))+ggtitle("Distribución uniforme discreta")+geom_line(aes(x=x,y=fx))

  • Función de distribución
Fx <- cumsum(fx)
ggplot()+geom_point(aes(x=1:10,y=Fx))+ggtitle("Distribución uniforme discreta acumulada")+geom_line(aes(x=1:10,y=Fx))

Distribución binomial

\[ X\sim Binom(n,p) \] La distribución binomial fue obtenida por Jakob Bernoulli (1654-1705) y publicada en su obra póstuma Ars Conjectandi en 1713. Esta distribución aparece de forma natural al realizar repeticiones independientes de un experimento que tenga respuesta binaria, generalmente clasificada como “éxito” o “fracaso”; este experimento recibe el nombre de experimento de Bernoulli.

  • Parámetro

\[n\geq 0\] \[0\leq p\leq1\]

  • Dominio

\[ x\in \begin{Bmatrix} 0,1,2,...,n \end{Bmatrix} \]

  • Función de densidad

\[ f(x)=\left\{\begin{matrix} \binom{n}{x}p^{x}(1-p)^{n-x} si\ x=0,1,...,n \\ 0 \ en \ cualquier \ otro \ caso \end{matrix}\right. \]

x <- rbinom(10000,10,0.20)
fx <- prop.table(table(x))
ggplot()+geom_point(aes(x=1:length(fx),y=fx))+geom_line(aes(x=1:length(fx),y=fx))+ggtitle("Distribución binomial")

  • Fución de distribución
Fx <- cumsum(fx)
ggplot()+geom_point(aes(x=1:length(Fx),y=Fx))+geom_line(aes(x=1:length(Fx),y=Fx))+ggtitle("Distribución binomial acumulada")

Distribución hipergeométrica

\[ X\sim Hipergeo(N,k,n) \]

Una variable aleatoria discreta X tiene una distribución hipergeométrica con parámetros N=0,1,… K=0,1,…,N y n=0,1,…,N

La distribución hipergeométrica es una distribución de probabilidad discreta relacionada con muestreos aleatorios y sin reemplazo.

  • Parámetros

\[ N\in \begin{Bmatrix}0,1,2,...\end{Bmatrix} \]

\[ K\in \begin{Bmatrix}0,1,2,...,N\end{Bmatrix} \]

\[ n\in \begin{Bmatrix}0,1,2,...,N\end{Bmatrix} \]

\[ x\in \begin{Bmatrix}0,1,2,...,min\begin{Bmatrix}k,N-k\end{Bmatrix}\end{Bmatrix} \]

  • Función de densidad

\[ f(x)=\left\{\begin{matrix} \frac{\binom{k}{n}\binom{N-k}{n-x}}{\binom{N}{n}} \ si \ x=0,1,2,...,n \\ 0 \ en \ otro \ caso \end{matrix}\right. \]

x <- rhyper(nn = 10000,m = 100,n = 100,k = 50)
fx <- prop.table(table(x))
ggplot()+geom_point(aes(x=1:length(fx),y=fx))+geom_line(aes(x=1:length(fx),y=fx))+ggtitle("Distribución hipergeométrica ")

  • Función de distribución
Fx <- cumsum(fx)
ggplot()+geom_point(aes(x=1:length(Fx),y=Fx))+geom_line(aes(x=1:length(Fx),y=Fx))+ggtitle("Distribución hipergeométrica acumulada")

Distribución geométrica

\[ X\sim Geo(p) \]

Si la variable aleatoria discreta X se usa para modelar el número de fracasos antes de obtener el primer éxito en una sucesión de ensayos independientes Bernoulli en donde en cada uno de ellos la probabilidad de éxito es p.  La distribución geométrica permite calcular la probabilidad de que tenga que realizarse un número k de repeticiones antes de obtener un éxito por primera vez; esta probabilidad decrece a medida que aumenta k con lo que la función de masa de probabilidad es siempre decreciente. Así pues, se diferencia de la distribución binomial en que el número de repeticiones no está predeterminado, sino que es la variable aleatoria que se mide y, por otra parte, el conjunto de valores posibles de la variable es ilimitado.

  • Parámetros

\[ 0\leq p\leq 1 \]

  • Dominio

\[ x\in \begin{Bmatrix}0,1,2,...\end{Bmatrix} \]

  • Función de densidad

\[ f(x)=\left\{\begin{matrix} p(1-p)^{x} \ si \ x=0,1,2,...\\ 0 \ en \ cualquier \ otro \ caso \end{matrix}\right. \]

x <- rgeom(n = 10000,prob = 0.1)
fx <- prop.table(table(x))
ggplot()+geom_point(aes(x=1:length(fx),y=fx))+ggtitle("Distribución geométrica")+geom_line(aes(x=1:length(fx),y=fx))

  • Función de densidad
Fx <- cumsum(fx)
ggplot()+geom_point(aes(x=1:length(Fx),y=Fx))+ggtitle("Distribución geométrica acumulada")+geom_line(aes(x=1:length(Fx),y=Fx))

Distribución binomial negativa

\[ X \sim Bin.neg(r,p) \]

La distribución binomial negativa aparece en un estudio de Pierre Rémond de Montmort (1678-1719) sobre los juegos de azar en 1714, pero años antes ya había sido descrita por Blaise Pascal (1623-1662). Más adelante, esta distribución fue propuesta como una alternativa a la distribución de Poisson para modelar el número de ocurrencias de un suceso cuando los datos presentan lo que se conoce como variación extra-Poisson o sobredispersión.

  • Parámetros

\[ r\in \mathbb{Z}^{+} \]

\[ 0<p<1 \]

  • Dominios

\[ x\in \begin{Bmatrix}0,1,2,...\end{Bmatrix} \]

  • Función de densidad

\[ f(x)=\left\{\begin{matrix} \binom{r+x-1}{x}p^{r}(1-p)^{x} \ si \ x=0,1,2,...\\ 0 \ en \ otro \ caso \end{matrix}\right. \]

x <- rbinom(n = 10000,size = 20,0.2)
fx <- prop.table(table(x))
ggplot()+geom_point(aes(x=1:length(fx),y=fx))+ggtitle("Distribución binomial negativa")+geom_line(aes(x=1:length(fx),y=fx))

  • Función de distribución
Fx <- cumsum(fx)
ggplot()+geom_point(aes(x=1:length(Fx),y=Fx))+ggtitle("Distribución binomial negativa acumulada")+geom_line(aes(x=1:length(Fx),y=Fx))

Distribución Poisson

\[ X\sim Poisson(\lambda) \]

La distribución de Poisson debe su nombre al matemático francés Simeón Denis Poisson (1781-1840), aunque ya había sido introducida en 1718 por Abraham De Moivre (1667-1754) como una forma límite de la distribución binomial que surge cuando se observa un evento raro después de un número grande de repeticiones. La distribución de Poisson también surge cuando un evento o suceso “raro” ocurre aleatoriamente en el espacio o el tiempo. La variable asociada es el número de ocurrencias del evento en un intervalo o espacio continuo, por tanto, es una variable aleatoria discreta que toma valores enteros de 0 en adelante (0, 1, 2,…).

  • Parámetro

\[ \lambda \in \begin{pmatrix}0,\infty\end{pmatrix} \]

  • Dominio

\[ k\in \begin{Bmatrix}0,1,2,...,\end{Bmatrix} \]

  • Función de densidad

\[ f(x)=\left\{\begin{matrix} e^{-\lambda}\frac{\lambda^{x}}{x!} \ si \ x=0,1,2,... \\ 0 \ en \ otro \ caso \end{matrix}\right. \]

x <- rpois(n = 10000,lambda = 2)
fx <- prop.table(table(x))
ggplot()+geom_point(aes(x=1:length(fx),y=fx))+ggtitle("Distribución Poisson")+geom_line(aes(x=1:length(fx),y=fx))

  • Función de distribución
Fx <- cumsum(fx)
ggplot()+geom_point(aes(x=1:length(Fx),y=Fx))+ggtitle("Distribución Poisson acumulada")+geom_line(aes(x=1:length(Fx),y=Fx))