Distribuciones de probabilidad

1) Distribución normal

Ejercicio con datos de materia orgánica del suelo (MOS). Primero se generan unos datos aleatorios condistribución normal definiendo unos parámetros básicos pedidos por la función rnorm:

set.seed(2021)
MOS<- round(rnorm(100,1.25,0.15),2); MOS

##   [1] 1.23 1.33 1.30 1.30 1.38 0.96 1.29 1.39 1.25 1.51 1.09 1.21 1.28 1.48
##  [15] 1.49 0.97 1.49 1.27 1.47 1.48 1.11 1.22 1.08 1.43 1.01 1.27 1.03 1.20
##  [29] 1.24 1.42 0.96 1.03 1.40 1.04 1.16 1.01 1.06 1.03 1.24 1.33 1.27 1.51
##  [43] 1.20 1.57 1.24 1.13 1.47 1.14 1.30 1.35 1.17 0.91 1.26 1.19 1.11 1.27
##  [57] 1.31 1.22 1.02 1.02 1.25 1.22 1.31 1.14 1.28 1.10 1.33 1.49 1.21 1.09
##  [71] 1.20 1.24 1.04 1.47 1.09 1.21 1.10 1.04 1.40 1.30 1.20 1.15 0.92 1.34
##  [85] 1.23 1.06 1.33 1.01 1.10 1.32 1.37 1.21 1.24 1.36 1.25 1.23 1.15 1.12
##  [99] 1.17 0.94

Posteriormente, se determinan algunas estadísticas de estos datos:

minMOS<-min(MOS); minMOS # Minimo

## [1] 0.91

maxMOS<-max(MOS); maxMOS # Maximo

## [1] 1.57

meanMOS<-mean(MOS);meanMOS # Media

## [1] 1.2231

medMOS<- median(MOS);medMOS # Mediana

## [1] 1.23

varMOS<- var(MOS); varMOS # Varianza

## [1] 0.02381757

sdMOS<-sd(MOS); sdMOS # Desviacion estandar

## [1] 0.1543294

qMOS<- quantile(MOS,c(0.25,0.75));qMOS # Cuartiles:

##    25%    75% 
## 1.1000 1.3225

qMOS1<-qMOS[1];qMOS1 # C. inferior

## 25% 
## 1.1

qMOS3<-qMOS[2];qMOS3 # C. superior

##    75% 
## 1.3225

Para observar el comportamiento en la distribuión de los datos, se procede a graficar el histograma:

HISTOGRAMA<-hist(MOS, col="darkblue", main = "Distribucion de los datos de MOS", xlab = "MOS (%)", ylab = "Frecuencia", breaks = 15)
abline(v=meanMOS, col= "orange", lwd=5)

La línea naranaja representa la media de los datos.

Ahora se ubica la desviación estándar en el histograma para observar cuantos datos se agrupan dentro de esta:

HISTOGRAMA<-hist(MOS, col="darkblue", main = "Distribucion de los datos de MOS", xlab = "MOS (%)", ylab = "Frecuencia", breaks = 15)
abline(v=meanMOS, col= "orange", lwd=5)
abline(v=meanMOS+c(sdMOS,-sdMOS), col= "green", lwd=2)

100*table(MOS>(meanMOS-sdMOS) & MOS<(meanMOS+sdMOS))/length(MOS)

## 
## FALSE  TRUE 
##    36    64

Como se puede ver, el resutaldo muestra que el 64% de los datos se encuentra dentro de la desivación estándar.

Por otro lado, al realizar el mismo procedimiento pero con el doble de la desviación estandar se obtiene lo siguiente:

HISTOGRAMA<-hist(MOS, col="darkblue", main = "Distribucion de los datos de MOS", xlab = "MOS (%)", ylab = "Frecuencia",breaks = 15)
abline(v=meanMOS, col= "orange", lwd=5)
abline(v=meanMOS+c(sdMOS*2,-sdMOS*2), col= "red", lwd=2)

100*table(MOS>(meanMOS-2*sdMOS) & MOS<(meanMOS+2*sdMOS))/length(MOS)

## 
## FALSE  TRUE 
##     2    98

El resultado muestra que el 98% de los datos se agrupan dentro del doble de la desviación estándar.

2) Distribución exponencial

A continuación se generarán datos de Conductividad Electrica aparente del suelo (CEa) con un patrón de distribución exponencial para observar el comportamiento de la media, la desviación estándar y la varianza:

set.seed(2021)
CEa<- round(rexp(100, 0.3),2); CEa

##   [1]  3.95  4.07  0.91  1.34  0.94  2.53  2.10  0.06  0.45  2.13  2.33
##  [12]  0.04  1.26  5.01  0.62  0.48  2.03  0.08  2.08  0.35  5.18  0.40
##  [23]  0.99  4.90  1.96  0.04  2.16  0.28  1.05  7.48  0.21  3.80  6.29
##  [34]  3.19  1.76 13.50  0.16  7.54  4.26  2.31  7.11  2.61 11.02  9.47
##  [45]  0.17  2.98  0.94  3.84  6.52  2.81  0.54  1.44  1.70  1.30  3.09
##  [56]  2.79 15.67  0.54  3.73  2.70  0.28  6.65  1.10  1.05  2.45  2.42
##  [67]  7.12 10.84  0.04  2.43  3.82  3.20  5.99  5.00  1.43  0.32  0.12
##  [78]  0.34  3.83  0.19  4.36  5.27  2.39  0.68  7.97  1.26  2.25  6.10
##  [89]  3.88  2.62  2.44  0.45 14.62  2.56  1.76  1.36 13.86  9.61  9.05
## [100]  1.24

minCEa<-min(CEa); minCEa # Minimo

## [1] 0.04

maxCEa<-max(CEa); maxCEa # Maximo

## [1] 15.67

meanCEa<-mean(CEa);meanCEa # Media

## [1] 3.3354

medCEa<- median(CEa);medCEa # Mediana

## [1] 2.36

varCEa<- var(CEa); varCEa # Varianza

## [1] 11.9109

sdCEa<-sd(CEa); sdCEa # Desviacion estandar

## [1] 3.451217

qCEa<- quantile(CEa,c(0.25,0.75));qCEa # Cuartiles:

##   25%   75% 
## 0.940 4.285

qCEa1<-qCEa[1];qCEa1 # C. inferior

##  25% 
## 0.94

qCEa3<-qCEa[2];qCEa3 # C. superior

##   75% 
## 4.285

hist(CEa, col = "yellow", breaks=15, main = "Distribucion de los datos de CEa", xlab="Valores de CEa (dS/m)", ylab = "Frecuencia")
abline(v=mean(CEa),col="blue", lwd= 4)

Como se observa, la media de los datos en este caso NO representa a todos los datos ya que no es el dato más frecuente entre todos.

Al poner la desviación estándar 1 y 2 veces en el histograma se observa lo siguiente:

hist(CEa, col = "yellow", breaks=15, main = "Distribucion de los datos de CEa", xlab="Valores de CEa (dS/m)", ylab = "Frecuencia")
abline(v=mean(CEa),col="blue", lwd= 4)
abline(v=mean(CEa)+c(sd(CEa),-sd(CEa)), col= "green", lwd=2)

100*table(CEa>(mean(CEa)-sd(CEa)) & CEa<(mean(CEa)+sd(CEa)))/length(CEa)

## 
## FALSE  TRUE 
##    14    86

hist(CEa, col = "yellow", breaks=15, main = "Distribucion de los datos de CEa", xlab="Valores de CEa (dS/m)", ylab = "Frecuencia")
abline(v=mean(CEa),col="blue", lwd= 4)
abline(v=mean(CEa)+c(2*sd(CEa),2*-sd(CEa)), col= "red", lwd=2)

100*table(CEa>(mean(CEa)-2*sd(CEa)) & CEa<(mean(CEa)+2*sd(CEa)))/length(CEa)

## 
## FALSE  TRUE 
##     6    94

De esta manera se observa que el 86% y el 94% de los datos se agrupan dentro de los rango formados cuando se ponen una y dos veces la desviación estándar, respectivamente.

3) Distribución uniforme

Otra distribución no normal de datos es la uniforme. A continuación se trabajara a partir de datos de precipitación (P) generados aleatoriamente.

set.seed(2021)
P<- round(runif(100, min = 400,max=500),2); P

##   [1] 445.13 478.38 470.97 438.17 463.63 470.13 464.04 426.67 481.54 498.30
##  [11] 402.73 483.75 460.32 456.75 482.01 425.16 450.55 486.75 495.82 454.57
##  [21] 413.96 495.53 439.25 426.85 457.22 491.21 493.43 488.05 494.57 481.50
##  [31] 403.28 494.27 494.77 490.21 455.23 422.49 493.07 424.01 493.49 444.73
##  [41] 417.30 484.67 442.63 495.73 413.54 479.39 488.65 401.67 405.21 482.33
##  [51] 454.20 465.75 407.28 453.12 436.17 418.74 446.27 438.11 486.45 476.34
##  [61] 402.48 452.37 407.38 439.61 484.60 411.63 407.76 467.88 427.27 404.79
##  [71] 405.67 466.82 409.92 493.74 407.29 445.50 446.53 428.90 469.31 499.52
##  [81] 454.63 440.86 496.08 466.23 436.50 421.73 498.30 482.20 448.63 439.77
##  [91] 421.41 468.08 493.00 452.37 423.41 489.80 462.26 472.85 475.55 469.53

Se determinan sus estadísticas:

minP<-min(P); minP # Minimo

## [1] 401.67

maxP<-max(P); maxP # Maximo

## [1] 499.52

meanP<-mean(P);meanP # Media

## [1] 455.182

medP<- median(P);medP # Mediana

## [1] 455.99

varP<- var(P); varP # Varianza

## [1] 933.3959

sdP<-sd(P); sdP # Desviacion estandar

## [1] 30.55153

qP<- quantile(P,c(0.25,0.75));qP # Cuartiles:

##     25%     75% 
## 427.165 482.685

qP1<-qP[1];qP1 # C. inferior

##     25% 
## 427.165

qP3<-qP[2];qP3 # C. superior

##     75% 
## 482.685

Se elabora el histograma para observar el comportamiento de los datos:

hist(P, col = "blue", main = "Distribucion de los datos de P",xlab="Precipitacion (L/m^2)",ylab = "Frecuencia", breaks = 15)
abline(v=mean(P),col="black", lwd= 4)
abline(v=mean(P)+c(sd(P),-sd(P)), col= "red", lwd=2)
abline(v=mean(P)+c(2*sd(P),2*-sd(P)), col= "red", lwd=2)

100*table(P>(mean(P)-sd(P)) & P<(mean(P)+sd(P)))/length(P)

## 
## FALSE  TRUE 
##    44    56

Con base en lo observado en el histograma se observa entonces que al agregar una vez la desviación, solo se agrupa el 54% de los datos.

4) Distribución beta

Otra distribución no normal es la distribución beta, la cual está definida por parámetro \(\alpha\) y \(\beta\) y se emplea para variables cuyos valores se encuentran en el intervalo (0,1]. A continuación se trabajará un ejemplo en donde undistrbuidor de gasolina llena los tanques de gasolina de los autos que atiende en determinada proporción y cuyos parámetros \(\alpha\) y \(\beta\) son 4 y 2, respectivamente:

set.seed(2021)
gas<-round(rbeta(100,shape1 = 4,shape2 =2),2);gas

##   [1] 0.69 0.53 0.58 0.58 0.95 0.61 0.43 0.66 0.86 0.73 0.62 0.64 0.28 0.27
##  [15] 0.84 0.71 0.87 0.35 0.93 0.64 0.91 0.74 0.69 0.38 0.95 0.91 0.41 0.91
##  [29] 0.79 0.92 0.89 0.91 0.69 0.64 0.74 0.67 0.82 0.28 0.81 0.59 0.49 0.77
##  [43] 0.66 0.74 0.85 0.64 0.56 0.70 0.92 0.91 0.66 0.71 0.57 0.81 0.61 0.85
##  [57] 0.53 0.24 0.72 0.86 0.74 0.68 0.90 0.86 0.72 0.85 0.90 0.42 0.58 0.74
##  [71] 0.79 0.51 0.70 0.88 0.54 0.92 0.85 0.55 0.46 0.73 0.68 0.48 0.66 0.69
##  [85] 0.80 0.83 0.77 0.96 0.72 0.56 0.70 0.77 0.88 0.66 0.69 0.99 0.78 0.55
##  [99] 0.69 0.89

Se determinan las estadísticas:

mingas<-min(gas); mingas # Minimo

## [1] 0.24

maxgas<-max(gas); maxgas # Maximo

## [1] 0.99

meangas<-mean(gas);meangas # Media

## [1] 0.7029

medgas<- median(gas);medgas # Mediana

## [1] 0.71

vargas<- var(gas); vargas # Varianza

## [1] 0.02953191

sdgas<-sd(gas); sdgas # Desviacion estandar

## [1] 0.1718485

qgas<- quantile(gas,c(0.25,0.75));qgas # Cuartiles:

##   25%   75% 
## 0.605 0.850

qgas1<-qgas[1];qgas1 # C. inferior

##   25% 
## 0.605

qgas3<-qgas[2];qgas3 # C. superior

##  75% 
## 0.85

El histrograma se muestra a continuación:

gashist<-hist(gas,col = "orange", main="Proporcion de llenado de tanque",ylab = "frecuencia",breaks = 15)
abline(v=meangas,col="black", lwd= 4)
abline(v=meangas+c(sdgas,-sdgas), col= "red", lwd=2)
abline(v=meangas+c(2*sdgas,2*-sdgas), col= "blue", lwd=2)

Luego, se observa cual fue la agrupación de datos dentro de 1 y 2 desviaciones estandar:

100*table(gas>(meangas-sdgas) & gas<(meangas+sdgas))/length(gas)

## 
## FALSE  TRUE 
##    34    66

100*table(gas>(meangas-2*sdgas) & gas<(meangas+2*sdgas))/length(gas)

## 
## FALSE  TRUE 
##     5    95

5) Distribución Log(normal)

Otra de las distribucion de probabilidad contínuas que existen es la lognormal. Esta variable esta definida por el logaritmo natural de una variable aleatoria, de su media (escala) y de su desviación estándar (forma). En el siguiente ejemplo se generaran 100 datos aleatorios con esta distribución probabilística, con una escala 2.32 y una forma 0.20. Estos datos representan los años de supervivencia que tienen las personas de una población luego de una intervención quirurjica.

set.seed(2021)
SUP<-round(rlnorm(100,meanlog = 2.32 ,sdlog = 0.2),2);SUP

##   [1]  9.93 11.36 10.91 10.93 12.18  6.93 10.72 12.22 10.20 14.38  8.20
##  [12]  9.64 10.55 13.76 14.03  7.04 14.08 10.45 13.68 13.77  8.43  9.80
##  [23]  8.16 12.96  7.35 10.39  7.61  9.48  9.99 12.68  6.87  7.62 12.48
##  [34]  7.66  9.02  7.41  7.87  7.61 10.00 11.26 10.42 14.47  9.50 15.55
##  [45] 10.11  8.68 13.67  8.80 10.83 11.69  9.21  6.48 10.27  9.45  8.40
##  [56] 10.39 11.08  9.83  7.46  7.53 10.21  9.81 11.01  8.75 10.66  8.36
##  [67] 11.39 14.06  9.68  8.24  9.49 10.09  7.69 13.71  8.27  9.70  8.33
##  [78]  7.70 12.38 10.94  9.51  8.95  6.60 11.55  9.88  7.94 11.32  7.41
##  [89]  8.35 11.21 11.97  9.60 10.07 11.79 10.21  9.93  8.94  8.55  9.19
## [100]  6.72

Se estiman las estadísiticas:

minSUP<-min(SUP); minSUP # Minimo

## [1] 6.48

maxSUP<-max(SUP); maxSUP # Maximo

## [1] 15.55

meanSUP<-mean(SUP);meanSUP # Media

## [1] 10.0359

medSUP<- median(SUP);medSUP # Mediana

## [1] 9.905

varSUP<- var(SUP); varSUP # Varianza

## [1] 4.355123

sdSUP<-sd(SUP); sdSUP # Desviacion estandar

## [1] 2.086893

qSUP<- quantile(SUP,c(0.25,0.75));qSUP # Cuartiles:

##     25%     75% 
##  8.3575 11.2225

qSUP1<-qSUP[1];qSUP1 # C. inferior

##    25% 
## 8.3575

qSUP3<-qSUP[2];qSUP3 # C. superior

##     75% 
## 11.2225

El histrograma se muestra a continuación:

SUPhist<-hist(SUP,col = "aquamarine3", main="Esperanza de vida posoperaciæ¼ã¸³n",ylab = "frecuencia",xlab="Aæ¼ã¸±os de vida", breaks = 15)
abline(v=meanSUP,col="yellow", lwd= 4)
abline(v=meanSUP+c(sdSUP,-sdSUP), col= "red", lwd=2)
abline(v=meanSUP+c(2*sdSUP,2*-sdSUP), col= "blue", lwd=2)

Luego, se observa cual fue la agrupación de datos dentro de 1 y 2 desviaciones estandar:

100*table(SUP>(meanSUP-sdSUP) & SUP<(meanSUP+sdSUP))/length(SUP)

## 
## FALSE  TRUE 
##    36    64

100*table(SUP>(meanSUP-2*sdSUP) & SUP<(meanSUP+2*sdSUP))/length(SUP)

## 
## FALSE  TRUE 
##     3    97

Se encuentra entonces que el 64% y el 97% de los datos se agrupan dentro de 1 y 2 desviaciones estándar.

6) Distribución t-student

Otra distribución continua de probabilidad es la distribución t-student. Esta es usada comúnmente para la comparación de medias de 2 poblaciones y viene definida por por sus grados de libertad. En este ejercicio se generan 100 de datos tomados por un ingeniero químico que afirma que el resultado de un proceso “x” da como resultado un lote de 500 gramos en promedio.

set.seed(2021)
x<-rt(100,99);x

##   [1] -0.118410573  0.341647562  1.046309937  0.179335700  1.884434548
##   [6] -0.565817168  1.112197147  1.451818274 -0.799988352 -0.959971766
##  [11]  0.971727264  0.118203029 -0.911666847 -2.201509424 -1.161382373
##  [16] -1.623710060  1.553652527  0.503122396  1.813886045  0.945156917
##  [21]  1.564083687  0.589820527 -0.523920632 -0.735627951  0.101205526
##  [26] -0.192668455 -1.772985826  0.416436562 -0.848811924  1.654761153
##  [31] -0.199876405 -0.693887525 -1.062661832  0.252027976 -0.735244662
##  [36] -0.598151416  0.995941068 -1.200548839 -1.717949555  0.445737740
##  [41] -0.051049597  0.015193657  0.204661790  0.152271728  0.457298917
##  [46] -0.262356026 -0.157572681 -1.298310529  0.898081460 -0.766236693
##  [51]  0.128586060  1.412804453 -1.718930422 -0.269163409 -1.862179732
##  [56]  2.510117858  0.526545950  0.530569617  0.790497821 -1.987095569
##  [61]  0.750924833 -0.924830695 -1.310156276 -0.381027860  0.525514335
##  [66] -1.194626381 -0.963714795 -0.467251928 -0.818377760  0.353213445
##  [71]  0.984132498 -1.562009357 -1.439830474 -0.741833251 -1.642706724
##  [76] -0.456881572  0.345969018 -0.461476144 -1.079667081  0.784315939
##  [81]  0.964743298  0.369955145 -1.093224990  0.083337093 -0.551089203
##  [86] -1.571576952 -0.882464837  0.300391849 -0.184253810 -0.111095471
##  [91] -0.645437496  1.319452229  0.002697093  1.160833778 -0.405657095
##  [96]  0.510052266  0.606207616  0.481651230 -0.213775823  0.481831120

Se estiman las estadísiticas:

minx<-min(x); minx # Minimo

## [1] -2.201509

maxx<-max(x); maxx # Maximo

## [1] 2.510118

meanx<-mean(x);meanx # Media

## [1] -0.1050729

medx<- median(x);medx # Mediana

## [1] -0.114753

varx<- var(x); varx# Varianza

## [1] 0.9814727

sdx<-sd(x); sdx # Desviacion estandar

## [1] 0.990693

qx<- quantile(x,c(0.25,0.75));qx # Cuartiles:

##        25%        75% 
## -0.8259863  0.5257722

qx1<-qx[1];qx1 # C. inferior

##        25% 
## -0.8259863

qx3<-qx[2];qx3 # C. superior

##       75% 
## 0.5257722

El histrograma se muestra a continuación:

hist(x, col="chartreuse2")
abline(v=meanx,col="purple", lwd= 4)
abline(v=meanx+c(sdx,-sdx), col= "red", lwd=2)
abline(v=meanx+c(2*sdx,2*-sdx), col= "blue", lwd=2)

Luego, se observa cual fue la agrupación de datos dentro de 1 y 2 desviaciones estandar:

100*table(x>(meanx-sdx) & x<(meanx+sdx))/length(x)

## 
## FALSE  TRUE 
##    34    66

100*table(x>(meanx-2*sdx) & x<(meanx+2*sdx))/length(x)

## 
## FALSE  TRUE 
##     3    97

Se encuentra entonces que el 66% y el 97% de los datos se agrupan dentro de 1 y 2 desviaciones estándar, respectivamente.

7) Distribución Binomial

Esta es una distribución de probabilidad aplicada a datos de naturaleza discreta. Los parámetros usados para describir esta distribución son n:número de ensayos independientes y p:probabilidad de exito. En el siguiente ejemplo se observará generaran 100 calificaciones de examen obtenidas de 100 estudiantes, con una probabilidad de aprobar del 65%

set.seed(2021)
grade<-round(rbinom(100,100,0.65),2);grade

##   [1] 71 58 56 70 60 57 57 71 57 67 53 55 68 68 70 68 60 70 73 68 67 69 60
##  [24] 69 70 67 70 60 69 66 55 67 61 71 68 61 67 67 71 66 64 69 67 64 65 66
##  [47] 69 67 57 66 72 66 69 77 60 64 71 69 62 65 63 59 62 70 69 71 65 68 63
##  [70] 68 72 71 62 64 68 71 66 60 65 69 62 54 71 58 69 69 62 74 72 68 62 59
##  [93] 64 68 72 67 59 70 65 67

Se estiman las estadísiticas:

minGR<-min(grade); minGR # Minimo

## [1] 53

maxGR<-max(grade); maxGR # Maximo

## [1] 77

meanGR<-mean(grade);meanGR # Media

## [1] 65.65

medGR<- median(grade);medGR # Mediana

## [1] 67

varGR<- var(grade); varGR# Varianza

## [1] 25.36111

sdGR<-sd(grade); sdGR # Desviacion estandar

## [1] 5.035982

qGR<- quantile(grade,c(0.25,0.75));qGR # Cuartiles:

## 25% 75% 
##  62  69

qGR1<-qGR[1];qGR1 # C. inferior

## 25% 
##  62

qGR3<-qGR[2];qGR3 # C. superior

## 75% 
##  69

El histrograma se muestra a continuación:

hist(grade, col="darkred",xlab = "Notas de los estudiantes",ylab = "Frecuencia de las notas",main = "Compilado de notas examen individual")
abline(v=meanGR,col="purple", lwd= 4)
abline(v=meanGR+c(sdGR,-sdGR), col= "orange", lwd=2)
abline(v=meanGR+c(2*sdGR,2*-sdGR), col= "blue", lwd=2)

Luego, se observa cual fue la agrupación de datos dentro de 1 y 2 desviaciones estandar:

100*table(grade>(meanGR-sdGR) & grade<(meanGR+sdGR))/length(grade)

## 
## FALSE  TRUE 
##    36    64

100*table(grade>(meanGR-2*sdGR) & grade<(meanGR+2*sdGR))/length(grade)

## 
## FALSE  TRUE 
##     5    95

Se encuentra entonces que el 64% y el 95% de los datos se agrupan dentro de 1 y 2 desviaciones estándar, respectivamente.

8) Distribución Poisson

La distribución Poisson es otra distribución de probabilidad discreta, usada frecuentemente para conteo y cuyo parámetro representativo es el valor \(\lambda\). Para este ejercicio se generarán 100 datos de una población de personas escogidas al azar y la prevalencia de Covid reportada en este en un momento x para la población, la cual 1/5:

set.seed(2021)
ill<-rpois(100,0.2);ill

##   [1] 0 0 0 0 0 0 0 0 0 2 0 1 0 0 1 0 0 1 1 0 0 1 0 0 0 1 1 1 1 0 0 1 1 1 0
##  [36] 0 1 0 1 0 0 1 0 1 0 0 1 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0
##  [71] 0 0 0 1 0 0 0 0 0 2 0 0 1 0 0 0 2 1 0 0 0 0 1 0 0 1 0 0 0 0

Se estiman las estadísiticas:

minILL<-min(ill); minILL # Minimo

## [1] 0

maxILL<-max(ill); maxILL # Maximo

## [1] 2

meanILL<-mean(ill);meanILL # Media

## [1] 0.31

medILL<- median(ill);medILL # Mediana

## [1] 0

varILL<- var(ill); varILL# Varianza

## [1] 0.2766667

sdILL<-sd(ill); sdILL # Desviacion estandar

## [1] 0.5259911

qILL<- quantile(ill,c(0.25,0.75));qILL # Cuartiles:

## 25% 75% 
##   0   1

qILL1<-qILL[1];qILL1 # C. inferior

## 25% 
##   0

qILL3<-qILL[2];qILL3 # C. superior

## 75% 
##   1

El histrograma se muestra a continuación:

hist(ill, col="darkorange1")
abline(v=meanILL,col="purple", lwd= 4)
abline(v=meanILL+c(sdILL,-sdILL), col= "orange", lwd=2)
abline(v=meanILL+c(2*sdILL,2*-sdILL), col= "blue", lwd=2)

Luego, se observa cual fue la agrupación de datos dentro de 1 y 2 desviaciones estandar:

100*table(ill>(meanILL-sdILL) & ill<(meanILL+sdILL))/length(ill)

## 
## FALSE  TRUE 
##    28    72

100*table(ill>(meanILL-2*sdILL) & ill<(meanILL+2*sdILL))/length(ill)

## 
## FALSE  TRUE 
##     3    97

Se encuentra entonces que el 72% y el 97% de los datos se agrupan dentro de 1 y 2 desviaciones estándar, respectivamente.

9) Distribución Hipergeométrica

Finalmente, la distribución hipergeométrica es un tipo de distribución discreta usada normalemtne en muestreos sin reemplazo y usualmente es usada en situación donde se investiga la presencia o ausencia de alguna característica. Esta distribución está definida por los parámetros N: Número de elementos (en una población finita), R: Número de éxitos en la población y n: número de pruebas. En el ejemplo se generarán 100 datos con esta distribución.

set.seed(2021)
hype<-round(rhyper(100,10,44,8),2);hype

##   [1] 1 2 2 1 2 2 2 1 2 4 0 2 2 2 2 1 1 3 3 2 0 3 1 1 2 3 3 3 3 2 0 3 3 3 2
##  [36] 1 3 1 3 1 1 3 1 3 0 2 3 0 0 2 2 2 0 1 1 1 1 1 3 2 0 1 0 1 3 0 0 2 1 0
##  [71] 0 2 0 3 0 1 1 1 2 4 2 1 3 2 1 1 4 2 1 1 1 2 3 1 1 3 2 2 2 2

Se estiman las estadísiticas:

minH<-min(hype); minH # Minimo

## [1] 0

maxH<-max(hype); maxH # Maximo

## [1] 4

meanH<-mean(hype);meanH # Media

## [1] 1.66

medH<- median(hype);medH # Mediana

## [1] 2

varH<- var(hype); varH# Varianza

## [1] 1.135758

sdH<-sd(hype); sdH # Desviacion estandar

## [1] 1.065719

qH<- quantile(hype,c(0.25,0.75));qH # Cuartiles:

## 25% 75% 
##   1   2

qH1<-qH[1];qH1 # C. inferior

## 25% 
##   1

qH3<-qH[2];qH3 # C. superior

## 75% 
##   2

El histrograma se muestra a continuación:

hist(hype, col="darkcyan")
abline(v=meanH,col="purple", lwd= 4)
abline(v=meanH+c(sdH,-sdH), col= "orange", lwd=2)
abline(v=meanH+c(2*sdH,2*-sdH), col= "blue", lwd=2)

Luego, se observa cual fue la agrupación de datos dentro de 1 y 2 desviaciones estandar:

100*table(hype>(meanH-sdH) & hype<(meanH+sdH))/length(hype)

## 
## FALSE  TRUE 
##    39    61

100*table(hype>(meanH-2*sdH) & hype<(meanH+2*sdH))/length(hype)

## 
## FALSE  TRUE 
##     3    97

Se encuentra entonces que el 61% y el 97% de los datos se agrupan dentro de 1 y 2 desviaciones estándar, respectivamente.

Distribuciones de probabilidad

Nicolas Leon

2 de mayo de 2021