1) Distribución normal
Ejercicio con datos de materia orgánica del suelo (MOS). Primero se generan unos datos aleatorios condistribución normal definiendo unos parámetros básicos pedidos por la función rnorm:
set.seed(2021)
MOS<- round(rnorm(100,1.25,0.15),2); MOS
## [1] 1.23 1.33 1.30 1.30 1.38 0.96 1.29 1.39 1.25 1.51 1.09 1.21 1.28 1.48
## [15] 1.49 0.97 1.49 1.27 1.47 1.48 1.11 1.22 1.08 1.43 1.01 1.27 1.03 1.20
## [29] 1.24 1.42 0.96 1.03 1.40 1.04 1.16 1.01 1.06 1.03 1.24 1.33 1.27 1.51
## [43] 1.20 1.57 1.24 1.13 1.47 1.14 1.30 1.35 1.17 0.91 1.26 1.19 1.11 1.27
## [57] 1.31 1.22 1.02 1.02 1.25 1.22 1.31 1.14 1.28 1.10 1.33 1.49 1.21 1.09
## [71] 1.20 1.24 1.04 1.47 1.09 1.21 1.10 1.04 1.40 1.30 1.20 1.15 0.92 1.34
## [85] 1.23 1.06 1.33 1.01 1.10 1.32 1.37 1.21 1.24 1.36 1.25 1.23 1.15 1.12
## [99] 1.17 0.94
Posteriormente, se determinan algunas estadísticas de estos datos:
minMOS<-min(MOS); minMOS # Minimo
## [1] 0.91
maxMOS<-max(MOS); maxMOS # Maximo
## [1] 1.57
meanMOS<-mean(MOS);meanMOS # Media
## [1] 1.2231
medMOS<- median(MOS);medMOS # Mediana
## [1] 1.23
varMOS<- var(MOS); varMOS # Varianza
## [1] 0.02381757
sdMOS<-sd(MOS); sdMOS # Desviacion estandar
## [1] 0.1543294
qMOS<- quantile(MOS,c(0.25,0.75));qMOS # Cuartiles:
## 25% 75%
## 1.1000 1.3225
qMOS1<-qMOS[1];qMOS1 # C. inferior
## 25%
## 1.1
qMOS3<-qMOS[2];qMOS3 # C. superior
## 75%
## 1.3225
Para observar el comportamiento en la distribuión de los datos, se procede a graficar el histograma:
HISTOGRAMA<-hist(MOS, col="darkblue", main = "Distribucion de los datos de MOS", xlab = "MOS (%)", ylab = "Frecuencia", breaks = 15)
abline(v=meanMOS, col= "orange", lwd=5)
La línea naranaja representa la media de los datos.
Ahora se ubica la desviación estándar en el histograma para observar cuantos datos se agrupan dentro de esta:
HISTOGRAMA<-hist(MOS, col="darkblue", main = "Distribucion de los datos de MOS", xlab = "MOS (%)", ylab = "Frecuencia", breaks = 15)
abline(v=meanMOS, col= "orange", lwd=5)
abline(v=meanMOS+c(sdMOS,-sdMOS), col= "green", lwd=2)
100*table(MOS>(meanMOS-sdMOS) & MOS<(meanMOS+sdMOS))/length(MOS)
##
## FALSE TRUE
## 36 64
Como se puede ver, el resutaldo muestra que el 64% de los datos se encuentra dentro de la desivación estándar.
Por otro lado, al realizar el mismo procedimiento pero con el doble de la desviación estandar se obtiene lo siguiente:
HISTOGRAMA<-hist(MOS, col="darkblue", main = "Distribucion de los datos de MOS", xlab = "MOS (%)", ylab = "Frecuencia",breaks = 15)
abline(v=meanMOS, col= "orange", lwd=5)
abline(v=meanMOS+c(sdMOS*2,-sdMOS*2), col= "red", lwd=2)
100*table(MOS>(meanMOS-2*sdMOS) & MOS<(meanMOS+2*sdMOS))/length(MOS)
##
## FALSE TRUE
## 2 98
El resultado muestra que el 98% de los datos se agrupan dentro del doble de la desviación estándar.
2) Distribución exponencial
A continuación se generarán datos de Conductividad Electrica aparente del suelo (CEa) con un patrón de distribución exponencial para observar el comportamiento de la media, la desviación estándar y la varianza:
set.seed(2021)
CEa<- round(rexp(100, 0.3),2); CEa
## [1] 3.95 4.07 0.91 1.34 0.94 2.53 2.10 0.06 0.45 2.13 2.33
## [12] 0.04 1.26 5.01 0.62 0.48 2.03 0.08 2.08 0.35 5.18 0.40
## [23] 0.99 4.90 1.96 0.04 2.16 0.28 1.05 7.48 0.21 3.80 6.29
## [34] 3.19 1.76 13.50 0.16 7.54 4.26 2.31 7.11 2.61 11.02 9.47
## [45] 0.17 2.98 0.94 3.84 6.52 2.81 0.54 1.44 1.70 1.30 3.09
## [56] 2.79 15.67 0.54 3.73 2.70 0.28 6.65 1.10 1.05 2.45 2.42
## [67] 7.12 10.84 0.04 2.43 3.82 3.20 5.99 5.00 1.43 0.32 0.12
## [78] 0.34 3.83 0.19 4.36 5.27 2.39 0.68 7.97 1.26 2.25 6.10
## [89] 3.88 2.62 2.44 0.45 14.62 2.56 1.76 1.36 13.86 9.61 9.05
## [100] 1.24
minCEa<-min(CEa); minCEa # Minimo
## [1] 0.04
maxCEa<-max(CEa); maxCEa # Maximo
## [1] 15.67
meanCEa<-mean(CEa);meanCEa # Media
## [1] 3.3354
medCEa<- median(CEa);medCEa # Mediana
## [1] 2.36
varCEa<- var(CEa); varCEa # Varianza
## [1] 11.9109
sdCEa<-sd(CEa); sdCEa # Desviacion estandar
## [1] 3.451217
qCEa<- quantile(CEa,c(0.25,0.75));qCEa # Cuartiles:
## 25% 75%
## 0.940 4.285
qCEa1<-qCEa[1];qCEa1 # C. inferior
## 25%
## 0.94
qCEa3<-qCEa[2];qCEa3 # C. superior
## 75%
## 4.285
hist(CEa, col = "yellow", breaks=15, main = "Distribucion de los datos de CEa", xlab="Valores de CEa (dS/m)", ylab = "Frecuencia")
abline(v=mean(CEa),col="blue", lwd= 4)
Como se observa, la media de los datos en este caso NO representa a todos los datos ya que no es el dato más frecuente entre todos.
Al poner la desviación estándar 1 y 2 veces en el histograma se observa lo siguiente:
hist(CEa, col = "yellow", breaks=15, main = "Distribucion de los datos de CEa", xlab="Valores de CEa (dS/m)", ylab = "Frecuencia")
abline(v=mean(CEa),col="blue", lwd= 4)
abline(v=mean(CEa)+c(sd(CEa),-sd(CEa)), col= "green", lwd=2)
100*table(CEa>(mean(CEa)-sd(CEa)) & CEa<(mean(CEa)+sd(CEa)))/length(CEa)
##
## FALSE TRUE
## 14 86
hist(CEa, col = "yellow", breaks=15, main = "Distribucion de los datos de CEa", xlab="Valores de CEa (dS/m)", ylab = "Frecuencia")
abline(v=mean(CEa),col="blue", lwd= 4)
abline(v=mean(CEa)+c(2*sd(CEa),2*-sd(CEa)), col= "red", lwd=2)
100*table(CEa>(mean(CEa)-2*sd(CEa)) & CEa<(mean(CEa)+2*sd(CEa)))/length(CEa)
##
## FALSE TRUE
## 6 94
De esta manera se observa que el 86% y el 94% de los datos se agrupan dentro de los rango formados cuando se ponen una y dos veces la desviación estándar, respectivamente.
3) Distribución uniforme
Otra distribución no normal de datos es la uniforme. A continuación se trabajara a partir de datos de precipitación (P) generados aleatoriamente.
set.seed(2021)
P<- round(runif(100, min = 400,max=500),2); P
## [1] 445.13 478.38 470.97 438.17 463.63 470.13 464.04 426.67 481.54 498.30
## [11] 402.73 483.75 460.32 456.75 482.01 425.16 450.55 486.75 495.82 454.57
## [21] 413.96 495.53 439.25 426.85 457.22 491.21 493.43 488.05 494.57 481.50
## [31] 403.28 494.27 494.77 490.21 455.23 422.49 493.07 424.01 493.49 444.73
## [41] 417.30 484.67 442.63 495.73 413.54 479.39 488.65 401.67 405.21 482.33
## [51] 454.20 465.75 407.28 453.12 436.17 418.74 446.27 438.11 486.45 476.34
## [61] 402.48 452.37 407.38 439.61 484.60 411.63 407.76 467.88 427.27 404.79
## [71] 405.67 466.82 409.92 493.74 407.29 445.50 446.53 428.90 469.31 499.52
## [81] 454.63 440.86 496.08 466.23 436.50 421.73 498.30 482.20 448.63 439.77
## [91] 421.41 468.08 493.00 452.37 423.41 489.80 462.26 472.85 475.55 469.53
Se determinan sus estadísticas:
minP<-min(P); minP # Minimo
## [1] 401.67
maxP<-max(P); maxP # Maximo
## [1] 499.52
meanP<-mean(P);meanP # Media
## [1] 455.182
medP<- median(P);medP # Mediana
## [1] 455.99
varP<- var(P); varP # Varianza
## [1] 933.3959
sdP<-sd(P); sdP # Desviacion estandar
## [1] 30.55153
qP<- quantile(P,c(0.25,0.75));qP # Cuartiles:
## 25% 75%
## 427.165 482.685
qP1<-qP[1];qP1 # C. inferior
## 25%
## 427.165
qP3<-qP[2];qP3 # C. superior
## 75%
## 482.685
Se elabora el histograma para observar el comportamiento de los datos:
hist(P, col = "blue", main = "Distribucion de los datos de P",xlab="Precipitacion (L/m^2)",ylab = "Frecuencia", breaks = 15)
abline(v=mean(P),col="black", lwd= 4)
abline(v=mean(P)+c(sd(P),-sd(P)), col= "red", lwd=2)
abline(v=mean(P)+c(2*sd(P),2*-sd(P)), col= "red", lwd=2)
100*table(P>(mean(P)-sd(P)) & P<(mean(P)+sd(P)))/length(P)
##
## FALSE TRUE
## 44 56
Con base en lo observado en el histograma se observa entonces que al agregar una vez la desviación, solo se agrupa el 54% de los datos.
4) Distribución beta
Otra distribución no normal es la distribución beta, la cual está definida por parámetro \(\alpha\) y \(\beta\) y se emplea para variables cuyos valores se encuentran en el intervalo (0,1]. A continuación se trabajará un ejemplo en donde undistrbuidor de gasolina llena los tanques de gasolina de los autos que atiende en determinada proporción y cuyos parámetros \(\alpha\) y \(\beta\) son 4 y 2, respectivamente:
set.seed(2021)
gas<-round(rbeta(100,shape1 = 4,shape2 =2),2);gas
## [1] 0.69 0.53 0.58 0.58 0.95 0.61 0.43 0.66 0.86 0.73 0.62 0.64 0.28 0.27
## [15] 0.84 0.71 0.87 0.35 0.93 0.64 0.91 0.74 0.69 0.38 0.95 0.91 0.41 0.91
## [29] 0.79 0.92 0.89 0.91 0.69 0.64 0.74 0.67 0.82 0.28 0.81 0.59 0.49 0.77
## [43] 0.66 0.74 0.85 0.64 0.56 0.70 0.92 0.91 0.66 0.71 0.57 0.81 0.61 0.85
## [57] 0.53 0.24 0.72 0.86 0.74 0.68 0.90 0.86 0.72 0.85 0.90 0.42 0.58 0.74
## [71] 0.79 0.51 0.70 0.88 0.54 0.92 0.85 0.55 0.46 0.73 0.68 0.48 0.66 0.69
## [85] 0.80 0.83 0.77 0.96 0.72 0.56 0.70 0.77 0.88 0.66 0.69 0.99 0.78 0.55
## [99] 0.69 0.89
Se determinan las estadísticas:
mingas<-min(gas); mingas # Minimo
## [1] 0.24
maxgas<-max(gas); maxgas # Maximo
## [1] 0.99
meangas<-mean(gas);meangas # Media
## [1] 0.7029
medgas<- median(gas);medgas # Mediana
## [1] 0.71
vargas<- var(gas); vargas # Varianza
## [1] 0.02953191
sdgas<-sd(gas); sdgas # Desviacion estandar
## [1] 0.1718485
qgas<- quantile(gas,c(0.25,0.75));qgas # Cuartiles:
## 25% 75%
## 0.605 0.850
qgas1<-qgas[1];qgas1 # C. inferior
## 25%
## 0.605
qgas3<-qgas[2];qgas3 # C. superior
## 75%
## 0.85
El histrograma se muestra a continuación:
gashist<-hist(gas,col = "orange", main="Proporcion de llenado de tanque",ylab = "frecuencia",breaks = 15)
abline(v=meangas,col="black", lwd= 4)
abline(v=meangas+c(sdgas,-sdgas), col= "red", lwd=2)
abline(v=meangas+c(2*sdgas,2*-sdgas), col= "blue", lwd=2)
Luego, se observa cual fue la agrupación de datos dentro de 1 y 2 desviaciones estandar:
100*table(gas>(meangas-sdgas) & gas<(meangas+sdgas))/length(gas)
##
## FALSE TRUE
## 34 66
100*table(gas>(meangas-2*sdgas) & gas<(meangas+2*sdgas))/length(gas)
##
## FALSE TRUE
## 5 95
5) Distribución Log(normal)
Otra de las distribucion de probabilidad contínuas que existen es la lognormal. Esta variable esta definida por el logaritmo natural de una variable aleatoria, de su media (escala) y de su desviación estándar (forma). En el siguiente ejemplo se generaran 100 datos aleatorios con esta distribución probabilística, con una escala 2.32 y una forma 0.20. Estos datos representan los años de supervivencia que tienen las personas de una población luego de una intervención quirurjica.
set.seed(2021)
SUP<-round(rlnorm(100,meanlog = 2.32 ,sdlog = 0.2),2);SUP
## [1] 9.93 11.36 10.91 10.93 12.18 6.93 10.72 12.22 10.20 14.38 8.20
## [12] 9.64 10.55 13.76 14.03 7.04 14.08 10.45 13.68 13.77 8.43 9.80
## [23] 8.16 12.96 7.35 10.39 7.61 9.48 9.99 12.68 6.87 7.62 12.48
## [34] 7.66 9.02 7.41 7.87 7.61 10.00 11.26 10.42 14.47 9.50 15.55
## [45] 10.11 8.68 13.67 8.80 10.83 11.69 9.21 6.48 10.27 9.45 8.40
## [56] 10.39 11.08 9.83 7.46 7.53 10.21 9.81 11.01 8.75 10.66 8.36
## [67] 11.39 14.06 9.68 8.24 9.49 10.09 7.69 13.71 8.27 9.70 8.33
## [78] 7.70 12.38 10.94 9.51 8.95 6.60 11.55 9.88 7.94 11.32 7.41
## [89] 8.35 11.21 11.97 9.60 10.07 11.79 10.21 9.93 8.94 8.55 9.19
## [100] 6.72
Se estiman las estadísiticas:
minSUP<-min(SUP); minSUP # Minimo
## [1] 6.48
maxSUP<-max(SUP); maxSUP # Maximo
## [1] 15.55
meanSUP<-mean(SUP);meanSUP # Media
## [1] 10.0359
medSUP<- median(SUP);medSUP # Mediana
## [1] 9.905
varSUP<- var(SUP); varSUP # Varianza
## [1] 4.355123
sdSUP<-sd(SUP); sdSUP # Desviacion estandar
## [1] 2.086893
qSUP<- quantile(SUP,c(0.25,0.75));qSUP # Cuartiles:
## 25% 75%
## 8.3575 11.2225
qSUP1<-qSUP[1];qSUP1 # C. inferior
## 25%
## 8.3575
qSUP3<-qSUP[2];qSUP3 # C. superior
## 75%
## 11.2225
El histrograma se muestra a continuación:
SUPhist<-hist(SUP,col = "aquamarine3", main="Esperanza de vida posoperaciæ¼ã¸³n",ylab = "frecuencia",xlab="Aæ¼ã¸±os de vida", breaks = 15)
abline(v=meanSUP,col="yellow", lwd= 4)
abline(v=meanSUP+c(sdSUP,-sdSUP), col= "red", lwd=2)
abline(v=meanSUP+c(2*sdSUP,2*-sdSUP), col= "blue", lwd=2)
Luego, se observa cual fue la agrupación de datos dentro de 1 y 2 desviaciones estandar:
100*table(SUP>(meanSUP-sdSUP) & SUP<(meanSUP+sdSUP))/length(SUP)
##
## FALSE TRUE
## 36 64
100*table(SUP>(meanSUP-2*sdSUP) & SUP<(meanSUP+2*sdSUP))/length(SUP)
##
## FALSE TRUE
## 3 97
Se encuentra entonces que el 64% y el 97% de los datos se agrupan dentro de 1 y 2 desviaciones estándar.
6) Distribución t-student
Otra distribución continua de probabilidad es la distribución t-student. Esta es usada comúnmente para la comparación de medias de 2 poblaciones y viene definida por por sus grados de libertad. En este ejercicio se generan 100 de datos tomados por un ingeniero químico que afirma que el resultado de un proceso “x” da como resultado un lote de 500 gramos en promedio.
set.seed(2021)
x<-rt(100,99);x
## [1] -0.118410573 0.341647562 1.046309937 0.179335700 1.884434548
## [6] -0.565817168 1.112197147 1.451818274 -0.799988352 -0.959971766
## [11] 0.971727264 0.118203029 -0.911666847 -2.201509424 -1.161382373
## [16] -1.623710060 1.553652527 0.503122396 1.813886045 0.945156917
## [21] 1.564083687 0.589820527 -0.523920632 -0.735627951 0.101205526
## [26] -0.192668455 -1.772985826 0.416436562 -0.848811924 1.654761153
## [31] -0.199876405 -0.693887525 -1.062661832 0.252027976 -0.735244662
## [36] -0.598151416 0.995941068 -1.200548839 -1.717949555 0.445737740
## [41] -0.051049597 0.015193657 0.204661790 0.152271728 0.457298917
## [46] -0.262356026 -0.157572681 -1.298310529 0.898081460 -0.766236693
## [51] 0.128586060 1.412804453 -1.718930422 -0.269163409 -1.862179732
## [56] 2.510117858 0.526545950 0.530569617 0.790497821 -1.987095569
## [61] 0.750924833 -0.924830695 -1.310156276 -0.381027860 0.525514335
## [66] -1.194626381 -0.963714795 -0.467251928 -0.818377760 0.353213445
## [71] 0.984132498 -1.562009357 -1.439830474 -0.741833251 -1.642706724
## [76] -0.456881572 0.345969018 -0.461476144 -1.079667081 0.784315939
## [81] 0.964743298 0.369955145 -1.093224990 0.083337093 -0.551089203
## [86] -1.571576952 -0.882464837 0.300391849 -0.184253810 -0.111095471
## [91] -0.645437496 1.319452229 0.002697093 1.160833778 -0.405657095
## [96] 0.510052266 0.606207616 0.481651230 -0.213775823 0.481831120
Se estiman las estadísiticas:
minx<-min(x); minx # Minimo
## [1] -2.201509
maxx<-max(x); maxx # Maximo
## [1] 2.510118
meanx<-mean(x);meanx # Media
## [1] -0.1050729
medx<- median(x);medx # Mediana
## [1] -0.114753
varx<- var(x); varx# Varianza
## [1] 0.9814727
sdx<-sd(x); sdx # Desviacion estandar
## [1] 0.990693
qx<- quantile(x,c(0.25,0.75));qx # Cuartiles:
## 25% 75%
## -0.8259863 0.5257722
qx1<-qx[1];qx1 # C. inferior
## 25%
## -0.8259863
qx3<-qx[2];qx3 # C. superior
## 75%
## 0.5257722
El histrograma se muestra a continuación:
hist(x, col="chartreuse2")
abline(v=meanx,col="purple", lwd= 4)
abline(v=meanx+c(sdx,-sdx), col= "red", lwd=2)
abline(v=meanx+c(2*sdx,2*-sdx), col= "blue", lwd=2)
Luego, se observa cual fue la agrupación de datos dentro de 1 y 2 desviaciones estandar:
100*table(x>(meanx-sdx) & x<(meanx+sdx))/length(x)
##
## FALSE TRUE
## 34 66
100*table(x>(meanx-2*sdx) & x<(meanx+2*sdx))/length(x)
##
## FALSE TRUE
## 3 97
Se encuentra entonces que el 66% y el 97% de los datos se agrupan dentro de 1 y 2 desviaciones estándar, respectivamente.
7) Distribución Binomial
Esta es una distribución de probabilidad aplicada a datos de naturaleza discreta. Los parámetros usados para describir esta distribución son n:número de ensayos independientes y p:probabilidad de exito. En el siguiente ejemplo se observará generaran 100 calificaciones de examen obtenidas de 100 estudiantes, con una probabilidad de aprobar del 65%
set.seed(2021)
grade<-round(rbinom(100,100,0.65),2);grade
## [1] 71 58 56 70 60 57 57 71 57 67 53 55 68 68 70 68 60 70 73 68 67 69 60
## [24] 69 70 67 70 60 69 66 55 67 61 71 68 61 67 67 71 66 64 69 67 64 65 66
## [47] 69 67 57 66 72 66 69 77 60 64 71 69 62 65 63 59 62 70 69 71 65 68 63
## [70] 68 72 71 62 64 68 71 66 60 65 69 62 54 71 58 69 69 62 74 72 68 62 59
## [93] 64 68 72 67 59 70 65 67
Se estiman las estadísiticas:
minGR<-min(grade); minGR # Minimo
## [1] 53
maxGR<-max(grade); maxGR # Maximo
## [1] 77
meanGR<-mean(grade);meanGR # Media
## [1] 65.65
medGR<- median(grade);medGR # Mediana
## [1] 67
varGR<- var(grade); varGR# Varianza
## [1] 25.36111
sdGR<-sd(grade); sdGR # Desviacion estandar
## [1] 5.035982
qGR<- quantile(grade,c(0.25,0.75));qGR # Cuartiles:
## 25% 75%
## 62 69
qGR1<-qGR[1];qGR1 # C. inferior
## 25%
## 62
qGR3<-qGR[2];qGR3 # C. superior
## 75%
## 69
El histrograma se muestra a continuación:
hist(grade, col="darkred",xlab = "Notas de los estudiantes",ylab = "Frecuencia de las notas",main = "Compilado de notas examen individual")
abline(v=meanGR,col="purple", lwd= 4)
abline(v=meanGR+c(sdGR,-sdGR), col= "orange", lwd=2)
abline(v=meanGR+c(2*sdGR,2*-sdGR), col= "blue", lwd=2)
Luego, se observa cual fue la agrupación de datos dentro de 1 y 2 desviaciones estandar:
100*table(grade>(meanGR-sdGR) & grade<(meanGR+sdGR))/length(grade)
##
## FALSE TRUE
## 36 64
100*table(grade>(meanGR-2*sdGR) & grade<(meanGR+2*sdGR))/length(grade)
##
## FALSE TRUE
## 5 95
Se encuentra entonces que el 64% y el 95% de los datos se agrupan dentro de 1 y 2 desviaciones estándar, respectivamente.
8) Distribución Poisson
La distribución Poisson es otra distribución de probabilidad discreta, usada frecuentemente para conteo y cuyo parámetro representativo es el valor \(\lambda\). Para este ejercicio se generarán 100 datos de una población de personas escogidas al azar y la prevalencia de Covid reportada en este en un momento x para la población, la cual 1/5:
set.seed(2021)
ill<-rpois(100,0.2);ill
## [1] 0 0 0 0 0 0 0 0 0 2 0 1 0 0 1 0 0 1 1 0 0 1 0 0 0 1 1 1 1 0 0 1 1 1 0
## [36] 0 1 0 1 0 0 1 0 1 0 0 1 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0
## [71] 0 0 0 1 0 0 0 0 0 2 0 0 1 0 0 0 2 1 0 0 0 0 1 0 0 1 0 0 0 0
Se estiman las estadísiticas:
minILL<-min(ill); minILL # Minimo
## [1] 0
maxILL<-max(ill); maxILL # Maximo
## [1] 2
meanILL<-mean(ill);meanILL # Media
## [1] 0.31
medILL<- median(ill);medILL # Mediana
## [1] 0
varILL<- var(ill); varILL# Varianza
## [1] 0.2766667
sdILL<-sd(ill); sdILL # Desviacion estandar
## [1] 0.5259911
qILL<- quantile(ill,c(0.25,0.75));qILL # Cuartiles:
## 25% 75%
## 0 1
qILL1<-qILL[1];qILL1 # C. inferior
## 25%
## 0
qILL3<-qILL[2];qILL3 # C. superior
## 75%
## 1
El histrograma se muestra a continuación:
hist(ill, col="darkorange1")
abline(v=meanILL,col="purple", lwd= 4)
abline(v=meanILL+c(sdILL,-sdILL), col= "orange", lwd=2)
abline(v=meanILL+c(2*sdILL,2*-sdILL), col= "blue", lwd=2)
Luego, se observa cual fue la agrupación de datos dentro de 1 y 2 desviaciones estandar:
100*table(ill>(meanILL-sdILL) & ill<(meanILL+sdILL))/length(ill)
##
## FALSE TRUE
## 28 72
100*table(ill>(meanILL-2*sdILL) & ill<(meanILL+2*sdILL))/length(ill)
##
## FALSE TRUE
## 3 97
Se encuentra entonces que el 72% y el 97% de los datos se agrupan dentro de 1 y 2 desviaciones estándar, respectivamente.
9) Distribución Hipergeométrica
Finalmente, la distribución hipergeométrica es un tipo de distribución discreta usada normalemtne en muestreos sin reemplazo y usualmente es usada en situación donde se investiga la presencia o ausencia de alguna característica. Esta distribución está definida por los parámetros N: Número de elementos (en una población finita), R: Número de éxitos en la población y n: número de pruebas. En el ejemplo se generarán 100 datos con esta distribución.
set.seed(2021)
hype<-round(rhyper(100,10,44,8),2);hype
## [1] 1 2 2 1 2 2 2 1 2 4 0 2 2 2 2 1 1 3 3 2 0 3 1 1 2 3 3 3 3 2 0 3 3 3 2
## [36] 1 3 1 3 1 1 3 1 3 0 2 3 0 0 2 2 2 0 1 1 1 1 1 3 2 0 1 0 1 3 0 0 2 1 0
## [71] 0 2 0 3 0 1 1 1 2 4 2 1 3 2 1 1 4 2 1 1 1 2 3 1 1 3 2 2 2 2
Se estiman las estadísiticas:
minH<-min(hype); minH # Minimo
## [1] 0
maxH<-max(hype); maxH # Maximo
## [1] 4
meanH<-mean(hype);meanH # Media
## [1] 1.66
medH<- median(hype);medH # Mediana
## [1] 2
varH<- var(hype); varH# Varianza
## [1] 1.135758
sdH<-sd(hype); sdH # Desviacion estandar
## [1] 1.065719
qH<- quantile(hype,c(0.25,0.75));qH # Cuartiles:
## 25% 75%
## 1 2
qH1<-qH[1];qH1 # C. inferior
## 25%
## 1
qH3<-qH[2];qH3 # C. superior
## 75%
## 2
El histrograma se muestra a continuación:
hist(hype, col="darkcyan")
abline(v=meanH,col="purple", lwd= 4)
abline(v=meanH+c(sdH,-sdH), col= "orange", lwd=2)
abline(v=meanH+c(2*sdH,2*-sdH), col= "blue", lwd=2)
Luego, se observa cual fue la agrupación de datos dentro de 1 y 2 desviaciones estandar:
100*table(hype>(meanH-sdH) & hype<(meanH+sdH))/length(hype)
##
## FALSE TRUE
## 39 61
100*table(hype>(meanH-2*sdH) & hype<(meanH+2*sdH))/length(hype)
##
## FALSE TRUE
## 3 97
Se encuentra entonces que el 61% y el 97% de los datos se agrupan dentro de 1 y 2 desviaciones estándar, respectivamente.