Tema: EvaluaciĂłn de la calidad de aguas superficiales en la cuenca del rio RĂmac mediante anĂĄlisis multivariado para el periodo 2011-2018
Profesores
Integrantes
Una aplicaciĂłn de distribuciĂłn truncada con una variable discreta conocida.
Uno de los factores que limita el ĂŠxito de la fitorremediaciĂłn, y que se convierte en una de sus limitantes es el grado de contaminaciĂłn en el suelo, para analizar este grado se usaran algunas investigaciones hechas con perejil (Petroselinum crispum) ya que el crecimiento de las plantas no es muy viable en suelos altamente contaminados. Utilizaremos una muestra 5 plantas de perejil para analizar la variable X definida como el nĂşmero de plantas de perejil que variaron su crecimiento de un 60% a un 33% con respecto al cultivo control, si se sabe que el 80% de plantas variaron su crecimiento de un 60% a un 33%.
Hallar la funciĂłn de Probabilidad X si no se considera la posibilidad de 4 porciones con una variaciĂłn de su crecimiento de un 60% a un 33% con respecto al cultivo control
\[X\sim Binom(5,0.8)\] \[f(x)=\binom{n}{x}\pi ^{x}(1-\pi )^{n-x}\]
\[f(x)=\binom{5}{x}0.8^{x}(0.2)^{5-x}I_{0,1,...,5 }\]
Probabilidad para X=0,1,2,3,5
p0=dbinom(0,5,0.8);p0
## [1] 0.00032
p1=dbinom(1,5,0.8);p1
## [1] 0.0064
p2=dbinom(2,5,0.8);p2
## [1] 0.0512
p3=dbinom(3,5,0.8);p3
## [1] 0.2048
p4=dbinom(4,5,0.8);p4
## [1] 0.4096
p5=dbinom(5,5,0.8);p5
## [1] 0.32768
\[f(x)=\binom{5}{x}0.8^{x}(0.2)^{5-x}I_{0,1,...,5 }\rightarrow \begin{cases} & \text{0.00032 }, x= 0\\ & \text{0.0064 }, x= 1 \\ & \text{0.0512 }, x= 2\\ & \text{0.2048 }, x= 3 \\ & \text{0.4096 }, x= 4\\ & \text{0.32768 }, x= 5 \end{cases}\]
P<-(p0+p1+p2+p3+p5)
P
## [1] 0.5904
\[P(condicion)=P(X\neq 4)=P(X=0)+P(X=1)+P(X=2)+P(X=3)+P(X=5)=0.5904\]
P0=p0/P;P0
## [1] 0.0005420054
P1=p1/P;P1
## [1] 0.01084011
P2=p2/P;P2
## [1] 0.08672087
P3=p3/P;P3
## [1] 0.3468835
P5=p5/P;P5
## [1] 0.5550136
FUNCIĂN ACUMULADA
\[f_{(x/x\neq4)}(x)=\begin{cases} & \text{ 0.00054201 }, x= 0\\ & \text{ 0.01084011 }, x= 1\\ & \text{ 0.08672087 } , x= 2\\ & \text{ 0.3468835} , x= 3\\ & \text{ 0.5550136 } , x= 5 \end{cases}\]
Una aplicaciĂłn de distribuciĂłn truncada con una variable continua conocida:
El oxigeno disuelto o por sus siglas (OD) es uno de los 24 parametros de calidad ambiental, los cuals fueron evaluados entre el periodo del 2011 y 2018. Este parametro cuenta con una distribucion normal y su rango esta entre 0.54 a 12.03 mg/L, media 6.89 mg/L y una desviacion estandar de 1.74 mg/L. Se desea determinar la funcion de densidad en la que el agua tiene buena calidad, contando con los siguientes valores establecidos por el minsa: Se considera agua de mala calidad de 0 â 4 ppm y es aceptable entre los valores 4.1 â 7.9 ppm y de buena calidad de 8 â 12 ppm, mas de 12 ppm debe repetirse la prueba. Fuente del MINSA
Nota: 1ppm <> 1mg/L.
\[f_{(\alpha,\beta)}(x)=\frac{f(x)}{F(\beta)-F(\alpha)}I_{(\alpha,\beta]}(x)=\frac{f(x)}{P(X\leq \beta)-P(X\leq\alpha)}I_{(\alpha,\beta)}(x)\]
\[f(x)=\frac{exp[-\frac{1}{2}(\frac{x-\mu}{\sigma})^2]}{\sqrt{2\pi} \sigma}= \frac{exp[-\frac{1}{2}(\frac{x-6.89}{1,74})^2]}{\sqrt{2\pi}1,74}\] \[f_{(8,12.03)}(x)=\frac{f(x)}{F(12.03)-F(8)}I_{(8,12.03]}(x)\]
F_12=pnorm(12.03,6.89,1,74)
F_4=pnorm(8,6.89,1,74)
p=F_12-F_4
p
## [1] 0.1334994
\[f(x)=\frac{\frac{exp[-\frac{1}{2}(\frac{x-6.89}{1.74})^2]}{\sqrt{2\pi}1.74}}{0.1334}I_{(8,1.74)}\] Finalmente tenemos la siguiente funciĂłn de densidad:
\[f(x)=0.5817*exp[-\frac{1}{2}(\frac{x-6.89}{1.74})^2]I_{(8,1.74)}\]
Una aplicaciĂłn de distribuciĂłn de una funciĂłn con una variable aleatoria mixta:
En la cuenca del rĂo Rimac encontraron elevadas cantidades de mercurio, el cual contamina la pesca provocando la disminuciĂłn de enzimatica de los peces.Se desea saber si los peces son aptos para consumo humano, por ello usaremos la base de datos de la libreria gamlss.mx, la cual nos indicarĂĄ que distribuciĂłn de probabilidad sigue la variable mixta de las enzimas.
LIBRERIAS USADAS
library(gamlss.mx)
library(ggplot2)
IMPORTANDO DATOS
data(enzyme)
DISTRIBUCIĂN ACTIVIDAD ENZIMĂTICA
ggplot(data = enzyme, aes(x = act)) +
geom_histogram(color = "black", alpha = 0.3, bins = 50) +
geom_rug() +
labs(title = "DistribuciĂłn actividad enzimĂĄtica") +
theme_bw()
AJUSTE DEL MODELO MIXTO CON DOS COMPONENTES
modelo_mx <- gamlssMX(
formula = act ~ 1,
data = enzyme,
family = RG,
K = 2,
control = MX.control(plot = FALSE)
)
modelo_mx
##
## Mixing Family: c("RG", "RG")
##
## Fitting method: EM algorithm
##
## Call: gamlssMX(formula = act ~ 1, family = RG, K = 2, data = enzyme,
## control = MX.control(plot = FALSE))
##
## Mu Coefficients for model: 1
## (Intercept)
## 1.127
## Sigma Coefficients for model: 1
## (Intercept)
## -1.091
## Mu Coefficients for model: 2
## (Intercept)
## 0.1557
## Sigma Coefficients for model: 2
## (Intercept)
## -2.641
##
## Estimated probabilities: 0.3760176 0.6239824
##
## Degrees of Freedom for the fit: 5 Residual Deg. of Freedom 240
## Global Deviance: 86.2916
## AIC: 96.2916
## SBC: 113.798
CALCULANDO LA DENSIDAD ESTIMADA
d_modelo_mx <- getpdfMX(modelo_mx)
d_modelo_mx(y = 2)
## [1] 0.07719913
DISTRIBUCION ESTIMADA POR MODELO MIXTO DE DOS COMPONENTES
ggplot(data = enzyme) +
geom_histogram(
aes(x = act, y = after_stat(density)),
color = "black",
alpha = 0.3) +
stat_function(
fun = function(.x){d_modelo_mx(y = .x)},
color = "darkblue",
size = 1) +
labs(title = "DistribuciĂłn estimada por modelo mixto de dos componentes") +
theme_bw()
AJUSTE DEL MODELO 10 VECES
modelo_mx <- gamlssMXfits(
n = 10,
formula = act ~ 1,
data = enzyme,
family = RG,
K = 2,
control = MX.control(plot = FALSE)
)
## model= 1
## model= 2
## model= 3
## model= 4
## model= 5
## model= 6
## model= 7
## model= 8
## model= 9
## model= 10
Una aplicaciĂłn de distribuciones bivariadas discretas:
En una investigaciĂłn realizada por un estudiante de IngenierĂa ambiental de la UNALM sobre la âEvaluaciĂłn de la calidad de aguas superficiales en la cuenca del rĂo RĂmacâ, se tiene un total de 25 estaciones las cuales conforman una red de monitoreo en el rĂo RĂmac. Donde 12 estaciones se ubican en los tributarios o afluentes a la cuenca, 7 estaciones se ubican alrededor de las bocatomas y el resto en la sub cuenca Santa Eulalia. Si se eligen 10 estaciones al azar, con reemplazo y sin considerar el orden para realizar una inspecciĂłn en la calidad del agua, calcular la probabilidad de que 3 sean de las estaciones de afluentes de cuenca,5 de las estaciones alrededor de las bocatomas y el resto de las estaciones de la sub cuenca Santa Eulalia.
X= {nĂşmero de estaciones de afluentes de cuenca en la muestra de tamaĂąo 10}
Y= {nĂşmero de estaciones alrededor de las bocatomas en la muestra de tamaĂąo 10}
A=12 estaciones comunes en afluentes a la cuenca.
B=7 estaciones comunes alrededor de las bocatomas.
X=3 estaciones comunes de afluentes de cuenca en la muestra.
Y=5 estaciones comunes alrededor de las bocatomas en la muestra.
n= 10 estaciones comunes seleccionados al azar, con reemplazo y sin considerar el orden.
\[(X,Y)\sim V Bivariada(N=25,n=10,A=12,B=7)\]
\[para: 0\leqslant X\leqslant 10 , \ 0\leqslant Y\leqslant 10 , \ 0\leqslant X+Y \leqslant 10 \]
\[f(x,y)=\frac{\binom{12+x-1}{x}\binom{7+y-1}{y}\binom{6+(10-x-y)-1}{10-x-y}}{\binom{25+10-1}{10}}\]
\[ f(x,y)=\frac{\binom{12+3-1}{3}\binom{7+5-1}{5}\binom{6+(10-3-5)-1}{10-3-5}}{\binom{25+10-1}{10}}=\frac{\binom{12+3-1}{3}\binom{7+5-1}{5}\binom{6+(2)-1}{2}}{\binom{25+10-1}{10}}=0.02693\]
Una aplicaciĂłn de distribuciones bivariadas continuas.
Sea x el contenido del metal pesado Hierro(Fe) . y el contenido de Aluminio(Al). Para una muestra de 100 ml del rĂo RĂmac . Por anteriores estudios se sabe que (x,y) siguen una distribuciĂłn normal bivariada. Se sabe que Cov(x,y) = 0.60 y Ďx*Ďy= 3.00
Halle Ď(xy) :
Se sabe
\[\rho_{xy}=\frac{cov_{xy}}{\sigma_{x}\sigma_{y}}\] Por lo tanto el coeficiente de correlaciĂłn: Ď(xy) = 0.2 . CĂłmo es un valor cercano a 0 se dice que existe una pobre correlaciĂłn entre los niveles de hierro y aluminio.
distribuciĂłn normal bivariada para niveles de Fe y Al:
Considerando:
######################################################
# Ploteo de distribucion bivariada para Fe y Al
######################################################
library("MASS")
rm(list=ls())
### Densidad normal bivariada
h <- function(x,y,mx,my,sx,sy,p) { (1/(2*pi*sx*sy*sqrt((1-p^2))))*exp((-1/(2*(1-p^2)))*{(x-mx)^2/sx^2 - 2*p*((x-mx)/sx)*((y-my)/sy) + (y-my)^2/sy^2})}
### funcion para hallar las probabilidades
bvn.prob<-function(mx,my,sx,sy,p,x.llim,x.ulim,y.llim,y.ulim) {
integrate(function(y){ sapply(y,function(y){
integrate(function(x) h(x,y,mx,my,sx,sy,p) ,x.llim,x.ulim)$value})},y.llim,y.ulim)$value }
### Cargar valores para la simulacion
mux<-1;muy<-2;sdx<-3;sdy<-1;rho<- 0.2
### calcular la matriz de varianzas y covarianzas
(Sigma <- matrix(c(sdx^2,sdx*sdy*rho,sdx*sdy*rho,sdy^2),2,2))
## [,1] [,2]
## [1,] 9.0 0.6
## [2,] 0.6 1.0
### Vector de medias
Mu<- c(mux,muy)
### tamaĂąo de muestra 1 millĂłn para estimacion de probabilidades en cuadrantes
n<-1000000
y<-mvrnorm(n, Mu, Sigma)
tmp1<-sum((y[,1]>0)*(y[,2]>0))/n
tmp2<-sum((y[,1]<0)*(y[,2]>0))/n
tmp3<-sum((y[,1]<0)*(y[,2]<0))/n
tmp4<-sum((y[,1]>0)*(y[,2]<0))/n
cbind(
Simulation=c(tmp1,tmp2,tmp3,tmp4),
Calculation=c(
bvn.prob(mux,muy,sdx,sdy,rho,0,Inf,0,Inf),
bvn.prob(mux,muy,sdx,sdy,rho,-Inf,0,0,Inf),
bvn.prob(mux,muy,sdx,sdy,rho,-Inf,0,-Inf,0),
bvn.prob(mux,muy,sdx,sdy,rho,0,Inf,-Inf,0)))
## Simulation Calculation
## [1,] 0.620096 0.62048431
## [2,] 0.357101 0.35676558
## [3,] 0.012663 0.01267602
## [4,] 0.010140 0.01007441
### Ploteo de la densidad normal bivariada
x<-seq(-3,3,.1)
y<-seq(-3,3,.1)
f<-function(x,y) h(x,y,0,0,1,1,0.2)
res<-persp(x,y,outer(x,y,f),theta = 45, phi = 20)
Una aplicaciĂłn de variables aleatorias con coordenadas mixtas.
Suponga que x es el porcentaje Aluminio almacenado en la cuenca del Rio Rimac en un determinado tiempo e Y es el porcentaje del metal de Hierro almacenado en esta misma cuenca del Rio Rimac en ese mismo tiempo. Se sabe que X tiene una distribuciĂłn Uniforme discreta en {13, 17,21} y dado X=x, Y es Uniforme continua en el intervalo [0, x].
\(f(x,y)=f(x)f(y/x)=(1/3)(1/x)=1/3x\),x=13,17,21; \(yâ[0,x]\)
\(f(x,y)=\left\{\begin{matrix} & 1/39, x=13, 0<y<13 & \\ & 1/51, x=17, 0<y<17 & \\ & 1/63, x=21, 0<y<21 & \end{matrix}\right.\)
| f(x,y) | Y | |||
|---|---|---|---|---|
| 0<y<13 | 0<y<17 | 0<y<21 | ||
| 13 | 1/39 | 0 | 0 | |
| x | 17 | 0 | 1/51 | 0 |
| 21 | 0 | 0 | 1/63 |
\(f(x,y)\)=\(1/39 I_({13}) xI_([0,13]) y+1/51 I_({17}) xI_([0,17]) y+1/63 I_({21}) xI_([0,21]) y\)
Se debe proceder a integrar para comprobar si es una densidad mixta conjunta:
\(\sum_{x \epsilon S}\int_{t}f(x,y)dy= \int_{13}^{0}1/39dy+ \int_{17}^{0}1/51dy+ \int_{21}^{0}1/63dy\)
\(=1/3+1/3+1/3=1\)
Marleni Beatriz, A. M. (2022). EvaluaciĂłn de la calidad de aguas superficiales en la cuenca del rio RĂmac mediante anĂĄlisis multivariado para el periodo 2011-2018 (Licenciado). Universidad Nacional Agraria La Molina. Tesis
Miranda FernĂĄndez. (2017). CĂĄlculo de Probabilidades con GrĂĄficos en R. Primera EdiciĂłn. Lima, PerĂş. Q&P Impresores S.R.L.
EstadĂsticos descriptiva de los 21 parĂĄmetros de calidad de agua