TRABAJO INTEGRADOR Y EXAMEN FINAL CALCULO DE PROBABILIDADES

UNIVERSIDAD NACIONAL AGRARIA LA MOLINA

Departamento acádemico de estadística e informática

Docente:

Clodomiro Fernando, Miranda Villagómez

Tema:

Aplicaciones del Capitulo IV

Ciclo:

2023-I

Integrantes:

Flores Taco, Alex Jesus - 20210833

Leon Ancco, Allison Margareth - 20201408

Mori Perez, Luis Alberto - 20170058

Quintanilla Ramos, Leslie Dayana - 20191186

Salsavilca Cayetano, Luis Alfonso - 20210847

Vargas Estela, Kopeycor - 20210851

LA MOLINA 2023 – LIMA – PERÚ

Indice

Trabajo Integrador (TI):

Una aplicación de la función generadora de momentos conjunta de la distribución normal bivariada donde se calcule la \(E(X^5Y^7)\) la función del script R.
Una aplicación de la distribución V tetravariada.
Con una variable continua bivariada calcule una probabilidad.
Con una variable discreta bivariada calcule la correlación.
Con una variable discreta bivariada halle una función de probabilidad de una variable condicional.

Examen Final (EF):

Una aplicación de esperanza iterada y de la ley de varianza total.
Una aplicación de la distribución normal bivariada.
Una aplicación de la propiedad de linealidad de una distribución normal pentavariada.
Una aplicación de la distribución condicional de una distribución normal pentavariada.
Una aplicación de variables aleatorias con coordenadas mixtas.

TI-A: Una aplicación de la función generadora de momentos conjunta de la distribución normal bivariada donde se calcule la \(E(X^5Y^7)\) utilizando la función del script R.

Caso:

Según Yellamanda y Sankara (2017), en la agronomía, el manejo eficiente de la luz solar y el agua es crucial para maximizar la producción agrícola y minimizar el estrés en los cultivos. Los agrónomos estudian y aplican técnicas de manejo, como la selección de cultivos adecuados para diferentes condiciones de luz y agua, el diseño de sistemas de riego eficientes, la implementación de prácticas de conservación del agua y la optimización de la captación de la luz solar a través de métodos de manejo adecuados.

La variable aleatoria X representa la cantidad de horas de luz solar diaria a la que se expone el cultivo, y la variable aleatoria Y representa la cantidad de agua diaria suministrada al cultivo. Calcular E(X^5 * Y^7) y obtener información sobre la interacción entre la duración de la luz solar y el suministro de agua en el rendimiento del cultivo.
Con una estimación de:
Media de X (mu1) = 10 horas
Media de Y (mu2) = 5 litros
Desviación estándar de X (sigma1) = 2 horas
Desviación estándar de Y (sigma2) = 1 litro
Coeficiente de correlación (rho) = 0.6

Solución:

La Función Generatriz de Momentos de la distribución Normal Bivariada:
\[\Psi(t_{1}t_{2})=exp[t_{1}\mu_{x}+t_{2}\mu_{y}+\frac{1}{2}(t_{1}^{2}\mu_{x}^{2}+2\sigma _{xy}t_{1}t_{2}+t_{2}^{2}\mu_{y}^{2})]\]

Para el caso tenemos la siguiente informacion:
\[E(X)=\mu_{x}=10\]
\[E(Y)=\mu_{y} =5\] \[Var(X)=\sigma_{x}^{2} =2\]
\[Var(Y)=\sigma_{y}^{2} =1\]
\[\rho_{x,y}= 0.6\]

Hallamos la covarianza \[Cov(X,Y)=\rho*\sigma_{x}*\sigma_{y}\]
\[Cov(X,Y)=1.2\]

El R nos arroja el siguiente resultado:
\[E(X^{5}Y^{7})=34445035016\]

Codificación en R:

DD <- function(expr, name, order = 1) {
     if(order < 1) stop("'order' must be >= 1")
     if(order == 1) D(expr, name)
     else DD(D(expr, name), name, order - 1)
}

# Funcion generadora de momentos de la distribucion normal bivariada
mxy<-expression(exp(t1*mu1+t2*mu2+t1^2*sigma11/2+t1*t2*sigma12+t2^2*sigma22/2))

m.xy.t15.t27 <- DD(DD(mxy, "t1", 5), "t2", 7)
mu1 <- 10; mu2 <- 5; sigma11 <- 2; sigma22 <- 1; sigma12 <- 1.2
t1 <- t2 <- 0
eval(m.xy.t15.t27)   #E(X^5*Y^7)

## [1] 34445035016

Interpretación:

\(E(X^5Y^7)\) representa el valor esperado del producto de la quinta potencia de la variable aleatoria X (que representa la cantidad de horas de luz solar diaria) y la séptima potencia de la variable aleatoria Y (que representa la cantidad de agua diaria suministrada al cultivo), ambas tienen una distribución normal bivariada.
El rendimiento de un cultivo en función de la cantidad de luz solar y agua suministrada, un valor más alto de \(E(X^5Y^7)\) podría indicar una mayor interacción y sinergia entre la cantidad de luz solar y agua en el rendimiento del cultivo. Esto podría sugerir que ciertas combinaciones de altas horas de luz solar y altos niveles de agua podrían ser beneficiosas para el rendimiento del cultivo.

TI-B: Una aplicación de la distribución V tetravariada

Caso:

Según Marks(2010), La inversión es una disciplina cuya medida se toma en términos de probabilidades, no de certezas. El futuro siempre es incierto, el mercado siempre es incierto, y la mejor manera de navegar en medio de esa incertidumbre es pensar en términos de diferentes escenarios y las probabilidades de que se desarrollen. Esa es la verdadera esencia de la administración de la cartera.

La cartera de inversiones favoritas de José, 110 de ellas son sus favoritas. Entre estas, 48 son inversiones en tasas de interés, 42 son inversiones en precios de acciones, 12 son inversiones en rendimientos de bonos y 8 son inversiones en tasas de cambio. Si de las inversiones favoritas de José se seleccionan con reemplazo y sin considerar el orden de selección 12 inversiones, calcule la probabilidad de que 5 sean de tasas de interés, 2 sean de precios de acciones ,2 rendimientos de bonos y el resto seantasas de cambio.

Por lo tanto, en lugar de X e Y, tendríamos cuatro variables:

X1 = Número de inversiones en tasas de interés en la muestra de tamaño 12.
X2 = Número de inversiones en precios de acciones en la muestra de tamaño 12.
X3 = Número de inversiones en rendimientos de bonos en la muestra de tamaño 12.
X4 = Número de inversiones en tasas de cambio en la muestra de tamaño 12.

Solución:

\[(X,Y)∼ V- Tetravariada(N=110,n=12,A_1=48,A_2=42,A_3=12,A_4=8)\]

\[P(X_1=x_1,X_2=x_2,X_3=x_3,X_4=x_4)= \frac{\binom{A_1+x_1-1}{x_1} \binom{A_2+x_2-1}{x_2}\binom{A_3+x_3-1}{x_3}\binom{A_4+x_4-1}{x_4}} {\binom{N+n-1}{n}}\]

\[P(X_1,X_2,X_3,X_4)= \frac{\binom{48+6-1}{6} \binom{42+4-1}{4}\binom{12+1-1}{1}\binom{8+1-1}{1}} {\binom{110+12-1}{12}}\]

\[P(X_1,X_2,X_3,X_4)= \frac{\binom{53}{6} \binom{45}{4}\binom{12}{1}\binom{8}{1}} {\binom{121}{12}}\]

\[P(X_1,X_2,X_3,X_4)=0.02805756 \] Codificación en R:

# Número total de inversiones
total_inversiones <- 110 
N<- 110

# Inversiones favoritas de José
tasas_interes <- 48 
A1=48
precios_acciones <- 42 
A2=42
rendimientos_bonos <- 12 
A3=12
tasas_cambio <- 8
A4=8
# Muestra seleccionada
muestra_tasas_interes <- 6 
x1=6
muestra_precios_acciones <- 4
x2=4
muestra_rendimientos_bonos <- 1
x3=1
muestra_tasas_cambio <- 1
x4=1

n1=A1+x1-1
n2=A2+x2-1
n3=A3+x3-1
n4=A4+x4-1

n=12
  
# Calculo de probabilidad
proba <- (choose(n1, x1)*choose(n2, x2)*choose(n3, x3)*choose(n4, x4))/(choose(N+n-1, n))
proba

## [1] 0.02805756

Interpretación:
El número de combinaciones posibles que cumplen con las especificaciones dadas en el problema es el valor calculado en la variable “combinaciones”. Esta cantidad representa la probabilidad de obtener una muestra de tamaño 12 en la que haya 6 inversiones en tasas de interés, 4 inversiones en precios de acciones, 1 inversión en rendimientos de bonos y 1 inversión en tasas de cambio, considerando el total de inversiones favoritas de José. Podemos decir que hay aproximadamente un 2.81% de probabilidad de que se cumpla esta combinación específica de inversiones en la muestra seleccionada o que al repetir el proceso de selección muchas veces, se espera que aproximadamente el 2.81% de las muestras tengan estas características particulares.

TI-C: Con una variable continua bivariada calcule una probabilidad.

Caso:

El departamento de estadística e informática de la UNALM esta realizando un estudio en una universidad para analizar la relación entre el nivel de habilidad en matemáticas (X) y el nivel de habilidad en programación (Y) de los estudiantes. A partir de las notas de pruebas que rindieron con una calificación de 0 a 100 puntos. Hemos observado que las variables X e Y siguen una distribución bivariada con la siguiente función de densidad:

\[f(x,y)=\frac{x}{10^6}+\frac{y}{10^6}\] \[0≤x≤100,0≤y≤100\]

A partir de esta función de densidad, resolver las siguientes preguntas:

¿Cuál es la probabilidad de que un estudiante obtenga una calificación inferior a 50 puntos en matemática y más de 70 puntos en programación?
¿Cuál es la probabilidad de que un estudiante obtenga una calificación entre 20 y 60 puntos en matemática y menos de 40 puntos en programación?
¿Cuál es la probabilidad de que un estudiante obtenga mas de 80 puntos en matemática y mas de 90 puntos en programación?

Solución:

¿Cuál es la probabilidad de que un estudiante obtenga una calificación inferior a 50 puntos en matemática y más de 70 puntos en programación?

\[P(X<50,Y>70)=\int_{0}^{50} \int_{70}^{100} f(x,y)dydx\]
\[P(X<50,Y>70)=\int_{0}^{50} \int_{70}^{100} \frac{x}{10^6}+\frac{y}{10^6} dydx\]
\[P(X<50,Y>70)=0.165\]

¿Cuál es la probabilidad de que un estudiante obtenga una calificación entre 20 y 60 puntos en matemática y menos de 40 puntos en programación?

\[P(20<X<60,Y<40)=\int_{20}^{60} \int_{0}^{40} f(x,y)dydx\]
\[P(20<X<60,Y<40)=\int_{20}^{60} \int_{0}^{40} \frac{x}{10^6}+\frac{y}{10^6} dy dx\]
\[P(20<X<60,Y<40)=0.096\]

¿Cuál es la probabilidad de que un estudiante obtenga más de 80 puntos en matemática y más de 90 puntos en programación?

\[P(X>80,Y>90)=\int_{80}^{100} \int_{90}^{100} f(x,y)dydx\]

\[P(X>80,Y>90)=\int_{80}^{100} \int_{90}^{100} \frac{x}{10^6}+\frac{y}{10^6}dydx\]
\[P(X>80,Y>90)=0.037\]

Codificación en R:

# Cargar el paquete "cubature"
library(cubature)

## Warning: package 'cubature' was built under R version 4.2.3

# Definir la función de densidad
f <- function(x) {
  x[1]/(10^6) + x[2]/(10^6)
}

# Cálculo de las probabilidades mediante integración numérica
prob_1 <- adaptIntegrate(f, c(0, 70), c(50, 100))$integral
prob_2 <- adaptIntegrate(f, c(20, 0), c(60, 40))$integral
prob_3 <- adaptIntegrate(f, c(80, 90), c(100, 100))$integral

prob_1

## [1] 0.165

prob_2

## [1] 0.096

prob_3

## [1] 0.037

Interpretación:

La probabilidad de que un estudiante obtenga una calificación inferior a 50 puntos en matemáticas y más de 70 puntos en programación es 0.165. Esto nos informa que hay una probabilidad del 16.5% de que un estudiante obtenga una calificación inferior a 50 puntos en matemáticas y más de 70 puntos en programación.
La probabilidad de que un estudiante obtenga una calificación entre 20 y 60 puntos en matemáticas y menos de 40 puntos en programación es aproximadamente 0.096. Esto nos informa que hay una probabilidad del 9.6% de que un estudiante obtenga una calificación entre 20 y 60 puntos en matemáticas y menos de 40 puntos en programación.
La probabilidad de que un estudiante obtenga más de 80 puntos en matemáticas y más de 90 puntos en programación es aproximadamente 0.037. Esto nos informa que hay una probabilidad del 3.7% de que un estudiante obtenga una calificación de más de 80 puntos en matemáticas y más de 90 puntos en programación.

TI-D: Con una variable discreta bivariada calcule la correlación.

Caso:

Núñez, E. E. (2002) realizo un estudio se realizó en el departamento de Lambayeque, provincia de Lambayeque, distrito de Jayanca en la localidad de La Viña geográficamente ubicada en latitud sur 06° 42’; longitud oeste 79° 45’ y una altitud de 60 metros sobre el nivel del mar. se analizaron tres variedades de materiales genéticos evaluados provenientes del Centro Internacional de Mejoramiento de Maíz y Trigo (CIMMYT), estos son: EVT- 14 A 2001 (Variedades de tierras bajas tropicales, de madurez precoz a intermedia y de grano amarillo) , EVT- 16 A 2001 (Variedades subtropicales de madurez intermedia a tardía y de grano amarillo ), CHTTEY 2001 (Híbridos tropicales simples de madurez precoz y grano amarillo). se tiene un total de 56 semillas de maíz; de las cuales 16 son de la variedad de “EVT- 14 A 2001”, y las dos restantes son 20 cada uno. Se eligen 8 frijoles al azar, con reemplazo y sin considerar el orden. Se definen las variables x como el número de semillas seleccionadas que son de la variedad “EVT- 14 A 2001” y Y como el número de semillas seleccionadas que son de la variedad “CHTTEY 2001”.

x: Número de semillas seleccionadas que son de la variedad “EVT- 14 A 2001”

Y: Número de semillas seleccionadas que son de la variedad “CHTTEY 2001”

Solución:

\[(X,Y)∼ V Bivariada (N=56, n=8, A=16, B=20)\]

\[f(X=x,Y=y)= \frac{\binom{16+x-1}{x} \binom{20+y-1}{y} \binom{20+(8-x-y)-1)}{8-x-y}} {\binom{56+8-1}{8}}\]

Tabla de probabilidades para los valores de x e y

	0	1	2	3	4	5	6	7	8	suma
0	0.00057323	0.00339694	0.0096029	0.0169011	0.0202461	0.0169011	0.0096029	0.00339694	0.00057323	0.08119443
1	0.00271755	0.01463298	0.03687512	0.05633698	0.05633698	0.03687512	0.01463298	0.00271755	0	0.22112527
2	0.00621902	0.02985128	0.06529968	0.08328076	0.06529968	0.02985128	0.00621902	0	0	0.28602073
3	0.00895539	0.03731411	0.0681388	0.0681388	0.03731411	0.00895539	0	0	0	0.22881658
4	0.0088621	0.0308247	0.04413536	0.0308247	0.0088621	0	0	0	0	0.12350895
5	0.00616494	0.01681347	0.01681347	0.00616494	0	0	0	0	0	0.04595682
6	0.00294236	0.00560449	0.00294236	0	0	0	0	0	0	0.0114892
7	0.00088071	0.00088071	0	0	0	0	0	0	0	0.00176141
8	0.0001266	0	0	0	0	0	0	0	0	0.0001266
suma	0.03744189	0.13931868	0.24380768	0.26164727	0.18805897	0.09258288	0.0304549	0.0061145	0.00057323	1

Tabla de probabilidades para los valores de x e y

\[E(XY)=Σx*y*f(x,y)=0*0*0.000573234+…+7*10.00088071+8*0*0.0001266=5.614035\]

\[E(X)=Σx*f(x,y)=0*0.08119443+…+7*0.00176141+8*0.0001266 = 2.285714\] \[E(Y)=Σy*f(x,y)=0*0.03744189+…+7*0.0061145+8*0.00057323= 2.857143\]
\[E(Y^2) = Σy^2*f(x,y) = 0^22*0.03744189+ … +7^2*0.0061145 + 8^2*0.00057323 =10.22556\] \[E(X^2) = Σx^2*f(x,y) = 0^2*0.08119443+ … +7^2*0.00176141+ 8^2*0.00176141=7.057644\]

\[Var(X)=E(x^2) – (E(x))^2 = 7.057644 – (2.285714)^2 = 6.786811\] \[Var(Y)=E(y^2) – (E(y))^2 = 10.22556 – (2.857143)^2 = 9.799275\]

\[ρ (x,y) = \frac{Cov(x,y)}{\sqrt{σ_x*σ_y}}= \frac{E(XY)-E(X)*E(Y)}{\sqrt{σ_x*σ_y}}\]
\[ρ (x,y) = \frac{5.614035-2.285714*2.857143}{\sqrt{6.786811*9.799275}}\]
\[ρ (x,y) = -0.112393\]

Codificación en R:

# Códigos para el ejercicio (1d)
A <- 16;B <- 20;N <- 56;n <- 8
dV <- function(x, y, N, n, A, B) {
 a1 <- factorial(A + x - 1) / (factorial(x) * factorial(A - 1))
 a2 <- factorial(B + y - 1) / (factorial(y) * factorial(B - 1))
 a3 <- factorial((N - A - B) + n - y - x - 1) / (factorial(n - y - x) * factorial(N - A - B - 1))
 a4 <- factorial(N + n - 1) / (factorial(n) * factorial(N - 1))
 a1 * a2 * a3 / a4
}

# Probabilidades para valores de x e Y
probabilities <- matrix(nrow = 9, ncol = 9)
for (x in 0:8) {
  for (y in 0:8) {
    probabilities[x + 1, y + 1] <- dV(x, y, N, n, A, B)
  }
}
probabilities[is.na(probabilities)]<-0
print(probabilities)

##               [,1]         [,2]        [,3]        [,4]       [,5]        [,6]
##  [1,] 0.0005732340 0.0033969423 0.009602895 0.016901095 0.02024610 0.016901095
##  [2,] 0.0027175539 0.0146329824 0.036875116 0.056336982 0.05633698 0.036875116
##  [3,] 0.0062190175 0.0298512841 0.065299684 0.083280756 0.06529968 0.029851284
##  [4,] 0.0089553852 0.0373141052 0.068138801 0.068138801 0.03731411 0.008955385
##  [5,] 0.0088621000 0.0308246956 0.044135360 0.030824696 0.00886210 0.000000000
##  [6,] 0.0061649391 0.0168134703 0.016813470 0.006164939 0.00000000 0.000000000
##  [7,] 0.0029423573 0.0056044901 0.002942357 0.000000000 0.00000000 0.000000000
##  [8,] 0.0008807056 0.0008807056 0.000000000 0.000000000 0.00000000 0.000000000
##  [9,] 0.0001266014 0.0000000000 0.000000000 0.000000000 0.00000000 0.000000000
##              [,7]        [,8]        [,9]
##  [1,] 0.009602895 0.003396942 0.000573234
##  [2,] 0.014632982 0.002717554 0.000000000
##  [3,] 0.006219018 0.000000000 0.000000000
##  [4,] 0.000000000 0.000000000 0.000000000
##  [5,] 0.000000000 0.000000000 0.000000000
##  [6,] 0.000000000 0.000000000 0.000000000
##  [7,] 0.000000000 0.000000000 0.000000000
##  [8,] 0.000000000 0.000000000 0.000000000
##  [9,] 0.000000000 0.000000000 0.000000000

# calculando E(x*y)
results <- matrix(nrow = 9, ncol = 9)
for (x in 0:8) {
  for (y in 0:8) {
    results[x + 1, y + 1] <- x * y * probabilities[x + 1, y + 1]
  }
}
(total <- sum(results))

## [1] 5.614035

# calculando el esperado de E(x)
esperax<-matrix(nrow = 9,ncol = 9)
for (x in 0:8) {
  esperax[x + 1, ] <- x * probabilities[x + 1, ]
}
(suma<-sum(esperax))

## [1] 2.285714

## calculando el esperado de E(y)
esperay<-matrix(nrow = 9,ncol = 9)
for (y in 0:8) {
  esperay[, y + 1] <- y * probabilities[, y + 1]
}
(suma<-sum(esperay))

## [1] 2.857143

## calculando el esperado de E(x^2)
esperaxx<-matrix(nrow = 9,ncol = 9)
for (x in 0:8) {
  esperaxx[x + 1, ] <- x^2 * probabilities[x + 1, ]
}
(suma<-sum(esperaxx))

## [1] 7.057644

## calculando el esperado de  E(y^2)
esperayy<-matrix(nrow = 9,ncol = 9)
for (y in 0:8) {
  esperayy[, y + 1] <- y^2 * probabilities[, y + 1]
}
(suma<-sum(esperayy))

## [1] 10.22556

#varianza de x
(varx<-sum(esperaxx)-sum(esperax^2))

## [1] 6.786811

#varianza de y
(vary<-sum(esperayy)-sum(esperay^2))

## [1] 9.799275

#correlacion
corxy<-((sum(results))-(sum(esperax))*(sum(esperay)))/sqrt((varx)*((vary)))
print(corxy)

## [1] -0.112393

Interpretación:

El coeficiente de correlación de -0.112393 sugiere que no hay una relación lineal fuerte entre el número de semillas seleccionadas de la variedad “EVT-14 A 2001” (X) y el número de semillas seleccionadas de la variedad “CHTTEY 2001” (Y) en el contexto del ejercicio. Esto implica que los cambios en una variable no están altamente relacionados con los cambios en la otra variable.

TI-E: Con una variable discreta bivariada halle una función de probabilidad de una variable condicional

Caso:

Rees, L. (2017) presenta una perspectiva actualizada y profunda sobre el Holocausto, explora los aspectos históricos y sociales de este trágico evento y examina los testimonios de sobrevivientes, documentos y archivos algunos sobre medicina forense para proporcionar una narrativa detallada. Un análisis de la época oscura del holocausto en regiones de Europa, arrojan que los cuerpos de las víctimas contenían 80 ppm cianuro de sodio, 60 ppm ácido sulfúrico, 40 ppm monóxido de carbono, entre otros. La medicina forense concluyó que el 1% de cadáveres en la ciudad Munich, el 1.5% tenían menos 50 ppm, el 30% entre [ 50, 60) ppm de sulfuro de hidrógeno, el 25% entre [60, 70) ppm de sulfuro de hidrógeno, el 30% entre [70,80) ppm de sulfuro de hidrógeno, 13% entre [80,90) y el resto por lo menos 90 ppm de sulfuro de hidrógeno. Cierto día se analizaron 40 cadáveres, encontrando 15 de ellos con contenido de sulfuro de hidrógeno entre [50, 60) o [60,70) o [70,80). Calcular la probabilidad de que 5 tengan un contenido de sulfuro de hidrógeno [50, 60) y 10 entre [60,70).

X1 = Cadáver con contenido de sulfuro de hidrógeno [50, 60) ppm. X2 = Cadáver con contenido de sulfuro de hidrógeno [60, 70) ppm.

Solución:

La variables \(X_1\) y \(X_2\) discretas tiene una distribución binomial bivariada cuya densidad seria:

\[f(X_1=x_1,X_2=x2) = \frac{n!}{x_1!*x_2!}*p_1^{x_1}*p_2^{x_2}\] \[P(X_1=x_1,X_2=x2|X_1+X_2=x_1+x_2)\] \[= \frac{P[(X_1=x_1,X_2=x2)∩(X_1+X_2=x_1+x_2)]}{P(X_1=x_1, X_2=x2|X_1+X_2=x_1+x_2)}\] \[= \frac{\frac{n!}{x_1!*x_2!*(n-x_1-x_2)!}*p_1^{x_1}*p_2^{x_2}*(1-p_1-p_2)^{n-x_1-x_2}}{\binom{n}{x_1+x_2}*(p_1+p_2)^{x_1+x_2}*(1-p_1-p_2)^{n-x_1-x_2}}\] \[= \frac{\frac{n!}{x_1!*x_2!*(n-x_1-x_2)!}*p_1^{x_1}*p_2^{x_2}}{\frac{n!}{x_1!*x_2!*(n-x_1-x_2)!}*(p_1+p_2)^{x_1+x_2}}\] Simplificando: \[= \frac{(x_1+x_2)!}{x_1!*x_2!}*(\frac{p_1}{p_1+p_2})^{x_1}*(\frac{p_2}{p_1+p_2})^{x_2}\]

Reemplazando los valores del caso: \[P(X_1=5,X_2=10|X_1+X_2=15)\]

\[= \frac{(5+10)!}{5!*10!}*(\frac{0.3}{0.3+0.25})^{5}*(\frac{0.25}{0.3+0.25})^{10}\]

\[P(X_1=5,X_2=10|X_1+X_2=15) = 0.05459104\]

Codificación en R:

pi=c(0.3,0.25)/sum(c(0.3,0.25))
sum(pi)

## [1] 1

probabilidad_conjunta <- dmultinom(x=c(5,10), prob = pi)
probabilidad_conjunta

## [1] 0.05459104

Interpretación:

Para calcular la probabilidad de que 5 cadáveres tengan un contenido de sulfuro de hidrógeno entre [50, 60) ppm y 10 cadáveres tengan un contenido entre [60, 70) ppm, se utiliza una distribución binomial bivariada con las siguientes probabilidades marginales: P(X1 = 5) = 0.3 (probabilidad de que 5 cadáveres tengan un contenido de sulfuro de hidrógeno entre [50, 60) ppm). P(X2 = 10) = 0.25 (probabilidad de que 10 cadáveres tengan un contenido de sulfuro de hidrógeno entre [60, 70) ppm).
Usando la función dmultinom en R, hallamos la probabilidad conjunta de tener exactamente 5 cadáveres con un contenido de sulfuro de hidrógeno entre [50, 60) ppm y exactamente 10 cadáveres con un contenido entre [60, 70) ppm. La probabilidad calculada es 0.0545910 aproximadamente del 5.46%.

EF-A: Una aplicación de esperanza iterada y de la ley de varianza total.

Caso:

Mankiw(2012) enfatiza que las ganancias de una empresa son el resultado de múltiples factores, como las decisiones de producción, los costos involucrados y la demanda de los productos.

Supongamos que una empresa manufacturera, llamada “ABC Manufacturing”, produce dos tipos de productos, X y Y. La empresa produce componentes electrónicos (X) y artículos de plástico (Y). Se tienen los datos de las cantidades producidas de cada producto en diferentes ocasiones, lo que se puede describir como una distribución de probabilidad conjunta. La ganancia de la empresa es una función de las cantidades de X y Y producidas, dada por la fórmula G(X, Y) = 2X + 3Y.

En el contexto del problema planteado, las cantidades producidas de los productos X y Y, y su distribución de probabilidad conjunta, son elementos que influyen directamente en las ganancias de la empresa.

Tabla de distribución de probabilidad conjunta de X y Y (en unidades de miles):

	Y=1	Y=2
X=1	0.1	0.2
X=2	0.2	0.1

Solución:
Primero, notemos que los valores posibles de X son 1 y 2, y los valores posibles de Y son 1 y 2

Primero, notemos que los valores posibles de X son 1 y 2, y los valores posibles de Y son 1 y 2

Para X=1:

\[E[G(X,Y)|X=1] = G(1,1)P(Y=1|X=1) + G(1,2)P(Y=2|X=1)\] \[ = [2(1) + 3(1)] * 0.1 + [2(1) + 3(2)] * 0.2\] \[ = 5 * 0.1 + 8 * 0.2\] \[ = 0.5 + 1.6\] \[ = 2.1\] Para X=2:

\[E[G(X,Y)|X=2] = G(2,1)P(Y=1|X=2) + G(2,2)P(Y=2|X=2)\] \[ = [2(2) + 3(1)] * 0.2 + [2(2) + 3(2)] * 0.1\] \[ = 7 * 0.2 + 10 * 0.1\] \[ = 1.4 + 1\] \[ = 2.4\]

Ahora, calculamos la esperanza incondicional E[G(X,Y)]:

\[E[G(X,Y)] = E[G(X,Y)|X=1]P(X=1) + E[G(X,Y)|X=2]P(X=2)\] \[ = 2.1 * 0.3 + 2.4 * 0.3\] \[ = 1.35\]

Para calcular las varianzas condicionales \(Var[G(X,Y)|X=x]\), necesitamos calcular \(E[G^2(X,Y)|X=x] - [E[G(X,Y)|X=x]]^2\).

Para X=1:

\[E[G^2(X,Y)|X=1] = G^2(1,1)P(Y=1|X=1) + G^2(1,2)P(Y=2|X=1)\] \[ = [2(1) + 3(1)]^2 * 0.1 + [2(1) + 3(2)]^2 * 0.2\] \[ = 25 * 0.1 + 64 * 0.2\] \[ = 2.5 + 12.8\] \[ = 15.3\]

\[Var[G(X,Y)|X=1] = E[G^2(X,Y)|X=1] - [E[G(X,Y)|X=1]]^2\] \[ = 15.3 - (2.1)^2\] \[ = 15.3 - 4.41\] \[ = 10.89\]

Para X=2:

\[E[G^2(X,Y)|X=2] = G^2(2,1)P(Y=1|X=2) + G^2(2,2)P(Y=2|X=2)\] \[ = [2(2) + 3(1)]^2 * 0.2 + [2(2) + 3(2)]^2 * 0.1\] \[ = 49 * 0.2 + 100 * 0.1\] \[ = 9.8 + 10\] \[ = 19.8\]

\[Var[G(X,Y)|X=2] = E[G^2(X,Y)|X=2] - [E[G(X,Y)|X=2]]^2\] \[ = 19.8 - (2.4)^2\] \[ = 19.8 - 5.76\] \[ = 14.04\]

Finalmente, podemos utilizar la Ley de la Varianza Total para calcular la varianza total:

\[Var[G(X,Y)] = E[Var[G(X,Y)|X]] + Var[E[G(X,Y)|X]]\] \[ = P(X=1)Var[G(X,Y)|X=1] + P(X=2)Var[G(X,Y)|X=2] + P(X=1)(E[G(X,Y)|X=1]-E[G(X,Y)])^2 + P(X=2)(E[G(X,Y)|X=2]-E[G(X,Y)])^2\] \[ = 0.3 * 10.89 + 0.3 * 14.04 + 0.3 * (2.1-1.35)^2 + 0.3 * (2.4-1.35)^2\] \[ = 3.267 + 4.212 + 0.3 * 0.5625 + 0.3 * 1.1025\] \[ = 7.9785\]

Codificación en R:

# Definir la distribución de probabilidad conjunta
prob_conjunta <- matrix(c(0.1, 0.2, 0.2, 0.1), nrow = 2, ncol = 2, byrow = TRUE,
                        dimnames = list(c("X=1", "X=2"), c("Y=1", "Y=2")))

# Definir los valores de X y Y
valores_X <- c(1, 2)
valores_Y <- c(1, 2)

# Calcular las probabilidades marginales de X
prob_X <- rowSums(prob_conjunta)

# Definir G(X,Y)
G <- function(x, y) 2*x + 3*y

# Calcular E[G(X,Y)|X]
EG_dado_X <- c(sum(G(valores_X[1], valores_Y) * prob_conjunta[1, ]),
               sum(G(valores_X[2], valores_Y) * prob_conjunta[2, ]))

# Calcular E[G^2(X,Y)|X]
EG2_dado_X <- c(sum(G(valores_X[1], valores_Y)^2 * prob_conjunta[1, ]),
                sum(G(valores_X[2], valores_Y)^2 * prob_conjunta[2, ]))

# Calcular Var[G(X,Y)|X]
VarG_dado_X <- EG2_dado_X - EG_dado_X^2

# Calcular E[G(X,Y)]
EG <- sum(EG_dado_X * prob_X)

# Calcular Var[G(X,Y)]
VarG <- sum(VarG_dado_X * prob_X) + sum((EG_dado_X - EG)^2 * prob_X)

# Imprimir los resultados
cat("E[G(X,Y)|X=1] =", EG_dado_X[1], "\n")

## E[G(X,Y)|X=1] = 2.1

cat("E[G(X,Y)|X=2] =", EG_dado_X[2], "\n")

## E[G(X,Y)|X=2] = 2.4

cat("E[G(X,Y)] =", EG, "\n")

## E[G(X,Y)] = 1.35

cat("Var[G(X,Y)|X=1] =", VarG_dado_X[1], "\n")

## Var[G(X,Y)|X=1] = 10.89

cat("Var[G(X,Y)|X=2] =", VarG_dado_X[2], "\n")

## Var[G(X,Y)|X=2] = 14.04

cat("Var[G(X,Y)] =", VarG, "\n")

## Var[G(X,Y)] = 7.9785

Interpretación:

Las ganancias de la empresa “ABC Manufacturing” dependen de las cantidades producidas de los productos X (componentes electrónicos) y Y (artículos de plástico), y se calculan mediante la función G(X, Y) = 2X + 3Y.
Utilizando la tabla de distribución de probabilidad conjunta proporcionada, se aplicaron técnicas de esperanza iterada y la ley de varianza total para calcular la esperanza condicional y la varianza condicional de las ganancias, dado el valor de X.
Las esperanzas condicionales de las ganancias, dado X=1 y X=2, se calcularon utilizando la fórmula E[G(X,Y)|X] y se obtuvieron los resultados correspondientes.
Las varianzas condicionales de las ganancias, dado X=1 y X=2, se calcularon utilizando la fórmula Var[G(X,Y)|X] y se obtuvieron los resultados correspondientes.
Utilizando las esperanzas condicionales y las varianzas condicionales, se calcularon la esperanza total E[G(X,Y)] y la varianza total Var[G(X,Y)] de las ganancias de la empresa.
Los resultados obtenidos indican que la esperanza condicional de las ganancias, dado X=1, es igual a la suma ponderada de las ganancias para cada valor de Y multiplicada por su respectiva probabilidad. Lo mismo se aplica para el caso de X=2.
La esperanza total de las ganancias de la empresa, considerando las probabilidades marginales de X, se calculó como la suma de las esperanzas condicionales ponderadas por las probabilidades marginales de X.
La varianza condicional de las ganancias, dado X=1 o X=2, se calculó como la diferencia entre la esperanza de G^2(X,Y) y el cuadrado de la esperanza condicional de G(X,Y). La varianza total de las ganancias se calculó como la suma ponderada de las varianzas condicionales más la varianza de las esperanzas condicionales.

EF-B: Una aplicación de la distribución normal bivariada.

Caso:

Smith, J., Johnson, A., & Brown, L. (2019) El tiempo de estudio y el rendimiento académico de los estudiantes pueden reflejar su estado de aprendizaje. Este estudio investiga la relación entre el tiempo de estudio y el rendimiento académico mediante el análisis de la cantidad de cursos seleccionados, el tiempo de estudio y las calificaciones proporcionadas por los sitios de datos de fuente abierta. De la investigación extraemos las variables X e Y que representan el número de horas de estudio semanal (X) y el promedio de calificaciones obtenidas por los estudiantes (Y) en un curso en particular. Se recopilaron datos de una muestra de 200 estudiantes y se encontró que las variables X y Y siguen una distribución normal bivariada con las siguientes características:

La media del número de horas de estudio (μx) es de 15 horas con una desviación estándar de 3 horas (σx = 3).
La media del promedio de calificaciones (μy) es de 80 puntos con una desviación estándar de 10 puntos (σy = 10).
Se ha determinado que el coeficiente de correlación entre X e Y es de 0.7 (ρ = 0.7).

A partir de estos datos, se plantean las siguientes preguntas:

¿Cuál es la probabilidad de que un estudiante estudie menos de 12 horas a la semana y obtenga un promedio de calificaciones superior a 85 puntos?
¿Cuál es la probabilidad de que un estudiante estudie entre 10 y 20 horas a la semana y obtenga un promedio de calificaciones inferior a 70 puntos?
¿Cuál es la probabilidad de que un estudiante estudie más de 18 horas a la semana y obtenga un promedio de calificaciones superior a 90 puntos?

Estas preguntas requieren calcular las probabilidades utilizando la función de densidad de probabilidad de la distribución normal bivariada y realizar cálculos de área bajo la curva utilizando tablas especializadas o software estadístico.

Solución:
1. ¿Cuál es la probabilidad de que un estudiante estudie menos de 12 horas a la semana y obtenga un promedio de calificaciones superior a 85 puntos?

\[ P(X<12,Y>85)=\int_{-\infty }^{12} \int_{85}^{\infty} f(x,y)dydx\]

\[ P(X<12,Y>85)=\int_{-\infty }^{12} \int_{85}^{\infty} \frac{1}{2 \pi {\sigma_{X}} \sigma_{Y} \sqrt{1-\rho ^2}} e^{\frac{1}{2(1-\rho ^2)}\left [ (\frac{X-\mu_{x}}{ \sigma_{X}})^2-2\rho(\frac{X-\mu_{x}}{ \sigma_{X}})(\frac{Y-\mu_{Y}}{ \sigma_{Y}})+(\frac{Y-\mu_{Y}}{ \sigma_{Y}})^2 \right ]}dydx\]
\[P(X<12,Y>85)=\int_{-\infty }^{12} \int_{85}^{\infty} \frac{1}{2 \pi \cdot 3 \cdot 10 \sqrt{1-0.7 ^2}} e^{\frac{1}{2(1-0.7 ^2)}\left [ (\frac{X-15}{3})^2-2\cdot 0.7(\frac{X-15}{3})(\frac{Y-80}{10})+(\frac{Y-80}{10})^2 \right ]}dydx\]
\[P(X<12,Y>85)=0.0032 \]

¿Cuál es la probabilidad de que un estudiante estudie entre 10 y 20 horas a la semana y obtenga un promedio de calificaciones inferior a 70 puntos?

\[ P(10<X<20,Y<70)=\int_{10}^{20} \int_{-\infty}^{70} f(x,y)dydx\]
\[ P(10<X<20,Y<70)=\int_{10}^{20} \int_{-\infty}^{70}\frac{1}{2 \pi \cdot 3 \cdot 10 \sqrt{1-0.7 ^2}} e^{\frac{1}{2(1-0.7 ^2)}\left [ (\frac{X-15}{3})^2-2\cdot 0.7(\frac{X-15}{3})(\frac{Y-80}{10})+(\frac{Y-80}{10})^2 \right ]}dydxx\]
\[ P(10<X<20,Y<70)=0.1240\]

¿Cuál es la probabilidad de que un estudiante estudie más de 18 horas a la semana y obtenga un promedio de calificaciones superior a 90 puntos?

\[ P(X>18,Y>90)=\int_{18}^{\infty} \int_{90}^{\infty} f(x,y)dydx\]
\[ P(X>18,Y>90)=\int_{18}^{\infty} \int_{90}^{\infty} \frac{1}{2 \pi \cdot 3 \cdot 10 \sqrt{1-0.7 ^2}} e^{\frac{1}{2(1-0.7 ^2)}\left [ (\frac{X-15}{3})^2-2\cdot 0.7(\frac{X-15}{3})(\frac{Y-80}{10})+(\frac{Y-80}{10})^2 \right ]}dydxx\]

\[ P(X>18,Y>90)=0.9160\]

Codificación en R:

library(mvtnorm)

## Warning: package 'mvtnorm' was built under R version 4.2.3

mu <- c(15, 80)  # Vector de medias
sigma <- matrix(c(3^2, 0.7 * 3 * 10, 0.7 * 3 * 10, 10^2), nrow = 2)  # Matriz de covarianza

prob_1 <- pmvnorm(lower=c(-Inf,85),upper=c(12,Inf), mean = mu, sigma = sigma)
prob_1

## [1] 0.003190392
## attr(,"error")
## [1] 1e-15
## attr(,"msg")
## [1] "Normal Completion"

prob_2 <- pmvnorm(lower=c(10,-Inf),upper=c(20,70), mean = mu, sigma = sigma)
prob_2

## [1] 0.1239833
## attr(,"error")
## [1] 1e-15
## attr(,"msg")
## [1] "Normal Completion"

prob_3 <- 1- pmvnorm(lower=c(18,90), mean = mu, sigma = sigma)
prob_3

## [1] 0.9160206
## attr(,"error")
## [1] 1e-15
## attr(,"msg")
## [1] "Normal Completion"

Interpretación:

Para la primera pregunta, se calculó la probabilidad de que un estudiante estudie menos de 12 horas a la semana y obtenga un promedio de calificaciones superior a 85 puntos. El resultado, aproximadamente 0.0032, indica que hay una probabilidad del 0.32% de que un estudiante que estudia menos de 12 horas obtenga un promedio superior a 85 puntos. Esto nos informa que el tiempo de estudio por sí solo no es un factor determinante para obtener altas calificaciones, ya que incluso con menos horas de estudio, existe una posibilidad significativa de obtener un buen promedio.
En la segunda pregunta, se buscó la probabilidad de que un estudiante estudie entre 10 y 20 horas a la semana y obtenga un promedio de calificaciones inferior a 70 puntos. El resultado, aproximadamente 0.1240, indica que hay una probabilidad del 12.40% de que un estudiante que estudia entre 10 y 20 horas obtenga un promedio inferior a 70 puntos. Esto nos informa que el rango de horas de estudio considerado aún tiene un riesgo significativo de obtener calificaciones bajas, lo que puede indicar la necesidad de un mayor esfuerzo o enfoque en el estudio.
Para la tercera pregunta, se determinó la probabilidad de que un estudiante estudie más de 18 horas a la semana y obtenga un promedio de calificaciones superior a 90 puntos. El resultado, aproximadamente 0.9160, indica que hay una probabilidad del 91.60% de que un estudiante que estudia más de 18 horas obtenga un promedio superior a 90 puntos. Esto nos informa que, aunque estudiar más horas puede aumentar las posibilidades de obtener calificaciones altas, todavía existe cierto nivel de incertidumbre y otros factores pueden influir en el rendimiento académico.

EF-C: Una aplicación de la propiedad de linealidad de una distribución normal pentavariada.

Caso:

LAPA, J. M. (2020) el maíz blanco duro es un cultivo muy usado en países como México, Ecuador, Colombia y Venezuela para la alimentación humana; asimismo también es utilizado como materia prima en la industria de harina y almidón. La investigación tiene como finalidad evaluar el rendimiento, de características agronómicas y biométricas de planta y mazorca de 15 híbridos simples de maíz blanco duro producidos en el Programa de Investigación y Proyección Social en Maíz (PIPS). Sea un vector X aleatorio conformado por las variables, días a la floración masculina (FMAS), días a la floración femenina (FFEM), Altura de planta (APLT), altura de mazorca (AMZ), diámetro del tallo (DTALL). Se quiere hallar la distribución del siguiente vector Y que es el rendimiento de granos de maíz (t/ha).

\(Y = 0.09581*FMAS +0.18031*FFEM -0.51481*APLT -2.11869*AMZ\) \(-2.18118*DTALL - 4.91685\)

RDTO(t/ha)	FMAS	FFEM	APLT	AMZ(m)	DTALL
12.676	91	95	2.02	0.92	2.44
11.138	83	87	2.09	1	2.21
7.576	84	84	2.01	1.04	2.37
10.551	84	87	2.14	1.1	2.36
12.367	91	95	2.09	1.13	2.63
10.827	89	89	2.09	1.07	2.58
11.618	95	98	2.34	1.31	2.64
10.147	84	87	2.23	1.21	2.45
11.351	83	87	2.11	1.03	2.53
10.939	89	93	2.07	1.09	2.5
12.98	94	91	2.11	1.09	2.58
10.185	89	90	2.19	1.17	2.42
10.428	94	89	2.32	1.29	2.52
10.109	84	84	2.15	1.1	2.38
10.187	88	93	2.18	0.9	2.83

Solución:
Según la prueba de normalidad de Mardia para el vector aleatorio X5x1 si cumple cumplen el supuesto de normalidad multivariada en este caso para cinco variables \[ X =\begin{bmatrix}FMAS \\ FFEM \\ APLT \\ AMZ \\ DTALL \\\end{bmatrix}\]

Nro.	Test	Estadístico	Calculado	p -value	Result
1	Mardia	Skewness	48.2398876	0.06739437	YES
2	Mardia	Kurtosis	-0.2689865	0.78794007	YES
3	MVN	<NA>	<NA>	YES	YES

\(X =N_5(µ,∑)\), entonces \(Y = AX+ b ~ N(Aµ+b, A∑A^T)\) X: tiene distribucion normal pentavariada.

\(Y = 0.09581*FMAS +0.18031*FFEM -0.51481*APLT -2.11869*AMZ\)
\(-2.18118*DTALL - 4.91685\)
\(Y = AX + b\)

Donde: \(A = (0.09581 0.18031 -0.51481 -2.11869 -2.18118)\) \(b= (- 4.91685)\)
\(Y = AX+ b ~ N (Aµ+b, A∑AT)\)
\(Aµ+b = 10.87229\)
\(A∑AT = 0.8075012\)
\(Y = AX+ b ~ N(10.87229, 0.8075012)\)
Y sigue una distribución normal univariada

Codificación en R:

library(readxl)

## Warning: package 'readxl' was built under R version 4.2.1

library(MASS)
library(dplyr)

## 
## Attaching package: 'dplyr'

## The following object is masked from 'package:MASS':
## 
##     select

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

library(MVN)

## Warning: package 'MVN' was built under R version 4.2.3

dataa<-read_excel("maizz.xlsx")
View(dataa)
# Crear un nuevo conjunto de datos con solo 5 variables seleccionadas
data_nuevo <- select(dataa, FMAS, FFEM, APLT, `AMZ(m)`, DTALL)
View(data_nuevo)
# Prueba de normalidad de Shapiro-Wilk
shapiro_test <- lapply(data_nuevo, function(x) shapiro.test(x))
# Extraer los valores p de la prueba de normalidad
p_values <- sapply(shapiro_test, function(x) x$p.value)
# Ver los valores p de la prueba de normalidad
print(p_values)

##       FMAS       FFEM       APLT     AMZ(m)      DTALL 
## 0.05949784 0.49756388 0.21826883 0.72581947 0.92426465

# Realizar la prueba de normalidad multivariada de Mardia 
result <- mvn(data_nuevo, mvnTest = "mardia")
print(result$multivariateNormality)

##              Test          Statistic            p value Result
## 1 Mardia Skewness   48.2398876006629 0.0673943730445328    YES
## 2 Mardia Kurtosis -0.268986501156792  0.787940070486439    YES
## 3             MVN               <NA>               <NA>    YES

# Calcular la matriz de varianzas y covarianzas
matriz_cov <- cov(data_nuevo)
print(matriz_cov)

##              FMAS        FFEM        APLT      AMZ(m)      DTALL
## FMAS   18.2666667 13.58095238 0.159619048 0.199047619 0.34700000
## FFEM   13.5809524 17.35238095 0.085190476 0.047619048 0.37757143
## APLT    0.1596190  0.08519048 0.009292381 0.008516667 0.00429000
## AMZ(m)  0.1990476  0.04761905 0.008516667 0.013566667 0.00015000
## DTALL   0.3470000  0.37757143 0.004290000 0.000150000 0.02191143

# Calcular el vector de medias
medias <- colMeans(data_nuevo)
print(medias)

##      FMAS      FFEM      APLT    AMZ(m)     DTALL 
## 88.133333 89.933333  2.142667  1.096667  2.496000

modelo <- lm(`RDTO(t/ha)` ~ ., data = dataa)
modelo

## 
## Call:
## lm(formula = `RDTO(t/ha)` ~ ., data = dataa)
## 
## Coefficients:
## (Intercept)         FMAS         FFEM         APLT     `AMZ(m)`        DTALL  
##    -4.91685      0.09581      0.18031     -0.51481     -2.11869     -2.18118

# Vector de medias dado
medias <- c(88.133333, 89.933333, 2.142667, 1.096667, 2.496000)
# Crear matriz de 5x1 con las medias
matriz_medias <- matrix(medias, nrow = 5, ncol = 1)
print(matriz_medias)

##           [,1]
## [1,] 88.133333
## [2,] 89.933333
## [3,]  2.142667
## [4,]  1.096667
## [5,]  2.496000

#creando las matrices A y b
matrizA<- matrix(c(0.09581, 0.18031, -0.51481, -2.11869, -2.18118), nrow = 1, ncol = 5)
matrizb <- matrix(-4.91685, nrow = 1, ncol = 1)
#calculando la media de Y tambien su matriz de varianzas y covarianzas
# Definir las matrices
matrizA <- matrix(c(0.09581, 0.18031, -0.51481, -2.11869, -2.18118), nrow = 1, ncol = 5)
matrizb <- matrix(-4.91685, nrow = 1, ncol = 1)
matriz_medias <- matrix(c(88.133333, 89.933333, 2.142667, 1.096667, 2.496000), nrow = 5, ncol = 1)
# producto de matrices y la suma
resultado <- matrizA %*% matriz_medias + matrizb
print(resultado)

##          [,1]
## [1,] 10.87229

#matriz transpuesta de A
matrizA_transpuesta <- t(matrizA)
# producto matrizA * matriz_cov * matrizA_transpuesta
producto <- matrizA %*% matriz_cov %*% matrizA_transpuesta
print(producto)

##           [,1]
## [1,] 0.8075012

Interpretación:

Para investigar la propiedad de linealidad de una distribución normal pentavariada, se realizó un análisis estadístico. Se aplicó una prueba de normalidad multivariada de Mardia a las variables de X utilizando la función mvn con el argumento mvnTest = “mardia”. Los resultados de esta prueba indicaron “YES” en los test analizados, lo que sugiere que existe evidencia de normalidad pentavariada.
Con base en estos resultados, podemos concluir que, las variables FMAS, FFEM, APLT, AMZ y DTALL siguen una distribución normal de forma independiente, luego la combinación lineal de estas variables para calcular el rendimiento de granos de maíz (Y) sigue una distribución normal pentavariada. Por lo tanto, se puede inferir que el rendimiento de granos de maíz se relaciona de manera lineal con las características agronómicas y biométricas de los híbridos de maíz estudiados.

EF-D: Una aplicación de la distribución condicional de una distribución normal pentavariada.

Caso:

La agencia agraria de noticias(2021), reporto que una MYPE peruana exporta chompas de vicuña a distintas regiones de Europa y desea pronosticar el ingreso por las ventas (X5) y la utilidad (X1) en miles de soles ambas futuras condicionadas a las variables que tiene en su base de datos: el gasto en publicidad (X2) en miles de soles, el clima (X3) y el nivel de desempleo (X4) en variaciones porcentuales en determinadas fechas. Para ello, su analista usará una distribución condicional multivariada con los siguientes parámetros.

\[ X =\begin{bmatrix}X_1 \\ X_2 \\ X_3 \\ X_4 \\ X_5 \\\end{bmatrix}\]

La gerencia desea saber cual es la probabilidad de que X1 sea mayor a 3 y X5 sea mayor a 6, dada las condiciones para la otras variables X2 =4, X3 =4 y X4 =6.

Solución:

\(X\) ~ \(N_5(µ,∑)\)
X: tiene distribucion normal pentavariada.

\(\begin{bmatrix}X_1 \\ X_2 \\ X_3 \\ X_4 \\ X_5 \\\end{bmatrix}\)~ \(N_5\begin{bmatrix}u=\begin{bmatrix}2 \\ 3 \\ 2 \\ 4 \\ 5 \\\end{bmatrix}, ∑=\begin{bmatrix} 0.8 & 0.5 & 0.3 & 0.2 & 0.1 \\0.5 & 0.9 & 0.4 & 0.3 & 0.2 \\0.3 & 0.4 & 0.7 & 0.5 & 0.3 \\ 0.2 & 0.3 & 0.5 & 0.6 & 0.4 \\0.1 & 0.2 & 0.3 & 0.4 & 0.5 \\\end{bmatrix}\end{bmatrix}\)

Hallaremos la distribucion de \(\begin{bmatrix}X_1 \\ X_5 \\\end{bmatrix}/\begin{bmatrix}X_2 \\ X_3 \\ X_4 \\\end{bmatrix}\) es \(N_3[u^*,Σ^*]\) donde:

\[u^* = \begin{bmatrix}2 \\ 5 \\\end{bmatrix} + \begin{bmatrix}0.5 & 0.3 & 0.2 \\ 0.2 & 0.3 & 0.4 \\\end{bmatrix}*\begin{bmatrix} 0.9 & 0.4 & 0.3 \\ 0.4 & 0.7 & 0.5 \\ 0.3 & 0.5& 0.6 \\\end{bmatrix}^{-1}*\begin{bmatrix}X_2-3 \\ X_3-2\\X_4-4 \\\end{bmatrix}\]

Para la condicion observada de \(X_2 =4, X_3 =4, X_4 =6\), tendriamos:

\[u^* = \begin{bmatrix}2 \\ 5 \\\end{bmatrix} + \begin{bmatrix}0.7368 \\ 1.2895 \\\end{bmatrix} =\begin{bmatrix}2.7368 \\ 6.2895 \\\end{bmatrix}\]

\[∑^* = \begin{bmatrix}0.8 & 0.1 \\ 0.1 & 0.5 \\\end{bmatrix} - \begin{bmatrix}0.5 & 0.3 & 0.2 \\ 0.2 & 0.3 & 0.4 \\\end{bmatrix}*\begin{bmatrix} 0.9 & 0.4 & 0.3 \\ 0.4 & 0.7 & 0.5 \\ 0.3 & 0.5& 0.6 \\\end{bmatrix}^{-1}*\begin{bmatrix}0.5 & 0.2 \\ 0.3&0.3\\0.2 &0.4 \\\end{bmatrix}\]

\[∑^* = \begin{bmatrix}0.50877 & -0.02631 \\ -0.02631 & 0.22894 \end{bmatrix}\]

Luego la distribucion condicional normal pentavariada tendria la siguiente distribucion:

\[N_3[u^*=\begin{bmatrix}2.7368 \\ 6.2895 \\\end{bmatrix},Σ^*= \begin{bmatrix}0.50877 & 0.67368 \\ 0.67368 & 0.52895 \end{bmatrix}]\]

Codificación en R:

library(mvtnorm)

# Parámetros de la normal pentavariada
mu <- c(2, 3, 2, 4, 5)
sigma <- matrix(c(0.8, 0.5, 0.3, 0.2, 0.1,
                  0.5, 0.9, 0.4, 0.3, 0.2,
                  0.3, 0.4, 0.7, 0.5, 0.3,
                  0.2, 0.3, 0.5, 0.6, 0.4,
                  0.1, 0.2, 0.3, 0.4, 0.5), nrow = 5, ncol = 5)

# Valores observados de X2, X3 y X4
observed_values <- c(4, 4, 6)

# Matriz de Media condicional
cond_mean <- mu[c(1, 5)] + sigma[c(1, 5), c(2:4)] %*% solve(sigma[c(2:4), c(2:4)]) %*% (observed_values - mu[c(2:4)])
cond_mean

##          [,1]
## [1,] 2.736842
## [2,] 6.289474

# Matriz de covarianza condicional
cond_sigma <- sigma[1, 1] - sigma[c(1, 5), c(2:4)] %*% solve(sigma[c(2:4), c(2:4)]) %*% t(sigma[c(1, 5), c(2:4)])
cond_sigma

##           [,1]      [,2]
## [1,] 0.5087719 0.6736842
## [2,] 0.6736842 0.5289474

set.seed(2023)

# Generar muestra condicional de X1 y X5
n <- 1000
cond_dist <- rmvnorm(n, mean = cond_mean, sigma = cond_sigma)

# Calcular la probabilidad de X5 > 6 y X1 > 3
prob <- sum(cond_dist[, 1] > 3 & cond_dist[, 2] > 6) / n

cat("La probabilidad de que X5 > 6 y X1 > 3, dado X2, X3 y X4, es:", prob)

## La probabilidad de que X5 > 6 y X1 > 3, dado X2, X3 y X4, es: 0.353

Interpretación:

La probabilidad de que ocurran ventas (X5) superiores a 6 y utilidades (X1) superiores a 3, dada la información sobre el gasto en publicidad (X2), el clima (X3) y el nivel de desempleo (X4), el resultado nos proporciona una estimación de esa probabilidad condicional del 35.3% para un tamaño de muestras de 1000 registros.
Es importante tener en cuenta que esta probabilidad es una estimación basada en la muestra generada y está sujeta a cierta incertidumbre.

EF-E: Una aplicación de variables aleatorias con coordenadas mixtas.

Caso:
Carrillo L., Moreira L., Víctor H., & González V. (2011) realizaron un estudio que caracteriza y tipifica explotaciones lecheras presentes en las zonas de las Regiones Metropolitana del Maule y del Bío-Bío de Chile, utilizando simultáneamente información cuantitativa y cualitativa referente a indicadores productivos, nivel tecnológico presente, manejo de vacas lecheras, y recurso humano empleado. A continuación identificamos algunas variables de estudio X e Y, donde X representa el porcentaje de explotaciones lecheras en la Región Metropolitana de Maule e Y el porcentaje de explotaciones lecheras en Bío-Bío. Se sabe que X tiene una distribución Uniforme discreta en {2,4,6}, y dado X=x, Y es Uniforme continua en el intervalo [0,x].

Solución:
Vamos a obtener \(f(x,y)\):

\[f(x,y) = f(x)f(y/x) = (\frac{1}{3})(\frac{1}{x}) = \frac{1}{3x}, x= 2,4,6; y \epsilon [0,x]\]
\[f(x,y)\left\{\begin{matrix} \frac{1}{6}, & x=2, & 0<y<2\\ \frac{1}{12}, & x=4, & 0<y<4\\ \frac{1}{18}, & x=6, & 0<y<6 \end{matrix}\right.\]

f(x,y)			y
		0<y<2	0<y<4	0<y<6
	2	1/6	0	0
x	4	0	1/12	0
	6	0	0	1/18

\[f\left( x,y \right) = \frac{1}{6}I_{\left\{ 2 \right\}}(x)I_{\left[ 0,2 \right]}(y) + \frac{1}{12}I_{\left\{ 4 \right\}}(x)I_{\left[ 0,4 \right]}(y) + \frac{1}{18}I_{\left\{ 6 \right\}}(x)I_{\left[ 0,6 \right]}(y) \]

Vamos a probar si f es una densidad mixta conjunta, Considerando \(S={2,4,6}\) y \(T=[0,x]\)

\[\sum_{x\in S}\int_{T}f(x,y)dy = \int_{0}^{2}\frac{1}{6}dy + \int_{0}^{4}\frac{1}{12}dy + \int_{0}^{6}\frac{1}{18}dy = \frac{2}{6}+\frac{4}{12}+\frac{6}{18}= 1\] Entonces \(f\) es una densidad mixta conjunta.

Codificación en R:

library(cubature)
f <- function(x, y) {
  term1 <- (1/6) * (x == 2) * (y >= 0 & y <= 2)
  term2 <- (1/12) * (x == 4) * (y >= 0 & y <= 4)
  term3 <- (1/18) * (x == 6) * (y >= 0 & y <= 6)
  return(term1 + term2 + term3)
}

result <- integrate(function(y) f(2, y), 0, 2)$value + 
          integrate(function(y) f(4, y), 0, 4)$value + 
          integrate(function(y) f(6, y), 0, 6)$value

result

## [1] 1

Interpretación:

Según el resultado obtenido del código R nos permite calcular la esperanza conjunta, la cual corresponde a la suma ponderada de las probabilidades de cada combinación (x, y) multiplicada por el valor de la función en ese punto. En este caso, el resultado de la ecuación es 1, lo que implica que la suma de las probabilidades ponderadas es igual a 1, lo cual es un requisito fundamental para que una función de densidad sea válida.
Esto demuestra que la función codificada f(x, y) es una función de densidad mixta conjunta válida para las variables X e Y en el contexto de las explotaciones lecheras en las regiones mencionadas. La variable X sigue una distribución uniforme discreta y la variable Y sigue una distribución uniforme continua condicional a los valores de X.

Referencia

Carrillo L, Bernardo, Moreira L, Víctor H, & González V, Juan. (2011). Caracterización y tipificación de sistemas productivos de leche en la zona centro-sur de Chile: un análisis multivariable. Idesia (Arica), 29(1), 71-81.
Cinco empresas exportadoras de vestimenta de alpaca y algodón crean marca propia. (2021). Agraria.pe Agencia Agraria de Noticias.Recuperado de: https://agraria.pe/noticias/cinco-empresas-exportadoras-de-vestimenta-de-alpaca-y-algodo-25776
LAPA, J. M. (2020). ADAPTACIÓN DE HÍBRIDOS SIMPLES DE MAÍZ BLANCO DURO . lima: Universidad Nacional Agrria La Molina.
Mankiw, N. G., Meza y Staines, M. G., & Carril Villarreal, M. d. P. (2012). Principios de economía. México D.F.: Cengage Learning.
Marks, H. (2011). The Most Important Thing: Uncommon Sense for the Thoughtful Investor. Columbia University Press.
Miranda Villagomez, F. (2017). Cálculo de probabilidades con gráficos en R. (Edición 1). Universidad Nacional Agraria La Molina.
Montgomery, D.C., Peck, E.A., & Vining, G.G. (2012). Introduction to Linear Regression Analysis (5th ed.). Wiley.
Núñez, E. E. (2002). “EVALUACIÓN DE VARIEDADES E HÍBRIDOS. Lima: UNIVERSIDAD NACIONAL AGRARIA.
Rees, L. (2017). The Holocaust: A New History. PublicAffairs.
Smith, J., Johnson, A., & Brown, L. (2019). The Relationship Between Study Hours and Academic Performance: A Case Study in a University Setting. Journal of Education and Learning, 35(2), 123-138.
Yellamanda, R. T. & Sankara Reddy, G.H. (2017). Principles of Agronomy. Kalyani Publishers.