Caso de Aplicación N°1

Se desea estimar la reserva de un yacimiento de cobre que contiene 40.000 Tn de mineral. Para realizar el estudio, se toman muestras, cada una compuesta por 100 kg de material. Para cada unidad experimental, se mide la proporción de Cobre presente en los 100 Kg de material. Se definieron 3 estratos de acuerdo con estudios geológicos de los siguientes tamaños:

Tamaño del Estrato 1: 8000 Tn Tamaño del Estrato 2: 30000 Tn Tamaño del Estrato 3: 2000 Tn

Los costos de muestreo se consideran iguales para todos los estratos.

Se tomó una muestra de cada estrato y se obtuvieron los datos de la planilla adjunta (hoja “Muestra”). Si es posible afirmar con un riesgo máximo del 5% que la proporción de cobre en la masa total de material es superior al 22%, se realizarán las inversiones necesarias para extraer el material.

Además, la empresa ha estimado el costo de extracción de mineral de cobre con la siguiente expresión, donde el Costo está expresado en [USD/100 Kg de material] y 𝑥 representa la proporción de Cobre presente en los 100 Kg.

\(Costo = 12*x*e^{-2,3*x}\)

A continuación, se utilizará el software R Studio para el cálculo y resolución de varios de los siguientes puntos a resolver. El código aplicado aparecerá sombreado en gris, e inmediatamente debajo de cada código (chunks) se encontrará el output respectivo de cada uno.

1) Indique los tamaños de cada uno de los estratos. ¿Qué tipo de muestreo se realizó?

Se realizó un muestreo aleatorio estratificado (de k=3 estratos), por variables, considerando costos de muestreo iguales para cada estrato i (ci iguales).

library(readxl)

## Warning: package 'readxl' was built under R version 4.0.3

datos_estrato1 <- read_excel("C:/Users/Ignac/Desktop/Estadistica Aplicada II/TPs/TP1/datos_estrato1.xlsx")
datos_estrato2 <- read_excel("C:/Users/Ignac/Desktop/Estadistica Aplicada II/TPs/TP1/datos_estrato2.xlsx")
datos_estrato3 <- read_excel("C:/Users/Ignac/Desktop/Estadistica Aplicada II/TPs/TP1/datos_estrato3.xlsx")


muestra1 <- datos_estrato1$estrato1
muestra2 <- datos_estrato2$estrato2
muestra3 <- datos_estrato3$estrato3

Siendo que el total de la población en el yacimiento es de 40000 Tn de mineral (es decer, 40000000 kg de mineral), y dado que se eaxtraen unidades de a 100kg de mineral, entonces la población total de mineral del yacimiento se puede expresar en unidades de extracción del siguiente modo:

\(N=\frac{40000000kg}{100 \frac{kg}{unidad}}\) => \(N=400000 unidades\)

Realizando el mismo cálculo para expresar los tamaños de los estratos en unidades de 100kg de mineral, se obtiene la siguiente tabla:

options(scipen = 999)
total1 <- (8000*1000/100)
total2 <- (30000*1000/100)
total3 <- (2000*1000/100)
tabla <- c(c(8000, 30000, 2000), c(total1, total2, total3))
dim(tabla)<-c(3 , 2)
colnames(tabla)<-c("| Ni [Tn] |", "| Ni [unidades de 100kg mineral] |")
rownames(tabla)<-c("Estrato 1", "Estrato 2", "Estrato 3")
tabla

##           | Ni [Tn] | | Ni [unidades de 100kg mineral] |
## Estrato 1        8000                              80000
## Estrato 2       30000                             300000
## Estrato 3        2000                              20000

Se definen las siguientes variables aleatorias:

\(X_{ij}\): proporción de cobre en la j-ésima unidad experimental de 100kg de mineral, extraida del estrato i [\(\frac{kgCobre}{kgMineral}\)].

\(\overline{X_{i}}\): promedio de la proporción de cobre, en 100kg de mineral, del estrato i [\(\frac{kgCobre}{kgMineral}\)]

Se podría considerar que \(X_{ij} \sim N(\mu; \sigma^2)\), y aunque este supuesto no se cumpla, siendo que los tamaños de muestra de cada estrato son muy grandes, entonces por TCL se tendría de un modo u otro que \(\overline{X_{i}} \approx N(\mu;\frac{\sigma_i^2}{n_i}*\frac{N_i-n_i}{N_i-1})\)

Para corroborar la validéz de la consideración de que la VA \(X_{ij}\) tiene una distribución Normal, se puede observar en los siguientes gráficos cuantil-cuantil, que las distribuciones de las muestras de cada estrato tienen una gran correspondencia a distribuciones Normales con sus respectivos parámetros. Esto se vé graficamente al observar gran linealidad en los gráficos (observar que a mayor tamaño de muestra del estrato, mayor linealidad y mayor correspondencia con una Normal):

qqplot(rnorm(100000, mean = mean(muestra1), sd = sd(muestra1)), muestra1, xlab = "Cuantiles Normal teóricos (simulación 100000 datos)", ylab = "Muestra Estrato 1", col = "brown")

qqplot(rnorm(100000, mean = mean(muestra2), sd = sd(muestra2)), muestra2, xlab = "Cuantiles Normal teóricos (simulación 100000 datos)", ylab = "Muestra Estrato 2", col = "orange")

qqplot(rnorm(100000, mean = mean(muestra3), sd = sd(muestra3)), muestra3, xlab = "Cuantiles Normal teóricos (simulación 100000 datos)", ylab = "Muestra Estrato 3", col = "red")

2) A partir de la información obtenida, determine si deben realizarse las inversiones para extraer el material. Determine el riesgo exacto que comete al tomar esta decisión.

Para decidir si deben realizarse las inversiones para extraer el material, debo determinar, con un riesgo máximo del 5% (nivel de significación), si la proporsión de cobre en la masa total de mineral es superior al 22% (es decir 0,22).

Realizo una tabla con los tamaños de los estratos, las ponderaciones de estos (\(P_i=\frac{N_i}{N}\)), los tamaños de las muestras de cada estrato, y los resultados de los cálculos de los promedios muestrales y los desvíos muestrales de cada estrato:

options(scipen = 999)
vect_totales <- c(total1, total2, total3)

peso1 <- (total1/sum(vect_totales))
peso2 <- (total2/sum(vect_totales))
peso3 <- (total3/sum(vect_totales))
vect_pesos <- c(peso1, peso2, peso3)


n1 <- length(muestra1)
n2 <- length(muestra2)
n3 <- length(muestra3)
vect_muestras <- c(n1, n2, n3)

vect_promedios <- c(mean(muestra1), mean(muestra2), mean(muestra3))

vect_desvios <- c(sd(muestra1), sd(muestra2), sd(muestra3))

tabla2 <- c(vect_totales, vect_pesos, vect_muestras, vect_promedios, vect_desvios)
dim(tabla2)<-c(3 , 5)
colnames(tabla2)<-c("| Ni [unidades] |", "| Pi = Ni/N |", "| ni |", "| Promedio muestral i |", "| Desvío muestral i |")
rownames(tabla2)<-c("Estrato 1", "Estrato 2", "Estrato 3")
tabla2

##           | Ni [unidades] | | Pi = Ni/N | | ni | | Promedio muestral i |
## Estrato 1             80000          0.20    240             0.006441208
## Estrato 2            300000          0.75   9000             0.211130511
## Estrato 3             20000          0.05    600             0.882489767
##           | Desvío muestral i |
## Estrato 1           0.002178289
## Estrato 2           0.096501667
## Estrato 3           0.037393701

Con los tamaños de muestra de cada estrato, calculo el tamaño total de la muestra (sumándolos):

tabla3 <- c(sum(vect_totales), sum(vect_muestras))
dim(tabla3)<-c(1 , 2)
colnames(tabla3)<-c("| N [unidades] |", "| n [unidades] |")
rownames(tabla3)<-c("Población Total")
tabla3

##                 | N [unidades] | | n [unidades] |
## Población Total           400000             9840

Entonces se calcula el promedio muestral total del muestreo estratificado como:

\(\overline{X}=\sum^{k=3}_{i=1} P_i*\overline{X_i}\)

promedio_total <- (sum(vect_pesos*vect_promedios))
promedio_total

## [1] 0.2037606

=> \(\overline{X}_{obs}=0,2037606\)

Entonces realizo un ensayo de hipótesis de inferencia sobre la media de la proporcion de cobre:

\(H_0) \mu \leq (0,22=\mu_0)\) ; \(H_a) \mu > (0,22=\mu_0)\)

Nivel de significación \(\alpha=0,05\)

Calculo las expreciones de la media y de la estimación de la varianza, del estimador puntual de la media poblacional:

\(E[\overline{X}]=\mu\) (estimador insesgado)

\(\hat{Var[\overline{X}]}=\hat{D^2[\overline{X}]}=\sum^{k=3}_{i=1}(P_i^2*\frac{S_i^2}{n_i}*\frac{N_i-n_i}{N_i-1})\)

=> \(\hat{D[\overline{X}]}=\sqrt{\sum^{k=3}_{i=1}(P_i^2*\frac{S_i^2}{n_i}*\frac{N_i-n_i}{N_i-1})}\)

Con esta expresión de la estimación del desvío, se calcula el mismo:

desvio_total <- sqrt(sum(((vect_pesos)^{2})*(((vect_desvios)^{2})/vect_muestras)*((vect_totales - vect_muestras)/(vect_totales - 1))))
desvio_total

## [1] 0.0007556565

=> \(\hat{D[\overline{X}]}=0,0007556565\)

Por lo tanto, utilizo el siguiente estadístico:

\((\frac{\overline{X}-\mu}{\hat{D[\overline{X}]}}) \sim t (\upsilon=n-k=9840-3=9837)\)

Debido a que los grados de libertad son muy grandes, esta t de Student tiene una buena aproximación a una Normal Estándar, lo que facilitaría los cálculos a mano. Pero debido a que se realizarán los cálculos utilizando el software, puedo usar la t de Student como distribución del estadístico para un cálculo más exacto.

CR: \(\overline{X} \geq \overline{X_c}\)

\(P(\overline{X} \geq \overline{X}_{c} | \mu_0=0,22)= \alpha = 0,05\)

De esta expresión para el nivel de significación despejo y calculo el promedio muestral crítico de la proporción de cobre:

\(G_{t}(\frac{\overline{X}_{c}-\mu_0}{\hat{D[\overline{X}]}} | \upsilon=9837) = \alpha\)

\(F_{t}(\frac{\overline{X}_{c}-\mu_0}{\hat{D[\overline{X}]}} | \upsilon=9837) =1- \alpha = 0,95\)

=> \(\overline{X}_{c}= t_{(9837;0,95)}*\hat{D[\overline{X}]}+\mu_0\)

qt(0.95, df = 9840)*desvio_total+0.22

## [1] 0.2212431

=> \(\overline{X}_{c}=0,2212431\)

Luego siendo que \((\overline{X}_{obs}=0,2037606) < (\overline{X}_{c}=0,2212431)\)

=> NO rechazo la hipótesis nula

Entonces, decido que NO deben realizarce las inversiones para extraer el material ya que NO se puede asegurar de que la proporción de cobre sea mayor al 22% (con 5% de nivel de significación).

Por otro lado, tambien puedo determinar el riesgo exacto que se cometería al tomar la decisión de realizar las inversiones con las observaciones realizadas, el cuál será el valor P (\(\alpha^{\star}\)), planteando la condición de rechazo universal debería llegar a la misma conclusión que anteriormente:

CR(universal): \(\alpha^{\star} \leq \alpha\)

\(\alpha^{\star} = P(\overline{X} \geq \overline{X}_{obs} | \mu_0=0,22)\)

=> \(\alpha^{\star} = G_{t}(\frac{\overline{X}_{obs}-\mu_0}{\hat{D[\overline{X}]}} | \upsilon=9837)\)

Realizo el cálculo exacto de esta probabilidad acumulada a derecha utilizando el software y además calculo el fractil t observado:

c(t_observado=(promedio_total-0.22)/desvio_total, Valor_p=pt(((promedio_total-0.22)/desvio_total), df = 9837, lower.tail = FALSE))

## t_observado     Valor_p 
##   -21.49044     1.00000

Como se ve, debido a que el fractil t observado tiene un valor muy bajo (esto es posible que sea ya que el valor de la estimación del desvío dió un valor muy bajo), esta probabilidad acumulada a derecha, el valor p, da 1 teoricamente. Esto sería más correcto expresarlo en la practica como 0,9999 periódico, debido a que en la realidad no existen tales certezas como una probabilidad de 1. Es decir, finalmente se tiene que:

\(\alpha^{\star} = 0,\hat{9999}\) Riesgo exacto del 99,99%; que se cometería al realizar las inversiones con lo observado.

Esto corrobora (casi) fehacientemente que es correcta la decición, anteriormente hecha, de que NO deben realizarce las inversiones para extraer el material.

3) Construya un intervalo de confianza del 90% para la cantidad total de Cobre en el yacimiento.

Defino el parámetro \(\tau\) como la cantidad total de cobre en el yacimiento: \(\tau=N*\mu\), con \(\tau\) en [kg de cobre], N en [kg de mineral], y \(\mu\) en [kg de cobre/kg de mineral].

Siendo el estimador puntual de este: \(T=N*\overline{X}\), con T en [kg de cobre], N en [kg de mineral], y \(\overline{X}\) en [kg de cobre/kg de mineral].

t <- 40000000*promedio_total
t

## [1] 8150425

=> \(T_{obs}=8150425\)kg de cobre

Y dado que el promedio muestral tiene distribución Normal y N es una canstante: \(T \sim N(E[T], Var[T])\)

=> \(E[T]=\tau\) (estimador insesgado)

=> \(Var[T]=N^{2}*Var[\overline{X}]\) <=> \(D[T]=N*D[\overline{X}]\)

=> \(\hat{D[T]}=N*\hat{D[\overline{X}]}\)

desvio_tau <- 40000000*desvio_total
desvio_tau

## [1] 30226.26

=> \(\hat{D[T]}=30226,26\)kg de cobre

Estadístico: \((\frac{T-\tau}{\hat{D[T]}}) \sim t (\upsilon=9837)\)

Construyo un intervalo de confianza del 90% para \(\tau\):

\(NC=0,9=1-\alpha\) <=> \(\alpha=0,1\)

\(P(t_{(\upsilon;\frac{\alpha}{2})} \leq (\frac{T-\tau}{\hat{D[T]}}) \leq t_{(\upsilon;1-\frac{\alpha}{2})})=0,9\)

\(P(T-t_{(\upsilon;1-\frac{\alpha}{2})}*\hat{D[T]} \leq \tau \leq T+t_{(\upsilon;1-\frac{\alpha}{2})}*\hat{D[T]})=0,9\)

error <- qt(0.95, df = 9837)*desvio_tau
error

## [1] 49722.45

Error absoluto: \(E=t_{(\upsilon;1-\frac{\alpha}{2})}*\hat{D[T]}\)

=> \(E=49722.45\)kg de cobre

Calculo el intervalo de confianza del 90%:

c(LI=(t-error), LS=(t+error))

##      LI      LS 
## 8100702 8200147

=> \(IC_{90\%}(\tau)=[8100702 ; 8200147]\)kg de cobre, intervalo de confianza del 90% para el total de cobre en el yacimiento

Se puede observar en el gráfico a continuación, la función de densidad para el total de kilogramos de cobre en el yacimiento con media en el total observado (t de Student no centrada). Siendo el área en celeste la probabilidad del 90% del intervalo de confianza con los límites observados:

curve(dt(x, df = 9837, ncp = 8150425), from = 7955000,to = 8355000,main = "Intervalo de Confianza del 90%" , xlab = "Kilogramos de cobre en el yacimiento", ylab = "Función de Densidad")
polygon(x = c(8100702, seq(from = 8100702, to = 8200147, 1), 8200147), y = c(0, dt(seq(8100702, 8200147, 1), df=9837, ncp = 8150425), 0), col = "lightblue")
grid()

4) Determine el tamaño de muestra que debería tomarse en cada estrato si se desea reducir el error de la estimación anterior en un 60%. Fundamente la elección de las expresiones utilizadas.

Expreso el error requerido para la estimación de \(\tau\), el cuál será un 40% del error calculado en la estimación anterior:

\(E_{req (\tau)}=0,4*E_{(\tau)}\) en kg de cobre

Este error lo puedo expresar como el error de estimación requerido para la media de la proporción de cobre (unidades en las que se tomó la muestra):

\(E_{req(\mu)}=\frac{E_{req(\tau)}[kgC]}{40000000[kgMineral]}=\frac{0,4*E_{(\tau)}[kgC]}{40000000[kgMineral]}\)

Entonces calculo el desvío requerido para la estimación de la media de la proporción como:

\(D_{req(\mu)}=\frac{E_{req(\mu)}}{t_{(9837;0,95)}}=\frac{\frac{0,4*E_{(\tau)}[kgC]}{40000000[kgMineral]}}{t_{(9837;0,95)}}\)

desvio_req <- (((0.4*error)/40000000)/qt(0.95, df = 9837))
desvio_req

## [1] 0.0003022626

=> \(D_{req(\mu)}=0,0003022626\)

Considerando los costos de muestreo iguales para cada estrato y siendo un muestreo por variables se tiene que dado el error de muestreo fijo que se tiene, se utilizará la siguiente expresión para minimizar los costos del muestreo:

\(n=\frac{(\sum P_i*S_i)^{2}}{D_{req}^{2}(\overline{X})+\frac{1}{N}*\sum P_i*S_i^2}\)

Calculo el tamaño de muestra total:

n_req <- ((sum(vect_pesos*vect_desvios))^{2})/((desvio_req^{2})+(1/sum(vect_totales)*sum(vect_pesos*(vect_desvios^{2}))))
n_req <- ceiling(n_req)
c(Tamaño_muestra_total=n_req)

## Tamaño_muestra_total 
##                51168

=> \(n=51168\)unidades, Tamaño de muestra total para el error requerido, en unidades de muestra de 100kg de mineral.

Ahora utilizo la Fórmula Optima de Neyman (siendo los costos de cada estrato iguales) para calcular tamaños de muestra óptimos para cada estrato. La cual utiliza el Factor de Proporcionalidad de Neyman para minimizar el error de muestreo, debido a que en un muestreo estratificado, con un mismo tamaño de muestra n (como el calculado), se pueden producir múltiples errores de muestreo según como se distribuyan los tamaños de muestra de cada estrato (ni).

\(n_i=n*\frac{P_i*S_i}{\sum^{k=3}_{i=1} P_i*S_i}\)

n1_opt <- n_req*((peso1*sd(muestra1))/sum(vect_pesos*vect_desvios))
n2_opt <- n_req*((peso2*sd(muestra2))/sum(vect_pesos*vect_desvios))
n3_opt <- n_req*((peso3*sd(muestra3))/sum(vect_pesos*vect_desvios))
c(Tamaño_muestra_1=ceiling(n1_opt), Tamaño_muestra_2=ceiling(n2_opt), Tamaño_muestra_3=ceiling(n3_opt))

## Tamaño_muestra_1 Tamaño_muestra_2 Tamaño_muestra_3 
##              299            49589             1282

Entonces se tienen los tamaños de muestra óptimos para los estratos:

\(n_{1óptimo}=299\); \(n_{2óptimo}=49589\); \(n_{3óptimo}=1282\) Tamaños de muestra óptimos de Neyman, en unidades de muestra de 100kg de mineral.

Ahora comparo estos tamaños de muestra óptimos con los tamaños de muestra iniciales, es decir, los de la muestra piloto: \(n1=240\); \(n_2=9000\); \(n_3=600\). Y observo que todos los tamaños de muestra piloto son menores que los óptimos de Neyman requeridos para el error de muestreo deseado, por ende en todos los estratos se deberán sacar nuevas muestras ademas de las piloto (esto podría ser diferente en caso de que alguno de los tamaños de una muestra piloto sea mas grande que los óptimos, en ese caso se podrían usar los datos de esta muestra piloto para mayor precisión para aprovechar los datos ya extraidos).

Finalmente debido a los redondeos en los resultados de los tamaños de muestra óptimos (hechos para asegurar el error requerido) recalculo el tamaño de muestra total final:

c(Tamaño_muestra_total_final=(ceiling(n1_opt)+ceiling(n2_opt)+ceiling(n3_opt)))

## Tamaño_muestra_total_final 
##                      51170

=> \(n'=51170\)unidades Tamaño de muestra total final requerido, en unidades de muestra de 100kg de mineral.

5) Determine el costo total esperado de extracción por Tn de Cobre para todo el yacimiento que no será superado con 10% de probabilidad. Tenga en cuenta que la esperanza no es un operador lineal.

Defino las siguientes VA:

\(C_{ij}\): costo de extraer la j-ésima unidad experimental, del estrato i \([\frac{USD}{unidad}]=[\frac{USD}{100kgCobre}]\).

\(X_{ij}\): proporción de cobre en la j-ésima unidad extraida de 100kg de mineral, del estrato i \(\frac{kgCobre}{kgMineral}\).

El costo se expresa en función de la proporción del siguiente modo:

\(C_{ij} = 12*X_{ij}*e^{-2,3*X_{ij}}\)

Debido a que la función del costo de extraer cada unidad es la misma para cada estrato, entonces reemplazando los valores de las muestras de las proporciones de cobre en esta función, se obtendrán tres muestras de los costos, una para cada estrato, por ende se tiene nuevamente un muestreo estratificado. Esto es porque los costos de extraer cada unidad dependenden de la propoción de de cobre de la misma, y a su vez esta proporción depende de la información geologica que se tiene a priori sobre los diferentes estratos, y por ende hay heterogeneidad entre estas subpoblaciones. Además, se tiene que los tamaños totales de los estratos y por ende las ponderaciones de estos (\(P_i=\frac{N_i}{N}\)) serán las mismas que para las muestras de las proporciones de cobre.

muestra_costos1 <- 12*muestra1*exp(-2.3*muestra1)
muestra_costos2 <- 12*muestra2*exp(-2.3*muestra2)
muestra_costos3 <- 12*muestra3*exp(-2.3*muestra3)

n1_costos <- length(muestra_costos1)
n2_costos <- length(muestra_costos2)
n3_costos <- length(muestra_costos3)
vect_muestras_costos <- c(n1_costos, n2_costos, n3_costos)

vect_promedios_costos <- c(mean(muestra_costos1), mean(muestra_costos2), mean(muestra_costos3))

vect_desvios_costos <- c(sd(muestra_costos1), sd(muestra_costos2), sd(muestra_costos3))

tabla4 <- c(vect_totales, vect_pesos, vect_muestras_costos, vect_promedios_costos, vect_desvios_costos)
dim(tabla4)<-c(3 , 5)
colnames(tabla4)<-c("| Ni [unidades] |", "| Pi = Ni/N |", "| ni |", "| Promedio muestral costos i |", "| Desvío muestral costos i |")
rownames(tabla4)<-c("Estrato 1", "Estrato 2", "Estrato 3")
tabla4

##           | Ni [unidades] | | Pi = Ni/N | | ni | | Promedio muestral costos i |
## Estrato 1             80000          0.20    240                     0.07603039
## Estrato 2            300000          0.75   9000                     1.43814257
## Estrato 3             20000          0.05    600                     1.39129060
##           | Desvío muestral costos i |
## Estrato 1                   0.02533774
## Estrato 2                   0.41844676
## Estrato 3                   0.06049441

Defino la VA promedio muestral del costo por unidad de cada estrato:

\((\overline{C_i}=\frac{\sum^{n_i}_{j=1} C_{ij}}{n_i})\): promedio del costo de extraer una unidad del estrato i.

Aproximando esta VA por TCL a una Normal:

\(\overline{C_i} \approx N(\mu_{ci};\frac{\sigma_{ci}^2}{n_i}*\frac{N_i-n_i}{N_i-1})\)

Ahora calculo el promedio muestral del costo por unidad observado de la población total del yacimiento, y la estimación del devío de este estimador (el cuál es insesgado):

\(\overline{C}=\sum^{k=3}_{i=1} P_i*\overline{C_i}\)

\(\hat{D[\overline{C}]}=\sqrt{\sum^{k=3}_{i=1}(P_i^2*\frac{S_{ci}^2}{n_i}*\frac{N_i-n_i}{N_i-1})}\)

promedio_total_costos <- (sum(vect_pesos*vect_promedios_costos))
desvio_total_costos <- sqrt(sum(((vect_pesos)^{2})*(((vect_desvios_costos)^{2})/vect_muestras_costos)*((vect_totales - vect_muestras_costos)/(vect_totales - 1))))
c(Promedio_total_costo=promedio_total_costos, Desvío_total_costo=desvio_total_costos)

## Promedio_total_costo   Desvío_total_costo 
##          1.163377538          0.003276706

=> \(\overline{C}_{obs}=1.163377538 [\frac{USD}{unidad}]\)

=> \(\hat{D[\overline{C}]}_{obs}=0.003276706 [\frac{USD}{unidad}]\)

Por lo tanto, se tiene el siguiente estadístico:

\((\frac{\overline{C}-\mu_c}{\hat{D[\overline{C}]}}) \sim t(\upsilon=n-k=9840-3=9837)\)

Siendo \(\overline{C}^{\star}\) el costo promedio/esperado, de extraer una unidad cualquiera, que no será superado con 10% de probabilidad. Entonces debo calcular el límite inferior (LI) de un intervalo de confianza del 80% para la media poblacional del costo, ya que este LI será igual a \(\overline{C}^{\star}\).

\(NC=0,8=1-\alpha <=> \alpha=0,2\)

\(P(t_{(\upsilon=9837;\frac{\alpha}{2})} \leq (\frac{\overline{C}-\mu_c}{\hat{D[\overline{C}]}}) \leq t_{(\upsilon=9837;1-\frac{\alpha}{2})})\)

=> \(P(\overline{C}-t_{(9837;0,9)}*\hat{D[\overline{C}]} \leq \mu_c \leq \overline{C}+t_{(9837;0,9)}*\hat{D[\overline{C}]})\)

Calculo el límite inferior de este intervalo de confianza del siguiente modo:

\(LI=\overline{C}^{\star}=\overline{C}-t_{(9837;0,9)}*\hat{D[\overline{C}]}\)

costo_asterisco <- (promedio_total_costos-qt(0.9, df = 9837)*desvio_total_costos)
costo_asterisco

## [1] 1.159178

=> \(LI=\overline{C}^{\star}=1.159178 [\frac{USD}{unidad}]\)

En el siguiente gráfico del la función de densidad para el estadístico usado (t de Student), se pueden observar tanto el área que representa el intervalo de confianza del 80% (en gris), así como el área que representa la probabilidad del 10% de que el costo promedio de una unidad experimental no será superado por 1.396293 USD/unidad (en rojo).

curve(dt(x, df = 9837), from = -4, to = 4, main = "IC 80% y Porbabilidad acumulada a izquierda 10%", xlab = "Cuantiles t de Student", ylab = "Función de Densidad")
polygon(x = c(-4, seq(from = -4, to = qt(0.1, 9837), 0.01), qt(0.1, 9837)), y = c(0, dt(seq(-4, qt(0.1, 9837), 0.01), df = 9837), 0), col = "red")
polygon(x = c(qt(0.1, 9837), seq(from = qt(0.1, 9837), to = qt(0.9, 9837), 0.01), qt(0.9, 9837)), y = c(0, dt(seq(qt(0.1, 9837), qt(0.9, 9837), 0.01), df = 9837), 0), col = "grey")
grid()

Finalmente \(CT^{\star}\), el costo total esperado para todo el yacimiento, que no será superado con 10% de probabilidad, es:

\(CT^{\star}=N[unidades]*\overline{C}^{\star}[\frac{USD}{unidad}]\)

sum(vect_totales)*costo_asterisco

## [1] 463671.2

=> \(CT^{\star}=463671.2 [USD]\) Costo total esperado para todo el yacimiento que no será superado con 10% de probabilidad.

Este resultado también se puede ver de otra forma útil, como el costo total esperado para todo el yacimiento que sí sera superado con un 90% de probabilidad.

Luego, uso la estimación puntual del promedio de la proporción de cobre en una unidad experimental \(\overline{X_{obs}}=0,2037606\) que dice que se estima un 20,37606% de cobre. Entonces si 𝐶𝑇⋆ es el costo total para 40000 Tn de mineral en el yacimiento, se puede estimar que también será el costo para:

40000*promedio_total

## [1] 8150.425

\(40000 TnMineral*\overline{X_{obs}}=8150.425 TnCobre\)

Siendo esta la estimación puntual para las toneladas de cobre en el yacimiento, finalmente:

(sum(vect_totales)*costo_asterisco)/(40000*promedio_total)

## [1] 56.88921

\(\frac{CT^{\star}}{8150.425 TnCobre}=56.88921 [\frac{USD}{TnCobre}]\), Costo total esperado por Tn de cobre para todo el yacimiento que no será superado con 10% de probabilidad.

Nuevamente, este resultado también se puede ver de otra forma útil, como el costo total esperado por Tn de cobre para todo el yacimiento que sí será superado con un 90% de probabilidad.

Trabajo Práctico N°1

Estadística Aplicada II