UNIVERSIDAD NACIONAL AGRARIA LA MOLINA


Trabajo Final


Curso:

Inferencia Estadistica

Profesor:

Clodomiro Fernando Miranda Villagomez

Fecha:

2024-12-15

Presentado por:

  • Ramos Orue Selene Milagros
  • Untiveros Cruzado, Alonso
  • Salas Molina, Cesar Fabrizio
  • Chavez Ccorahua, Fabricio Joaquin
  • Jiménez Ruiz, Alex Fernando
  • Medina Gurreonero, Mayra Alejandra

Aplicación A

Variables relacionadas con la calidad del aire y las condiciones meteorológicas:

  • PM10: Material particulado fino suspendido en el aire (\(\mu g/m^3\)). Este contaminante afecta directamente la calidad del aire y tiene impactos significativos en la salud respiratoria de las personas expuestas.

  • Ozono (\(O_3\)): Gas contaminante medido en partes por millón (ppm). El ozono está asociado a condiciones soleadas y puede ser perjudicial para la salud humana y la vegetación, especialmente en altas concentraciones.

  • Humedad Relativa: Porcentaje que indica la cantidad de vapor de agua en el aire con respecto al máximo posible. Este parámetro influye en la formación y dispersión de contaminantes atmosféricos, afectando la calidad del aire y la visibilidad.

Método del pivote

Se desea analizar si la concentración de PM10 en un área urbana no supera un máximo de \(150\, \mu g/m^3\). Se tomaron 20 muestras diarias en diferentes puntos, y se asume que siguen una distribución uniforme \(U(0, \theta)\). Nuestro objetivo es obtener un intervalo de confianza del 92% para \(\theta\), el máximo poblacional.

Muestra

muestras_pm10 <- c(125, 95, 105, 80, 115, 140, 100, 90, 75, 130, 
                    110, 85, 120, 135, 145, 150, 98, 88, 123, 138)

Calculo

  1. La estadística suficiente para \(\theta\) es \(Y_n = \max(X_1, X_2, \ldots, X_n)\). En este caso:

\[ Y_n = \max(\text{muestras}) = 150 \]

  1. Usamos el pivote \(\frac{Y_n}{\theta}\), que tiene una distribución acumulativa \(F(q) = q^n\), donde \(n = 20\).

  2. Para el intervalo de confianza del 92%, calculamos:

\[ P(a \leq \frac{Y_n}{\theta} \leq b) = 0.92 \implies F(a) = 0.04, \quad F(b) = 0.96 \]

  1. Resolviendo: \[ a = 0.04^{1/20}, \quad b = 0.96^{1/20} \]

En R:

# Parámetros
n <- length(muestras_pm10)  # Número de muestras
y_n <- max(muestras_pm10)   # Máximo de las muestras
alpha <- 0.08               # 1 - Nivel de confianza (92%)

# Cálculo del intervalo de confianza
a <- y_n / (1 - alpha / 2)^(1/n)
b <- y_n / (alpha / 2)^(1/n)

# Resultado
intervalo_pivote <- c(a, b)
print(intervalo_pivote)
## [1] 150.3065 176.1928

Resultado: El intervalo de confianza del 92% para \(\theta\), el máximo poblacional de la concentración de PM10, es:

  • Inferior (a):
    \[ \frac{y_n}{(1 - \alpha / 2)^{1/n}} = 150.31 \, \mu g / m^3. \]

  • Superior (b):
    \[ \frac{y_n}{(\alpha / 2)^{1/n}} = 176.19 \, \mu g / m^3. \]

Esto significa que áximo poblacional \(\theta\), estara contenido dentro de un intervalo 92 de cada 100 veces.

Método estadístico

En un área rural, se analiza la concentración de ozono (\(O_3\)) en días soleados, suponiendo que sigue una distribución exponencial truncada \(f(x|\theta) = \frac{e^{-x/\theta}}{\theta (1 - e^{-L/\theta})}\), con \(L = 0.15\, ppm\). El objetivo es estimar \(\theta\), el parámetro de escala, usando un intervalo de confianza del 95%.

Muestras:

muestras_o3 <- c(0.08, 0.10, 0.05, 0.07, 0.09, 0.12, 0.06, 0.04, 0.11, 0.13)

Cálculos:

  1. La estadística suficiente es \(Y_n = \max(X_1, X_2, \ldots, X_n)\), donde:

\[ Y_n = \max(\text{muestras}) = 0.13\, ppm. \]

  1. Usamos la función acumulativa \(F_Y(y) = \frac{1 - e^{-y/\theta}}{1 - e^{-L/\theta}}\).

  2. Para un intervalo de confianza del 95%, resolvemos:

\[ F_Y(k_1) = 0.025, \quad F_Y(k_2) = 0.975. \]

  1. Invirtiendo la función acumulativa: \[ k_1 = -\theta \ln(0.025), \quad k_2 = -\theta \ln(0.975). \]

En R:

# Parámetros
L <- 0.15      # Límite superior
alpha <- 0.05  # Nivel de significancia
y_n_o3 <- max(muestras_o3)   # Máximo de las muestras

# Cálculo de los extremos del intervalo de confianza
k1 <- L / log(1 / (1 - alpha / 2))
k2 <- L / log(1 / (alpha / 2))

# Resultado
intervalo_estadistico <- c(k1, k2)
intervalo_estadistico
## [1] 5.92468353 0.04066275

Resultado: El intervalo de confianza del 95% para \(\theta\) es: Inferior (\(k_1\)):

\[ k_1 = \frac{L}{\ln(1 / (1 - \alpha / 2))} = \frac{0.15}{\ln(1 / (1 - 0.025))} = 5.92 \, \text{ppm} \]

Superior (\(k_2\)):

\[ k_2 = \frac{L}{\ln(1 / (\alpha / 2))} = \frac{0.15}{\ln(1 / (0.025))} = 0.04 \, \text{ppm} \]

Por lo tanto, el intervalo de confianza del \(95\%\) para \(\theta\) es:

\[ [5.92, 0.04] \, \text{ppm} \]


Conclusión

Ambos ejemplos muestran cómo calcular intervalos de confianza para parámetros poblacionales usando métodos de la familia Pitman. Estos enfoques permiten estimaciones sólidas y aplicables en contextos meteorológicos.

Referencia:

Rios Garces, L. G. (2021). Correlación entre las variables meteorológicas y concentración de los contaminantes atmosféricos, en el Distrito de Villa María del Triunfo, en Mayo de 2018.

Aplicación B

Datos observados

Se tomaron 10 muestras de temperatura máxima diaria (en \(^\circ C\)) durante el mes de enero en una estación meteorológica:

\[ \text{Muestra de temperaturas máximas diarias (°C):} \ 33, 36, 40, 38, 35, 41, 39, 37, 34, 36 \]

Método del pivote:

Función del pivote y estadística suficiente

La distribución exponencial tiene la siguiente función de densidad:

\[ f(x | \theta) = \frac{1}{\theta} e^{-\frac{x}{\theta}}, \quad x \geq 0. \]

Para la distribución exponencial, el máximo de la muestra \(Y_n\) es una estadística suficiente para \(\theta\).

El pivote utilizado es:

\[ T = \frac{2n}{\theta} Y_n, \] donde \(n\) es el tamaño de la muestra y \(Y_n\) es el máximo observado en la muestra.

Para la distribución exponencial, \(T\) sigue una distribución chi-cuadrado con \(2n\) grados de libertad.

Cálculo del intervalo de confianza

Queremos calcular el intervalo de confianza al 90% para \(\theta\). Esto implica que \(P(T_{0.05} \leq T \leq T_{0.95}) = 0.90\).

Para \(n = 10\), tenemos:

  • \(T_{0.05}\) = 10.85 (cuantil inferior),
  • \(T_{0.95}\) = 29.59 (cuantil superior).

Supongamos que el valor máximo observado es: \(Y_n = 41\):

El intervalo de confianza se calcula de la siguiente manera:

\[ \theta_{\text{inferior}} = \frac{2n Y_n}{T_{0.95}}, \quad \theta_{\text{superior}} = \frac{2n Y_n}{T_{0.05}}. \]

Sustituyendo los valores:

\[ \theta_{\text{inferior}} = \frac{2 \times 10 \times 41}{29.59} \approx 27.67 \, ^\circ C, \]

\[ \theta_{\text{superior}} = \frac{2 \times 10 \times 41}{10.85} \approx 75.53 \, ^\circ C. \]

Por lo tanto, el intervalo de confianza al 90% para \(\theta\) es:

\[ [27.67 \, ^\circ C, 75.53 \, ^\circ C]. \]

Método estadístico:

Función de verosimilitud

La función de verosimilitud para la distribución exponencial es:

\[ L(\theta) = \prod_{i=1}^{n} \frac{1}{\theta} e^{-\frac{x_i}{\theta}} = \frac{1}{\theta^n} e^{-\frac{\sum_{i=1}^{n} x_i}{\theta}}. \]

El estimador de máxima verosimilitud (EMV) de \(\theta\) es:

\[ \hat{\theta} = \frac{\sum_{i=1}^{n} x_i}{n}. \]

Cálculo del estimador de \(\theta\)

Usamos los datos de temperaturas para calcular la media de la muestra:

\[ \hat{\theta} = \frac{33 + 36 + 40 + 38 + 35 + 41 + 39 + 37 + 34 + 36}{10} = 37.9 \, ^\circ C. \]

Cálculo del intervalo de confianza

El intervalo de confianza para \(\theta\) se puede calcular usando la distribución gamma. Para un nivel de confianza del 90%, el intervalo es:

\[ \left[ \frac{2n \hat{\theta}}{\chi^2_{0.95, 2n}}, \frac{2n \hat{\theta}}{\chi^2_{0.05, 2n}} \right], \]

donde \(\chi^2_{0.95, 2n}\) y \(\chi^2_{0.05, 2n}\) son los cuantiles de la distribución chi-cuadrado con \(2n\) grados de libertad.

Utilizando los valores de la distribución chi-cuadrado con \(2n = 20\) grados de libertad:

  • \(\chi^2_{0.95, 20} = 29.59\),
  • \(\chi^2_{0.05, 20} = 10.85\).

Cálculos

\[ \theta_{\text{inferior}} = \frac{2 \times 10 \times 37.9}{29.59} \approx 25.58 \, ^\circ C, \]

\[ \theta_{\text{superior}} = \frac{2 \times 10 \times 37.9}{10.85} \approx 69.85 \, ^\circ C. \]

Por lo tanto, el intervalo de confianza al 90% para \(\theta\) es:

\[ [25.58 \, ^\circ C, 69.85 \, ^\circ C]. \]

Conclusión

  • Método del pivote: El intervalo de confianza al 90% para \(\theta\) es [27.67 °C, 75.53 °C].
  • Método estadístico: El intervalo de confianza al 90% para \(\theta\) es [25.58 °C, 69.85 °C].

Ambos métodos proporcionan estimaciones razonables para el límite superior de las temperaturas máximas diarias en la población, aunque los intervalos calculados con el método del pivote son más amplios que los obtenidos con el método estadístico.

Referencia

Alfaro, E., & Amador, J. A. (1996). El Niño-Oscilación del Sur y algunas series de temperatura máxima y brillo solar en Costa Rica. Tópicos meteorológicos y oceanográficos,3(1),19-26.

Aplicación C

La investigación se llevó a cabo en el distrito de Pedro Gálvez, provincia de San Marcos, región Cajamarca, Perú. Se analizaron datos de temperaturas máximas, mínimas y precipitaciones desde 1964 hasta 2016, registrados en la Estación Climatológica Ordinaria San Marcos, parte de la red del SENAMHI. El objetivo principal fue estudiar las variaciones y tendencias de estos indicadores meteorológicos como reflejo del cambio climático en la zona.

Variables Seleccionadas:

Para esta prueba, consideraremos las temperaturas máximas registradas en dos períodos distintos:

  • Período 1: 1964-1990

  • Período 2: 1991-2016

  • X: Número de días con temperatura máxima superior a 25 °C.

Prueba de Hipótesis:

Queremos determinar si la proporción de días con temperaturas máximas superiores a 25 °C ha cambiado significativamente entre los dos períodos mencionados.

  • Hipótesis Nula (H₀):

    \(p1 = p2\)

    No existe una diferencia en la proporción de días con temperaturas máximas >25 °C entre los dos períodos.

  • Hipótesis Alternativa (H1)

    \(p1 \neq p2\)

    Existe una diferencia en la proporción de días con temperaturas máximas >25 °C entre los dos períodos.

Resultados:

Supongamos que, tras el análisis, se obtuvieron las siguientes proporciones:

  • Período 1: 10% de los días con temperaturas máximas >25 °C.

  • Período 2: 15% de los días con temperaturas máximas >25 °C.

Si se obtiene un valor p < 0.05, esto indicaría una diferencia estadísticamente significativa entre las proporciones de ambos períodos.

Conclusión:

Se rechaza la hipótesis nula y se acepta la hipótesis alternativa, concluyendo que la proporción de días con temperaturas máximas superiores a 25 °C ha aumentado significativamente en el período más reciente, lo que podría ser un indicador del cambio climático en la región estudiada.

Referencia

Chávez Marín, M. O. (2017). Variaciones de la temperatura y precipitación como indicadores del cambio climático en el distrito de Pedro Gálvez, provincia de San Marcos, Cajamarca 2017. Universidad Alas Peruanas.

link: https://repositorio.uap.edu.pe/xmlui/bitstream/handle/20.500.12990/3577/Tesis_Variaciones_Temperatura_Precipitaci%C3%B3n_Indicadores.pdf?sequence=1&utm_source=chatgpt.com

Aplicación D

En este ejemplo, En un estudio de meteorología relacionado con precipitación crítica en una región, se analizan 10 días. Queremos probar si más de 2 días tienen niveles críticos de precipitación.

Hipótesis:

Hipótesis nula (Ho​): A=2 (solo 2 días con precipitación crítica).

Hipótesis nula (Ha​): A>2 (solo 2 días con precipitación crítica).

Se selecciona aleatoriamente una muestra de tamaño 5 días de los 10 días totales, y se define X como el número de días en la muestra con precipitación crítica.

Supongamos que en realidad hay 7 días con precipitación crítica (A=7), lo que representa nuestra hipótesis alternativa.

Parámetros:

  • Tamaño de la población (N): 10 días

  • Número de días con precipitación (K): 7 días

  • Tamaño de la muestra (n): 5 días

  • Número de días con precipitación en la muestra (x): 5 días

X = El número de muestras \(CO_2 > 7ppm\) en una muestra aleatoria de una muestra de tamaño 4.

\[ X \sim Hipergeométrica (N = 10, n = 4, A = Desconocido) \]

Supongamos que en realidad hay 6 lagos que no excedan el nivel de \(CO_2\) para analizar el poder de la prueba.

\[ P(X = 5 \mid A = 7) = \frac{\binom{7}{5}*\binom{3}{0}}{\binom{10}{5}} = 0.0833 \]

En conclusión, la probabilidad de rechazar la hipótesis nula cuando la hipótesis alternativa es verdadera, es \(0.0833\).

Referencia

Tapia Ramos, A. B. (2022). Tendencia de la precipitación y temperatura debido al cambio climático observados en dos estaciones meteorológicas de la región de Arequipa 1965-2020. Tesis para optar el Título Profesional de Ingeniero Ambiental, Escuela Académico Profesional de Ingeniería Ambiental, Facultad de Ingeniería, Universidad Continental, Huancayo.

link:IV_FIN_107_TE_Tapia_Ramos_2022.pdf

Aplicación E

El artículo analiza el comportamiento de elementos meteorológicos en el distrito de Bellavista entre 1995 y 2016. En 2016, la temperatura máxima alcanzó un valor extremo de 34.4 °C. Se desea determinar si el promedio de días con olas de calor ese año ha cambiado respecto a un promedio histórico, \(H_O:\lambda = 5\)(la media histórica mensual de días con olas de calor no cambia en 2016) vs \(H_1:\lambda = 7\) (la media ha aumentado en 2016).

Prueba de Hipótesis:

  • \(H_O:\lambda = 5\)

  • \(H_1:\lambda = 7\)

Distribución Poisson bajo Ho:

La suma de los eventos observados en 12 meses sigue una distribución Poisson con \(\lambda = 5 * 12 = 60\).

\[ C^* = \{X_1,X_2,X_3,....,X_n/\lambda_{(x)} \frac{L(\lambda_0,x)}{L(\lambda_1,x)} \leq k \} \]

Funciones de Verosimilitud:

  1. Bajo Ho:

    \[ L_0 = \frac{e^{-60}60^{\sum{Xi}}}{\prod_{i=1}^{12}x_i!} \]

  2. Bajo H1:

    \[ L_1 = \frac{e^{-84}84^{\sum{Xi}}}{\prod_{i=1}^{12}x_i!} \]

Razón de Verosimilitudes:

\[ \Lambda = \frac{L_0}{L_1} = {(\frac{60}{84})}^{\sum{Xi}}e^{12*(5-7)} \]

\[ \Lambda = {(\frac{5}{7})}^{\sum{Xi}}e^{-24} < k \]

\[ \sum{Xi}\ln(\frac{5}{7} < lnk + 24) \]

Sabemos que \(ln(\frac{5}{7})<0\)

\[\sum X_i > \frac{lnk + 24}{ln(\frac{5}{7})}\]

\[ \sum X_i > k_i \]

donde \(k_i = \frac{lnk + 24}{ln(\frac{5}{7})}\).

\[ Y = \sum_{i=1}^{12} x_i \sim Poisson(12 * 5) \]

\[ \alpha = 0.05 = P_{\lambda = 5}(Y > k_1) = \sum_{y=k_1+1}^{\infty} \frac{e^{-60}60^y}{y!} k_1 + 1 = 74 \]

\[ k_1 = 73 \]

\[ P_{\lambda=5}(Y > 73) = \sum_{y=74}^{\infty} \frac{e^{-60}60^y}{y!} = 0.0442 \]

\[ P_{\lambda=5}(Y \geq 73) = \sum_{y=74}^{\infty} \frac{e^{-60}60^y}{y!} = 0.0567 \]

\[ P_{\lambda=5}(Y = 73) = \sum_{y=74}^{\infty} \frac{e^{-60}60^y}{y!} = 0.0125 \]

Cálculo de \(\gamma\) considerando \(\alpha = E(\varphi(\gamma)) = 0.05\)

\(P(rechazar H_0 / verdadero H_0) = 1 * P(Y>73)+\gamma*P(Y=73)+0*P(Y<73) = 0.05\)

\[ \gamma = 0.464 \]

\[ \varphi*(x1,….,x_n)\left\{\begin{matrix}1, Si \sum_{i=1}^{12}x_i > 60\\0.464, Si \sum_{i=1}^{12}x_i = 60\\0, Si \sum_{i=1}^{12}x_i < 60\\\end{matrix}\right. \]

Esta sería la prueba óptima más poderosa.

Referencia

Flores Ruiz, M. (2021). Elementos Meteorológicos y sus Efectos en la Ocurrencia de las Olas de Calor, en el Distrito de Bellavista, Región de San Martín, 1995-2016. Tesis para obtener el titulo profesional de ingeniero ambiental. Universidad Cesar Vallejo, Lima, Perú.

#ejercicio e

# Definir el parámetro lambda bajo H0
lambda <- 60
# Nivel de significancia
alpha <- 0.05
# Encontrar el valor crítico k1
k1 <- 0
prob <- 1
while (prob > alpha) {
  k1 <- k1 + 1
  prob <- ppois(k1, lambda, lower.tail = FALSE)
}
# k1 es el valor crítico
k1
## [1] 73
#P(Y > k)
lambda <- 60  # Lambda del modelo Poisson
k1 <- 73     # Valor de K1
# Cálculo de P(Y > k1)
probabilidad <- 1 - ppois(k1, lambda)
# Imprimir resultado
cat(sprintf("P(Y > %d) = %.4f\n", k1, probabilidad))
## P(Y > 73) = 0.0442
#P(Y >= k)
lambda <- 60  # Lambda del modelo Poisson
k1 <- 72      # Valor de K1 para P(Y >= 73)
# Cálculo de P(Y >= k1 + 1)
probabilidad <- 1 - ppois(k1, lambda)
# Imprimir resultado
cat(sprintf("P(Y >= %d) = %.4f\n", k1 + 1, probabilidad))
## P(Y >= 73) = 0.0567
#P(Y = k)
lambda <- 60  # Lambda del modelo Poisson
k1 <- 73       # Valor específico
# Cálculo de P(Y = k)
probabilidad <- dpois(k1, lambda)
# Imprimir resultado
cat(sprintf("P(Y = %d) = %.4f\n", k1, probabilidad))
## P(Y = 73) = 0.0125

Aplicación F

La temperatura promedio mensual en Bellavista es un indicador crítico del impacto del cambio climático. Se desea analizar si la temperatura media mensual ha superado el límite de 30°C (considerado como umbral crítico), utilizando mediciones históricas recientes de 10 meses consecutivos. Estas temperaturas reflejan variaciones mensuales registradas en un año típico en Bellavista.

Datos utilizados

X=[28,29,30,31,30,29,32,33,28,30]: Temperaturas promedio mensuales registradas (en °C).

Hipótesis

H0:μ≤30 (la temperatura media mensual es menor o igual a 30°C)

H1:μ>30 (la temperatura media mensual es mayor a 30°C)

  1. Calculamos la media muestral \(\bar{X}\)

\[ \bar{X}= \frac{\sum_{i=1}^{n} X_i}{n} \]

\[ \bar{X}=\frac{28+29+30+31+30+29+32+33+28+30}{10} = 30 \]

  1. Calculamos la desviación estándar muestral (\(s\)):

    \[ s^2 = 24/9 = 2.67 \]

    \[ s = \sqrt{2.67} \thickapprox 1.63 \]

  2. Calcular el estadístico \(t\):

    \[ t = \frac{\bar{X}-\mu_0}{\frac{s}{\sqrt{n}}} \]

\[ t = \frac{30-30}{\frac{1.63}{\sqrt{10}}} = 0 \]

  1. Determinar el valor crítico \(t\):

    El valor crítico de t para una prueba unilateral con \(\alpha = 0.05\) y \(df = n - 1 = 9\) grados de libertad se obtiene utilizando la función de distribución t. De acuerdo con la tabla de valores de t o utilizando R, el valor crítico es:

    \[ t_{crítico} = qt(1-\alpha,df) = qt(0.95,9) \thickapprox 1.833 \]

  2. Comparar el estadístico t con el valor crítico:

    Dado que el estadístico \(t = 0\) y el valor crítico \(t_{crítico}=1.833\), tenemos:

    \[ t_{calculado} = 0 \\ y \\t_{crítico} = 1.833 \]

No podemos rechazar la hipótesis nula \(H_0\) porque \(t_{calculado}\) no excede a \(t_{crítico}\).

Conclusión

No hay suficiente evidencia para afirmar que la temperatura promedio de los últimos 10 meses excede los 30°C. Por lo tanto, no se rechaza la hipótesis nula.

Referemcia

Flores Ruiz, M. (2021). Elementos Meteorológicos y sus Efectos en la Ocurrencia de las Olas de Calor, en el Distrito de Bellavista, Región de San Martín, 1995-2016. Tesis para obtener el titulo profesional de ingeniero ambiental. Universidad Cesar Vallejo, Lima, Perú.

#ejercicio f

# Datos proporcionados
temperaturas <- c(28, 29, 30, 31, 30, 29, 32, 33, 28, 30)

# Parámetros del problema
mu0 <- 30 # Umbral crítico
n <- length(temperaturas) # Tamaño de la muestra
x_bar <- mean(temperaturas) # Media muestral
s <- sd(temperaturas) # Desviación estándar muestral
alfa <- 0.05 # Nivel de significancia

# Cálculo del estadístico de prueba
t_calculado <- (x_bar - mu0) / (s / sqrt(n))

# Determinar el valor crítico para una prueba unilateral
t_critico <- qt(1 - alfa, df = n - 1)

# Comparar el estadístico con el valor crítico
if (t_calculado > t_critico) {
  resultado <- "Se rechaza la hipótesis nula: la temperatura promedio excede los 30 °C."
} else {
  resultado <- "No se rechaza la hipótesis nula: no hay evidencia suficiente para afirmar que la temperatura promedio excede los 30 °C."
}

# Resultados
cat("Media muestral:", x_bar, "\n")
## Media muestral: 30
cat("Desviación estándar muestral:", s, "\n")
## Desviación estándar muestral: 1.632993
cat("Estadístico de prueba t:", t_calculado, "\n")
## Estadístico de prueba t: 0
cat("Valor crítico t:", t_critico, "\n")
## Valor crítico t: 1.833113
cat("Resultado:", resultado, "\n")
## Resultado: No se rechaza la hipótesis nula: no hay evidencia suficiente para afirmar que la temperatura promedio excede los 30 °C.

Aplicación G

La calidad del aire en Lima Metropolitana es un factor crítico para la salud pública y el bienestar ambiental. Un parámetro clave en la evaluación de la contaminación atmosférica es el material particulado fino (PM2.5), cuya concentración no debería superar los 25µg/m³ como promedio en 24 horas, según los estándares de la Organización Mundial de la Salud (OMS).

En promedio, una calidad de aire saludable se define por concentraciones de PM2.5 que no excedan:

10 µg/m³ como promedio anual, según las directrices de la OMS de 2005.

5 µg/m³, según las actualizaciones de la OMS en 2021.

Problema:

Se desea verificar si las concentraciones de PM2.5 en el distrito de San Juan de Lurigancho, uno de los más grandes y poblados de Lima Metropolitana, se mantienen dentro de los límites seguros de 25 µg/m³ en 24 horas. Para ello, se recolectaron 10 muestras diarias de concentración de PM2.5 en la atmósfera (en µg/m³) durante un periodo específico. Las muestras, obtenidas de una distribución uniforme, son las siguientes:
21.3, 19.8, 23.0, 22.5, 24.1, 18.9, 20.7, 23.3, 21.8, 25.1

Hipótesis:

  • \(H_0: \theta \leq 25\). La concentración media de PM 2.5 no supera a los 25 µg/m³.

  • \(H_1: \theta > 25\). La concentración media de PM 2.5 supera los 25 µg/m³.

Distribución o Densidad Uniforme:

\[ f(x,\theta) = \frac{1}{\theta}, para \ 0 \leq x \leq \theta \]

Función de Verosimilitud:

Para una muestra de tamaño n=10, la función de verosimilitud se define como:

\[ L(\theta) = \frac{1}{\theta^{10}}I(0,\theta)(max(X_1,X_2,...,X_{10})) \]

Estadístico de Prueba:

El estadístico de prueba será el máximo valor observado en la muestra:

\[ y = max(X_1,X_2,...,X_{10}) \]

el máximo valor observado es:

\[ Y_{obs} = 25.1 \]

Valor crítico:

\[ P(Y \leq C \mid \theta = \theta_0 ) = 1 - \alpha \]

dado que \(Y \sim Uniforme(0,\theta)\) tenemos:

\[ P(Y \leq C \mid \theta = \theta_0 ) = (\frac{c}{\theta_0})^n \]

\[ P(Y \leq C \mid \theta = 25 ) = (\frac{c}{25})^n \]

donde:

  • \(\theta_0 = 25\) (valor bajo \(H_0\) )

  • n = 10 (tamaño de la muestra)

\[ P(Y \leq c) = (\frac{c}{25})^{10} \]

para un nivel de significancia \(\alpha = 0.05\), resolvemos:

\[ P(Y \leq c) = 1 - \alpha = 1 - 0.05 = 0.95 \]

\[ (\frac{c}{25})^{10} = 0.095 \]

tomando la raíz décima:

\[ \frac{c}{25} = 0.95^{1/10} \rightarrow c = 25*0.95^{1/10} \thickapprox 24.87 \]

Decisión:

Comparamos el estadístico de prueba con el valor crítico:

\[ Y_{obs} = 25.1 > c = 24.87 \]

Por tanto, rechazamos la hipótesis nula H0 al nivel de significancia 0.05.

Conclusión:

Existe suficiente evidencia estadística para concluir que la concentración de PM2.5 en el distrito de San Juan de Lurigancho supera el límite seguro de 25 µg/m³ establecido por la Organización Mundial de la Salud (OMS). Esto sugiere que la calidad del aire en este distrito no es adecuada y podría representar riesgos para la salud pública.

Referencia:

Southerland, Veronica A et al. Global urban temporal trends in fine particulate matter (PM2·5) and attributable health burdens: estimates from global datasets. The Lancet Planetary Health, Volume 6, Issue 2, e139 - e146. doi: 10.1016/S2542-5196(21)00350-8

Aplicación H

En la región de Arequipa, la precipitación mensual acumulada es un factor clave para la agricultura. En la estación La Pampilla, se ha registrado históricamente que aproximadamente el 20% de los meses al año tienen una precipitación acumulada superior a 50 mm. Esto significa que, en promedio, 2 o 3 meses de cada año tienen más de 50 mm de precipitación acumulada.

Problema:

Se tomaron 100 meses de observación en la estación La Pampilla, y se encontró que 30 de estos meses tuvieron precipitaciones superiores a 50 mm. Se desea probar si la proporción de meses con precipitación superior a 50 mm ha cambiado en la estación La Pampilla en comparación con la proporción histórica de 20%

Hipótesis:

  • \(H_0: p = 0.20\).: La proporción de meses con precipitación acumulada superior a 50 mm en los 100 meses de observación es igual a la proporción histórica de 20%. Es decir, p = 0.20.

  • \(H_1; p \neq 0.20\).: La proporción de meses con precipitación acumulada superior a 50 mm en los 100 meses de observación es diferente a la proporción histórica de 20%. Es decir, p != 0.20.

Función de Verosimilitud:

Si consideramos que sigue una distribución Binomial con parámetro p:

\(X_i \sim Binomial(1,p)\)

donde \(i = 1, 2, ...., 100\) y \(f(x_i)=p^{xi}(1-p)^{1-xi}\)

para \(n = 100\) y \(\sum_{i=1}^{100} x_i = 30\).

\[ L(\theta) = \prod_{i=1}^{100} f(x_i) = \prod_{i=1}^{100} p^{x_i}(1-p)^{1-x_i} = p^{\sum_{i=1}^{100}}(1-p)^{100-\sum_{i=1}^{100}x_i} \]

Estimador de máxima verosimilitud (EMV) de p:

\[ \hat{p} = \frac{30}{100} \thickapprox 0.30 \]

Calcular la razón de verosimilitud:

\[ \Lambda = \frac{maxL(\theta_0)}{maxL(\theta)} \]

donde \(\theta_0\) es el valor bajo \(H_0(p=0.2)\) y \(\theta\) es el valor estimado (EMV).

\[ maxL(\theta_0) = 0.2^{30} x (1-0.2)^{70} \]

\[ maxL(\theta_0) = 0.2^{30}x (0.8)^{70} \]

Ahora calculamos los logaritmos:

\[ ln(maxL(\theta_0)) = 30ln(0.20) + 70ln(0.80) \]

\[ maxL(\theta) = 30ln(\frac{3}{10}) x 70ln(\frac{7}{10}) \]

\[ \Lambda = \frac{30ln(0.20)+70ln(0.80)}{30ln(\frac{3}{10})x70ln(\frac{7}{10})} \]

Calcular la estadística de prueba:

\[ -2ln(\Lambda) = -2ln(\frac{30ln(0.20)+70ln(0.80)}{30ln(\frac{3}{10})x70ln(\frac{7}{10})}) \]

Se compara este valor con el valor crítico de la distribución con 1 grado de libertad a \(\alpha = 0.05\) que es aproximadamente \(3.841\).

\[ -2ln(\Lambda) \thickapprox 5.6335 \]

Comparando este valor con el valor crítico:

\[ 5.6335 > 3.841 \]

El p-valor (\(0.0176\)) es menor que el nivel de significancia \(\alpha = 0.05\), por tanto Se Rechaza la \(H_0\).

Conclusión

Con un valor de \(-2ln(\Lambda) \thickapprox 5.6335\), el cual es mayor que el valor crítico 3.841, se rechaza la hipótesis nula. Por tanto, existe suficiente evidencia estadística para afirmar que la proporción de meses con precipitación acumulada superior a 50 mm es diferente de la proporción histórica de 20%.

# Parámetros del problema
n <- 100                   # Tamaño de la muestra
x <- 30                   # Número de éxitos (jóvenes que consumen drogas)
p0 <- 0.20                # Proporción bajo la hipótesis nula
alpha <- 0.05              # Nivel de significancia

# Estimador de Máxima Verosimilitud (EMV)
p_hat <- x / n

# Log-verosimilitud bajo H0 (p = 0.72)
log_L0 <- x * log(p0) + (n - x) * log(1 - p0)
# Parámetros del problema
n <- 100                   # Tamaño de la muestra
x <- 30                   # Número de éxitos (jóvenes que consumen drogas)
p0 <- 0.20                # Proporción bajo la hipótesis nula
alpha <- 0.05              # Nivel de significancia

# Estimador de Máxima Verosimilitud (EMV)
p_hat <- x / n

# Log-verosimilitud bajo H0 (p = 0.72)
log_L0 <- x * log(p0) + (n - x) * log(1 - p0)

# Log-verosimilitud bajo el EMV (p_hat)
log_L_hat <- x * log(p_hat) + (n - x) * log(1 - p_hat)

# Estadística de prueba: -2 * ln(Λ)
statistic <- -2 * (log_L0 - log_L_hat)

# Valor crítico de Chi-cuadrado con 1 grado de libertad
critical_value <- qchisq(1 - alpha, df = 1)

# p-valor asociado a la estadística
p_value <- 1 - pchisq(statistic, df = 1)

# Resultados
cat("Resultados de la prueba de verosimilitud:\n")
## Resultados de la prueba de verosimilitud:
cat(" - Estimador de Máxima Verosimilitud (p̂):", round(p_hat, 4), "\n")
##  - Estimador de Máxima Verosimilitud (p̂): 0.3
cat(" - Log-Verosimilitud bajo H0:", round(log_L0, 4), "\n")
##  - Log-Verosimilitud bajo H0: -63.9032
cat(" - Log-Verosimilitud bajo EMV:", round(log_L_hat, 4), "\n")
##  - Log-Verosimilitud bajo EMV: -61.0864
cat(" - Estadística de prueba (-2lnΛ):", round(statistic, 4), "\n")
##  - Estadística de prueba (-2lnΛ): 5.6335
cat(" - Valor crítico (Chi^2):", round(critical_value, 4), "\n")
##  - Valor crítico (Chi^2): 3.8415
cat(" - p-valor:", round(p_value, 4), "\n")
##  - p-valor: 0.0176
# Decisión
if (statistic > critical_value) {
  cat(" - Resultado: Se rechaza la hipótesis nula\n")
} else {
  cat(" - Resultado: No se rechaza la hipótesis nula\n")
}
##  - Resultado: Se rechaza la hipótesis nula

Referencia

Tapia, A. (2022). Tendencia de la precipitación y temperatura debido al cambio climático observados en dos estaciones meteorológicas de la región de Arequipa 1965-2020. Tesis para optar el título profesional de Ingeniero Ambiental, Escuela Académica Profesional de Ingeniería Ambiental, Universidad Continental, Huancayo, Perú. https://hdl.handle.net/20.500.12394/12304

Bibliografía

  • Rios Garces, L. G. (2021). Correlación entre las variables meteorológicas y concentración de los contaminantes atmosféricos, en el Distrito de Villa María del Triunfo, en Mayo de 2018.

  • Alfaro, E., & Amador, J. A. (1996). El Niño-Oscilación del Sur y algunas series de temperatura máxima y brillo solar en Costa Rica. Tópicos meteorológicos y oceanográficos,3(1),19-26.

  • Chávez Marín, M. O. (2017). Variaciones de la temperatura y precipitación como indicadores del cambio climático en el distrito de Pedro Gálvez, provincia de San Marcos, Cajamarca 2017. Universidad Alas Peruanas.

  • Tapia Ramos, A. B. (2022). Tendencia de la precipitación y temperatura debido al cambio climático observados en dos estaciones meteorológicas de la región de Arequipa 1965-2020.Tesis para optar el Título Profesional de Ingeniero Ambiental, Escuela Académico Profesional de Ingeniería Ambiental, Facultad de Ingeniería, Universidad Continental, Huancayo.

  • Flores Ruiz, M. (2021). Elementos Meteorológicos y sus Efectos en la Ocurrencia de las Olas de Calor, en el Distrito de Bellavista, Región de San Martín, 1995-2016. Tesis para obtener el titulo profesional de ingeniero ambiental. Universidad Cesar Vallejo, Lima, Perú.

  • Southerland, Veronica A et al. Global urban temporal trends in fine particulate matter (PM2·5) and attributable health burdens: estimates from global datasets. The Lancet Planetary Health, Volume 6, Issue 2, e139 - e146. doi: 10.1016/S2542-5196(21)00350-8

  • Tapia, A. (2022). Tendencia de la precipitación y temperatura debido al cambio climático observados en dos estaciones meteorológicas de la región de Arequipa 1965-2020. Tesis para optar el título profesional de Ingeniero Ambiental, Escuela Académica Profesional de Ingeniería Ambiental, Universidad Continental, Huancayo, Perú. https://hdl.handle.net/20.500.12394/12304