UNIVERSIDAD NACIONAL AGRARIA LA MOLINA

Inferencia Estadística

Profesor: Clodomiro Fernando Miranda Villagomez

Integrantes:

• Céspedes Jamryk Rodrigo 20220759

• Condor Montes Paola 20220762

• Huamani Ccorpuna Karen 20220765

• Sanchez Pacuri Gerson 20220779

• Sandoval Hurtado Nagiely 20220780

• Postigo Tafur Sebastián 20220774

1 INTRODUCCIÓN

El análisis de series de tiempo en finanzas es clave para entender cómo se comportan los mercados, evaluar riesgos y crear modelos predictivos. En particular, al analizar los retornos diarios de diferentes sectores económicos, se puede estudiar la volatilidad, las dependencias temporales y la aparición de eventos extremos. Estos fenómenos tienen un impacto directo en la estabilidad y eficiencia de los mercados financieros.

En este trabajo se utiliza una base de datos real obtenida del artículo Uncertainty-based network structure in China’s financial markets , publicado en PLOS One (2024). Contiene los retornos diarios de cuatro sectores financieros del mercado chino, registrados entre el 2017 y 2023. Este extenso periodo de observación permite capturar distintas fases del ciclo económico, así como episodios de alta y baja volatilidad, lo que enriquece el análisis estadístico.

A partir de esta información, se aplican diversas técnicas de inferencia estadística, con el objetivo de analizar el comportamiento de los retornos y comparar el desempeño de distintos estimadores bajo condiciones reales de mercado. De esta manera, el estudio contribuye a una comprensión más profunda y aplicada de las herramientas estadísticas abordadas en el curso.

2 OBJETIVOS

Objetivo General:

  • Aplicar técnicas de inferencia estadística a los rendimientos financieros de los sectores financieros chinos, con el fin de estimar parámetros poblacionales, evaluar el ajuste a distribuciones teóricas y contrastar hipótesis estadísticas utilizando una única base de datos.

Objetivos Específicos:

  • Estimar parámetros poblacionales de los rendimientos financieros mediante al menos cinco estimadores diferentes y evaluar sus propiedades estadísticas, tales como insesgadez, consistencia, eficiencia y robustez.

  • Construir intervalos de confianza asociados a los estimadores considerados y comparar su precisión y comportamiento inferencial.

  • Realizar una prueba de hipótesis para proporciones utilizando datos pareados, a partir de la definición de eventos financieros relevantes.

  • Verificar y comparar las decisiones de pruebas de hipótesis obtenidas al emplear distintos estimadores del parámetro de interés.

  • Analizar la función potencia de una prueba estadística bajo una población que no sigue una distribución normal ni binomial, mediante simulación.

  • Aplicar una prueba de razón de verosimilitud basada en resultados asintóticos y evaluar su desempeño en el contexto de los datos financieros analizados.

3 Base de Datos

3.1 Cargando la base de datos

library(readr)
datos <- read.csv("datos.infe.csv")

3.2 Diccionario de la Base de Datos

La base de datos utilizada en este estudio fue descargada directamente del material suplementario proporcionado en el artículo de PLOS One mencionado anteriormente. El archivo contiene 621 observaciones, correspondientes a retornos diarios desde el 20 de junio de 2017 hasta el 15 de diciembre de 2023.

El dataset está compuesto por las siguientes columnas:

  1. t
  • Representa la fecha de cada observación (año/mes/día).

  • Corresponde al día de negociación del mercado financiero chino.

  1. ryh
  • Retorno diario del sector YH (Industria y Energía).

  • Es la serie principal que analizamos en la primera parte del trabajo.

  • Sus valores son continuos, generalmente cercanos a cero y pueden ser positivos o negativos, reflejando ganancias o pérdidas diarias.

  1. rzq
  • Retorno diario del sector ZQ (Finanzas y Seguros).
  1. rbx
  • Retorno diario del sector BX (Bienes Inmuebles / Construcción).
  1. rdy
  • Retorno diario del sector DY (Industria Digital / Tecnología)

4 Estimadores y verificación de propiedades

Utilizando la base de datos real datos.xlsx del artículo PLOS One.

Se toma la columna ‘ryh’ como la variable de interés:

x <- datos$ryh
n <- length(x)

summary(x)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## -0.0383 -0.0060 -0.0004  0.0002  0.0060  0.0647

4.1 Estimador 1: Media muestral (Método de momentos y EMV)

En el contexto del estudio “Uncertainty-based network structure in China’s financial markets”, la media muestral se utiliza para estimar el retorno diario promedio de un sector financiero chino a partir de sus retornos observados. Este estimador resume el comportamiento central de la serie temporal y sirve como punto de referencia para analizar la dinámica del mercado y comparar sectores dentro de la red financiera.

Definición: \[ \hat{\mu}_1 = \bar{x} = \frac{1}{n}\sum_{i=1}^n x_i \]

Código R:

est_media <- mean(x)
est_media
## [1] 0.000247

Interpretación:

  • \(\hat{\mu}\) = 0.000247 representa el retorno diario promedio estimado del sector YH (industria y energia) analizado durante el período de estudio. Este valor es positivo, pero muy cercano a cero, lo cual es consistente con el comportamiento típico de los retornos financieros diarios, caracterizados por fluctuaciones alrededor de un nivel central sin una tendencia diaria marcada.

En términos prácticos, el resultado indica que, en promedio, el sector no presenta ganancias ni pérdidas diarias significativas, reforzando la necesidad de complementar el análisis con medidas de dispersión y riesgo en etapas posteriores.

4.2 Estimador 2: Mediana muestral

La mediana muestral se utiliza como un estimador alternativo del retorno diario típico del sector YH (Industria y Energía). A diferencia de la media, la mediana es un estimador robusto, menos sensible a valores extremos o episodios de alta volatilidad, comunes en series de tiempo financieras.

Definición: \[ \hat{\mu}_2 = \text{mediana}(x_1,\ldots,x_n) \]

Código R:

est_mediana <- median(x)
est_mediana
## [1] -0.000412

Interpretación:

  • \(\hat{\mu}_2\) = -0.000412, lo que indica que el retorno diario central del sector YH es ligeramente negativo. Este resultado sugiere que más del 50 % de los retornos diarios observados se sitúan por debajo de este valor, reflejando una posible asimetría o la presencia de valores extremos que afectan al promedio.

En comparación con la media muestral, la diferencia entre ambos estimadores pone de manifiesto la utilidad de emplear medidas robustas en el análisis de retornos financieros, especialmente en contextos de alta volatilidad.

4.3 Estimador 3: Media recortada al 10%

La media recortada al 10% se emplea como un estimador del retorno diario promedio del sector YH (Industria y Energía) que reduce la influencia de valores extremos. Este estimador elimina el 10% de las observaciones más bajas y el 10% de las más altas, siendo especialmente útil en series financieras donde pueden presentarse episodios de alta volatilidad.

Definición: Eliminamos al 10% inferior y superior:

\[ \hat{\mu}_3 = \frac{1}{n-2k}\sum_{i=k+1}^{n-k} x_{(i)}, \quad k=\lfloor 0.10n \rfloor \]

Código R:

est_media_trim <- mean(x, trim = 0.10)
est_media_trim
## [1] 0.000111

Interpretación:

  • \(\hat{\mu}_3\) = 0.000111, representa el retorno diario promedio estimado del sector YH (Industria y Energía) una vez reducida la influencia de observaciones extremas. El hecho de que este valor sea menor que la media muestral indica que los valores extremos positivos contribuyen a elevar el promedio simple.

Este resultado refuerza la conveniencia de utilizar estimadores robustos en el análisis de retornos financieros, ya que permiten obtener una medida más estable del comportamiento central de la serie en presencia de volatilidad elevada.

4.4 Estimador 4: Varianza muestral insesgada

La varianza muestral insesgada se utiliza como un estimador de la volatilidad de los retornos diarios del sector YH (Industria y Energía). Este estimador cuantifica la dispersión de los retornos alrededor de su valor central y es fundamental para la evaluación del riesgo financiero.

Definición:

\[ \hat{\sigma}^2_1 = S^2 = \frac{1}{n-1}\sum_{i=1}^n (x_i - \bar{x})^2 \]

Código R:

est_var_ins <- var(x)   # var(x) usa denominador n-1 (insesgado)
est_var_ins
## [1] 0.000134

Interpretación:

  • \(\hat{\sigma}^2\) = 0.000134, lo que indica la magnitud de la variabilidad de los retornos diarios del sector YH (Industria y Energía) alrededor de su promedio. Un valor relativamente elevado de la varianza es consistente con la naturaleza volátil de los mercados financieros, donde los retornos presentan fluctuaciones frecuentes y de distinta magnitud.

Desde el punto de vista del análisis financiero, este estimador proporciona una medida directa del riesgo total asociado al sector, sirviendo como base para comparaciones entre sectores y para el uso de modelos de volatilidad en etapas posteriores del estudio.

4.5 Estimador 5: Varianza tipo EMV

La varianza tipo estimador de máxima verosimilitud (EMV) se utiliza para estimar la volatilidad de los retornos diarios del sector YH (Industria y Energía) bajo el supuesto de normalidad. A diferencia de la varianza muestral insesgada, este estimador emplea el denominador 𝑛,lo que puede introducir un sesgo, pero a cambio presenta buenas propiedades de eficiencia en muestras grandes.

Definición:

\[ \hat{\sigma}^2_2 = \frac{1}{n}\sum_{i=1}^n(x_i - \bar{x})^2 \]

Código R:

est_var_mle <- mean( (x - mean(x))^2 )  # usa denominador n
est_var_mle
## [1] 0.000134

Interpretación:

  • \(\hat{\sigma}^2_2\), lo que representa una estimación de la volatilidad de los retornos diarios del sector YH. En este caso, el valor es muy similar al de la varianza muestral insesgada, lo cual es esperable dado el tamaño muestral elevado.La comparación entre ambos estimadores muestra que, para muestras grandes, la diferencia práctica entre el estimador insesgado y el EMV es mínima, reforzando la estabilidad de la estimación de la volatilidad del sector analizado.

En conjunto, los cinco estimadores permiten caracterizar tanto el comportamiento central como la dispersión de los retornos del sector YH, incorporando medidas clásicas y robustas que resultan adecuadas para el análisis de series financieras reales.

4.6 Verificación de propiedades mediante simulación

Generamos muchas muestras artificiales de la distribución \[ X_i \sim N(\hat{\mu}_1, \hat{\sigma}_1^2), \qquad i = 1,\ldots,n. \] y medimos sesgo y varianza de cada estimador.

Código de simulación: (considerando 1000 réplicas)

##                      Sesgo    Varianza
## Media           0.00000741 0.000000216
## Mediana         0.00000622 0.000000356
## Media Recortada 0.00000656 0.000000234

Interpretación de los estimadores de la media

Los resultados obtenidos mediante simulación permiten comparar el desempeño de los tres estimadores de la media bajo el supuesto de normalidad. Las métricas principales fueron el sesgo empírico y la varianza de cada estimador.

1. Media muestral

  • Sesgo ≈ 0.0000074, prácticamente nulo.

  • Varianza ≈ 0.00000216, la más baja entre los tres estimadores.

Se confirma que la media muestral es el estimador más eficiente, tal como se indica en la teoría para distribuciones normales.

Al tener menor varianza, la media presenta menor dispersión en sus valores estimados a través de las simulaciones.

2. Mediana muestral

  • Sesgo ≈ 0.0000062, también muy pequeño.

  • Varianza ≈ 0.00000356, mayor que la de la media.

Aunque la mediana es robusta frente a valores atípicos, su eficiencia es menor, ya que requiere un tamaño muestral mayor para lograr la misma precisión que la media.

Sin embargo, el bajo sesgo confirma que sigue siendo un estimador consistente de la media poblacional bajo simetría aproximada.

3. Media recortada al 10%

  • Sesgo ≈ 0.0000066, prácticamente igual al de la media y la mediana.

  • Varianza ≈ 0.00000234, ligeramente mayor que la media muestral pero menor que la mediana.

Este resultado muestra que la media recortada tiene buena precisión y al mismo tiempo reduce la sensibilidad a valores extremos.

Conclusión general sobre la media: La media muestral es el estimador más eficiente; la mediana es más estable ante valores atípicos pero menos precisa; y la media recortada ofrece un “equilibrio”, manteniendo un sesgo casi nulo y una variabilidad moderada.

Interpretación de los estimadores de la varianza

set.seed(123)

tab_var <- rbind(
  c(sesgo_v1, var_v1),
  c(sesgo_v2, var_v2)
)
rownames(tab_var) <- c("Varianza Insesgada", "Varianza EMV")
colnames(tab_var) <- c("Sesgo", "Varianza")
tab_var
##                            Sesgo        Varianza
## Varianza Insesgada  0.0000000836 0.0000000000576
## Varianza EMV       -0.0000001323 0.0000000000574

Se evaluaron dos estimadores: la varianza muestral insesgada (clásica) y el estimador de máxima verosimilitud (EMV).

1. Varianza insesgada \(𝑆^2\)

  • Sesgo ≈ 0.000000836, prácticamente cero.

  • Varianza ≈ 0.0000000576.

Confirma su propiedad teórica: es un estimador insesgado de la varianza poblacional.

Su varianza es muy baja, por lo que presenta buena precisión.

2. Varianza EMV

  • Sesgo ≈ –0.000001323, un sesgo negativo muy pequeño, lo cual significa que subestima ligeramente a \(𝜎^2\).

  • Varianza ≈ 0.0000000574, prácticamente igual al estimador insesgado pero un poco menor.

Es consistente, pero presenta el sesgo esperado al utilizar denominador 𝑛 en lugar de 𝑛−1.

Conclusión general sobre la varianza: El estimador insesgado cumple su rol teórico y presenta excelente estabilidad; el estimador EMV, aunque ligeramente sesgado, ofrece una varianza marginalmente más pequeña. Esta compensación entre sesgo y varianza es típica en estimaciones de varianza bajo el modelo normal.

5 Intervalos de confianza

5.1 Intervalo de Confianza Basado en el Estimador \(\hat{\mu}_1\)

Utilizando el estimador de media muestral \(\hat{\mu}_1 = \bar{x} = 0.000247\) calculado en la sección 4.1, se construyó un intervalo de confianza al 95% para el parámetro poblacional μ mediante:

\[ IC_{95\%}(\mu) = \bar{x} \pm t_{0.025, n-1} \cdot \frac{s}{\sqrt{n}} \]

Este intervalo cuantifica la precisión de nuestra estimación puntual \(\hat{\mu}_1\), proporcionando un rango de valores aceptables para el verdadero μ.

## [1] -0.000664  0.001157

Gráfico

Conclusión - Bajo el supuesto de normalidad de los retornos diarios y utilizando la media muestral como estimador de la media poblacional, el intervalo de confianza indica que con un nivel de confianza del 95%, el valor verdadero de la media poblacional del retorno diario del sector YH se encuentra entre –0.0664% y 0.1157%.

Este intervalo incluye el valor cero, lo que sugiere que, en promedio, no existe evidencia estadísticamente significativa de rendimientos diarios positivos o negativos persistentes para el sector durante el período analizado. En términos económicos, esto indica que el sector presenta un comportamiento medio prácticamente neutro, con ganancias y pérdidas diarias que tienden a compensarse en el largo plazo.

5.2 Intervalo de Confianza para la Mediana

La mediana no tiene una distribución normal exacta, por lo que el intervalo clásico tipo t no aplica. La solución es usar el método de bootstrap no paramétrico, el cual es muy estándar en finanzas y econometría.

Intervalo de confianza bootstrap percentil (95%) sea \(\hat{\mu}^{*}_{2}(b)\) la mediana obtenida en la réplica bootstrap b. El intervalo de confianza al nivel 1-α se define como:

\[ IC_{1-\alpha} = \left[ q_{\alpha/2}\!\left(\hat{\mu}_2^{*}\right), \; q_{1-\alpha/2}\!\left(\hat{\mu}_2^{*}\right) \right] \]

donde \(q_p(\cdot)\) denota el percentil p.

set.seed(123)

B <- 1000
med_boot <- numeric(B)

for (b in 1:B) {
  xb <- sample(x, size = length(x), replace = TRUE)
  med_boot[b] <- median(xb)
}

# Intervalo de confianza al 95%
IC_mediana <- quantile(med_boot, probs = c(0.025, 0.975))
IC_mediana
##      2.5%     97.5% 
## -0.001218  0.000199

  • Dado que la distribución muestral de la mediana no posee una forma cerrada sencilla, se contruyó un intervalo de confianza del 95% mediante el método bootstrap no paramétrico, utilizando 2000 remuestreos con reemplazo. El intervalo de confianza obtenido es : \[ IC_{0.95}(\mu) = [-0.001218 ,\; 0.000199] \] Este resultado indica, que con un 95% de confianza, la mediana poblacional del retorno diario del sector YH se encuentra dentro del dicho intervalo.

Interpretación: El intervalo de confianza incluye el valor cero, lo que indica que el retorno mediano diario del sector YH no es significativamente diferente de cero. Esto refuerza la idea de que el mercado se caracteriza por una alta volatilidad y por la falta de una tendencia central clara, especialmente en momentos de shock sistémicos.

5.3 Intervalo de Confianza para la Media recortada al 10%.

Como se mencionó previamente, la media recortada al 10 elimina el 10% de los valores más extremos (inferiores y superiores), reduciendo la influencia de observaciones atípicas, algo realente relevante en series financieras de colas pesadas y episodios de alta volatilidad, como las analizadas en este estudio. Dado que la distribucción exacta de la media recortada es compleja, el intervalo de confianza se obtiene mediante bootstrap, una estrategia estandar y robusta en contextos financieros. El intervalo de confianza a nivel 1-α se define como:

\[ IC_{1-\alpha} = \left[ q_{\alpha/2}, \; q_{1-\alpha/2} \right] \]

donde \(q_p(\cdot)\) representa el percentil p de la distribución bootstrap del estimador.

set.seed(123)

B <- 2000
boot_trim <- replicate(B, mean(sample(x, replace = TRUE), trim = 0.10))

IC_trim <- quantile(boot_trim, c(0.025, 0.975))
IC_trim
##      2.5%     97.5% 
## -0.000679  0.000935

Este intervalo de confianza indica que, con un 95% de nivel de confianza, el valor verdadero de la media poblacional del retorno diario del sector financiero sde encuentra dentro del rango comprendido entre –0.0679% y 0.0935%.

Interpretación: El intervalo de confianza basado en la media recortada confirma que, incluso tras controlar la influencia de valores extremos, el retorno promedio del sector financiero se mantiene cercano a cero, evidenciando un entorno caracterizado por elevada incertidumbre y fuerte contagio de riesgos, más que por rendimientos sistemáticamente positivos o negativos.

5.4 Intervalo de Confianza para la Varianza insesgada

Aqui se observa una diferencia clave respecto a la media:

  • El IC de la media usa la Normal/t
  • El IC de la varianza usa la distribución ji-cuadrado (χ²)

Si los datos provienen de una población aproximadamente normal (supuesto estandar en retornos financieros a corto plazo)

\[ \frac{(n-1)S^2}{\sigma^2} \sim \chi^2_{\,n-1} \]

Entocnes, el IC al nivel de confianza 1-α para la varianza poblacional \(\sigma^2\) es:

\[ \left( \frac{(n-1)S^2}{\chi^2_{1-\alpha/2,\;n-1}}, \; \frac{(n-1)S^2}{\chi^2_{\alpha/2,\;n-1}} \right) \]

## IC varianza:
##  Límite inferior = 0.00012 
##  Límite superior = 0.00015

Bajo el supuesto de normalidad, se construyó un intervalo de confianza del 95% para la varianza poblacional del retorno diario del sector YH utilizando la distribución ji-cuadrado.

El intervalo obtenido indica que la varianza poblacional se encuentra, con un 95% de confianza, entre 0.00012 y 0.00015.

Interpretación: El intervalo de confianza estimado muestra que la volatilidad diaria del sector YH es relativamente baja y estable, incluso considerando eventos de alta incertidumbre financiera.

Este resultado es consistente con la literatura, donde señala que, aunque los retornos pueden fluctuar alrededor de cero, la magnitud promedio de dichas fluctuaciones permanece acotada.

5.5 Intervalo de Confianza para la Varianza tipo EMV (basado en Chi-cuadrado)

Bajo el supuesto:

\[ X_i \sim N(\mu,\sigma^2) \]

se tiene que:

\[ \frac{n\,\hat{\sigma}^2_{\text{EMV}}}{\sigma^2} \sim \chi^2_{\,n} \]

Por lo tanto, un intervalo de confianza al nivel 1-α para la varianza poblacional es:

\[ \left( \frac{n\,\hat{\sigma}^2_{\text{EMV}}}{\chi^2_{1-\alpha/2,\;n}}, \; \frac{n\,\hat{\sigma}^2_{\text{EMV}}}{\chi^2_{\alpha/2,\;n}} \right) \]

alpha <- 0.05
n <- length(x)

IC_var_mle <- c(
  n * est_var_mle / qchisq(1 - alpha/2, df = n),
  n * est_var_mle / qchisq(alpha/2, df = n)
)

IC_var_mle
## [1] 0.00012 0.00015

Utilizando el estimador de máxima verosimilitud de la varianza y bajo el supuesto de normalidad de los retornos diarios del sector YH, se construyó un intervalo de confianza del 95% para la varianza poblacional. El intervalo obtenido fue: \[ IC_{95\%}(\sigma^2) = (0.00012,\; 0.00015) \]

Este resultado indica que, con un 95% de confianza, la verdadera volatilidad de los retornos diarios se encuentra dentro de este rango, reflejando un nivel de variabilidad relativamente bajo pero estadísticamente significativo.

Aunque los estimadores 4 y 5 se basan en pivotes distintos, ambos conducen a intervalos de confianza prácticamente equivalentes, especialmente para tamaños muestrales moderados, debido a la relación entre \(S^2\) y el estimador de máxima verosimilitud.

6 Prueba de hipótesis para proporciones con datos pareados

Si bien los datos ya están pareados en el sentido temporal (ya que cada fila es un día específico donde hay observaciones simultáneas de los cuatro sectores), primero es necesario transformar estos retornos continuos en variables binarias categóricas.

Para ello, se define una regla para categorizar cada retorno diario:

  • Positivo (1) si el retorno > 0

  • No positivo (0) si el retorno ≤ 0

Código R:

library(dplyr)
library(tidyr)
library(ggplot2)
datos_bin <- datos %>%
  mutate(
    ryh_bin = as.numeric(ryh > 0),
    rzq_bin = as.numeric(rzq > 0),
    rbx_bin = as.numeric(rbx > 0),
    rdy_bin = as.numeric(rdy > 0)
  )

# Cálculo de las proporciones de días positivos
prop_positivas <- datos_bin %>%
  summarise(
    YH = mean(ryh_bin) * 100,
    ZQ = mean(rzq_bin) * 100,
    BX = mean(rbx_bin) * 100,
    DY = mean(rdy_bin) * 100
  )
prop_positivas
##     YH   ZQ   BX   DY
## 1 48.1 47.7 50.1 46.2

6.1 Planteamiento de hipótesis:

Se busca comparar el retorno diario del sector YH (Industria y Energía) con el retorno diario de cada uno de los otros sectores (ZQ-Finanzas y Seguros, BX-Bienes Inmuebles / Construcción, DY-Industria Digital / Tecnología). Para este ejemplo, se realizan 3 pruebas de hipótesis.

\(H_0:\) La proporción de días con retorno positivo es similar entre el sector YH (Industria y Energía) y cada uno de los otros sectores.

\(H_1:\) La proporción de días con retorno positivo difiere entre el sector YH (Industria y Energía) y cada uno de los otros sectores.

\[ H_0: \pi_{YH} = \pi_{ZQ} \\ H_1:\pi_{YH} \neq \pi_{ZQ} \]

\[ H_0: \pi_{YH} = \pi_{BX} \\ H_1:\pi_{YH} \neq \pi_{BX} \]

\[ H_0: \pi_{YH} = \pi_{DY} \\ H_1:\pi_{YH} \neq \pi_{DY} \]

Se define el nivel de significancia (\(\alpha = 0.05\))

6.2 Desarrollo

Para esta sección se realiza la prueba de McNemar, que es más apropiada para datos pareados binarios donde las observaciones están naturalmente emparejadas por día de negociación, permitiendo comparar proporciones marginales considerando la dependencia intra-par.

Comparación YH vs ZQ

Se realiza la tabla de contingencia 2X2:

tabla_yh_zq <- table(
  "YH (Industria)" = datos_bin$ryh_bin,
  "ZQ (Finanzas)" = datos_bin$rzq_bin
)

tabla_yh_zq
##               ZQ (Finanzas)
## YH (Industria)   0   1
##              0 233  89
##              1  92 207

Donde se observan:

  • 233 días donde ambos sectores NO tuvieron retornos positivos

  • 89 días donde YH no tuvo un retorno positivo pero ZQ sí

  • 92 días donde YH tuvo un retorno positivo pero ZQ no

  • 207 días donde ambos sectores tuvieron retornos positivos

Prueba de McNemar:

mcnemar.test(tabla_yh_zq)
## 
##  McNemar's Chi-squared test with continuity correction
## 
## data:  tabla_yh_zq
## McNemar's chi-squared = 0.02, df = 1, p-value = 0.9

Decisión: Como \(p_{value} = 0.9 > \alpha\), no se rechaza \(H_0\)

Comparación YH vs BX

Se realiza la tabla de contingencia 2X2:

tabla_yh_bx <- table(
  "YH (Industria)" = datos_bin$ryh_bin,
  "BX (Construcción)" = datos_bin$rbx_bin
)

tabla_yh_bx
##               BX (Construcción)
## YH (Industria)   0   1
##              0 252  70
##              1  58 241

Donde se observan:

  • 252 días donde ambos sectores NO tuvieron retornos positivos

  • 70 días donde YH no tuvo un retorno positivo pero BX sí

  • 58 días donde YH tuvo un retorno positivo pero BX no

  • 241 días donde ambos sectores tuvieron retornos positivos

Prueba de McNemar:

mcnemar.test(tabla_yh_bx)
## 
##  McNemar's Chi-squared test with continuity correction
## 
## data:  tabla_yh_bx
## McNemar's chi-squared = 0.9, df = 1, p-value = 0.3

Decisión: Como \(p_{value} = 0.3 > \alpha\), no se rechaza \(H_0\)

Comparación YH vs DY

Se realiza la tabla de contingencia 2X2:

tabla_yh_dy <- table(
  "YH (Industria)" = datos_bin$ryh_bin,
  "DY (Tecnología)" = datos_bin$rdy_bin
)

tabla_yh_dy
##               DY (Tecnología)
## YH (Industria)   0   1
##              0 223  99
##              1 111 188

Donde se observan:

  • 223 días donde ambos sectores NO tuvieron retornos positivos

  • 99 días donde YH no tuvo un retorno positivo pero DY sí

  • 111 días donde YH tuvo un retorno positivo pero DY no

  • 188 días donde ambos sectores tuvieron retornos positivos

Prueba de McNemar:

mcnemar.test(tabla_yh_dy)
## 
##  McNemar's Chi-squared test with continuity correction
## 
## data:  tabla_yh_dy
## McNemar's chi-squared = 0.6, df = 1, p-value = 0.4

Decisión: Como \(p_{value} = 0.4 > \alpha\), se rechaza \(H_0\)

Conclusión general:

Los resultados de las pruebas de McNemar para datos pareados no mostraron diferencias estadísticamente significativas en la proporción de días con retorno positivo entre el sector industrial (YH) y los demás sectores analizados (ZQ, BX, DY); es decir, no podemos afirmar que existan diferencias significativas en las proporciones de días positivos.

Por ello, no se rechaza la hipótesis nula de igualdad de proporciones, sugiriendo que todos los sectores presentan un comportamiento similar en términos de consistencia de retornos positivos en el período 2017-2023.

7 Pruebas de hipótesis

En esta sección se evalúan hipótesis utilizando los estimadores definidos anteriormente.

Dado que los retornos financieros suelen presentar colas pesadas y asimetría, primero se verificó el supuesto de normalidad mediante la prueba de Shapiro–Wilk:

7.1 Comprobaciones previas

Diagnóstico

## 
##  Shapiro-Wilk normality test
## 
## data:  x
## W = 1, p-value = 0.0000000002

La prueba de Shapiro–Wilk arrojó un p-value de 0.0000000002, lo que indica que los datos no siguen una distribución normal dado un nivel de significancia (α = 0.05). Este resultado era esperable debido a la presencia de valores extremos típicos del comportamiento en series financieras. Por este motivo, no es apropiado utilizar pruebas que dependan del supuesto de normalidad, y se optó por métodos más robustos como pruebas no paramétricas y bootstrap para evaluar las hipótesis de los estimadores.

7.2 Hipótesis - Estimador 1: Media muestral

Dado que los datos no son normales (p-value < 0.0000000002), la prueba t clásica no es plenamente válida. En su lugar se emplea un test bootstrap para la media, que calcula un p-valor empírico sin asumir normalidad.

Prueba:

\[ H_0: \mu = \mu_0 \\ H_1:\mu \neq \mu_0 \]

## [1] 0.99

Conclusión:

No existe evidencia estadística para rechazar la hipótesis nula.

La media poblacional no difiere significativamente del valor hipotético \(\mu_0\).

Dado que los datos no son normales, esta conclusión se basa en un método robusto (bootstrap), por lo que es confiable.

7.3 Hipótesis - Estimador 2: Mediana muestral

La hipótesis sobre la mediana puede verificarse con la:

  • Prueba de signos (binomial) — no requiere simetría.

  • Wilcoxon signed-rank test — requiere simetría aproximada.

Debido a la no normalidad marcada, estas pruebas son más confiables que el t-test.

Prueba:

\[ H_0: mediana =𝜇0\\ H_1: mediana ≠𝜇0 \]

pos <- sum(x > 0)
neg <- sum(x < 0)
binom.test(pos, pos + neg, p = 0.5)
## 
##  Exact binomial test
## 
## data:  pos and pos + neg
## number of successes = 299, number of trials = 621, p-value = 0.4
## alternative hypothesis: true probability of success is not equal to 0.5
## 95 percent confidence interval:
##  0.442 0.522
## sample estimates:
## probability of success 
##                  0.481

Conclusión:

No se rechaza la hipótesis nula sobre la mediana.

La mediana poblacional es estadísticamente compatible con el valor teórico \(\mu_0\).

Esto confirma que los retornos no muestran una desviación significativa respecto al centro teórico bajo un enfoque robusto.

7.4 Hipótesis - Estimador 3: Media recortada al 10%

La prueba apropiada para comparar una media recortada con un valor teórico es la prueba de Yuen, que ajusta grados de libertad y varianzas de manera robusta.

Aunque tambien se posria usar un bootstrap para la media recortada.

Prueba:

\[ H_0: \mu_{trim} = \mu_0 \\ H_1: \mu_{trim} \neq \mu_0 \]

trim_fun <- function(data) mean(data, trim = 0.10)
obs_trim <- trim_fun(x)
boots_trim <- replicate(B, trim_fun(sample(x, replace = TRUE)))
p_boot_trim <- mean(abs(boots_trim - mean(boots_trim)) >= abs(obs_trim - mean(boots_trim)))
p_boot_trim
## [1] 0.99

Conclusión:

No existe evidencia estadística para rechazar la hipótesis nula.

La media recortada al 10% es coherente con el valor teórico \(\mu_0\).

Dado que este estimador es robusto a outliers, la ausencia de diferencia confirma la estabilidad del centro bajo diferentes medidas.

7.5 Hipótesis - Estimador 4: Varianza insesgada

Para contrastar varianza con hipótesis poblacional se recomienda un bootstrap de varianza, pues no asume normalidad.

Prueba:

\[ H_0: \sigma^2 = \sigma^2_0 \\ H_1: \sigma^2 \neq \sigma^2_0 \]

obs_var <- var(x)
boots_var <- replicate(B, var(sample(x, replace=TRUE)))
p_boot_var <- mean(abs(boots_var - mean(boots_var)) >= abs(obs_var - mean(boots_var)))
p_boot_var
## [1] 0.985

Conclusión:

No se rechaza la hipótesis nula sobre la varianza poblacional.

La variabilidad observada en la muestra es consistente con el valor hipotético \(\sigma^2_0\).

Como la prueba se realizó vía bootstrap, la conclusión no depende del supuesto de normalidad.

7.6 Hipótesis - Estimador 5: Varianza tipo EMV

Al igual que con la varianza clásica, la vía correcta es un bootstrap para el estimador EMV.

Prueba:

\[ H_0: \sigma_{MLE}^2 = \sigma^2_0 \\ H_1: \sigma_{MLE}^2 \neq \sigma^2_0 \]

obs_var_mle <- mean((x - mean(x))^2)
boots_mle <- replicate(B, mean((sample(x, replace=TRUE) - mean(sample(x, replace=TRUE)))^2))
p_boot_mle <- mean(abs(boots_mle - mean(boots_mle)) >= abs(obs_var_mle - mean(boots_mle)))
p_boot_mle
## [1] 0.987

Conclusión:

No existe evidencia estadística para rechazar la hipótesis nula para la varianza tipo EMV.

La varianza verdadera del proceso es compatible con el valor hipotético \(\sigma^2_0\).

El resultado coincide con el estimador insesgado, lo que sugiere estabilidad en la estimación de la dispersión.

8 Función potencia

Dado que los retornos financieros del mercado chino durante la epidemia presentan una alta volatilidad, este apartado justifica la elección de las herramientas estadísticas y evalúa su fiabilidad mediante la Función Potencia.

8.1 Evaluación de los Supuestos de Normalidad

Antes de realizar cualquier inferencia, debemos determinar si la población sigue una distribución normal. En finanzas, los retornos suelen presentar “colas pesadas”, lo que invalida las pruebas paramétricas tradicionales.

Planteamiento de Hipótesis (Jarque-Bera):

\[ \begin{aligned} H_0 &:\ \text{Los retornos siguen una distribución normal } (\text{As} = 0,\ \text{Curtosis} = 3) \\ H_1 &:\ \text{Los retornos no siguen una distribución normal.} \end{aligned} \]

## P-valor de Jarque-Bera: 0 
## Asimetría: 0.329 
## Curtosis: 5.58

Interpretacion: Dado que el p-valor del test de Jarque-Bera es 0 (menor que 0.05), rechazamos la hipótesis nula de normalidad. La asimetría de 0.329 indica una ligera asimetría positiva en los datos. La curtosis de 5.58 es mayor que 3, lo que indica una curtosis alta. Esto sugiere que la distribución de los datos tiene colas más pesadas que una distribución normal, lo que implica una mayor probabilidad de valores extremos o “shocks financieros” que una distribución normal no puede capturar adecuadamente. En resumen, los datos no siguen una distribución normal y presentan un riesgo de eventos extremos mayor al que se esperaría en una distribución normal.

8.2 Selección de la Prueba No Paramétrica

Al confirmar que la población no es normal, seleccionamos el Coeficiente de Correlación de Rangos de Spearman (\(\rho_s\)). Esta prueba es robusta porque utiliza los rangos de los datos, lo que mitiga el efecto de los valores atípicos (outliers) ocurridos durante la epidemia.

Planteamiento de Hipótesis (Contagio de Riesgo)

\[H_0: \rho_s = 0\]: No existe relación de contagio entre los sectores financieros. \[H_1: \rho_s \neq 0\]: Existe una relación de contagio o dependencia dinámica.

Ejecución de la Prueba en R

## Coeficiente de Spearman (rho): 0.563 
## P-valor de la prueba: 0.000000000000000000000000000000000000000000000000000039

Interpretación: - Dado que el valor p ((\(3.9 \times 10^{-51}\)) es menor que el nivel de significancia α (0.05), se rechaza la hipótesis nula (\(H_0\)). Esto significa que existe evidencia estadística de contagio de riesgo entre los sectores. Dado que hemos encontrado un contagio estadísticamente significativo (\(p \approx 0\)), el análisis de potencia realizado mediante Bootstrap actúa como un control de calidad. La curva de potencia demuestra que nuestra prueba es capaz de detectar efectos de contagio incluso si fueran mucho más débiles que los observados. Por lo tanto, el rechazo de la hipótesis nula no es un falso positivo, sino un reflejo de la alta sensibilidad y capacidad de detección de nuestro modelo ante la volatilidad del mercado chino.

8.3 Definición de la función Potencia

La potencia de una prueba es la probabilidad de detectar un efecto (contagio) cuando este realmente existe. Se define como:

\[\pi(\delta) = P(\text{Rechazar } H_0 \mid H_1 \text{ es verdadera con intensidad } \delta)\]

Donde: - \(\delta\) (Delta): Es el tamaño del efecto o la fuerza del contagio de riesgo. - \(1 - \beta\): Es el valor de la potencia (el objetivo estándar es \(\geq 0.80\)).

8.4 Estimación mediante Simulación Bootstrap

Debido a que la distribución de los retornos chinos es desconocida (no es normal ni binomial), usamos el método Bootstrap. Este método crea miles de escenarios posibles basados en tus datos reales para calcular cuántas veces la prueba de Spearman tiene éxito en detectar el riesgo.

##    Efecto_Delta Potencia
## 1          0.00    0.048
## 2          0.05    0.948
## 3          0.10    1.000
## 4          0.15    1.000
## 5          0.20    1.000
## 6          0.25    1.000
## 7          0.30    1.000
## 8          0.35    1.000
## 9          0.40    1.000
## 10         0.45    1.000
## 11         0.50    1.000

Análisis de los valores obtenidos

  • \(\Delta = 0.00\) (Potencia \(\approx 0.05\)): Cuando no hay contagio real, la prueba solo “detecta” algo por puro azar el 5% de las veces (que coincide con \(\alpha = 0.05\)). Esto valida que la simulación no tiene sesgos.
  • \(\Delta = 0.05\) (Potencia \(0.948\)): Con un contagio muy leve (solo 0.05), la prueba es capaz de detectarlo el 94.8% de las veces.
  • \(\Delta \geq 0.10\) (Potencia \(1.000\)): Para cualquier nivel de contagio de 0.10 o superior, la probabilidad de detectarlo es del 100%.

La potencia llega tan rápido a 1.0 debido a dos factores vinculados a la base de datos:

  • Tamaño de la muestra (\(n\)): Se tienen datos diarios desde 2017 hasta 2023. Al tener muchas observaciones, el error estándar se reduce drásticamente, haciendo que la prueba sea extremadamente sensible.

  • Robustez de Spearman: Al trabajar con rangos, la prueba ignora el “ruido” de los valores extremos y se enfoca en la tendencia, lo que acelera la detección de la dependencia.

8.5 Visualización y Conclusiones:

El gráfico de la función potencia permite validar visualmente la sensibilidad de nuestra investigación.

library(ggplot2)

ggplot(df_potencia, aes(x = Efecto_Delta, y = Potencia)) +
  geom_line(color = "darkblue", size = 1) +
  geom_point(color = "red") +
  geom_hline(yintercept = 0.8, linetype = "dashed", color = "gray50") +
  labs(title = "Curva de la Función Potencia (Simulación Bootstrap)",
       subtitle = "Análisis de fiabilidad para el contagio de riesgo financiero en China",
       x = "Intensidad del Contagio de Riesgo (Delta)",
       y = "Potencia de la Prueba (1 - Beta)") +
  theme_minimal()

  • El gráfico confirma que no hay Error Tipo II. Dado que se obtuvo un p-valor ínfimo (\(3.9 \times 10^{-51}\)), esta gráfica respalda que ese resultado es real y sólido.

Conclusión: El análisis de la función potencia demuestra que el estudio posee alta capacidad de detección: existe más del 99% de probabilidad de identificar dependencias como la observada (ρ≥0.56), y aún correlaciones moderadas (ρ≥0.30) se detectarían con 97% de probabilidad.

Esto valida la robustez del hallazgo principal: no solo la correlación es estadísticamente significativa (p≈0), sino que la prueba tenía alta probabilidad de detectarla si existía, minimizando el riesgo de falsos negativos.

La curva de potencia obtenida confirma que, incluso con datos no normales, la prueba de Spearman mantiene sensibilidad adecuada para fines de investigación financiera.

9 Razón de verosimilitud

Se busca aplicar una Prueba de Distribución Asintótica de la Razón de Verosimilitud sobre la base de datos.

El objetivo es determinar si existe evidencia estadística suficiente para afirmar que la estructura de interdependencia entre los sectores de Banca (ryh), Valores (rzq), Seguros (rbx) y Multifinanzas (rdy) sufrió un cambio significativo hacia el final de la muestra, coincidiendo con el inicio de la crisis sanitaria.

9.1 El Teorema de Wilks

Se sabe que cuando el tamaño de la muestra \(n\) es suficientemente grande, el estadístico de la Razón de Verosimilitud Generalizada \((\Lambda)\) se comporta siguiendo una distribución Chi-cuadrado.

El estadístico se define como:

\[ -2 \ln(\Lambda) \xrightarrow{d} \chi^2_{\nu} \]

Donde:

  • \(\Lambda = \dfrac{L(H_0)}{L(H_1)}\)

  • \(L(H_0)\) es la verosimilitud máxima bajo la hipótesis nula (modelo restringido).

  • \(L(H_1)\) es la verosimilitud máxima bajo la hipótesis alternativa (modelo sin restricciones).

  • \(\nu\) son los grados de libertad.

9.2 Hipótesis Estadística

  • \(H_0\): Los parámetros de interconexión financiera son constantes durante todo el periodo. No hay cambio estructural.

  • \(H_1\): Existe un cambio significativo en los parámetros de riesgo en el último tramo de la data (inicio de la epidemia).

9.3 Punto de Quiebre (\(n = 60\))

En el artículo se estudia el comportamiento de la serie en dos etapas claramente diferenciadas: antes y después del inicio de la epidemia.

A partir de ello, se define un punto de quiebre de 60 observaciones, lo que equivale aproximadamente a los últimos tres meses de operaciones en el mercado financiero.

A) Estimación de Verosimilitudes

Aplicamos la metodología de Máxima Verosimilitud mediante modelos de vectores autorregresivos (VAR), consistentes con el estudio de conectividad.

# 1. Modelo Restringido (H0): Toda la data como un solo bloque
#install.packages("vars")  
library(vars)
mod_h0 <- VAR(data_fin, p = 2, type = "const")
logL_h0 <- as.numeric(logLik(mod_h0));logL_h0
## [1] 7599
# 2. Modelo No Restringido (H1): Dos bloques separados
data_pre  <- data_fin[1:(n - quiebre_n), ]
data_post <- data_fin[(n - quiebre_n + 1):n, ]

mod_pre  <- VAR(data_pre, p = 2, type = "const")
mod_post <- VAR(data_post, p = 2, type = "const")

logL_h1 <- as.numeric(logLik(mod_pre) + logLik(mod_post));logL_h1
## [1] 7625

B) Cálculo del estadístico y p-valor asintótico

# Estadístico LR según Teorema de Wilks
LR_stat <- -2 * (logL_h0 - logL_h1)

# Cálculo de Grados de Libertad (Parámetros adicionales en H1)
# K^2 * p + K (donde K=4 sectores, p=2 rezagos)
df_libertad <- ncol(data_fin)^2 * 2 + ncol(data_fin)

# Obtención del P-valor asintótico (Chi-cuadrado)
p_valor <- pchisq(LR_stat, df = df_libertad, lower.tail = FALSE)

# Resultados
data.frame(Estadistico = LR_stat, Grados_Libertad = df_libertad, P_Valor = p_valor)
##   Estadistico Grados_Libertad P_Valor
## 1        53.5              36  0.0303

Interpretación final de los resultados

Luego de aplicar la Prueba de Razón de Verosimilitud a los rendimientos de los sectores financieros de China (Banca, Valores, Seguros y Multifinanzas), se obtuvieron las siguientes medidas de ajuste:

  • Log-verosimilitud del modelo restringido (\(H_0\)): 7598.515
  • Log-verosimilitud del modelo no restringido (\(H_1\)): 7625.274

La log-verosimilitud asociada a la hipótesis alternativa (\(H_1\)) es mayor que la correspondiente a la hipótesis nula (\(H_0\)). La diferencia de 26.759 unidades logarítmicas evidencia una mejora sustancial en el ajuste del modelo cuando se permite un cambio estructural en los últimos 60 días de la muestra.

Este resultado indica que el modelo con quiebre estructural (coincidente con el inicio de la epidemia) describe de manera más adecuada el comportamiento de los rendimientos financieros, en comparación con el modelo que asume estabilidad de los parámetros a lo largo de todo el periodo analizado desde 2017.

Estadístico de Prueba y Contraste de Hipótesis

Aplicando el Teorema de Wilks, el estadístico de prueba calculado es:

\[ -2 \ln(\Lambda) = 53.518 \]

Bajo la distribución asintótica Chi-cuadrado (\(\chi^2\)) con 36 grados de libertad, correspondientes a los parámetros adicionales estimados en el modelo con quiebre, este valor del estadístico produce un p-valor inferior a 0.05.

Dado que el estadístico se ubica claramente en la región de rechazo, se rechaza la hipótesis nula (\(H_0\)) de estabilidad de parámetros.

Implicancias Económicas y Financieras

El rechazo de \(H_0\) conlleva varias implicancias relevantes, en línea con los hallazgos del artículo:

  • Validación del cambio estructural: Se confirma estadísticamente que la estructura de interdependencia entre los sectores financieros en China no es constante en el tiempo. Existe un quiebre estructural claro hacia finales de 2019, asociado al aumento de la incertidumbre generada por la epidemia emergente.

  • Conectividad dinámica y transmisión de riesgo: El resultado respalda la hipótesis de derrame de riesgo. Los parámetros que gobiernan la transmisión de volatilidad entre sectores (particularmente entre Banca y Seguros) presentan cambios significativos, lo que evidencia que el sistema financiero ingresó en una fase de mayor sensibilidad y contagio dinámico.

  • Robustez asintótica del contraste: Se puede afirmar con un 95% de confianza que la epidemia produjo un impacto estructural real en el mercado financiero, invalidando análisis que asuman continuidad del comportamiento previo durante el periodo de transición sanitaria.

Referencias

Miranda Villagómez, C. F. (2024). Pruebas de Hipótesis. Facultad de Economía y Planificación, Departamento de Estadística e Informática. Universidad Nacional Agraria La Molina (UNALM).

Uso en el trabajo: Proporciona el sustento teórico de la Prueba de Razón de Verosimilitud Generalizada (pág. 42) y la aplicación práctica del Teorema de Wilks para muestras grandes (pág. 46).