Viendo formas en las nubes

El ruido que parece señal

Hanwen Zhang

Universidad Nacional de Colombia

Temor a lo desconocido

Castigo divino

La ciencia toma el lugar

La ciencia toma el lugar

Nassim Taleb

Nassim Taleb

El poeta francés Paul Valery se sorprendió cuando escuchó a un crítico de literatura que había encontrado el significado de sus poemas que el mismo poeta desconocía.

Por supuesto, se le aclaró que ese significado fue fruto de su subconsciente.

3 ejemplos de nuestra obsesión por entender todo

Caso 1

“los países más religiosos son:

  • Más pobres

  • Menos urbanizados

  • Menos educados

  • Más contaminados”

Los menos religiosos tienen los mejores estándares de vida.”

Caso 1

“los países más religiosos son:

  • Más pobres

  • Menos urbanizados

  • Menos educados

  • Más contaminados”

Los menos religiosos tienen los mejores estándares de vida.

Caso 2

🧔🏻‍♂️Doctor en Economía, presidente del ANIF

  • En Colombia ha habido una correlación entre aumentos del salario mínimo y la impopularidad del Presidente.

  • Presidentes más impopulares aumentan más el salario mínimo.

Caso 2

🧔🏻‍♂️Doctor en Economía, presidente del ANIF

  • En Colombia ha habido una correlación entre aumentos del salario mínimo y la impopularidad del Presidente.

  • Presidentes más impopulares aumentan más el salario mínimo.

Caso 3

Nate Silver, Nov 2024, Twitter

Each additional $100 of inflation in a state since January 2021 predicts a further 1.6 swing against Harris in our polling average vs. the Biden-Trump margin in 2020.

Caso 3

Nate Silver, Nov 2024, Twitter

Each additional $100 of inflation in a state since January 2021 predicts a further 1.6 swing against Harris in our polling average vs. the Biden-Trump margin in 2020.

Correlación muestral

  • Datos provenientes de dos variables incorrelacionadas
  • La correlación muestral no es 0

Función de densidad:

\[ f_\rho(\rho) = \begin{cases} \frac{(1 - \rho^2)^{\frac{n - 4}{2}}}{\mathrm{Beta}\left(\frac{1}{2}, \frac{n - 2}{2}\right)} & \text{si } -1 \leq \rho \leq 1 \\ 0 & \text{en otro caso} \end{cases} \]

Correlación

Coeficiente de determinación

  • Medida de calidad explicativa del modelo.
  • Igual a correlación al cuadrado en una regresión simple

La función de densidad es: \[ f_r(r) = \begin{cases} \displaystyle \frac{(1 - r)^{\frac{1}{2}(n - 4)}}{\sqrt{r} \, \mathrm{Beta}\left(\frac{1}{2}, \frac{1}{2}(n-2)\right)} & 0 < r < 1 \\ 0 & \text{en otro caso} \end{cases} \]

Máximo de \(r\) en \(m\) réplicas

La función de densidad del máximo de \(r_1, \cdots, r_m\), es:

\[ \phi_{m,n}(r) = A r^{\frac{m}{2}-1} (1 - r)^{\frac{n-4}{2}} ._2 F_1 \left( \frac{1}{2}, 2; \frac{n}{2} - \frac{3}{2}; r \right)^{m-1} \]

donde

\[ A = 2^{m-1} m \pi^{-\frac{m}{2}} \Gamma\left( \frac{n}{2} - 1 \right)^{-m} \Gamma\left( \frac{n-1}{2} \right)^{m} \]

\(._2 F_1\) es la función hipergeométrica definida como \[ _2F_1(a, b; c; z) = \sum_{k=0}^{\infty} \frac{z^k (a)_k (b)_k}{k! (c)_k} \]

\((q)_k\) es el símbolo de Pochhammer definido como \((q)_k = q (q + 1) (q + 2) \cdots (q + k - 1)\)

Esperanza de máximo de \(r\)

n m = 5 m = 10 m = 50
15 0.1812 0.2625 0.3826
50 0.0559 0.0760 0.1265
100 0.0278 0.0380 0.0641
150 0.0139 0.0190 0.0322

Valor p

  • 🥴 Probabilidad de que la estadística de prueba tome valores más extremos del observado
  • 🚨 Es una variable aleatoria

La función de densidad del valor \(p\) de una cola para una prueba \(t\) pareada con varianza desconocida para \(p<0.5\) está dada por

\[\begin{align*} \varphi(p; p_M)_L &= \lambda_p^{\tfrac{1}{2}(-n-1)} \sqrt{ \frac{ -\lambda_p(\lambda_{p_M}-1) }{ (\lambda_p - 1)\lambda_{p_M} - 2\sqrt{(1-\lambda_p)\lambda_p}\,\sqrt{(1-\lambda_{p_M})\lambda_{p_M}} + 1 }}\\ & \ \ \ \ \ \left( \frac{1}{ \frac{1}{\lambda_p} - \frac{2\sqrt{1-\lambda_p}\sqrt{\lambda_{p_M}}}{\sqrt{\lambda_p}\sqrt{1-\lambda_{p_M}}} + \frac{1}{1-\lambda_{p_M}} - 1 } \right)^{\tfrac{n}{2}} \end{align*}\]

donde \(\lambda_p = I^{-1}_{2p}\left( \tfrac{n}{2}, \tfrac{1}{2} \right)\), \(\lambda_{p_M} = I^{-1}_{1-2p_M}\left( \tfrac{1}{2}, \tfrac{n}{2} \right)\), \(\lambda'_p = I^{-1}_{2p-1}\left( \tfrac{1}{2}, \tfrac{n}{2} \right),\) y \(I^{-1}_{(\cdot)}(\cdot,\cdot)\) es la función beta inversa regularizada.

La distribución límite del valor \(p\) mínimo en \(m\) réplicas es:

\[\begin{align*} \varphi_m(p; p_M) &= m \, e^{\operatorname{erfc}^{-1}(2p_M)\left( 2\operatorname{erfc}^{-1}(2p) - \operatorname{erfc}^{-1}(2p_M) \right)}\\ & \ \ \ \ \ \ \left( 1 - \tfrac{1}{2} \operatorname{erfc}\!\left( \operatorname{erfc}^{-1}(2p) - \operatorname{erfc}^{-1}(2p_M) \right) \right)^{m-1} \end{align*}\]

donde \(erfc(\cdot)\) denota la función complementaria de error, \(erfc^{-1}(\cdot)\) su inversa.

  • Simular \(x_1,\cdots, x_{10}\) y \(y_1, \cdots,y_{10}\) con la misma media
  • Aplicar la prueba \(t\) pareada
  • Calcular el valor \(p\)
  • Repetir lo anterior 15 veces, y registrar el \(p_{min}\)
  • Repetir lo anterior 200 veces.

[1] 0.525

Conclusiones

  • Una relación aparentemente existente puede ser ruido o resultado de réplicas de experimentos, (más fácil hackear con \(n\) pequeño).
  • Una sigificancia estadística puede ser fácilmente hackeado, incluso para tamaños muestrales grandes.
  • ¿Cómo la comunidad científica puede detectar y evitar este tipo de hackeos?