Tyson

La forma en que aprendemos y como afecta nuestra toma de decisiones

Motivación

Uno de los objetivos de la estadística es hacer inferencias acerca de parámetros desconocidos de una población con base en información obtenida en una muestra aleatoria. Estas inferencias pueden hacerse de dos forma: por medio de estimaciones de los parámetros o por medio de pruebas de hipótesis para verificar si una cierta afirmación acerca del parámetro puede considerarse como válida basándose en los resultados de una muestra.

Una prueba de hipótesis es muy útil en situaciones donde no es de mucho interés el valor (estimado) del parámetro, sino la validez de la afirmación en cuestión (Zhang, 2010).

Una hipótesis estadística es una afirmación respecto a alguna característica desconocida de una población (generalmente parámetros como la media o la proporción).

basada en la evidencia muestral y en la teorìa de probabilidad

El procedimiento formal para pruebas de hipótesis es semejante al método científico. 1. Éste observa la naturaleza, (plantea una hipótesis respecto a uno o más parámetros) 2. formula una teoría y ( de que son iguales a valores especificados) 3. la confronta con lo observado. (toma una muestra de la población y compara sus observaciones con la hipótesis. Si las observaciones no concuerdan con la hipótesis, las rechaza. De lo contrario, concluye que no tiene evidencia para rechazar la hipótesis - no es lo mismo que aceptarla-)

Por ejemplo, un investigador médico puede plantear la hipótesis de que un nuevo medicamento es más efi caz que otro para combatir una enfermedad. Para probarla, selecciona aleatoriamente pacientes infectados con la enfermedad y los divide en dos grupos. El nuevo medicamento A se administra a los pacientes del primer grupo y el B a los del segundo. Entonces, con base en el número de pacientes de cada grupo que se recuperen de la enfermedad, el investigador decide si el nuevo medicamento es más eficaz que el anterior.

Las pruebas de hipótesis se llevan a cabo en todos los campos en los que la teoría se pueda probar con observaciones.

Vamos a suponer que no me ama y esperar que la evidencia refute mi premisa

Reductio ad absurdum

La argumentación para una prueba de hipòtesis es del tipo reducción al absurdo, suponemos que lo que queremos probar es falso y llegamos a una contradicción.

Ejemplo

Premisa: Existe un número entero más grade que todos los demás?

  • Supongamos que dicho número existe, digamos \(A\).
  • Podemos sumar 1 a \(A\)
  • por lo cual \(A<A+1\)
  • Entonces \(A+1\) es el número entero más grande!
  • podemos sumar 1 a \(A+1\) y así tenemos el entero más grande \(A+2\)
  • podemos sumar 1 a \(A+2\) ….
  • Absurdo!

Entonces no existe un entero más grande que todos los demás. Se reduce al absurdo la afirmación, lo que prueba que su reciproco es verdadero.

  • En el caso de una prueba de hipótesis solo podemos hacer la prueba una vez, “la muestra”.
  • Si con la muestra tenemos información suficiente para rechazar la premisa. ¡¡eureka!! ʘ‿ʘ.
  • Si la muestra no es suficiente no podemos dar por valida la premisa, solo lo podemos rechazarla diantres! ლ(╥﹏╥ლ).

La cura para el Tyrant-Virus

Supongamos que se desata una epidemia de un nuevo virus, el Tyrant-Virus y hemos creado una nueva medicina experimental para curarla. Suponemos que nuestra funcionará en un 50% de los casos (\(H_0\)) y nuestra hipótesis alternativa \(H_1\) es que nuestro medicamento funciona en más del 50% de los casos. Mediante experimentación le aplicamos la droga a pero cuando se lo dimos a 30 enfermos, y 30 de ellos se curaron. (Sea Y el número de curados)

Bajo la hipotesis nula, que nuestro medicamento sea efectivo un 50% de los casos la muestra con 30 curados es posible pero altamente improbable. Es mucho más probable que observemos Y = 30 si la hipótesis alternativa fuera cierta. Entonces, rechazaríamos la hipótesis nula (p = .5) a favor de la hipótesis alternativa (p >.5). Si observamos Y = 29 (o cualquier valor grande de Y), un razonamiento análogo nos lleva a la misma conclusión.

Esta muestra refuta con alta confianza nuestra hipótesis, pero si obtuviesemos 10 éxitos, o 12, 20 o 24? aún tendrìamos evidencia en la muestra para refutarla. Cuál es el umbral?

Ejemplo error tipo I

Suponga que a priori definimos que el Umbral es de 24, es decir que 24 curados o más nos permite concluir que nuestra cura es efectiva, cuál será la probabilidad de equivocarnos? (que concluyamos que la muestra no fue extraìda bajo la hipotesis nula) \[\displaystyle P (rechazar\ H_0\ cuando\ H_0\ es\ verdadera)= \alpha = P (error\ tipo\ I)\]

plot(dbinom(1:30,30,0.5), type="l", main=paste0("probabilidad de error tipo I alpha (derecha) ", a1<-round(1-pbinom(24,30,0.5),5)))
abline(v=qbinom(pbinom(24,30,0.5),30,0.5))

Con esta región de rechazo, asumimos un riesgo pequeño de equivocarnos, es decir suponer que nuestro medicamento no funciona en un 50% de los casos cuando en realidad si lo hace. Es decir la probabilidad de obtener esta muestra “extrema” dado que la hipotesis nula es cierta y rechazarla.

Ejemplo Error tipo II

¿Nuestra prueba es tan buena como para evitar concluir que nuestro tratamiento solo funcionará en un 50% de los casos cuando en realidad es mejor, digamos un 80%? ¿Cuál es la probabilidad de que la muestra erróneamente nos lleve a concluir que \(H_0\) es verdadera y en realidad es verdadera \(H_a\)?

\(H_0\): Suponemos que nuestra funcionará en un 50% de los casos
\(H_1\) es que nuestro medicamento funciona en más del 50% de los casos.

p_a=0.8
plot(dbinom(1:30,30,p_a), type="l", main=paste0("probabilidad de error tipo II beta (izquierda linea) ", b1<-round(pbinom(24,30,p_a),5)))
abline(v=qbinom(pbinom(24,30,p_a),30,p_a))

El valor de \(\beta\) depende del verdadero valor del parámetro \(p\). Cuanto mayor sea la diferencia entre p observado y el valor hipotético (nulo) de p = .5, es menos probable que no rechacemos la hipótesis nula.

Supongamos que nuestra medicina funciona un 90% de las veces

p_a=0.90
plot(dbinom(1:30,30,p_a), type="l", main=paste0("probabilidad de error tipo II beta (izquierda linea) ", round(pbinom(23,30,p_a),5)))
abline(v=qbinom(pbinom(23,30,p_a),30,p_a))

Como bajo ambas hipotesis la distribución del el estadístico comparte valores, cualquier definición de la Región de rechazo contendrá valores probables bajo ambas hipótesis.

Los Ejemplos anteriores nos muestran que la prueba usando una región de rechazo \(RR = {y \ge 24}\) garantiza disminuir el riesgo de cometer un error tipo I, pero no controla adecuadamente el error tipo II. ¿Cómo podemos mejorar nuestra prueba? Una forma es balancear \(\alpha\) y \(\beta\) al cambiar la región de rechazo. Agrandando la región de rechazo RR en una nueva región de rechazo \(RR^*\) (esto es, \(RR^* \in RR\) ), la prueba usando \(RR^*\) nos llevará a rechazar H0 con más frecuencia. Si a * y a denotan las probabilidades de errores tipo I (niveles de las pruebas) cuando usamos RR * y RR como las regiones de rechazo, respectivamente, entonces, como \(RR \in RR^*\) ,

\(\alpha^*\) = P (estadístico de prueba está en \(RR^*\) cuando \(H_0\) es verdadera) \(≥\) P(estadístico de prueba está en \(RR\) cuando \(H_0\) es verdadera) = \(\alpha\).

Del mismo modo, si usamos la región de rechazo agrandada \(RR^*\) , el procedimiento de prueba nos llevará a aceptar H0 con menos frecuencia. Si b * y b denotan las probabilidades de errores tipo II para las pruebas que usan RR * y RR, respectivamente, entonces

\(\beta^*\) = P (estadístico de prueba no está en \(RR^*\) cuando \(H_a\) es verdadera) \(≤\) P(estadístico de prueba no está en \(RR\) cuando \(H_a\) es verdadera) = b.

Si cambiamos la región de rechazo para aumentar \(\alpha\), entonces \(\beta\) disminuirá. Del mismo modo, si el cambio en la región de rechazo resulta en una disminución en \(\alpha\), entonces \(\beta\) aumentará. Por tanto, \(\alpha\), y \(\beta\) están relacionadas de manera inversa.

En el caso de inferencia bayesiana teníamos la posibilidad de realizar repetidamente el experimento e ir actualizando nuestras creencias, en el caso de inferencia´estadítica clásica solo realizamos este proceso una vez, dado que necesitamos controlar los errores debidos a este hecho empleamos muestras “grandes”.

Ejemplo

Recalculando las probabilidades de error para una región de rechazo de 20 a más.

plot(dbinom(1:30,30,0.5), type="l", main=paste0("probabilidad de error tipo I alpha (derecha)", a2<-round(1-pbinom(20,30,0.5),5)))
abline(v=qbinom(pbinom(20,30,0.5),30,0.5))

p_a=0.80
plot(dbinom(1:30,30,p_a), type="l", main=paste0("probabilidad de error tipo II beta (izquierda linea) ",b2<- round(pbinom(20,30,p_a),5)))
abline(v=qbinom(pbinom(20,30,p_a),30,p_a))

tabla<-as.data.frame(matrix(c(a1,a2,b1,b2),nrow = 2,byrow = T))
names(tabla)<-c("RR <= 24","RR <= 20")
row.names(tabla)<-c("alpha","beta bajo p=0.8")
tabla
##                 RR <= 24 RR <= 20
## alpha            0.00016  0.02139
## beta bajo p=0.8  0.57249  0.06109

¿Cómo podemos reducirlas ambas?

La respuesta es clara y lógica: debemos obtener más información sobre la verdadera naturaleza de la población al aumentar el tamaño muestral. Si \(\alpha\) está fijo, \(\beta\) disminuye cuando el tamaño muestral aumenta.

Ya hicimos nuestra primera prueba de hipótesis, y mostramos como podemos equivocarnos en nuestras inferencias, ahora formalicemos!

Definición: Prueba de hipótesis

Procedimiento estadístico que, a través del estudio de una muestra aleatoria, permite determinar el cumplimiento de una hipótesis planteada sobre alguna característica de la población.

En forma general, la hipótesis planteada involucra algún parámetro (por ejemplo \(µ\) o \(σ^2\), un parámetro en una regresión, la prevalencia de una enfermedad en cierta población, o la diferencia en la eficacia de diferentes tratamientos) de la distribución de la que proviene la muestra.

La decisión acerca de si los datos muestrales apoyan estadísticamente la afirmación se toma en base en la probabilidad y si está es mínima, entonces la hipótesis sería rechazada.

Pasos para una prueba de hipótesis:

  • Se establece un sistema de hipotesis, compuesto por una hipótesis nula y una alternativa.
  • Selección del nivel de significancia \(\alpha\)
  • estadístico de prueba (igual que en estimación puntual)
  • Se supone a priori que la distribución del parámetro en la población es conocido (bajo el supuesto que la hipótesis nula es cierta).
  • Región de rechazo de la hipótesis nula.
  • Se extrae una muestra aleatoria de dicha población.
  • Si la distribución de la muestra es “diferente” de la distribución de probabilidad (el estimador cae en la región de rechazo) que hemos asignado a priori a la población, concluimos que probablemente (\(\alpha\) nivel de confianza) sea errónea nuestra hipótesis.

En ningún caso debe confundirse una prueba de hipótesis estadística con una demostración matemática, pues el resultado de una prueba de hipótesis es solo una decisión razonable a partir la evidencia (información contenida en la muestra).

Según la estructura de las hipótesis se distinguen dos tipos de pruebas:

Pruebas bilaterales: En ellos se propone un valor puntual para el parámetro bajo estudio, de forma que se rechazará bien porque la evidencia muestral lleve a decidir que el valor es mayor o menor al propuesto. > Pruebas de hipótesis a dos colas es una forma de evitar hacer afirmaciones falsas, me puedo equivocar por exceso o por defecto. \(H_0 : \theta = \theta_0\) vs \(H_1 : \theta \ne \theta_0\)

Pruebas unilaterales: En ellos se propone que el valor del parámetro se encuentre por debajo del propuesto o en otros casos, por encima de ese valor. \(H_0 : \theta = \theta_0\) vs \(H_1 : \theta > \theta_0\) \(H_0 : \theta = \theta_0\) vs \(H_1 : \theta < \theta_0\)

Ejemplo

Supongamos que debemos realizar un estudio sobre la altura media de los habitantes de cierto pueblo comparativamente al país. Supongamos que la altura se distribuye normalmente con media 170 y desviación estándar de 5.

Antes de tomar una muestra, lo lógico es hacer la siguiente suposición a priori, (hipótesis que se desea contrastar y que denotamos \(H_0\):

\(H_0\) : La altura media no difiere de la del resto del país. Al obtener una muestra de tamaño n = 6, podrìamos encontrarnos ante uno de los siguientes casos:

  1. Muestra = {1,50 ;1,52; 1,48; 1,55; 1,60; 1,49}
  2. Muestra = {1,65; 1,70; 1,73; 1,65; 1,75; 1,65}

La muestra 1 contiene evidencia que refuta nuestra hipótesis, mientras que la muestra 2 parece apoyarla. Pero la altura de los habitantes del pueblo puede diferir de los del país por ser:

  • mayores, menores (pruebas a una cola)
  • o distintas (mayores o menores) Pruebas a dos colas.

mientras que la hipótesis que se acepta cuando la evidencia muestral está claramente en contra de ésta se denomina Hipótesis Alternativa (H1 ) (Hipótesis de investigación o de interés)

Una hipótesis estadística es una afirmación sobre la población, por lo tanto se expresa en términos de los parámetro poblacionales En el ejemplo anterior se pueden plantear las siguientes hipótesis:

\[H0 : µ = 170\] \[vs\] \[H1 : µ > 170\]

El no rechazo de la Hipótesis Nula no supone ninguna prueba de la certeza de ésta, sino la falta de evidencia en la muestra en contra de su validez

Tipos de error al tomar la decisión - Las consecuencias de equivocarnos.

En nuestro ejemplo sobre el virus Tyrant no tuvimos en cuenta el costo de una mala decisión, si resulta que nuestro tratamiento no tiene la efectividad que inferimos podemos tener un problema de salud pùblica, por el contrario si concluimos que no funcionaba cuando en realidad si lo hacía puede resultar empleandose un tratamiento peor y acarrear perdidas económicas para nosotros.

Decisión estadística (a partir de la muestra)
No rechazar \(H_0\) Rechazar \(H_0\)
Estado Real \(H_0\) es cierta Correcta Error tipo I
Estado Real \(H_0\) es falsa Error tipo II Correcta

-Nivel de significancia ó - probabilidad del error tipo I:

\[P(Rechazar\ H_0 |H_0\ cierta) = α \] -Nivel de confianza

\[P(No\ rechazar\ H_0 |H_0\ cierta) = 1 − α\]

-Potencia de la prueba

\[P(Rechazar\ H_0 |H_0\ falsa) = 1 − \beta \]

Decisión estadística (a partir de la muestra)
No rechazar \(H_0\) Rechazar \(H_0\)
Estado Real \(H_0\) es cierta Error tipo I
Estado Real \(H_0\) es falsa Error tipo II

Lo ideal es que \(\alpha\) y \(\beta\) sean lo más pequeño posible, sin embargo esto no es posible de manera simultanea (sin aumentar n). Dado que solo se tiene control sobre el error tipo I, una solución es plantear las hipótesis de tal forma que el error tipo I sea más grave que el error tipo II, y garantizar que α sea pequeño (entre 0.1 y 0.01).

Ejemplo: Statistical Power for One-Sample t-Test

Ejemplo

Por ejemplo al juzgar el efecto que puede causar cierto tratamiento médico que está en fase de experimentación, en principio se ha de tomar como hipótesis nula aquella cuyas consecuencias por no rechazarla siendo falsa (error Tipo II) son menos graves, y como hipótesis alternativa aquella en la que el aceptarla siendo falsa trae peores consecuencias (Error tipo I). Es decir,  H0 : el paciente empeora o queda igual ante el tratamiento H1 : el paciente mejora con el tratamiento ######¿Que implica cada error?

Error tipo I: Rechazar \(H_0\) dado que es cierta implica que aprobará un tratamiento que puede empeorar al paciente o en el mejor de los casos dejarlo igual. Error tipo II: No rechazar \(H_0\) dado que es falsa, el tratamiento no se aprobará pero ante la falta de evidencia no se pondrá en riesgo a los futuros pacientes.

Ejemplo

En su edificio acaban de instalar un nuevo ascensor en el edificio pero ud no confía mucho en la calidad del mismo. Su prudencia lo llevara a espera a que el ascensor haga un número suficientemente grande de viajes (muestra aleatoria) y realiza un test del tipo

\(H_0\): el ascensar caerá \(H_1\) : el ascensor no se caerá

¿Que implica cada error?

Error tipo I: y sólo aceptará la hipótesis alternativa para $≈ 0 $ ( Rechazar \(H_0\) dado que es cierta, rechazar que el ascensar caiga y efectivamente se caiga) aunque para ello tenga que ocurrir que error tipo II: \(\beta ≈ 1\) (No rechazar \(H_0\) dado que es falsa, no usar el ascensor y que no se caiga), ya que las consecuencias del error de tipo I (ir al hospital) son mucho más graves que las del error del tipo II (subir a pie varios pisos).

En este ejemplo a la hora de decidirse por una de las dos hipótesis no basta con elegir la más probable dada la evidencia (nadie diría “voy a tomar el ascensor pues la probabilidad de que no se caiga es del 60 %”). Hay que elegir siempre la hipótesis \(H_0\) (construída para tener el mayor costo,) a menos que la evidencia a favor de \(H_1\) sea muy significativa.

Ejemplo

Planteamiento de las hipótesis Si se considera que la emisión de CO de cierto tipo de motocicletas no debe superar a 5.5g/Km. La entidad ambiental responsable selecciona una muestra de motocicletas para efectuar las pruebas correspondientes. Si el sistema de hipótesis que se plantea es: H 0 : µ = 5,5 H 1 : µ > 5,5

¿Que implica cada error?

Error tipo I: Rechazar µ = 5,5 cuando realmente µ ≤ 5,5, esto es, las motocicletas que están emitiendo una cantidad permitida de CO no pasan la prueba y no pueden ser importadas (perdida económica).

Error tipo II: No rechazar µ = 5,5 cuando realmente µ ≥ 5,5, esto implica que las motocicletas que emiten gran cantidad de CO pasan la prueba y pueden ser importadas (contaminación ambiental).

Estadístico de prueba (variable pivote en el lenguaje de pruebas de hipótesis)

Respecto a la sección pasada los estadìsticos son los mismos, solo que esta vez se calculan bajo la hipótesis nula y se verifica si en la muestra hay suficiente evidencia para refutarla.

Hipótesis sobre \(\mu\):

Sea \(x_1,...,x_n\) una muestra aleatoria de una población normal con media desconocida y varianza \(σ^2\) conocida. Si se tiene que \[H_0 : \mu = \mu_0\]

Entonces el estadístico de prueba queda definido como:

\[Z=\frac{\bar{X}-\mu_0}{\sigma/\sqrt{n}}\sim N(0,1)\]

En caso que se desconozca la varianza y tenga que ser estimada:

\[T=\frac{\bar{X}-\mu_0}{S_n/\sqrt{n}}\sim t_{(n-1)}\]

Hipótesis sobre \(p\):

\[\frac{\hat p-p}{\sqrt{\frac{\hat p(1-\hat p)}{n}}}\rightarrow N(0,1)\]

Para la varianza (\(\sigma\)):

La el estadístico de prueba pivote está dada por: \[\chi^2=\frac{(n-1)S^2_n}{\sigma_0^2}\sim\chi^2_{(n-1)}\]

Para la diferencia de medias (\(\mu_x-\mu_y\)):

Para esta estimación hay tres casos, dependiendo del comportamiento o conocimiento de las varianzas poblacionales.

Con \(\sigma_x^2\) y \(\sigma_y^2\) conocidas:

El esdadístico de prueba se distribuye normal (la suma de normales es normal) está dada por: \[Z=\frac{\bar{X}-\bar{Y}-(\mu_x-\mu_y)}{\sqrt{\frac{\sigma_x^2}{n_1}+\frac{\sigma_y^2}{n_2}}}\sim N(0,1)\] \[\mu_x-\mu_y=\Delta\] Por lo general \(\Delta=0\)

Con \(\sigma_x^2=\sigma_y^2\) desconocidas:

El estadìstico de prueba está dado por: \[T=\frac{\bar{X}-\bar{Y}-(\mu_x-\mu_y)}{\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}S_p}\sim t_{(n_1+n_2-2)}\]

Donde \(S_p^2=\frac{(n_1-1)S^2_{n_1}+(n_2-1)S^2_{n_2}}{n_1+n_2-2}\) , \(S^2_{n_1}=\frac{1}{n_1-1}\sum_{i=1}^{n}(X_i-\bar{X})^2\) \ y \(S^2_{n_21}=\frac{1}{n_2-1}\sum_{i=1}^{n}(Y_i-\bar{Y})^2\).

Con \(\sigma_x^2\neq\sigma_y^2\) desconocidas:

El estadìstico de prueba: \[T=\frac{\bar{X}-\bar{Y}-(\mu_x-\mu_y)}{\sqrt{\frac{S^2_{n_1}}{n_1}+\frac{S^2_{n_2}}{n_2}}}\sim t_{(f-1)}\]

Donde: \[f=\frac{\left(\frac{s^2_{n_1}}{n_1}+\frac{s^2_{n_2}}{n_2} \right)^2 }{\frac{\left( \frac{s^2_{n_1}}{n_1}\right)^2 }{n_1-1}+\frac{\left( \frac{s^2_{n_2}}{n_2}\right)^2 }{n_2-1}}\].

Región de rechazo

https://xkcd.com/539/

Un concepto importante en una prueba de hipótesis es la región de rechazo asociada a una regla de decisión, y se define como el conjunto conformado por todos lo valores de la estadística prueba que conducen a la decisión de rechazar \(H_0\) . Según el tipo de hipótesis que se tenga, el estadístico de prueba y en nivel de significancia, se puede obtener una región de rechazo.

Para el ejemplo del nivel de contaminación por CO se plantea la siguiente hipótesis: \[H_0 : µ = 5,5 \] \[vs\] \[H_1 : µ < 5,5\]

Si luego de tomar una muestra se observa que luego de tomar una muestra de 20 motocicletas se encuentra que \(\bar x\) = 5,3, ¿podemos determinar que las motocicletas cumplen con la reglamentación ambiental? ¿y si encuentra que \(\bar x\)= 3 ?

\(H_0\) : \(\mu = \mu_0\). \(H_a\) :

Estadístico de prueba: \(EP\)

Región de rechazo:

Dualidad entre intervalos de confianza y pruebas de hipotesis

Para ambos usamos los mismos estadísticos de prueba y probabilidades El intervalo de confianza es la región de no rechazo de la hipótesis Nula \[Z=\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)\]

\(a=z_{\alpha/2}=-z_{1-\alpha/2}\) y \(b=z_{1-\alpha/2}\): \[\begin{align*} P\left(-z_{1-\alpha/2}\sigma/\sqrt{n}\leq\bar{X}-\mu_0\leq z_{1-\alpha/2}\sigma/\sqrt{n} \right)&=1-\alpha\\ P\left(\bar{X}-z_{1-\alpha/2}\sigma/\sqrt{n}\leq\mu_0\leq \bar{X}+z_{1-\alpha/2}\sigma/\sqrt{n}\right)&=1-\alpha \end{align*}\]

“Lo significativo” el Valor \(p\)

significativo, un adjetivo que los estadísticos emplean para describir la validez científica, y que los investigadores, respaldados o no por la estadística, emplean habitualmente para demostrar la importancia de sus descubrimientos.1

Si W es un estadístico de prueba, el valor \(p\), o nivel de significancia alcanzado, es el nivel más pequeño de significancia a para el cual la información observada indica que la hipótesis nula debe ser rechazada.

p-value measures the degree of disagreement between the sample and the null hypothesis.

que una asociación entre dos variables es «estadísticamente significativa» quiere decir que puede descartarse que haya aparecido por azar, porque si no hubiera dicha asociación, resultados como el observado serían muy poco probables (esta probabilidad se expresa con una p. Un valor inferior a 0,05 es el límite estándar, por lo que un valor de p de 0,01 se califica como una asociación «muy significativa” entre las variables).

Riesgos potenciales

Algunas cosas que hay que tener en cuenta al realizar pruebas de hipótesis:

Error tipo I, Tipo II y potencia de una prueba (a falta de…)

-Nivel de significancia ó - probabilidad del error tipo I o falsos positivos:

\[P(Rechazar\ H_0 |H_0\ cierta) = α \] Los resultados de las pruebas nos dicen que hay una diferencia significativa cuando en realidad no hay

  • probabilidad del error tipo II \[P(No\ rechazar\ H_0 |H_0 falsa) = \beta \] Los resultados de las pruebas nos dicen que NO hay una diferencia significativa cuando realmente hay

-Potencia de la prueba

\[P(Rechazar\ H_0 |H_0\ falsa) = 1 − \beta \]

Está estrechamente relacionado con los errores de tipo II. El poder de una prueba es la probabilidad de ver un efecto significativo SI realmente está allí. Por lo tanto, baja potencia significa baja probabilidad de detectar efectos reales (más sobre potencia estadística).

Pregunta

A que se parece la potencia de una prueba de hipótesis?

la sensibilidad, no? Sensibilidad- la capacidad del test para detectar enfermos \[\displaystyle S=\frac{VP}{VP+FN}\]

El punto es: ¡un valor p significativo (pequeño) no garantiza un efecto REAL! (Y viceversa.)

Significancia estadística vs Significancia clínica

Es muy importante distinguir entre “significación estadística” y “significación clínica”. Esto es en particular un problema con estudios muy grandes.

[Estudio grande -> desviaciones estándar pequeñas -> diferencias muy pequeñas resultan significativas.]

Esto se debe a que “estadísticamente significativo” simplemente significa que el efecto está “lejos de cero en comparación con la desviación estándar esperada”. Entonces, si la desviación estándar es muy pequeña, incluso las diferencias más pequeñas entre los grupos se mostrarán como significativas.

Para evitar que los hallazgos clínicamente irrelevantes sean significativos, es importante considerar los tamaños del efecto y los intervalos de confianza. Estos ayudan a pintar una imagen mucho más detallada.

Asociación no implica causalidad

La significación estadística nunca implica una relación causa-efecto, simplemente una asociación. (En regresión)

Por lo tanto, nunca olvides interpretar tus resultados en el contexto correcto. Considere cuidadosamente el diseño de su estudio al sacar cualquier conclusión. ¿Podría haber algún factor de confusión?

P-hacking/ comparaciones múltiples

Is Most Published Research Wrong?

Sesgo de supervivencia, emprendedurismo, enfermedad mental Manipulación no etica - Reinhart Columbia

Cuando probamos la importancia a un nivel de 0.05, significa que hay un cinco por ciento de posibilidades de un falso positivo.

¿Qué pasa si probamos 20 efectos a la vez? Supongamos que tenemos 20 variables, todas las cuales sabemos que no tienen ningún efecto en nuestro resultado. Suponiendo que todos son independientes (lo que probablemente no lo sean), la probabilidad de que los 20 resultados sean negativos verdaderos es \(0.95^{20} = 0.358\)

Es decir, hay una probabilidad de 0.642 de al menos un falso positivo (es decir, rechazar la hipótesis nula cuando de hecho es verdadera). Entonces, incluso cuando SABEMOS que no hay efectos, todavía tenemos una buena posibilidad de encontrar algo que sea estadísticamente significativo.

Cómo se calculo la muestra, es confiable y precisa para los 20 parámetros, como se distribuye cada parámetro (un conteo, uno de exitos, uno normal), una muestra no sirve para todo.

La moraleja de la historia es: incluso si NO hay efectos, si arrojas suficientes variables, es casi seguro que encuentres un falso positivo.

Ignorando supuestos

Contrariamente a la creencia popular, las estadísticas NO son una ciencia exacta. Se trata de decisiones y suposiciones, y luego de justificarlas. Constantemente tenemos que tomar decisiones como …

  • qué modelo utilizar …
  • qué variables incluir …
  • son las transformaciones de los datos apropiadas …

y compruebe que se cumplen los supuestos comunes, como:

  • son los datos normalmente distribuidos?
  • ¿Están correlacionadas las variables explicativas?
  • ¿Es la varianza constante entre los diferentes grupos?

No se puede garantizar, sin ninguna duda, que lo anterior sea cierto, por lo tanto, tenemos que usar nuestro mejor juicio de los datos disponibles para descubrir si se han violado algunas suposiciones, y si es así, si debemos intentar corregirlo.

Al probar una hipótesis, verificamos si los datos se comportan como esperaríamos SI todas las suposiciones hechas fueran ciertas.

Cuando rechazamos la hipótesis nula, concluimos que una o más suposiciones son erróneas.

PERO si no hemos validado las suposiciones que hacemos en nuestra prueba, no podemos estar seguros de que la suposición que debería rechazarse sea la hipótesis nula; podría ser que los datos no se distribuyan normalmente, por ejemplo.

Y si todo falla

Tomado de Casino, G. (2013)

Bibliografia