La forma en que aprendemos y como afecta nuestra toma de decisiones
Uno de los objetivos de la estadística es hacer inferencias acerca de parámetros desconocidos de una población con base en información obtenida en una muestra aleatoria. Estas inferencias pueden hacerse de dos forma: por medio de estimaciones de los parámetros o por medio de pruebas de hipótesis para verificar si una cierta afirmación acerca del parámetro puede considerarse como válida basándose en los resultados de una muestra.
Una prueba de hipótesis es muy útil en situaciones donde no es de mucho interés el valor (estimado) del parámetro, sino la validez de la afirmación en cuestión (Zhang, 2010).
Una hipótesis estadística es una afirmación respecto a alguna característica desconocida de una población (generalmente parámetros como la media o la proporción).
basada en la evidencia muestral y en la teorìa de probabilidad
El procedimiento formal para pruebas de hipótesis es semejante al método científico. 1. Éste observa la naturaleza, (plantea una hipótesis respecto a uno o más parámetros) 2. formula una teoría y ( de que son iguales a valores especificados) 3. la confronta con lo observado. (toma una muestra de la población y compara sus observaciones con la hipótesis. Si las observaciones no concuerdan con la hipótesis, las rechaza. De lo contrario, concluye que no tiene evidencia para rechazar la hipótesis - no es lo mismo que aceptarla-)
Por ejemplo, un investigador médico puede plantear la hipótesis de que un nuevo medicamento es más efi caz que otro para combatir una enfermedad. Para probarla, selecciona aleatoriamente pacientes infectados con la enfermedad y los divide en dos grupos. El nuevo medicamento A se administra a los pacientes del primer grupo y el B a los del segundo. Entonces, con base en el número de pacientes de cada grupo que se recuperen de la enfermedad, el investigador decide si el nuevo medicamento es más eficaz que el anterior.
Las pruebas de hipótesis se llevan a cabo en todos los campos en los que la teoría se pueda probar con observaciones.
Vamos a suponer que no me ama y esperar que la evidencia refute mi premisa
La argumentación para una prueba de hipòtesis es del tipo reducción al absurdo, suponemos que lo que queremos probar es falso y llegamos a una contradicción.
Premisa: Existe un número entero más grade que todos los demás?
Entonces no existe un entero más grande que todos los demás. Se reduce al absurdo la afirmación, lo que prueba que su reciproco es verdadero.
Supongamos que se desata una epidemia de un nuevo virus, el Tyrant-Virus y hemos creado una nueva medicina experimental para curarla. Suponemos que nuestra funcionará en un 50% de los casos (\(H_0\)) y nuestra hipótesis alternativa \(H_1\) es que nuestro medicamento funciona en más del 50% de los casos. Mediante experimentación le aplicamos la droga a pero cuando se lo dimos a 30 enfermos, y 30 de ellos se curaron. (Sea Y el número de curados)
Bajo la hipotesis nula, que nuestro medicamento sea efectivo un 50% de los casos la muestra con 30 curados es posible pero altamente improbable. Es mucho más probable que observemos Y = 30 si la hipótesis alternativa fuera cierta. Entonces, rechazaríamos la hipótesis nula (p = .5) a favor de la hipótesis alternativa (p >.5). Si observamos Y = 29 (o cualquier valor grande de Y), un razonamiento análogo nos lleva a la misma conclusión.
Esta muestra refuta con alta confianza nuestra hipótesis, pero si obtuviesemos 10 éxitos, o 12, 20 o 24? aún tendrìamos evidencia en la muestra para refutarla. Cuál es el umbral?
Suponga que a priori definimos que el Umbral es de 24, es decir que 24 curados o más nos permite concluir que nuestra cura es efectiva, cuál será la probabilidad de equivocarnos? (que concluyamos que la muestra no fue extraìda bajo la hipotesis nula) \[\displaystyle P (rechazar\ H_0\ cuando\ H_0\ es\ verdadera)= \alpha = P (error\ tipo\ I)\]
plot(dbinom(1:30,30,0.5), type="l", main=paste0("probabilidad de error tipo I alpha (derecha) ", a1<-round(1-pbinom(24,30,0.5),5)))
abline(v=qbinom(pbinom(24,30,0.5),30,0.5))
Con esta región de rechazo, asumimos un riesgo pequeño de equivocarnos, es decir suponer que nuestro medicamento no funciona en un 50% de los casos cuando en realidad si lo hace. Es decir la probabilidad de obtener esta muestra “extrema” dado que la hipotesis nula es cierta y rechazarla.
¿Nuestra prueba es tan buena como para evitar concluir que nuestro tratamiento solo funcionará en un 50% de los casos cuando en realidad es mejor, digamos un 80%? ¿Cuál es la probabilidad de que la muestra erróneamente nos lleve a concluir que \(H_0\) es verdadera y en realidad es verdadera \(H_a\)?
\(H_0\): Suponemos que nuestra funcionará en un 50% de los casos
\(H_1\) es que nuestro medicamento funciona en más del 50% de los casos.
p_a=0.8
plot(dbinom(1:30,30,p_a), type="l", main=paste0("probabilidad de error tipo II beta (izquierda linea) ", b1<-round(pbinom(24,30,p_a),5)))
abline(v=qbinom(pbinom(24,30,p_a),30,p_a))
El valor de \(\beta\) depende del verdadero valor del parámetro \(p\). Cuanto mayor sea la diferencia entre p observado y el valor hipotético (nulo) de p = .5, es menos probable que no rechacemos la hipótesis nula.
Supongamos que nuestra medicina funciona un 90% de las veces
p_a=0.90
plot(dbinom(1:30,30,p_a), type="l", main=paste0("probabilidad de error tipo II beta (izquierda linea) ", round(pbinom(23,30,p_a),5)))
abline(v=qbinom(pbinom(23,30,p_a),30,p_a))
Como bajo ambas hipotesis la distribución del el estadístico comparte valores, cualquier definición de la Región de rechazo contendrá valores probables bajo ambas hipótesis.
Los Ejemplos anteriores nos muestran que la prueba usando una región de rechazo \(RR = {y \ge 24}\) garantiza disminuir el riesgo de cometer un error tipo I, pero no controla adecuadamente el error tipo II. ¿Cómo podemos mejorar nuestra prueba? Una forma es balancear \(\alpha\) y \(\beta\) al cambiar la región de rechazo. Agrandando la región de rechazo RR en una nueva región de rechazo \(RR^*\) (esto es, \(RR^* \in RR\) ), la prueba usando \(RR^*\) nos llevará a rechazar H0 con más frecuencia. Si a * y a denotan las probabilidades de errores tipo I (niveles de las pruebas) cuando usamos RR * y RR como las regiones de rechazo, respectivamente, entonces, como \(RR \in RR^*\) ,
\(\alpha^*\) = P (estadístico de prueba está en \(RR^*\) cuando \(H_0\) es verdadera) \(≥\) P(estadístico de prueba está en \(RR\) cuando \(H_0\) es verdadera) = \(\alpha\).
Del mismo modo, si usamos la región de rechazo agrandada \(RR^*\) , el procedimiento de prueba nos llevará a aceptar H0 con menos frecuencia. Si b * y b denotan las probabilidades de errores tipo II para las pruebas que usan RR * y RR, respectivamente, entonces
\(\beta^*\) = P (estadístico de prueba no está en \(RR^*\) cuando \(H_a\) es verdadera) \(≤\) P(estadístico de prueba no está en \(RR\) cuando \(H_a\) es verdadera) = b.
Si cambiamos la región de rechazo para aumentar \(\alpha\), entonces \(\beta\) disminuirá. Del mismo modo, si el cambio en la región de rechazo resulta en una disminución en \(\alpha\), entonces \(\beta\) aumentará. Por tanto, \(\alpha\), y \(\beta\) están relacionadas de manera inversa.
En el caso de inferencia bayesiana teníamos la posibilidad de realizar repetidamente el experimento e ir actualizando nuestras creencias, en el caso de inferencia´estadítica clásica solo realizamos este proceso una vez, dado que necesitamos controlar los errores debidos a este hecho empleamos muestras “grandes”.
Recalculando las probabilidades de error para una región de rechazo de 20 a más.
plot(dbinom(1:30,30,0.5), type="l", main=paste0("probabilidad de error tipo I alpha (derecha)", a2<-round(1-pbinom(20,30,0.5),5)))
abline(v=qbinom(pbinom(20,30,0.5),30,0.5))
p_a=0.80
plot(dbinom(1:30,30,p_a), type="l", main=paste0("probabilidad de error tipo II beta (izquierda linea) ",b2<- round(pbinom(20,30,p_a),5)))
abline(v=qbinom(pbinom(20,30,p_a),30,p_a))
tabla<-as.data.frame(matrix(c(a1,a2,b1,b2),nrow = 2,byrow = T))
names(tabla)<-c("RR <= 24","RR <= 20")
row.names(tabla)<-c("alpha","beta bajo p=0.8")
tabla
## RR <= 24 RR <= 20
## alpha 0.00016 0.02139
## beta bajo p=0.8 0.57249 0.06109
La respuesta es clara y lógica: debemos obtener más información sobre la verdadera naturaleza de la población al aumentar el tamaño muestral. Si \(\alpha\) está fijo, \(\beta\) disminuye cuando el tamaño muestral aumenta.
Ya hicimos nuestra primera prueba de hipótesis, y mostramos como podemos equivocarnos en nuestras inferencias, ahora formalicemos!
Procedimiento estadístico que, a través del estudio de una muestra aleatoria, permite determinar el cumplimiento de una hipótesis planteada sobre alguna característica de la población.
En forma general, la hipótesis planteada involucra algún parámetro (por ejemplo \(µ\) o \(σ^2\), un parámetro en una regresión, la prevalencia de una enfermedad en cierta población, o la diferencia en la eficacia de diferentes tratamientos) de la distribución de la que proviene la muestra.
La decisión acerca de si los datos muestrales apoyan estadísticamente la afirmación se toma en base en la probabilidad y si está es mínima, entonces la hipótesis sería rechazada.
En ningún caso debe confundirse una prueba de hipótesis estadística con una demostración matemática, pues el resultado de una prueba de hipótesis es solo una decisión razonable a partir la evidencia (información contenida en la muestra).
Según la estructura de las hipótesis se distinguen dos tipos de pruebas:
Pruebas bilaterales: En ellos se propone un valor puntual para el parámetro bajo estudio, de forma que se rechazará bien porque la evidencia muestral lleve a decidir que el valor es mayor o menor al propuesto. > Pruebas de hipótesis a dos colas es una forma de evitar hacer afirmaciones falsas, me puedo equivocar por exceso o por defecto. \(H_0 : \theta = \theta_0\) vs \(H_1 : \theta \ne \theta_0\)
Pruebas unilaterales: En ellos se propone que el valor del parámetro se encuentre por debajo del propuesto o en otros casos, por encima de ese valor. \(H_0 : \theta = \theta_0\) vs \(H_1 : \theta > \theta_0\) \(H_0 : \theta = \theta_0\) vs \(H_1 : \theta < \theta_0\)
Supongamos que debemos realizar un estudio sobre la altura media de los habitantes de cierto pueblo comparativamente al país. Supongamos que la altura se distribuye normalmente con media 170 y desviación estándar de 5.
Antes de tomar una muestra, lo lógico es hacer la siguiente suposición a priori, (hipótesis que se desea contrastar y que denotamos \(H_0\):
\(H_0\) : La altura media no difiere de la del resto del país. Al obtener una muestra de tamaño n = 6, podrìamos encontrarnos ante uno de los siguientes casos:
La muestra 1 contiene evidencia que refuta nuestra hipótesis, mientras que la muestra 2 parece apoyarla. Pero la altura de los habitantes del pueblo puede diferir de los del país por ser:
mientras que la hipótesis que se acepta cuando la evidencia muestral está claramente en contra de ésta se denomina Hipótesis Alternativa (H1 ) (Hipótesis de investigación o de interés)
Una hipótesis estadística es una afirmación sobre la población, por lo tanto se expresa en términos de los parámetro poblacionales En el ejemplo anterior se pueden plantear las siguientes hipótesis:
\[H0 : µ = 170\] \[vs\] \[H1 : µ > 170\]
El no rechazo de la Hipótesis Nula no supone ninguna prueba de la certeza de ésta, sino la falta de evidencia en la muestra en contra de su validez
En nuestro ejemplo sobre el virus Tyrant no tuvimos en cuenta el costo de una mala decisión, si resulta que nuestro tratamiento no tiene la efectividad que inferimos podemos tener un problema de salud pùblica, por el contrario si concluimos que no funcionaba cuando en realidad si lo hacía puede resultar empleandose un tratamiento peor y acarrear perdidas económicas para nosotros.
| Decisión estadística (a partir de la muestra) | |||
|---|---|---|---|
| No rechazar \(H_0\) | Rechazar \(H_0\) | ||
| Estado Real | \(H_0\) es cierta | Correcta | Error tipo I |
| Estado Real | \(H_0\) es falsa | Error tipo II | Correcta |
-Nivel de significancia ó - probabilidad del error tipo I:
\[P(Rechazar\ H_0 |H_0\ cierta) = α \] -Nivel de confianza
\[P(No\ rechazar\ H_0 |H_0\ cierta) = 1 − α\]
-Potencia de la prueba
\[P(Rechazar\ H_0 |H_0\ falsa) = 1 − \beta \]
| Decisión estadística (a partir de la muestra) | |||
|---|---|---|---|
| No rechazar \(H_0\) | Rechazar \(H_0\) | ||
| Estado Real | \(H_0\) es cierta | Error tipo I | |
| Estado Real | \(H_0\) es falsa | Error tipo II |
Lo ideal es que \(\alpha\) y \(\beta\) sean lo más pequeño posible, sin embargo esto no es posible de manera simultanea (sin aumentar n). Dado que solo se tiene control sobre el error tipo I, una solución es plantear las hipótesis de tal forma que el error tipo I sea más grave que el error tipo II, y garantizar que α sea pequeño (entre 0.1 y 0.01).
Por ejemplo al juzgar el efecto que puede causar cierto tratamiento médico que está en fase de experimentación, en principio se ha de tomar como hipótesis nula aquella cuyas consecuencias por no rechazarla siendo falsa (error Tipo II) son menos graves, y como hipótesis alternativa aquella en la que el aceptarla siendo falsa trae peores consecuencias (Error tipo I). Es decir, H0 : el paciente empeora o queda igual ante el tratamiento H1 : el paciente mejora con el tratamiento ######¿Que implica cada error?
Error tipo I: Rechazar \(H_0\) dado que es cierta implica que aprobará un tratamiento que puede empeorar al paciente o en el mejor de los casos dejarlo igual. Error tipo II: No rechazar \(H_0\) dado que es falsa, el tratamiento no se aprobará pero ante la falta de evidencia no se pondrá en riesgo a los futuros pacientes.
En su edificio acaban de instalar un nuevo ascensor en el edificio pero ud no confía mucho en la calidad del mismo. Su prudencia lo llevara a espera a que el ascensor haga un número suficientemente grande de viajes (muestra aleatoria) y realiza un test del tipo
\(H_0\): el ascensar caerá \(H_1\) : el ascensor no se caerá
Error tipo I: y sólo aceptará la hipótesis alternativa para $≈ 0 $ ( Rechazar \(H_0\) dado que es cierta, rechazar que el ascensar caiga y efectivamente se caiga) aunque para ello tenga que ocurrir que error tipo II: \(\beta ≈ 1\) (No rechazar \(H_0\) dado que es falsa, no usar el ascensor y que no se caiga), ya que las consecuencias del error de tipo I (ir al hospital) son mucho más graves que las del error del tipo II (subir a pie varios pisos).
En este ejemplo a la hora de decidirse por una de las dos hipótesis no basta con elegir la más probable dada la evidencia (nadie diría “voy a tomar el ascensor pues la probabilidad de que no se caiga es del 60 %”). Hay que elegir siempre la hipótesis \(H_0\) (construída para tener el mayor costo,) a menos que la evidencia a favor de \(H_1\) sea muy significativa.
Planteamiento de las hipótesis Si se considera que la emisión de CO de cierto tipo de motocicletas no debe superar a 5.5g/Km. La entidad ambiental responsable selecciona una muestra de motocicletas para efectuar las pruebas correspondientes. Si el sistema de hipótesis que se plantea es: H 0 : µ = 5,5 H 1 : µ > 5,5
Error tipo I: Rechazar µ = 5,5 cuando realmente µ ≤ 5,5, esto es, las motocicletas que están emitiendo una cantidad permitida de CO no pasan la prueba y no pueden ser importadas (perdida económica).
Error tipo II: No rechazar µ = 5,5 cuando realmente µ ≥ 5,5, esto implica que las motocicletas que emiten gran cantidad de CO pasan la prueba y pueden ser importadas (contaminación ambiental).
Respecto a la sección pasada los estadìsticos son los mismos, solo que esta vez se calculan bajo la hipótesis nula y se verifica si en la muestra hay suficiente evidencia para refutarla.
Sea \(x_1,...,x_n\) una muestra aleatoria de una población normal con media desconocida y varianza \(σ^2\) conocida. Si se tiene que \[H_0 : \mu = \mu_0\]
Entonces el estadístico de prueba queda definido como:
\[Z=\frac{\bar{X}-\mu_0}{\sigma/\sqrt{n}}\sim N(0,1)\]
En caso que se desconozca la varianza y tenga que ser estimada:
\[T=\frac{\bar{X}-\mu_0}{S_n/\sqrt{n}}\sim t_{(n-1)}\]
\[\frac{\hat p-p}{\sqrt{\frac{\hat p(1-\hat p)}{n}}}\rightarrow N(0,1)\]
La el estadístico de prueba pivote está dada por: \[\chi^2=\frac{(n-1)S^2_n}{\sigma_0^2}\sim\chi^2_{(n-1)}\]
Para esta estimación hay tres casos, dependiendo del comportamiento o conocimiento de las varianzas poblacionales.
El esdadístico de prueba se distribuye normal (la suma de normales es normal) está dada por: \[Z=\frac{\bar{X}-\bar{Y}-(\mu_x-\mu_y)}{\sqrt{\frac{\sigma_x^2}{n_1}+\frac{\sigma_y^2}{n_2}}}\sim N(0,1)\] \[\mu_x-\mu_y=\Delta\] Por lo general \(\Delta=0\)
El estadìstico de prueba está dado por: \[T=\frac{\bar{X}-\bar{Y}-(\mu_x-\mu_y)}{\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}S_p}\sim t_{(n_1+n_2-2)}\]
Donde \(S_p^2=\frac{(n_1-1)S^2_{n_1}+(n_2-1)S^2_{n_2}}{n_1+n_2-2}\) , \(S^2_{n_1}=\frac{1}{n_1-1}\sum_{i=1}^{n}(X_i-\bar{X})^2\) \ y \(S^2_{n_21}=\frac{1}{n_2-1}\sum_{i=1}^{n}(Y_i-\bar{Y})^2\).
El estadìstico de prueba: \[T=\frac{\bar{X}-\bar{Y}-(\mu_x-\mu_y)}{\sqrt{\frac{S^2_{n_1}}{n_1}+\frac{S^2_{n_2}}{n_2}}}\sim t_{(f-1)}\]
Donde: \[f=\frac{\left(\frac{s^2_{n_1}}{n_1}+\frac{s^2_{n_2}}{n_2} \right)^2 }{\frac{\left( \frac{s^2_{n_1}}{n_1}\right)^2 }{n_1-1}+\frac{\left( \frac{s^2_{n_2}}{n_2}\right)^2 }{n_2-1}}\].
Un concepto importante en una prueba de hipótesis es la región de rechazo asociada a una regla de decisión, y se define como el conjunto conformado por todos lo valores de la estadística prueba que conducen a la decisión de rechazar \(H_0\) . Según el tipo de hipótesis que se tenga, el estadístico de prueba y en nivel de significancia, se puede obtener una región de rechazo.
Para el ejemplo del nivel de contaminación por CO se plantea la siguiente hipótesis: \[H_0 : µ = 5,5 \] \[vs\] \[H_1 : µ < 5,5\]
Si luego de tomar una muestra se observa que luego de tomar una muestra de 20 motocicletas se encuentra que \(\bar x\) = 5,3, ¿podemos determinar que las motocicletas cumplen con la reglamentación ambiental? ¿y si encuentra que \(\bar x\)= 3 ?
\(H_0\) : \(\mu = \mu_0\). \(H_a\) :
Estadístico de prueba: \(EP\)
Región de rechazo:
{ \(EP > EP_\alpha\) } (RR de cola superior)
{\(|EP| \ne EP_{\alpha/2}\) (RR de dos colas)
Para ambos usamos los mismos estadísticos de prueba y probabilidades El intervalo de confianza es la región de no rechazo de la hipótesis Nula \[Z=\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)\]
\(a=z_{\alpha/2}=-z_{1-\alpha/2}\) y \(b=z_{1-\alpha/2}\): \[\begin{align*} P\left(-z_{1-\alpha/2}\sigma/\sqrt{n}\leq\bar{X}-\mu_0\leq z_{1-\alpha/2}\sigma/\sqrt{n} \right)&=1-\alpha\\ P\left(\bar{X}-z_{1-\alpha/2}\sigma/\sqrt{n}\leq\mu_0\leq \bar{X}+z_{1-\alpha/2}\sigma/\sqrt{n}\right)&=1-\alpha \end{align*}\]
significativo, un adjetivo que los estadísticos emplean para describir la validez científica, y que los investigadores, respaldados o no por la estadística, emplean habitualmente para demostrar la importancia de sus descubrimientos.1
Si W es un estadístico de prueba, el valor \(p\), o nivel de significancia alcanzado, es el nivel más pequeño de significancia a para el cual la información observada indica que la hipótesis nula debe ser rechazada.
p-value measures the degree of disagreement between the sample and the null hypothesis.
que una asociación entre dos variables es «estadísticamente significativa» quiere decir que puede descartarse que haya aparecido por azar, porque si no hubiera dicha asociación, resultados como el observado serían muy poco probables (esta probabilidad se expresa con una p. Un valor inferior a 0,05 es el límite estándar, por lo que un valor de p de 0,01 se califica como una asociación «muy significativa” entre las variables).
Algunas cosas que hay que tener en cuenta al realizar pruebas de hipótesis:
-Nivel de significancia ó - probabilidad del error tipo I o falsos positivos:
\[P(Rechazar\ H_0 |H_0\ cierta) = α \] Los resultados de las pruebas nos dicen que hay una diferencia significativa cuando en realidad no hay
-Potencia de la prueba
\[P(Rechazar\ H_0 |H_0\ falsa) = 1 − \beta \]
Está estrechamente relacionado con los errores de tipo II. El poder de una prueba es la probabilidad de ver un efecto significativo SI realmente está allí. Por lo tanto, baja potencia significa baja probabilidad de detectar efectos reales (más sobre potencia estadística).
A que se parece la potencia de una prueba de hipótesis?
la sensibilidad, no? Sensibilidad- la capacidad del test para detectar enfermos \[\displaystyle S=\frac{VP}{VP+FN}\]
El punto es: ¡un valor p significativo (pequeño) no garantiza un efecto REAL! (Y viceversa.)
Es muy importante distinguir entre “significación estadística” y “significación clínica”. Esto es en particular un problema con estudios muy grandes.
[Estudio grande -> desviaciones estándar pequeñas -> diferencias muy pequeñas resultan significativas.]
Esto se debe a que “estadísticamente significativo” simplemente significa que el efecto está “lejos de cero en comparación con la desviación estándar esperada”. Entonces, si la desviación estándar es muy pequeña, incluso las diferencias más pequeñas entre los grupos se mostrarán como significativas.
Para evitar que los hallazgos clínicamente irrelevantes sean significativos, es importante considerar los tamaños del efecto y los intervalos de confianza. Estos ayudan a pintar una imagen mucho más detallada.
La significación estadística nunca implica una relación causa-efecto, simplemente una asociación. (En regresión)
Por lo tanto, nunca olvides interpretar tus resultados en el contexto correcto. Considere cuidadosamente el diseño de su estudio al sacar cualquier conclusión. ¿Podría haber algún factor de confusión?
Sesgo de supervivencia, emprendedurismo, enfermedad mental Manipulación no etica - Reinhart Columbia
Cuando probamos la importancia a un nivel de 0.05, significa que hay un cinco por ciento de posibilidades de un falso positivo.
¿Qué pasa si probamos 20 efectos a la vez? Supongamos que tenemos 20 variables, todas las cuales sabemos que no tienen ningún efecto en nuestro resultado. Suponiendo que todos son independientes (lo que probablemente no lo sean), la probabilidad de que los 20 resultados sean negativos verdaderos es \(0.95^{20} = 0.358\)
Es decir, hay una probabilidad de 0.642 de al menos un falso positivo (es decir, rechazar la hipótesis nula cuando de hecho es verdadera). Entonces, incluso cuando SABEMOS que no hay efectos, todavía tenemos una buena posibilidad de encontrar algo que sea estadísticamente significativo.
Cómo se calculo la muestra, es confiable y precisa para los 20 parámetros, como se distribuye cada parámetro (un conteo, uno de exitos, uno normal), una muestra no sirve para todo.
La moraleja de la historia es: incluso si NO hay efectos, si arrojas suficientes variables, es casi seguro que encuentres un falso positivo.
Contrariamente a la creencia popular, las estadísticas NO son una ciencia exacta. Se trata de decisiones y suposiciones, y luego de justificarlas. Constantemente tenemos que tomar decisiones como …
y compruebe que se cumplen los supuestos comunes, como:
No se puede garantizar, sin ninguna duda, que lo anterior sea cierto, por lo tanto, tenemos que usar nuestro mejor juicio de los datos disponibles para descubrir si se han violado algunas suposiciones, y si es así, si debemos intentar corregirlo.
Al probar una hipótesis, verificamos si los datos se comportan como esperaríamos SI todas las suposiciones hechas fueran ciertas.
Cuando rechazamos la hipótesis nula, concluimos que una o más suposiciones son erróneas.
PERO si no hemos validado las suposiciones que hacemos en nuestra prueba, no podemos estar seguros de que la suposición que debería rechazarse sea la hipótesis nula; podría ser que los datos no se distribuyan normalmente, por ejemplo.
Tomado de Casino, G. (2013)