INTRODUCCIÓN


Una variable categórica es aquella que puede tomar valores de dos o más categorías, sin un orden intrínseco entre ellas. Ejemplos: género, color, grupo de edad, nivel educativo, grupo sanguíneo, etc.

El análisis de datos categóricos generalmente involucra estudiar la proporción de “éxitos” en una población dada. Esto puede consistir en estimar un único parámetro, comparar dos parámetros o investigar la posible relación entre dos o más variables categóricas. Algunos ejemplos de aplicación son:

  • Cálculo de proporciones

  • Estudio de relación entre dos variables categóricas

  • Determinar si una proporción observada de eventos se corresponden con la proporción esperada

  • Evaluar si la diferencia de proporciones de un determinado evento o característica entre dos poblaciones es significativamente distinta

Las proporciones muestrales puden ajustarse a una distribución normal cuando se satisfacen ciertas condiciones, haciendo posible emplear los tests de hipótesis e intervalos de confianza. En otros casos, como aquellos con tablas de contingencia o cuando el tamaño muestral es pequeño, se hace uso de otras distribuciones.


DISTRIBUCIÓN BINOMIAL


La distribución binomial describe la probabilidad de obtener exactamente \(\small{k}\) éxitos en una secuencia de \(\small{n}\) experimentos independientes de Bernoulli con probabilidad de éxito \(\small{p}\) constante. La probabilidad de éxito de un solo caso vendría dada por

\(\small{p^k(1-p)^{n-k}}\)


por lo que la probabilidad de observar exactamente \(\small{k}\) éxitos en \(\small{n}\) experimentos independientes viene dado por

\(\small{{n \choose k}p^k(1-p)^{n-k} = \frac{n!}{k!(n-k)!}p^k(1-p)^{n-k}}\)


donde la media y varianza del número de éxitos observados sería

\(\small{\mu = np}\)

\(\small{σ^2 = np(1-p)}\)


Una distribución binomial difiere de una distribución normal, pero dada un tamaño muestral lo suficientemente grande, la forma de ambas puede llegar a asemejarse. Aun así, una distribución binomial es discreta, no continua, porque solo tiene en cuenta dos estados (0 o 1).


Condiciones


Para comprobar que el modelo binomial es apropiado, asegurarse que:

  1. Los experimentos son independientes

  2. El número de experimentos, \(\small{n}\) es fijo

  3. El resultado de cada experimento puede clasificarse como “éxito” o “fracaso”

  4. La probabilidad de “éxito” \(\small{p}\) es la misma para cada experimento


TEST DE HIPÓTESIS PARA UNA PROPORCIÓN


En el caso de variables de Bernoulli o dicotómicas con solo dos posibles valores, éxito/evento (1) o fracaso/no evento (0), y dada una muestra aleatoria \(\small{n}\) de la población a estudiar, la proporción muestral se corresponderá con la media muestral de los eventos exitosos respecto al total de casos:


\(\small{\hat{p} = \frac{X_{exitos}}{n}}\)


donde \(\small{X}\) es una variable aleatoria que mide el número de “éxitos”.

La distribución de este estimador \(\small{\hat{p}}\) de la verdadera proporción poblacional sigue una distribución binomial discreta, que es la distribución que explica el comportamiento de una sucesión de variables de Bernoulli. Sin embargo, si el valor de \(\small{n}\) es suficientemente alto y \(\small{p}\) no adquiere valores extremos próximos a 0 o 1, su distribución se puede aproximar a una distribución normal si se cumplen las siguientes condiciones:

  • Las muestras son independientes (muestreo aleatorio de < 10% de la población)

  • El número de “éxitos” y “fracasos” son de al menos 10 cada uno. Esto es, \(\small{np ≥ 10}\) y \(\small{n(1-p) ≥ 10}\). A esto se le conoce como la “success-failure condition”, y refleja el hecho de que la aproximación normal es más precisa cuando \(\small{p}\) se acerca a 0’5, y menos cuando toma valores cercanos a 0 o 1.

Bajo estas condiciones, el error estándar (SE) y el intervalo de confianza pueden ser calculados mediante:


\(\small{SE_{\hat{p}} = \sqrt{\frac{p_0(1-p_0)}{n}}}\)

\(\small{\hat{p} ± z_{1-\alpha/2} · SE_{\hat{p}}}\)


donde \(\small{p_0}\) es el valor de \(\small{p}\) poblacional considerado verdadero en la hipótesis nula, \(\small{z_{1-\alpha/2}}\) es el cuantil de una distribución normal tipificada \(\small{N = (0 ,1)}\) y \(\small{z_{1-\alpha/2} · SE_{\hat{p}}}\) es el margen de error (\(\small{ME}\)).

Por lo general no podemos conocer la verdadera proporción \(\small{p}\), por lo que utilizamos \(\small{\hat{p}}\) para comprobar las condiciones y calcular el error estándar del estimador. Para los test de hipótesis utilizamos el valor nulo (establecido en \(\small{H_0}\)) en el lugar de \(\small{p}\).

Para hacer inferencia sobre la proporción poblacional cuando aproximamos la distribución binomial a una normal, calculamos el \(\small{Z}\) score como estandarización de la proporción muestral \(\small{\hat{p}}\) y a partir de él obtener la probabilidad de que ocurran valores igual o más extremos que los observados:


\(\small{Z = \frac{\hat{p}-p_0}{SE_{\hat{p}}}}\)


Ejercicio


En torno al 75% de un conjunto de pacientes cree que ha enfermado de gripe. Determina si las siguientes afirmaciones son verdaderas o falsas:

a) La distribución de la proporción muestral de pacientes que creen estar enfermos en muestras de 20 pacientes está sesgada hacia la izquierda.

Empezaremos comprobando la condición “success-failure”:


Éxitos esperados: \(\small{np = 20 · 0,75 = 15}\)

Fracasos esperados: \(\small{n(1-p) = 20 · (1-0,75) = 5}\)


La condición de tener al menos 10 éxitos y 10 fracasos no se cumple, por lo que la distribución de \(\small{\hat{p}}\) no puede aproximarse a una normal. El valor de \(\small{\hat{p}}\) es más próximo a 1 que a 0, por lo que esperaremos una distribución sesgada hacia la izquierda. Podemos obtener la representación de la distribución para confirmarlo:

# Funcion para grafical una distribucion binomial dada una proporcion muestral p
# y un tamanho muestral n
binomial_distribution <- function(n, p){
  x <- dbinom(x = 0:n, prob = p, size = n)
  barplot(x, names.arg = 0:n, main = "Distribución muestral (p = 0.77)")
}

binomial_distribution(20, 0.75)


b) Una muestra aleatoria de 55 pacientes donde el 80% crea que ha enfermado es poco común.

Calcularemos el \(\small{Z}\) score para comprobar esta afirmación:


\(\small{SE_{\hat{p}} = \sqrt{\frac{p_0(1-p_0)}{n}}=\sqrt{\frac{0,75·0,25}{55}}=0,0583}\)

\(\small{Z = \frac{0.8-0,75}{0,0583}=0,857}\)


Una \(\small{\hat{p}}\) de 0,8 se encuentra a 0,857 errores estándar de la media (<2), por lo que no se consideraría inusual esta muestra.


Ejemplo manual y en R


El problema que se plantea es el siguiente: Una encuesta llevada a cabo sobre una muestra aleatoria simple de 1405 adultos muestra que el 55% de ellos ha sentido efectos secundarios al tomar un medicamento. Elaborar un test de hipótesis para determinar si estos datos proporcionan una evidencia importante de que la mayoría de encuestados ha sentido efectos secundarios. Obtener el intervalo de confianza del 95%.

Según este problema, el resultado de la encuesta puede ser considerado como verdadero o falso. Se trata por tanto de una variable de Bernoulli cuyo conjunto sigue una distribución binomial.


1. Hipótesis


\(\small{H_0}\): \(\small{p_0 = 0,5}\) (el 50% de los encuestados ha sentido efectos secundarios, no hay mayoría ni minoría)

\(\small{H_A}\): \(\small{p_0 > 0,5}\) (la mayoría de encuestados, más del 50%, ha experimentado efectos secundarios)


2. Estadístico


Utilizamos la proporción observada en la muestra, \(\small{\hat{p} = 0,55}\), como estimador insesgado de la verdadera proporción poblacional \(\small{p}\).


3. Condiciones para la aproximación a una normal


Independencia: la muestra es aleatoria, y \(\small{n}\) = 1405 < 10% de todos los ciudadanos.

Tamaño mínimo de éxitos-fracasos esperados según \(\small{H_0}\):

Éxitos esperados = \(\small{np_0 = 1405 · 0,5 = 702,5 >10}\)

Fracasos esperados = \(\small{n(1-p_0)=1405·(1-0,5)=702,5 >10}\)


Las condiciones para aproximar la distribución binomial de esta variable de Bernoulli a un modelo normal se cumplen.


4. Límite de significancia


\(\small{\alpha = 0,05}\)


5. Test estadístico y p-valor


A continuación, calculamos el test estadístico \(\small{Z}\) y el p-valor con un límite de significancia α = 0,05, utilizando como estadístico la proporción muestral observada \(\small{\hat{p} = 0,55}\) y sabiendo que la proporción de éxitos según la hipótesis nula es \(\small{p_0 = 0,5}\).


\(\small{Z = \frac{\hat{p}-p_0}{SE_{\hat{p}}}= \frac{0,55-0,5}{\sqrt{\frac{0,5·0,5}{1405}}}=3,748}\)


El p-valor asociado será igual a \(\small{P(Z>3,748)}\):

# P(Z>3,748) en base a una distribucion normal
pnorm(q = 3.748, mean = 0, sd = 1, lower.tail = FALSE)
## [1] 8.912513e-05


Dado que el p-valor < 0,05, se rechaza la hipótesis nula. Los datos, pues, muestran evidencias significativas de que la mayoría (>50%) de encuestados han sido afectados por efectos secundarios tras la toma de una medicación.


6. Intervalo de confianza


Para calcular el intervalo de confianza, debemos volver a comprobar la condición de tamaño mínimos de éxitos-fracasos utilizando esta vez la proporción muestral \(\small{\hat{p}=0,55}\):

Éxitos esperados = \(\small{n\hat{p} = 1405 · 0,55 = 772,75 >10}\)

Fracasos esperados = \(\small{n(1-\hat{p})=1405·(1-0,55) = 632,25 >10}\)


La condición se cumple, por lo que podemos proceder a calcular el intervalo de confianza del 95%:

\(\small{SE_{\hat{p}} = \sqrt{\frac{p_0(1-p_0)}{n}}=\sqrt{\frac{0,5(1-0,5)}{1405}}=0,0133}\)

\(\small{\hat{p} ± z_{1-\alpha/2} · SE_{\hat{p}}=0,55±1,96·0,0133=(0'52, 0'57)}\)


Podemos star un 95% seguros de que en torno a un 52 – 57% de todos los encuestados han sufrido efectos secundarios.


R


El mismo problema puede solucionarse automáticamente con la función prop.test(). Esta función puede usarse para evaluar la hipótesis nula de que la proporción (probabilidad de éxito) es igual en varios grupos, o que igualan determinados valores. Calcula también el intervalo de confianza. Sus argumentos son:

  • x: vector de número de éxitos, tabla unidimensional con dos entradas, o tabla bidimensional (o matriz) con 2 columnas dando el recuento de éxitos y fracasos respectivamente.

  • n: tamaño muestral

  • p: probabilidad de éxito

  • alternative: especifica la hipótesis alternativa (“two.sided” (predeterminado), “greater” or “less”)

  • conf.level: nivel de confianza (entre 0 y 1)

  • correct: vector lógico para aplicar la corrección de continuidad de Yates si el tamaño muestral es pequeño

prop.test(x = 0.55 * 1405, n = 1405, p = 0.5, alternative = "greater", 
          conf.level = 0.95, correct = FALSE)
## 
##  1-sample proportions test without continuity correction
## 
## data:  0.55 * 1405 out of 1405, null probability 0.5
## X-squared = 14.05, df = 1, p-value = 8.901e-05
## alternative hypothesis: true p is greater than 0.5
## 95 percent confidence interval:
##  0.5280935 1.0000000
## sample estimates:
##    p 
## 0.55


Tamaño muestral para un máximo margen de error


A la hora de llevar a cabo un estudio nos puede interesar escoger un tamaño muestral que nos permita estimar el parámetro poblacional \(\small{p}\) con un determinado margen de error \(\small{m}\). El margen de error es la parte que añadimos y sustraemos al estadístico \(\small{\hat{p}}\) cuando calculamos el intervalo de confianza. Podemos calcular el tamaño muestral necesario \(\small{n}\) para no superar un determinado margen de error \(\small{m}\):

\(\small{m≥z_{1-\alpha/2} · \sqrt{\frac{p_0(1-p_0)}{n}}}\)


Para ello necesitamos disponer de antemano del valor de la proporción muestral de éxitos \(\small{\hat{p}}\). Sin embargo, este valor raramente lo conoceremos ya que este cálculo se realiza antes de llevar a cabo el experimento. Dos posibles maneras de obtener este valor serían: - Utilizar una supuesta \(\small{\hat{p}}\) derivada de estudios anteriores - Utilizar \(\small{\hat{p}=0.5}\). Con este valor, el margen de error es máximo, por lo que si obtenemos cualquier otro \(\small{\hat{p}}\) al realizar el estudio, obtendremos un margen de error menor.


Ejemplo


Nos interesa estimar la proporción de estudiantes que fuman en una universidad. De una muestra aleatoria de 190 estudiantes, 35 fuman. Calcular el tamaño muestral necesario para no superar un margen de error de más del 2% (0,02) para la proporción de estudiantes fumadores a un nivel de confianza del 95%.

El estadístico muestral será: \(\small{\hat{p}=35/190=0,184}\)

Utilizando \(\small{Z = 1,96}\) y \(\small{\hat{p}=0,184}\), calculamos el tamaño muestral:

\(\small{0,02 ≥ 1,96 · \sqrt{\frac{0,184(1-0,184)}{n}} => 0,02^2 ≥ 1,96^2 · \frac{0,15}{n} => n ≥ 1440}\)


Se necesitan 1440 participantes o más para asegurar que la proporción muestral está dentro de un margen de 0,02.


TEST DE HIPÓTESIS PARA DOS PROPORCIONES


Dadas dos poblaciones independientes en las que se estudia la misma variable dicotómica, cada una con sus correspondientes eventos verdaderos \(\small{p_1}\) y \(\small{p_2}\), podemos llevar a cabo los procedimientos de inferencia a la diferencia de dichas proporciones identificando el estadístico muestral de interés como la diferencia entre las dos proporciones muestrales (\(\small{\hat{p_1}-\hat{p_2}}\)).


Tamaño muestral grande


En escenarios donde el tamaño muestral es lo suficientemente grande, podemos comprobar si se cumplen las condiciones para aproximar esta diferencia a una distribución normal:

  1. Las muestras de cada población \(\small{n_1}\) y \(\small{n_2}\) son independientes (muestra aleatoria de menos del 10% de la población)

  2. Cada proporción por separado sigue se ajusta a un modelo normal (comprobar la condición de éxitos-fracasos usando la proporción muestral de cada población). Cuando las muestras son grandes, la distribución de \(\small{\hat{p_1}-\hat{p_2}}\) es aproximadamente normal.

Pooled estimate: Si en la hipótesis nula se considera, en lugar de una diferencia, la igualdad de proporciones de un evento entre las dos poblaciones (\(\small{\hat{p_1}=\hat{p_2}}\) o \(\small{\hat{p_1}-\hat{p_2}=0}\)), se recomienda emplear un estimador conjunto de ambas proporciones muestrales:

\(\small{\hat{p}_{pooled} = \frac{\hat{p_1}n_1+\hat{p_1}n_2}{n_1+n_2}}\)


Cumplidas las condiciones para aproximar a una normal, es decir, suponiendo que la distribución de la diferencia de proporciones sigue una distribución normal con media 0 (valor nulo) y desviación estándar igual al error estándar del estimador, el error estándar e intervalo de confianza se calcularían como:

\(\small{SE_{\hat{p_1}-\hat{p_2}} = \sqrt{\frac{\hat{p_1}(1-\hat{p_1})}{n_1}+\frac{\hat{p_2}(1-\hat{p_2})}{n_2}}}\)

\(\small{CI = (\hat{p_1}-\hat{p_2}) ± z_{1-\alpha/2} · SE_{\hat{p_1}-\hat{p_2}}}\)


El estadístico \(\small{Z}\) para la prueba de significancia se calcula como:

\(\small{Z = \frac{(\hat{p_1}-\hat{p_2})-H_0}{SE_{\hat{p_1}-\hat{p_2}}}}\)


Ejemplo manual y en R


Ejemplo obtenido del libro Open Intro Statistics (2nd Edition): Researchers studying the link between prenatal vitamin use and autism surveyed the mothers of a random sample of children aged 24 – 60 months with autism and conducted another separate random sample for children with typical development. The table below shows the number of mothers in each group who did and did not use prenatal vitamins during the three months before pregnancy. Complete the hypothesis test and state an appropriate conclusion.


1. Hipótesis


\(\small{H_0}\): \(\small{p_v - p_{nv}=0}\) (No hay diferencias en las proporciones de hijos con autismo de madres que tomaron o no vitaminas prenatales)

\(\small{H_A}\): \(\small{p_v - p_{nv}≠0}\) (Existen diferencias en las proporciones de hijos con autismo de madres que tomaron o no vitaminas prenatales)


2. Estadístico


\(\small{\hat{p}_v - \hat{p}_{nv} = (111/181)-(143/302) = 0,61-0,47 = 0,14}\)


3. Condiciones para la aproximación a una normal


Independencia: la muestra es aleatoria, y podemos asumir que 254 y 229 es un valor inferior al 10% de todas las madres de niños con autismo y con desarrollo normal.

Éxitos-fracasos: primero necesitamos calcular \(\small{p_{pooled}}\) y usar este estadístico muestral para calcular el número de éxitos y fracasos esperados en cada grupo:

\(\small{\hat{p}_{pooled} = \frac{\hat{p_v}+\hat{p_{nv}}}{n_v+n_{nv}}=\frac{111+143}{181+302}=0,53}\)


\(\small{181·0,53=95,93 >10}\)

\(\small{181·0,47=85,07 >10}\)

\(\small{302·0,53=160,03 >10}\)

\(\small{302·0,47=141,94 >10}\)


Las condiciones para que la distribución de \(\small{\hat{p_n}-\hat{p_{nv}}}\) se aproxime a una distribución normal se cumplen.


4. Límite de significancia


\(\small{\alpha = 0,05}\)


5. Test estadístico y p-valor


\(\small{Z = \frac{(\hat{p_v}-\hat{p_{nv}})-H_0}{\sqrt{\frac{\hat{p}\hat{q}}{n_v}+\frac{\hat{p}\hat{q}}{n_{nv}}}}=\frac{(0,61-0,47)-0}{\sqrt{\frac{0,53·0,47}{181}+\frac{0,53·0,47}{302}}}=\frac{0,14}{0,046}=3,04}\)


El p-valor asociado se calcula como dos veces el área de la cola derecha de la distribución, ya que la diferencia puede ir en ambos sentidos:

2 * pnorm(q = 3.04, mean = 0, sd = 0.046, lower.tail = FALSE)
## [1] 0


R


El mismo análisis para determinar diferencias entre proporciones de dos poblaciones se puede realizar con la función prop.test():

prop.test(x = c(111, 143), n = c(181, 302), alternative = "two.side",
          conf.level = 0.95,  correct = FALSE)
## 
##  2-sample test for equality of proportions without continuity
##  correction
## 
## data:  c(111, 143) out of c(181, 302)
## X-squared = 8.8647, df = 1, p-value = 0.002907
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  0.04916982 0.23032965
## sample estimates:
##    prop 1    prop 2 
## 0.6132597 0.4735099


Siendo \(\small{\alpha}\) < 0,05, hay evidencias significativas de que la proporción de hijos con autismo entre madres que tomaron y no tomaron las vitaminas es distinta.


Tamaño muestral pequeño


Cuando el tamaño muestral es relativamente pequeño y no se puede aceptar la condición de un mínimo de 10 éxitos y fracasos para aproximar la distribución a una normal, podemos optar por utilizar técnicas de remuestreo o test de simulación. Estos test estadísticos no paramétricos pueden utilizarse para evaluar hipótesis sobre los efectos de tratamientos cuando las unidades de experimentación se han asignado aleatoriamente a dichos tratamientos.

En esta sección se ejemplifica el uso del test de permutación. Importante: en casos de comparar dos proporciones esta simulación requiere que la diferencia de la hipótesis nula sea 0. El objetivo también es determinar si ambos grupos poseen distribuciones idénticas.


Test de permutación


El test de permutación es un tipo de test de significancia estadística en la que la distribución del estadístico bajo la hipótesis nula se obtiene calculando todos los posibles valores de dicho estadístico mediante reasignaciones de las etiquetas sobre los datos observados. Para el escenario de comparar dos proporciones, equivaldría al test exacto de Fisher.

Los pasos seguidos por el test de permutación, dados dos grupos de tamaño \(\small{n_1}\) y \(\small{n_2}\), son:

  1. Calcular la diferencia de proporciones (\(\small{\hat{p_1}-\hat{p_2}}\)) de los dos grupos. Este corresponde al valor observado del estadístico.

  2. Combinar las observaciones de ambos grupos en uno solo, obviando el grupo de origen.

  3. Muestrear observaciones del conjunto y asignar a cada grupo o tratamiento con la misma probabilidad original (mismo número de observaciones que el grupo original) y volver a calcular el estadístico como la diferencia de proporciones.

  4. Repetir los tres pasos anteriores para obtener todas las posibles permutaciones de los datos, esto es, todas las posibilidades de asignar las observaciones a los dos grupos originales. El conjunto de estas diferencias forman la distribución exacta de posibles diferencias (para la muestra estudiada) bajo la hipótesis nula.

  5. Obtener el p-valor a partir de la distribución del conjunto de estadísticos obtenidos en cada permutación. Se calcula como la proporción de permutaciones muestrales donde la diferencia de proporciones es igual o mayor al estadístico observado.


Ejemplo


*Para determinar si una persona puede ser influenciada inconscientemente a bostezar si otra persona cerca de ella bosteza, se diseña un experimento donde un conjunto de 50 personas se asignan aleatoriamente a dos grupos: tratamiento donde una persona situada cerca bosteza, y otro grupo control donde nadie a la vista bosteza. Los resultados obtenidos son los siguientes:


En esta situación, la hipótesis nula y alternativa corresponden a

\(\small{H_0: p_{tratamiento} = p_{control}}\)

\(\small{H_A: p_{tratamiento} > p_{control}}\)


La diferencia entre tratamientos o estadístico observado sería

\(\small{p_{tratamiento} - p_{control} = (10/34)-(4/16) = 0,04}\)


Utilizando el \(\small{\hat{p}_{pooled}}\) vemos que no se cumple la condición de un mínimo de 10 “éxitos” y “fracasos”:

\(\small{\hat{p}_{pooled} = \frac{10+24}{14+36}=0,68}\)


\(\small{14·0,68=9,52 <10}\)

\(\small{14·0,32=4,48 <10}\)

\(\small{36·0,68=24,48 >10}\)

\(\small{36·0,32=11,52 >10}\)


Aplicaremos un test de permutación para estudiar la distribución del estadístico bajo el supuesto de independencia y comprobar la hipótesis de que el bostezo de una persona no influye en que otra también lo haga. Una de las funciones disponibles en R es la función twoSamplePermutationTestProportion(). Sus argumentos principales son:

  • x, y: vectores de las observaciones de cada grupo. Cada grupo solo puede presentar dos valores.

  • x.and.y: string para indicar el tipo de datos contenidos en los vectores x e y.

  • alternative: string para indicar el tipo de hipótesis alternativa


Procederemos generando 14 observaciones de una distribución binomial para el grupo “Yawn” o bostezo, y 36 para el grupo “Not Yawn” o no bostezo, utilizando sus repectivas probabilidades. Sobre estas distribuciones aplicaremos el test de permutación. Como la hipótesis alternativa establece que la proporción de individuos que bostezan es mayor cuando hay alguien cerca bostezando, indicaremos el argumento alternative = "greater":

library(EnvStats)

# Generamos las observaciones de cada grupo a partir de una distribucion binomial
set.seed(13) 
  tratamiento <- rbinom(34, size = 1, prob = 10/34) 
  control <- rbinom(16, size = 1, prob = 4/16) 

  test_permutacion <- twoSamplePermutationTestProportion(
    x = tratamiento, y = control,
    x.and.y = "Binomial Outcomes", 
    alternative = "greater"
    )

  test_permutacion
## 
## Results of Hypothesis Test
## --------------------------
## 
## Null Hypothesis:                 p.x - p.y = 0
## 
## Alternative Hypothesis:          True p.x - p.y is greater than 0
## 
## Test Name:                       Two-Sample Permutation Test
##                                  Based on Differences in Proportions
##                                  (Fisher's Exact Test)
## 
## Estimated Parameter(s):          p.hat.x = 0.2647059
##                                  p.hat.y = 0.1875000
## 
## Data:                            x = tratamiento
##                                  y = control    
## 
## Sample Sizes:                    nx = 34
##                                  ny = 16
## 
## Test Statistic:                  p.hat.x - p.hat.y = 0.07720588
## 
## P-value:                         0.4137903
  plot(test_permutacion)


El estadístico del test obtenido a partir de las probabilidades estimadas de cada grupo es de 0’07, muy próximo al observado (0’04). El gráfico del test muestra la distribución de la frecuencia relativa de cada diferencia de proporciones (p.hat.x - p.hat.y) en cada permutación realizada. El p-valor obtenido es de 0’413, por lo que no rechazamos la hipótesis nula.


BIBLIOGRAFÍA


Open Intro Statistics by David M Diez, Christopher D Barr, Mine Çetinkaya-Rundel

Rand Wilcox, in Introduction to Robust Estimation and Hypothesis Testing (Fourth Edition), 2017


Shield: CC BY 4.0

This work by Cristina Gil Martínez is licensed under a Creative Commons Attribution 4.0 International License.

CC BY 4.0