Estadistica inferencial

Pasos para Realizar una Prueba Estadística

1. Formulación de Hipótesis:

Hipótesis Nula (H0): Es la afirmación que se quiere contrastar. Generalmente, establece que no hay efecto o diferencia.

Hipótesis Alterna (H1): Es la afirmación que se quiere probar. Generalmente, establece que sí hay un efecto o diferencia.

** 2. Recolección y Preprocesamiento de Datos:**

Recolección de datos: Asegúrate de tener una muestra representativa y suficiente. Limpieza de datos: Trata los datos faltantes y elimina los valores atípicos si es necesario.

Verificación de supuestos: Dependiendo de la prueba, asegúrate de que los datos cumplen ciertos supuestos (normalidad, homogeneidad de varianzas, independencia, etc.).

3. Elección de la Prueba Estadística:

Pruebas paramétricas: Suponen que los datos siguen una distribución específica (normalmente, distribución normal). Ejemplos: t-test, ANOVA, regresión lineal.

Pruebas no paramétricas: No suponen una distribución específica. Se usan cuando los datos no cumplen los supuestos de las pruebas paramétricas. Ejemplos: prueba de Wilcoxon, prueba de Kruskal-Wallis, correlación de Spearman. Ejecutar la Prueba Estadística:

4. Interpreta los resultados obtenidos.

Interpretación de Resultados:

Valor p: Compara el valor p con el nivel de significancia (α, usualmente 0.05). Si el valor p es menor que α, rechaza la hipótesis nula.

Conclusión: Basado en los resultados, concluye si hay suficiente evidencia para rechazar la hipótesis nula a favor de la hipótesis alterna.

Verificación de Supuestos Antes de realizar una prueba estadística, verifica los siguientes supuestos dependiendo de la prueba seleccionada:

Normalidad:

Verifica si los datos siguen una distribución normal. Métodos: Q-Q plot, prueba de Shapiro-Wilk, prueba de Kolmogorov-Smirnov.

Homogeneidad de Varianzas: Verifica si las varianzas entre los grupos son iguales.

Métodos: Prueba de Levene, prueba de Bartlett.

Independencia:

Asegúrate de que las observaciones sean independientes entre sí. Esto generalmente depende del diseño del experimento.

Escala de Medición:

Verifica si las variables son medidas en una escala adecuada (nominal, ordinal, intervalar, racional).

1. Planteamiento de la hipótesis

Hipótesis nula y alterna

Hipótesis nula (H0): Es la afirmación que se asume verdadera hasta que se demuestre lo contrario. Generalmente, indica que no hay efecto o diferencia.
Hipótesis alterna (H1): Es la afirmación que se quiere probar, generalmente indica que sí hay un efecto o diferencia.

2. Validar Normalidad

Generar datos

set.seed(123)
data <- rnorm(100)

Visualización

hist(data, main = "Histograma de los Datos", xlab = "Valores", ylab = "Frecuencia")

qqnorm(data)
qqline(data)

Prueba de Shapiro-Wilk

shapiro.test(data)

## 
##  Shapiro-Wilk normality test
## 
## data:  data
## W = 0.99388, p-value = 0.9349

\(H_0\): La distribución es normal

\(H_1\): La distribución no es normal,

El histograma y el Q-Q plot permiten visualizar si los datos se distribuyen normalmente. La prueba de Shapiro-Wilk ofrece un valor p. Si el valor p es mayor que 0.05, no se rechaza la hipótesis nula de que los datos siguen una distribución normal.

3 Pruebas estadisticos (paramétrico - no paramétrico)

T-test (paramétrico)

Plantear muy bien el problema

Hipótesis:

\(H_0\): Las medias de dos grupos son iguales.

\(H_1\): Las medias de dos grupos son diferentes.

*Generar datos

set.seed(123)
group1 <- rnorm(50, mean = 5)
group2 <- rnorm(50, mean = 6)

Prueba t de Student

t.test(group1, group2)

## 
##  Welch Two Sample t-test
## 
## data:  group1 and group2
## t = -6.0718, df = 97.951, p-value = 2.406e-08
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -1.4754485 -0.7485609
## sample estimates:
## mean of x mean of y 
##  5.034404  6.146408

ANOVA (paramétrico)

problema ¿por qué hay deserción estudiantil?

\(H_0\): contrastar \(H_1\): probar

Hipótesis:

\(H_0\): Todas las medias de los grupos son iguales.

\(H_1\): Al menos una media de grupo es diferente.

Generar datos

set.seed(123)
group1 <- rnorm(50, mean = 5)
group2 <- rnorm(50, mean = 6)
group3 <- rnorm(50, mean = 7)
data2 <- data.frame(value = c(group1, group2, group3),
  group = factor(rep(1:3, each = 50)))
data2

##        value group
## 1   4.439524     1
## 2   4.769823     1
## 3   6.558708     1
## 4   5.070508     1
## 5   5.129288     1
## 6   6.715065     1
## 7   5.460916     1
## 8   3.734939     1
## 9   4.313147     1
## 10  4.554338     1
## 11  6.224082     1
## 12  5.359814     1
## 13  5.400771     1
## 14  5.110683     1
## 15  4.444159     1
## 16  6.786913     1
## 17  5.497850     1
## 18  3.033383     1
## 19  5.701356     1
## 20  4.527209     1
## 21  3.932176     1
## 22  4.782025     1
## 23  3.973996     1
## 24  4.271109     1
## 25  4.374961     1
## 26  3.313307     1
## 27  5.837787     1
## 28  5.153373     1
## 29  3.861863     1
## 30  6.253815     1
## 31  5.426464     1
## 32  4.704929     1
## 33  5.895126     1
## 34  5.878133     1
## 35  5.821581     1
## 36  5.688640     1
## 37  5.553918     1
## 38  4.938088     1
## 39  4.694037     1
## 40  4.619529     1
## 41  4.305293     1
## 42  4.792083     1
## 43  3.734604     1
## 44  7.168956     1
## 45  6.207962     1
## 46  3.876891     1
## 47  4.597115     1
## 48  4.533345     1
## 49  5.779965     1
## 50  4.916631     1
## 51  6.253319     2
## 52  5.971453     2
## 53  5.957130     2
## 54  7.368602     2
## 55  5.774229     2
## 56  7.516471     2
## 57  4.451247     2
## 58  6.584614     2
## 59  6.123854     2
## 60  6.215942     2
## 61  6.379639     2
## 62  5.497677     2
## 63  5.666793     2
## 64  4.981425     2
## 65  4.928209     2
## 66  6.303529     2
## 67  6.448210     2
## 68  6.053004     2
## 69  6.922267     2
## 70  8.050085     2
## 71  5.508969     2
## 72  3.690831     2
## 73  7.005739     2
## 74  5.290799     2
## 75  5.311991     2
## 76  7.025571     2
## 77  5.715227     2
## 78  4.779282     2
## 79  6.181303     2
## 80  5.861109     2
## 81  6.005764     2
## 82  6.385280     2
## 83  5.629340     2
## 84  6.644377     2
## 85  5.779513     2
## 86  6.331782     2
## 87  7.096839     2
## 88  6.435181     2
## 89  5.674068     2
## 90  7.148808     2
## 91  6.993504     2
## 92  6.548397     2
## 93  6.238732     2
## 94  5.372094     2
## 95  7.360652     2
## 96  5.399740     2
## 97  8.187333     2
## 98  7.532611     2
## 99  5.764300     2
## 100 4.973579     2
## 101 6.289593     3
## 102 7.256884     3
## 103 6.753308     3
## 104 6.652457     3
## 105 6.048381     3
## 106 6.954972     3
## 107 6.215096     3
## 108 5.332058     3
## 109 6.619773     3
## 110 7.918997     3
## 111 6.424653     3
## 112 7.607964     3
## 113 5.382117     3
## 114 6.944438     3
## 115 7.519407     3
## 116 7.301153     3
## 117 7.105676     3
## 118 6.359294     3
## 119 6.150296     3
## 120 5.975871     3
## 121 7.117647     3
## 122 6.052525     3
## 123 6.509443     3
## 124 6.743908     3
## 125 8.843862     3
## 126 6.348050     3
## 127 7.235387     3
## 128 7.077961     3
## 129 6.038143     3
## 130 6.928692     3
## 131 8.444551     3
## 132 7.451504     3
## 133 7.041233     3
## 134 6.577503     3
## 135 4.946753     3
## 136 8.131337     3
## 137 5.539360     3
## 138 7.739948     3
## 139 8.909104     3
## 140 5.556107     3
## 141 7.701784     3
## 142 6.737803     3
## 143 5.427856     3
## 144 5.485332     3
## 145 5.398464     3
## 146 6.469093     3
## 147 5.538244     3
## 148 7.687917     3
## 149 9.100109     3
## 150 5.712970     3

Prueba anova:

anova_result <- aov(value ~ group, data = data2)
summary(anova_result)

##              Df Sum Sq Mean Sq F value   Pr(>F)    
## group         2  75.43   37.72    42.6 2.54e-15 ***
## Residuals   147 130.14    0.89                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Correlación de Pearson (paramétrico)

Hipótesis:

H0: No hay correlación entre las variables. H1: Hay correlación entre las variables.

# Generar datos
set.seed(123)
x <- rnorm(100)
y <- 2*x + rnorm(100)



# Correlación de Pearson
cor.test(x, y, method = "pearson")

## 
##  Pearson's product-moment correlation
## 
## data:  x and y
## t = 18.222, df = 98, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.8246011 0.9168722
## sample estimates:
##       cor 
## 0.8786993

Chi-cuadrado (no paramétrico)

Hipótesis:

H0: Las variables son independientes. H1: Las variables no son independientes.

# Generar datos
set.seed(123)
data <- matrix(c(20, 30, 30, 20), nrow = 2)

# Prueba chi-cuadrado
chisq.test(data)

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  data
## X-squared = 3.24, df = 1, p-value = 0.07186

Regresión lineal (paramétrico)

Hipótesis:

H0: La pendiente es cero (no hay relación lineal). H1: La pendiente no es cero (hay relación lineal).

# Generar datos
set.seed(123)
x <- rnorm(100)
y <- 2*x + rnorm(100)

# Regresión lineal
model <- lm(y ~ x)
summary(model)

## 
## Call:
## lm(formula = y ~ x)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -1.9073 -0.6835 -0.0875  0.5806  3.2904 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -0.10280    0.09755  -1.054    0.295    
## x            1.94753    0.10688  18.222   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.9707 on 98 degrees of freedom
## Multiple R-squared:  0.7721, Adjusted R-squared:  0.7698 
## F-statistic:   332 on 1 and 98 DF,  p-value: < 2.2e-16

Pruebas no paramétricas

No presentan una distribución normal de los datos.

Wilcoxon Rank-Sum Test (Mann-Whitney)

Hipótesis:

H0: Las distribuciones medianas de dos grupos son iguales. H1: Las distribuciones de dos grupos son diferentes.

# Generar datos
set.seed(123)
group1 <- rnorm(50, mean = 5)
group2 <- rnorm(50, mean = 6)

# Prueba de Wilcoxon (Mann-Whitney)
wilcox.test(group1, group2)

## 
##  Wilcoxon rank sum test with continuity correction
## 
## data:  group1 and group2
## W = 491, p-value = 1.705e-07
## alternative hypothesis: true location shift is not equal to 0

Kruskal-Wallis Test

Hipótesis:

H0: Las distribuciones de todos los grupos son iguales. H1: Al menos una distribución de grupo es diferente.

# Generar datos
set.seed(123)
group1 <- rnorm(50, mean = 5)
group2 <- rnorm(50, mean = 6)
group3 <- rnorm(50, mean = 7)
data <- data.frame(
  value = c(group1, group2, group3),
  group = factor(rep(1:3, each = 50))
)

# Prueba de Kruskal-Wallis
kruskal.test(value ~ group, data = data)

## 
##  Kruskal-Wallis rank sum test
## 
## data:  value by group
## Kruskal-Wallis chi-squared = 54.673, df = 2, p-value = 1.343e-12

Correlación de Spearman

Hipótesis:

H0: No hay correlación entre las variables. H1: Hay correlación entre las variables.

# Generar datos
set.seed(123)
x <- rnorm(100)
y <- 2*x + rnorm(100)

# Correlación de Spearman
cor.test(x, y, method = "spearman")

## 
##  Spearman's rank correlation rho
## 
## data:  x and y
## S = 24136, p-value < 2.2e-16
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##       rho 
## 0.8551695

Test de Fisher

Hipótesis:

H0: Las variables son independientes. H1: Las variables no son independientes.

# Generar datos
set.seed(123)
data <- matrix(c(1, 2, 3, 4), nrow = 2)

# Prueba de Fisher
fisher.test(data)

## 
##  Fisher's Exact Test for Count Data
## 
## data:  data
## p-value = 1
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
##   0.008512238 20.296715040
## sample estimates:
## odds ratio 
##   0.693793

Homegeneidad de los datos

leveneTest(value ~ group, data = data)

La salida de la prueba de Levene te dirá si las varianzas entre los grupos son iguales. Si el valor p es mayor que 0.05, no se rechaza la hipótesis nula de homogeneidad de varianzas.

bartlett.test(value ~ group, data = data) La salida de la prueba de Bartlett te dirá si las varianzas entre los grupos son iguales. Si el valor p es mayor que 0.05, no se rechaza la hipótesis nula de homogeneidad de varianzas.

Estadistica inferencial

Johana Zambrano;

2024-11-15

Estadistica inferencial

1. Planteamiento de la hipótesis

2. Validar Normalidad

Prueba de Shapiro-Wilk

3 Pruebas estadisticos (paramétrico - no paramétrico)

T-test (paramétrico)

Prueba t de Student

ANOVA (paramétrico)

Correlación de Pearson (paramétrico)

Chi-cuadrado (no paramétrico)

Regresión lineal (paramétrico)

Pruebas no paramétricas

Wilcoxon Rank-Sum Test (Mann-Whitney)

Kruskal-Wallis Test

Correlación de Spearman

Test de Fisher