El análisis estadístico se divide en 2 grandes componentes: el análisis descriptivo y el análisis inferencial. Una inferencia es la elaboración de conclusiones a partir de las pruebas que se realizan con los datos obtenidos de una muestra. Las pruebas estadísticas se emplean con la finalidad de establecer la probabilidad de que una conclusión que se obtiene a partir de una muestra sea aplicable a la población de la cual se obtuvo.
Para elegir la prueba estadística es necesario tomar en cuenta 3 aspectos: el diseño de la investigación, el número de mediciones y la escala de medición de las variables.
Las pruebas estadísticas se dividen en 2 conjuntos: las paramétricas y las no paramétricas. Las pruebas paramétricas solamente se pueden utilizar si los datos muestran una distribución normal. La elección de la prueba estadística adecuada facilitará la comprensión y aplicación de los resultados de cualquier estudio de investigación.
¿Qué es la estidistica paramétrica?
Es una rama de la estadística inferencial que se basa en suposiciones sobre la distribución de probabilidad de los datos. Específicamente, asume que los datos provienen de poblaciones que siguen distribuciones conocidas, como la distribución normal, y que estas distribuciones pueden describirse mediante un conjunto finito de parámetros, como la media y la desviación estándar.
Aplicaciones:
-Comparar medias entre grupos.
-Evaluar relaciones lineales entre variables.
-Realizar pruebas de hipótesis cuando se cumplen los supuestos de normalidad y homogeneidad de varianzas.
¿Qué es la estadistica no paramétrica? Es una rama de la estadística que se enfoca en métodos y pruebas que no requieren suposiciones estrictas sobre la distribución de los datos. A diferencia de la estadística paramétrica, que asume que los datos siguen distribuciones específicas (como la normal), la estadística no paramétrica es más flexible y se aplica cuando no se conocen o no se cumplen estas suposiciones.
Aplicaciones:
La estadística no paramétrica se utiliza en situaciones donde los datos no cumplen con los supuestos necesarios para las pruebas paramétricas. Algunos ejemplos de pruebas no paramétricas incluyen:
-Prueba de Mann-Whitney: Utilizada para comparar dos muestras independientes cuando no se puede asumir normalidad.
-Prueba de Kruskal-Wallis: Extiende la prueba de Mann-Whitney para más de dos grupos independientes.
-Prueba de los rangos con signo de Wilcoxon: Empleada para comparar dos muestras relacionadas o pareadas.
# carga de paquetes
library(knitr)
diferencias <- data.frame(
Aspecto = c("Supuestos", "Tipo de Datos", "Tipo y tamaño de muestra", "Robustez", "Complejidad", "Ventajas", "Desventajas", "Ejemplos de Pruebas"),
Paramétricas = c(
"Requiere que los datos sigan una distribución normal y que las varianzas sean homogéneas.",
"Datos cuantitativos de nivel de intervalo o razón.",
"Aleatoria, >30 sujetos.",
"Sensible a violaciones de supuestos, como la no normalidad o heterocedasticidad.",
"Métodos y cálculos más complejos; interpretación más detallada.",
"Más eficiencia, poca probabilidad de errores.Sus estimaciones son exactas. Presentan sensibilidad a los rasgos de los datos recogidos. Muestras grandes.",
"Complejos de calcular.Presentan una limitación en los datos.",
"Prueba t de Student, ANOVA, regresión lineal."
),
No_Paramétricas = c(
"No asume una distribución específica de los datos.",
"Datos ordinales, nominales o cuantitativos sin supuestos de distribución.",
"No aleatoria, <30 sujetos.",
"Más robusta frente a violaciones de supuestos y presencia de valores atípicos.",
"Métodos más simples y directos; interpretación más intuitiva.",
"Empleada en diferentes situaciones porque no cumple con parámetros estrictos. Sus métodos son más afables. Se aplica en datos no numéricos.Muestras pequeñas.",
"No son sistemáticas.Complica seleccionar la elección correcta. Requiere fuentes y respaldo. Los formatos de aplicación son diferentes y protoca confusión. Probabilidad de errores.No hay exactitud.",
"Prueba de Mann-Whitney, prueba de Kruskal-Wallis, prueba de los rangos con signo de Wilcoxon."
)
)
# Tabla
kable(diferencias, caption = "Diferencias entre Pruebas Paramétricas y No Paramétricas")
| Aspecto | Paramétricas | No_Paramétricas |
|---|---|---|
| Supuestos | Requiere que los datos sigan una distribución normal y que las varianzas sean homogéneas. | No asume una distribución específica de los datos. |
| Tipo de Datos | Datos cuantitativos de nivel de intervalo o razón. | Datos ordinales, nominales o cuantitativos sin supuestos de distribución. |
| Tipo y tamaño de muestra | Aleatoria, >30 sujetos. | No aleatoria, <30 sujetos. |
| Robustez | Sensible a violaciones de supuestos, como la no normalidad o heterocedasticidad. | Más robusta frente a violaciones de supuestos y presencia de valores atípicos. |
| Complejidad | Métodos y cálculos más complejos; interpretación más detallada. | Métodos más simples y directos; interpretación más intuitiva. |
| Ventajas | Más eficiencia, poca probabilidad de errores.Sus estimaciones son exactas. Presentan sensibilidad a los rasgos de los datos recogidos. Muestras grandes. | Empleada en diferentes situaciones porque no cumple con parámetros estrictos. Sus métodos son más afables. Se aplica en datos no numéricos.Muestras pequeñas. |
| Desventajas | Complejos de calcular.Presentan una limitación en los datos. | No son sistemáticas.Complica seleccionar la elección correcta. Requiere fuentes y respaldo. Los formatos de aplicación son diferentes y protoca confusión. Probabilidad de errores.No hay exactitud. |
| Ejemplos de Pruebas | Prueba t de Student, ANOVA, regresión lineal. | Prueba de Mann-Whitney, prueba de Kruskal-Wallis, prueba de los rangos con signo de Wilcoxon. |
Las pruebas de normalidad son procedimientos estadísticos que verifican si una distribución de datos se ajusta a una distribución normal. Son importantes porque muchos procedimientos estadísticos asumen que los datos siguen una distribución normal, y usarlos con datos que no lo hacen puede dar resultados poco precisos o sesgados.
Para realizar una prueba de normalidad, se puede utilizar un método analítico o gráfico.
Análisis Gráficos:
Los métodos gráficos permiten una evaluación visual de la normalidad de los datos. Entre los más utilizados se encuentran:
-Histogramas: Muestran la frecuencia de los datos en intervalos específicos. Una distribución normal se representa como una curva en forma de campana simétrica.
-Gráficos de probabilidad normal (Q-Q plots): Comparan los cuantiles de los datos observados con los cuantiles de una distribución normal teórica. Si los puntos se alinean aproximadamente en una línea recta, sugiere que los datos siguen una distribución normal.
Métodos analíticos
Los métodos analíticos más comunes son la prueba de Kolmogorov-Smirnov, la prueba de Shapiro-Wilk y la prueba de Anderson-Darling. Para la prueba gráfica se utiliza un histograma o un diagrama Q-Q.
Además de los métodos gráficos, existen medidas numéricas que ayudan a evaluar la normalidad:
-Asimetría (Skewness): Mide la simetría de la distribución. Un valor de asimetría cercano a cero indica una distribución simétrica. Valores positivos indican asimetría a la derecha, mientras que valores negativos indican asimetría a la izquierda.
-Curtosis: Evalúa la “apuntación” o concentración de los datos alrededor de la media. Una curtosis de 3 corresponde a una distribución normal. Valores mayores que 3 indican una distribución leptocúrtica (pico más alto y colas más largas), mientras que valores menores que 3 indican una distribución platicúrtica (pico más bajo y colas más cortas).
Pruebas Estadísticas de Normalidad:
Existen diversas pruebas estadísticas diseñadas para evaluar la normalidad de los datos que se presentan:
-Prueba de Shapiro-Wilk: Es una de las pruebas más potentes para detectar desviaciones de la normalidad, especialmente en muestras pequeñas.
-Prueba de Kolmogorov-Smirnov (K-S): Compara la distribución acumulativa de los datos con una distribución normal teórica. Es más adecuada cuando los parámetros de la distribución teórica son conocidos.
-Prueba de Lilliefors: Es una adaptación de la prueba K-S que permite la estimación de los parámetros de la distribución teórica directamente de la muestra. Es útil cuando se desconocen la media y la desviación estándar de la población.
-Prueba de Anderson-Darling: Es sensible a las colas de la distribución y es útil para detectar desviaciones en las colas de la distribución normal.
El resultado de la prueba se indica con un valor p, que indica si se rechaza o no la hipótesis nula de que los datos están distribuidos normalmente. Si el valor p es menor que 0,05, se interpreta como una desviación significativa de la distribución normal.
Es importante destacar que un valor p mayor que 0.05 no confirma que los datos sean normales, sino que indica que no hay evidencia suficiente para rechazar la normalidad.
# Carga de paquetes necesarios
library(moments) # Para calcular asimetría y curtosis
library(nortest) # Para pruebas de normalidad adicionales
library(ggplot2) # Para visualización de gráficos
# Definición de las variables
a=(c(28, 26, 31, 21, 21, 32, 24, 26, 28, 30, 26, 23, 20, 28, 33, 28, 33, 23, 27, 31, 28, 29, 34, 32, 33))
b=(c(22, 29, 24, 24, 23, 23, 25, 23, 33, 28, 31, 23, 28, 28, 26, 30, 30, 28, 22, 19, 29, 18, 31, 28, 27))
c=(c(23, 26, 29, 28, 25, 19, 22, 27, 33, 22, 22, 22, 15, 19, 24, 25, 20, 25, 34, 21, 23, 18, 26, 26, 23))
d=(c(28, 28, 25, 25, 25, 30, 27, 28, 29, 28, 25, 28, 27, 28, 30, 25, 28, 28, 28, 30, 27, 25, 25, 28, 30))
e=(c(28, 27, 28, 25, 27, 28, 25, 27, 29, 27, 25, 25, 29, 29, 29, 28, 28, 25, 27, 28, 28, 25, 29, 25, 27))
f=(c(25, 28, 27, 29, 27, 25, 25, 25, 25, 27, 27, 28, 28, 25, 27, 27, 25, 25, 27, 28, 25, 28, 29, 25, 27))
# Función para evaluar la normalidad de una variable
evaluar_normalidad <- function(var, nombre) {
cat("\n\nAnálisis para la variable:", nombre, "\n")
cat("--------------------------------------------------\n")
# Estadísticas descriptivas
media= mean(var)
desviacion= sd(var)
asimetria= skewness(var)
curtosis= kurtosis(var) + 3 # Curtosis total
cat("Media:", media, "\n")
cat("Desviación estándar:", desviacion, "\n")
cat("Asimetría:", asimetria, "\n")
cat("Curtosis:", curtosis, "\n\n")
# Pruebas de normalidad
shapiro= shapiro.test(var)
lillie <- lillie.test(var)
ad <- ad.test(var)
cat("Prueba de Shapiro-Wilk: W =", shapiro$statistic, ", p-valor =", shapiro$p.value, "\n")
cat("Prueba de Lilliefors: D =", lillie$statistic, ", p-valor =", lillie$p.value, "\n")
cat("Prueba de Anderson-Darling: A =", ad$statistic, ", p-valor =", ad$p.value, "\n\n")
# Gráficos
par(mfrow = c(1, 2))
# Histograma con curva de densidad normal
hist(var, freq = FALSE, col = "lightblue", main = paste("Histograma de", nombre),
xlab = nombre, ylab = "Densidad")
curve(dnorm(x, mean = media, sd = desviacion), col = "red", lwd = 2, add = TRUE)
# Gráfico Q-Q
qqnorm(var, main = paste("Gráfico Q-Q de", nombre))
qqline(var, col = "red", lwd = 2)
par(mfrow = c(1, 1))
}
# Evaluar normalidad para cada variable
evaluar_normalidad(a, "a")
##
##
## Análisis para la variable: a
## --------------------------------------------------
## Media: 27.8
## Desviación estándar: 4.112988
## Asimetría: -0.3124437
## Curtosis: 5.094288
##
## Prueba de Shapiro-Wilk: W = 0.9476575 , p-valor = 0.2218966
## Prueba de Lilliefors: D = 0.1193915 , p-valor = 0.4738268
## Prueba de Anderson-Darling: A = 0.4099567 , p-valor = 0.31879
Aunque la curtosis sugiere una distribución con colas más pesadas que la normal (3), las pruebas estadísticas no proporcionan evidencia suficiente para rechazar la hipótesis de normalidad. Por lo tanto, se puede considerar que la variable a sigue una distribución aproximadamente normal. Sin embargo, es recomendable tener precaución en análisis posteriores que asuman normalidad estricta debido a la alta curtosis observada.
evaluar_normalidad(b, "b")
##
##
## Análisis para la variable: b
## --------------------------------------------------
## Media: 26.08
## Desviación estándar: 3.872123
## Asimetría: -0.2771581
## Curtosis: 5.293562
##
## Prueba de Shapiro-Wilk: W = 0.9616203 , p-valor = 0.4476826
## Prueba de Lilliefors: D = 0.1700006 , p-valor = 0.06046472
## Prueba de Anderson-Darling: A = 0.4432148 , p-valor = 0.2639096
Al igual que con la variable a, se puede considerar que la variable b sigue una distribución aproximadamente normal. Sin embargo, es recomendable tener precaución debido a la alta curtosis observada, ya que podría influir en análisis posteriores que asuman normalidad estricta.
evaluar_normalidad(c, "c")
##
##
## Análisis para la variable: c
## --------------------------------------------------
## Media: 23.88
## Desviación estándar: 4.361957
## Asimetría: 0.4178281
## Curtosis: 6.289485
##
## Prueba de Shapiro-Wilk: W = 0.9704529 , p-valor = 0.6565786
## Prueba de Lilliefors: D = 0.1134763 , p-valor = 0.5569022
## Prueba de Anderson-Darling: A = 0.316511 , p-valor = 0.5191958
La variable c sigue una distribución aproximadamente normal. Sin embargo, debido al valor de curtosis elevada, es recomendable tener precaución en análisis posteriores que asuman normalidad estricta debido a que podría interferir en los resultados.
evaluar_normalidad(d, "d")
##
##
## Análisis para la variable: d
## --------------------------------------------------
## Media: 27.4
## Desviación estándar: 1.755942
## Asimetría: -0.1602332
## Curtosis: 4.930972
##
## Prueba de Shapiro-Wilk: W = 0.8514513 , p-valor = 0.001876778
## Prueba de Lilliefors: D = 0.2337105 , p-valor = 0.001102371
## Prueba de Anderson-Darling: A = 1.489257 , p-valor = 0.0005814022
La alta curtosis y los resultados de las pruebas sugieren que la distribución de la variable d no es normal.
evaluar_normalidad(e, "e")
##
##
## Análisis para la variable: e
## --------------------------------------------------
## Media: 27.12
## Desviación estándar: 1.508863
## Asimetría: -0.3554607
## Curtosis: 4.742207
##
## Prueba de Shapiro-Wilk: W = 0.8403 , p-valor = 0.001159024
## Prueba de Lilliefors: D = 0.2001276 , p-valor = 0.01108366
## Prueba de Anderson-Darling: A = 1.492102 , p-valor = 0.0005718178
Del mismo modo, los resultados de las pruebas estadisticas y el valor alto de curtosis sugieren que la variable e no sigue una distribución normal.
evaluar_normalidad(f, "f")
##
##
## Análisis para la variable: f
## --------------------------------------------------
## Media: 26.56
## Desviación estándar: 1.416569
## Asimetría: 0.100246
## Curtosis: 4.637435
##
## Prueba de Shapiro-Wilk: W = 0.8272124 , p-valor = 0.0006702845
## Prueba de Lilliefors: D = 0.2646067 , p-valor = 8.945747e-05
## Prueba de Anderson-Darling: A = 1.838574 , p-valor = 7.573839e-05
La variable f sigue una distribución aproximadamente normal. Sin embargo, debido al valor de curtosis elevada, es recomendable tener precaución en análisis posteriores que asuman normalidad estricta debido a que podría interferir en los resultados.
Realice el análisis de varianza de los siguientes datos y exprese sus resultados según corresponda:
Grafico:
A = c(21, 26, 31, 23, 21, 30, 26, 24, 22, 19)
B = c(32, 30, 18, 27, 25, 28, 27, 27, 28, 22)
C = c(26, 20, 24, 27, 21, 28, 24, 27, 32, 32)
D = c(18, 30, 24, 27, 24, 21, 22, 22, 28, 29)
datos = data.frame(A, B, C, D)
library(knitr)
kable(datos, caption = "Tabla de Variables A, B, C y D")
| A | B | C | D |
|---|---|---|---|
| 21 | 32 | 26 | 18 |
| 26 | 30 | 20 | 30 |
| 31 | 18 | 24 | 24 |
| 23 | 27 | 27 | 27 |
| 21 | 25 | 21 | 24 |
| 30 | 28 | 28 | 21 |
| 26 | 27 | 24 | 22 |
| 24 | 27 | 27 | 22 |
| 22 | 28 | 32 | 28 |
| 19 | 22 | 32 | 29 |
Código para realizar el analisis de Anova:
# Cargar los datos
datos <- data.frame(
A = c(21, 26, 31, 23, 21, 30, 26, 24, 22, 19),
B = c(32, 30, 18, 27, 25, 28, 27, 27, 28, 22),
C = c(26, 20, 24, 27, 21, 28, 24, 27, 32, 32),
D = c(18, 30, 24, 27, 24, 21, 22, 22, 28, 29)
)
# Convertir los datos a formato largo
library(tidyr)
datos_largos <- gather(datos, key = "Variable", value = "Valor")
# Realizar el ANOVA
resultado_anova <- aov(Valor ~ Variable, data = datos_largos)
Dado que el valor p (0.535) es mayor que el nivel de significancia de 0.05, no se rechaza la hipótesis nula. No hay evidencia estadística suficiente para afirmar que existen diferencias significativas entre las medias de las variables A, B, C y D:
# Resumen del ANOVA
summary(resultado_anova)
## Df Sum Sq Mean Sq F value Pr(>F)
## Variable 3 34.9 11.62 0.74 0.535
## Residuals 36 565.9 15.72
La prueba de McNemar es una herramienta estadística utilizada para evaluar cambios en proporciones en datos pareados, especialmente útil en estudios antes y después o en diseños de casos y controles emparejados.
Problema: Supóngase que se quiere comprobar si un tratamiento de hipnosis es capaz de hacer que las personas contesten “Sí” con mayor frecuencia. Para ello se selecciona un grupo de individuos a los que se les realiza una pregunta cuya respuesta puede ser SI/NO antes y después de someterse al tratamiento de hipnosis.
datos <- data.frame(
sujeto = rep(1:15, each = 2),
tratamiento = c("pre", "post", "pre", "post", "pre", "post", "pre", "post", "pre",
"post", "pre", "post", "pre", "post", "pre", "post", "pre", "post",
"pre", "post", "pre", "post", "pre", "post", "pre", "post", "pre",
"post", "pre", "post"),
respuesta = c("NO", "SI", "SI", "SI", "NO", "SI", "SI", "NO", "SI", "SI", "NO",
"SI", "NO", "SI", "NO", "SI", "NO", "SI", "SI", "SI", "NO", "NO",
"SI", "SI", "NO", "SI", "NO", "NO", "NO", "SI")
)
# Crear tabla de contingencia
tabla_contingencia <- table(
pre = datos$respuesta[datos$tratamiento == "pre"],
post = datos$respuesta[datos$tratamiento == "post"]
)
# Realizar la prueba de McNemar
resultado <- mcnemar.test(tabla_contingencia)
# Mostrar resultados
print(resultado)
##
## McNemar's Chi-squared test with continuity correction
##
## data: tabla_contingencia
## McNemar's chi-squared = 4, df = 1, p-value = 0.0455
El resultado de la prueba de McNemar (0.0455) sugiere que sí hay diferencias estadísticamente significativas en la frecuencia de respuestras en las dos condiciones evaluadas en el estudio. Por lo tanto se rechaza la hipotesis nula y se acepta la hipotesis alternativa.
Sin embargo, es importante tener en cuenta que aunque el resultado es estadísticamente significativo, el valor p está muy cerca del nivel de significancia establecido. Esto implica que la evidencia contra la hipótesis nula es moderada.
El consejo de la ciudad de Tuxpan considera aumentar el número de policías en un esfuerzo para reducir los delitos. Antes de tomar una decisión final, el ayuntamiento pide al jefe de policía realizar una encuesta en otras ciudades de tamaño similar para determinar la relación entre el número de policías y el número de delitos reportados. El jefe de policía reunió la siguiente información muestral.
Ciudad <- c("Cd. Guzmán", "Zapotiltic", "Tamazula", "Huescalapa", "Contla", "Mazamitla", "Gómez Farías", "Sayula")
Policias <- c(2, 1, 3, 5, 6, 8, 5, 2)
Delitos <- c(6, 5, 6, 6, 6, 8, 5, 2)
datos <- data.frame(Ciudad, Policias, Delitos)
library(knitr)
kable(datos, caption = "Relación entre el número de policías y el número de delitos reportados.")
| Ciudad | Policias | Delitos |
|---|---|---|
| Cd. Guzmán | 2 | 6 |
| Zapotiltic | 1 | 5 |
| Tamazula | 3 | 6 |
| Huescalapa | 5 | 6 |
| Contla | 6 | 6 |
| Mazamitla | 8 | 8 |
| Gómez Farías | 5 | 5 |
| Sayula | 2 | 2 |
library(ggplot2)
library(knitr)
library(kableExtra)
datos <- data.frame(
Ciudad = c("Cd. Guzmán", "Zapotiltic", "Tamazula", "Huescalapa",
"Contla", "Mazamitla", "Gómez Farías", "Sayula"),
Policias = c(2, 1, 3, 5, 6, 8, 5, 2),
Delitos = c(6, 5, 6, 6, 5, 4, 7, 5)
)
El coeficiente de correlación de Pearson es una medida que indica la fuerza y dirección de la relación lineal entre dos variables. Su valor oscila entre -1 y 1, donde:
1: Indica una correlación positiva perfecta; a medida que una variable aumenta, la otra también lo hace proporcionalmente. 0: Indica ausencia de correlación lineal; no hay una relación lineal evidente entre las variables. -1: Indica una correlación negativa perfecta; a medida que una variable aumenta, la otra disminuye proporcionalmente.
# coeficiente de correlación de Pearson
correlacion <- cor(datos$Policias, datos$Delitos)
cat("Coeficiente de correlación de Pearson (r):", round(correlacion, 2), "\n")
## Coeficiente de correlación de Pearson (r): -0.26
El valor r de -0.26 indica una correlación negativa débil entre la cantidad de policias y el numero de delitos; lo que sugiere que, al aumentar el número de policías, el número de delitos tiende a disminuir ligeramente.
Diagrama de dispersión:
# diagrama de dispersión
ggplot(datos, aes(x = Policias, y = Delitos)) +
geom_point(color = "blue", size = 3) +
geom_smooth(method = "lm", col = "red", se = FALSE) +
labs(title = "Relación entre número de policías y número de delitos",
x = "Número de policías",
y = "Número de delitos") +
theme_minimal()
## `geom_smooth()` using formula = 'y ~ x'
Note that the echo = FALSE parameter was added to the
code chunk to prevent printing of the R code that generated the
plot.