1. Estadística paramétrica y no paramétrica

El análisis estadístico se divide en 2 grandes componentes: el análisis descriptivo y el análisis inferencial. Una inferencia es la elaboración de conclusiones a partir de las pruebas que se realizan con los datos obtenidos de una muestra. Las pruebas estadísticas se emplean con la finalidad de establecer la probabilidad de que una conclusión que se obtiene a partir de una muestra sea aplicable a la población de la cual se obtuvo.

Para elegir la prueba estadística es necesario tomar en cuenta 3 aspectos: el diseño de la investigación, el número de mediciones y la escala de medición de las variables.

Las pruebas estadísticas se dividen en 2 conjuntos: las paramétricas y las no paramétricas. Las pruebas paramétricas solamente se pueden utilizar si los datos muestran una distribución normal. La elección de la prueba estadística adecuada facilitará la comprensión y aplicación de los resultados de cualquier estudio de investigación.

¿Qué es la estidistica paramétrica?

Es una rama de la estadística inferencial que se basa en suposiciones sobre la distribución de probabilidad de los datos. Específicamente, asume que los datos provienen de poblaciones que siguen distribuciones conocidas, como la distribución normal, y que estas distribuciones pueden describirse mediante un conjunto finito de parámetros, como la media y la desviación estándar.

Aplicaciones:

-Comparar medias entre grupos.

-Evaluar relaciones lineales entre variables.

-Realizar pruebas de hipótesis cuando se cumplen los supuestos de normalidad y homogeneidad de varianzas.

¿Qué es la estadistica no paramétrica? Es una rama de la estadística que se enfoca en métodos y pruebas que no requieren suposiciones estrictas sobre la distribución de los datos. A diferencia de la estadística paramétrica, que asume que los datos siguen distribuciones específicas (como la normal), la estadística no paramétrica es más flexible y se aplica cuando no se conocen o no se cumplen estas suposiciones.

Aplicaciones:

La estadística no paramétrica se utiliza en situaciones donde los datos no cumplen con los supuestos necesarios para las pruebas paramétricas. Algunos ejemplos de pruebas no paramétricas incluyen:

-Prueba de Mann-Whitney: Utilizada para comparar dos muestras independientes cuando no se puede asumir normalidad.

-Prueba de Kruskal-Wallis: Extiende la prueba de Mann-Whitney para más de dos grupos independientes.

-Prueba de los rangos con signo de Wilcoxon: Empleada para comparar dos muestras relacionadas o pareadas.

# carga de paquetes
library(knitr)

diferencias <- data.frame(
  Aspecto = c("Supuestos", "Tipo de Datos", "Tipo y tamaño de muestra", "Robustez", "Complejidad", "Ventajas", "Desventajas", "Ejemplos de Pruebas"),
  Paramétricas = c(
    "Requiere que los datos sigan una distribución normal y que las varianzas sean homogéneas.",
    "Datos cuantitativos de nivel de intervalo o razón.",
    "Aleatoria, >30 sujetos.",
    "Sensible a violaciones de supuestos, como la no normalidad o heterocedasticidad.",
    "Métodos y cálculos más complejos; interpretación más detallada.",
    "Más eficiencia, poca probabilidad de errores.Sus estimaciones son exactas. Presentan sensibilidad a los rasgos de los datos recogidos. Muestras grandes.",
    "Complejos de calcular.Presentan una limitación en los datos.",
    "Prueba t de Student, ANOVA, regresión lineal."
  ),
  No_Paramétricas = c(
    "No asume una distribución específica de los datos.",
    "Datos ordinales, nominales o cuantitativos sin supuestos de distribución.",
    "No aleatoria, <30 sujetos.",
    "Más robusta frente a violaciones de supuestos y presencia de valores atípicos.",
    "Métodos más simples y directos; interpretación más intuitiva.",
    "Empleada en diferentes situaciones porque no cumple con parámetros estrictos. Sus métodos son más afables. Se aplica en datos no numéricos.Muestras pequeñas.",
    "No son sistemáticas.Complica seleccionar la elección correcta. Requiere fuentes y respaldo. Los formatos de aplicación son diferentes y protoca confusión. Probabilidad de errores.No hay exactitud.",
    "Prueba de Mann-Whitney, prueba de Kruskal-Wallis, prueba de los rangos con signo de Wilcoxon."
  )
)

# Tabla
kable(diferencias, caption = "Diferencias entre Pruebas Paramétricas y No Paramétricas")
Diferencias entre Pruebas Paramétricas y No Paramétricas
Aspecto Paramétricas No_Paramétricas
Supuestos Requiere que los datos sigan una distribución normal y que las varianzas sean homogéneas. No asume una distribución específica de los datos.
Tipo de Datos Datos cuantitativos de nivel de intervalo o razón. Datos ordinales, nominales o cuantitativos sin supuestos de distribución.
Tipo y tamaño de muestra Aleatoria, >30 sujetos. No aleatoria, <30 sujetos.
Robustez Sensible a violaciones de supuestos, como la no normalidad o heterocedasticidad. Más robusta frente a violaciones de supuestos y presencia de valores atípicos.
Complejidad Métodos y cálculos más complejos; interpretación más detallada. Métodos más simples y directos; interpretación más intuitiva.
Ventajas Más eficiencia, poca probabilidad de errores.Sus estimaciones son exactas. Presentan sensibilidad a los rasgos de los datos recogidos. Muestras grandes. Empleada en diferentes situaciones porque no cumple con parámetros estrictos. Sus métodos son más afables. Se aplica en datos no numéricos.Muestras pequeñas.
Desventajas Complejos de calcular.Presentan una limitación en los datos. No son sistemáticas.Complica seleccionar la elección correcta. Requiere fuentes y respaldo. Los formatos de aplicación son diferentes y protoca confusión. Probabilidad de errores.No hay exactitud.
Ejemplos de Pruebas Prueba t de Student, ANOVA, regresión lineal. Prueba de Mann-Whitney, prueba de Kruskal-Wallis, prueba de los rangos con signo de Wilcoxon.

2.Pruebas de normalidad

Las pruebas de normalidad son procedimientos estadísticos que verifican si una distribución de datos se ajusta a una distribución normal. Son importantes porque muchos procedimientos estadísticos asumen que los datos siguen una distribución normal, y usarlos con datos que no lo hacen puede dar resultados poco precisos o sesgados.

Para realizar una prueba de normalidad, se puede utilizar un método analítico o gráfico.

Análisis Gráficos:

Los métodos gráficos permiten una evaluación visual de la normalidad de los datos. Entre los más utilizados se encuentran:

-Histogramas: Muestran la frecuencia de los datos en intervalos específicos. Una distribución normal se representa como una curva en forma de campana simétrica.

-Gráficos de probabilidad normal (Q-Q plots): Comparan los cuantiles de los datos observados con los cuantiles de una distribución normal teórica. Si los puntos se alinean aproximadamente en una línea recta, sugiere que los datos siguen una distribución normal.

Métodos analíticos

Los métodos analíticos más comunes son la prueba de Kolmogorov-Smirnov, la prueba de Shapiro-Wilk y la prueba de Anderson-Darling. Para la prueba gráfica se utiliza un histograma o un diagrama Q-Q.

Además de los métodos gráficos, existen medidas numéricas que ayudan a evaluar la normalidad:

-Asimetría (Skewness): Mide la simetría de la distribución. Un valor de asimetría cercano a cero indica una distribución simétrica. Valores positivos indican asimetría a la derecha, mientras que valores negativos indican asimetría a la izquierda.

-Curtosis: Evalúa la “apuntación” o concentración de los datos alrededor de la media. Una curtosis de 3 corresponde a una distribución normal. Valores mayores que 3 indican una distribución leptocúrtica (pico más alto y colas más largas), mientras que valores menores que 3 indican una distribución platicúrtica (pico más bajo y colas más cortas).

Pruebas Estadísticas de Normalidad:

Existen diversas pruebas estadísticas diseñadas para evaluar la normalidad de los datos que se presentan:

-Prueba de Shapiro-Wilk: Es una de las pruebas más potentes para detectar desviaciones de la normalidad, especialmente en muestras pequeñas.

-Prueba de Kolmogorov-Smirnov (K-S): Compara la distribución acumulativa de los datos con una distribución normal teórica. Es más adecuada cuando los parámetros de la distribución teórica son conocidos.

-Prueba de Lilliefors: Es una adaptación de la prueba K-S que permite la estimación de los parámetros de la distribución teórica directamente de la muestra. Es útil cuando se desconocen la media y la desviación estándar de la población.

-Prueba de Anderson-Darling: Es sensible a las colas de la distribución y es útil para detectar desviaciones en las colas de la distribución normal.

El resultado de la prueba se indica con un valor p, que indica si se rechaza o no la hipótesis nula de que los datos están distribuidos normalmente. Si el valor p es menor que 0,05, se interpreta como una desviación significativa de la distribución normal.

Es importante destacar que un valor p mayor que 0.05 no confirma que los datos sean normales, sino que indica que no hay evidencia suficiente para rechazar la normalidad.

# Carga de paquetes necesarios
library(moments)   # Para calcular asimetría y curtosis
library(nortest)   # Para pruebas de normalidad adicionales
library(ggplot2)   # Para visualización de gráficos

# Definición de las variables
a=(c(28, 26, 31, 21, 21, 32, 24, 26, 28, 30, 26, 23, 20, 28, 33, 28, 33, 23, 27, 31, 28, 29, 34, 32, 33))
b=(c(22, 29, 24, 24, 23, 23, 25, 23, 33, 28, 31, 23, 28, 28, 26, 30, 30, 28, 22, 19, 29, 18, 31, 28, 27))
c=(c(23, 26, 29, 28, 25, 19, 22, 27, 33, 22, 22, 22, 15, 19, 24, 25, 20, 25, 34, 21, 23, 18, 26, 26, 23))
d=(c(28, 28, 25, 25, 25, 30, 27, 28, 29, 28, 25, 28, 27, 28, 30, 25, 28, 28, 28, 30, 27, 25, 25, 28, 30))
e=(c(28, 27, 28, 25, 27, 28, 25, 27, 29, 27, 25, 25, 29, 29, 29, 28, 28, 25, 27, 28, 28, 25, 29, 25, 27))
f=(c(25, 28, 27, 29, 27, 25, 25, 25, 25, 27, 27, 28, 28, 25, 27, 27, 25, 25, 27, 28, 25, 28, 29, 25, 27))

# Función para evaluar la normalidad de una variable
evaluar_normalidad <- function(var, nombre) {
  cat("\n\nAnálisis para la variable:", nombre, "\n")
  cat("--------------------------------------------------\n")
  
  # Estadísticas descriptivas
  media= mean(var)
  desviacion= sd(var)
  asimetria= skewness(var)
  curtosis= kurtosis(var) + 3  # Curtosis total
  
  cat("Media:", media, "\n")
  cat("Desviación estándar:", desviacion, "\n")
  cat("Asimetría:", asimetria, "\n")
  cat("Curtosis:", curtosis, "\n\n")
  
  # Pruebas de normalidad
  shapiro= shapiro.test(var)
  lillie <- lillie.test(var)
  ad <- ad.test(var)
  
  cat("Prueba de Shapiro-Wilk: W =", shapiro$statistic, ", p-valor =", shapiro$p.value, "\n")
  cat("Prueba de Lilliefors: D =", lillie$statistic, ", p-valor =", lillie$p.value, "\n")
  cat("Prueba de Anderson-Darling: A =", ad$statistic, ", p-valor =", ad$p.value, "\n\n")
  
  # Gráficos
  par(mfrow = c(1, 2))
  
  # Histograma con curva de densidad normal
  hist(var, freq = FALSE, col = "lightblue", main = paste("Histograma de", nombre),
       xlab = nombre, ylab = "Densidad")
  curve(dnorm(x, mean = media, sd = desviacion), col = "red", lwd = 2, add = TRUE)
  
  # Gráfico Q-Q
  qqnorm(var, main = paste("Gráfico Q-Q de", nombre))
  qqline(var, col = "red", lwd = 2)
  
  par(mfrow = c(1, 1))
}

# Evaluar normalidad para cada variable
evaluar_normalidad(a, "a")
## 
## 
## Análisis para la variable: a 
## --------------------------------------------------
## Media: 27.8 
## Desviación estándar: 4.112988 
## Asimetría: -0.3124437 
## Curtosis: 5.094288 
## 
## Prueba de Shapiro-Wilk: W = 0.9476575 , p-valor = 0.2218966 
## Prueba de Lilliefors: D = 0.1193915 , p-valor = 0.4738268 
## Prueba de Anderson-Darling: A = 0.4099567 , p-valor = 0.31879

Aunque la curtosis sugiere una distribución con colas más pesadas que la normal (3), las pruebas estadísticas no proporcionan evidencia suficiente para rechazar la hipótesis de normalidad. Por lo tanto, se puede considerar que la variable a sigue una distribución aproximadamente normal. Sin embargo, es recomendable tener precaución en análisis posteriores que asuman normalidad estricta debido a la alta curtosis observada.

evaluar_normalidad(b, "b")
## 
## 
## Análisis para la variable: b 
## --------------------------------------------------
## Media: 26.08 
## Desviación estándar: 3.872123 
## Asimetría: -0.2771581 
## Curtosis: 5.293562 
## 
## Prueba de Shapiro-Wilk: W = 0.9616203 , p-valor = 0.4476826 
## Prueba de Lilliefors: D = 0.1700006 , p-valor = 0.06046472 
## Prueba de Anderson-Darling: A = 0.4432148 , p-valor = 0.2639096

Al igual que con la variable a, se puede considerar que la variable b sigue una distribución aproximadamente normal. Sin embargo, es recomendable tener precaución debido a la alta curtosis observada, ya que podría influir en análisis posteriores que asuman normalidad estricta.

evaluar_normalidad(c, "c")
## 
## 
## Análisis para la variable: c 
## --------------------------------------------------
## Media: 23.88 
## Desviación estándar: 4.361957 
## Asimetría: 0.4178281 
## Curtosis: 6.289485 
## 
## Prueba de Shapiro-Wilk: W = 0.9704529 , p-valor = 0.6565786 
## Prueba de Lilliefors: D = 0.1134763 , p-valor = 0.5569022 
## Prueba de Anderson-Darling: A = 0.316511 , p-valor = 0.5191958

La variable c sigue una distribución aproximadamente normal. Sin embargo, debido al valor de curtosis elevada, es recomendable tener precaución en análisis posteriores que asuman normalidad estricta debido a que podría interferir en los resultados.

evaluar_normalidad(d, "d")
## 
## 
## Análisis para la variable: d 
## --------------------------------------------------
## Media: 27.4 
## Desviación estándar: 1.755942 
## Asimetría: -0.1602332 
## Curtosis: 4.930972 
## 
## Prueba de Shapiro-Wilk: W = 0.8514513 , p-valor = 0.001876778 
## Prueba de Lilliefors: D = 0.2337105 , p-valor = 0.001102371 
## Prueba de Anderson-Darling: A = 1.489257 , p-valor = 0.0005814022

La alta curtosis y los resultados de las pruebas sugieren que la distribución de la variable d no es normal.

evaluar_normalidad(e, "e")
## 
## 
## Análisis para la variable: e 
## --------------------------------------------------
## Media: 27.12 
## Desviación estándar: 1.508863 
## Asimetría: -0.3554607 
## Curtosis: 4.742207 
## 
## Prueba de Shapiro-Wilk: W = 0.8403 , p-valor = 0.001159024 
## Prueba de Lilliefors: D = 0.2001276 , p-valor = 0.01108366 
## Prueba de Anderson-Darling: A = 1.492102 , p-valor = 0.0005718178

Del mismo modo, los resultados de las pruebas estadisticas y el valor alto de curtosis sugieren que la variable e no sigue una distribución normal.

evaluar_normalidad(f, "f")
## 
## 
## Análisis para la variable: f 
## --------------------------------------------------
## Media: 26.56 
## Desviación estándar: 1.416569 
## Asimetría: 0.100246 
## Curtosis: 4.637435 
## 
## Prueba de Shapiro-Wilk: W = 0.8272124 , p-valor = 0.0006702845 
## Prueba de Lilliefors: D = 0.2646067 , p-valor = 8.945747e-05 
## Prueba de Anderson-Darling: A = 1.838574 , p-valor = 7.573839e-05

La variable f sigue una distribución aproximadamente normal. Sin embargo, debido al valor de curtosis elevada, es recomendable tener precaución en análisis posteriores que asuman normalidad estricta debido a que podría interferir en los resultados.

3. Análisis de varianza

Realice el análisis de varianza de los siguientes datos y exprese sus resultados según corresponda:

Grafico:

A = c(21, 26, 31, 23, 21, 30, 26, 24, 22, 19)
B = c(32, 30, 18, 27, 25, 28, 27, 27, 28, 22)
C = c(26, 20, 24, 27, 21, 28, 24, 27, 32, 32)
D = c(18, 30, 24, 27, 24, 21, 22, 22, 28, 29)

datos = data.frame(A, B, C, D)
library(knitr)
kable(datos, caption = "Tabla de Variables A, B, C y D")
Tabla de Variables A, B, C y D
A B C D
21 32 26 18
26 30 20 30
31 18 24 24
23 27 27 27
21 25 21 24
30 28 28 21
26 27 24 22
24 27 27 22
22 28 32 28
19 22 32 29

Código para realizar el analisis de Anova:

# Cargar los datos
datos <- data.frame(
  A = c(21, 26, 31, 23, 21, 30, 26, 24, 22, 19),
  B = c(32, 30, 18, 27, 25, 28, 27, 27, 28, 22),
  C = c(26, 20, 24, 27, 21, 28, 24, 27, 32, 32),
  D = c(18, 30, 24, 27, 24, 21, 22, 22, 28, 29)
)

# Convertir los datos a formato largo
library(tidyr)
datos_largos <- gather(datos, key = "Variable", value = "Valor")

# Realizar el ANOVA
resultado_anova <- aov(Valor ~ Variable, data = datos_largos)

Dado que el valor p (0.535) es mayor que el nivel de significancia de 0.05, no se rechaza la hipótesis nula. No hay evidencia estadística suficiente para afirmar que existen diferencias significativas entre las medias de las variables A, B, C y D:

# Resumen del ANOVA
summary(resultado_anova)
##             Df Sum Sq Mean Sq F value Pr(>F)
## Variable     3   34.9   11.62    0.74  0.535
## Residuals   36  565.9   15.72

4. Test de McNemar

La prueba de McNemar es una herramienta estadística utilizada para evaluar cambios en proporciones en datos pareados, especialmente útil en estudios antes y después o en diseños de casos y controles emparejados.

Problema: Supóngase que se quiere comprobar si un tratamiento de hipnosis es capaz de hacer que las personas contesten “Sí” con mayor frecuencia. Para ello se selecciona un grupo de individuos a los que se les realiza una pregunta cuya respuesta puede ser SI/NO antes y después de someterse al tratamiento de hipnosis.

datos <- data.frame(
  sujeto = rep(1:15, each = 2),
  tratamiento = c("pre", "post", "pre", "post", "pre", "post", "pre", "post", "pre",
                  "post", "pre", "post", "pre", "post", "pre", "post", "pre", "post",
                  "pre", "post", "pre", "post", "pre", "post", "pre", "post", "pre",
                  "post", "pre", "post"),
  respuesta = c("NO", "SI", "SI", "SI", "NO", "SI", "SI", "NO", "SI", "SI", "NO",
                "SI", "NO", "SI", "NO", "SI", "NO", "SI", "SI", "SI", "NO", "NO",
                "SI", "SI", "NO", "SI", "NO", "NO", "NO", "SI")
)
# Crear tabla de contingencia
tabla_contingencia <- table(
  pre = datos$respuesta[datos$tratamiento == "pre"],
  post = datos$respuesta[datos$tratamiento == "post"]
)

# Realizar la prueba de McNemar
resultado <- mcnemar.test(tabla_contingencia)

# Mostrar resultados
print(resultado)
## 
##  McNemar's Chi-squared test with continuity correction
## 
## data:  tabla_contingencia
## McNemar's chi-squared = 4, df = 1, p-value = 0.0455

El resultado de la prueba de McNemar (0.0455) sugiere que sí hay diferencias estadísticamente significativas en la frecuencia de respuestras en las dos condiciones evaluadas en el estudio. Por lo tanto se rechaza la hipotesis nula y se acepta la hipotesis alternativa.

Sin embargo, es importante tener en cuenta que aunque el resultado es estadísticamente significativo, el valor p está muy cerca del nivel de significancia establecido. Esto implica que la evidencia contra la hipótesis nula es moderada.

5. Coeficiente de Correlación (r)

El consejo de la ciudad de Tuxpan considera aumentar el número de policías en un esfuerzo para reducir los delitos. Antes de tomar una decisión final, el ayuntamiento pide al jefe de policía realizar una encuesta en otras ciudades de tamaño similar para determinar la relación entre el número de policías y el número de delitos reportados. El jefe de policía reunió la siguiente información muestral.

Ciudad <- c("Cd. Guzmán", "Zapotiltic", "Tamazula", "Huescalapa", "Contla", "Mazamitla", "Gómez Farías", "Sayula")
Policias <- c(2, 1, 3, 5, 6, 8, 5, 2)
Delitos <- c(6, 5, 6, 6, 6, 8, 5, 2)


datos <- data.frame(Ciudad, Policias, Delitos)
library(knitr)
kable(datos, caption = "Relación entre el número de policías y el número de delitos reportados.")
Relación entre el número de policías y el número de delitos reportados.
Ciudad Policias Delitos
Cd. Guzmán 2 6
Zapotiltic 1 5
Tamazula 3 6
Huescalapa 5 6
Contla 6 6
Mazamitla 8 8
Gómez Farías 5 5
Sayula 2 2
library(ggplot2)
library(knitr)
library(kableExtra)

datos <- data.frame(
  Ciudad = c("Cd. Guzmán", "Zapotiltic", "Tamazula", "Huescalapa", 
             "Contla", "Mazamitla", "Gómez Farías", "Sayula"),
  Policias = c(2, 1, 3, 5, 6, 8, 5, 2),
  Delitos = c(6, 5, 6, 6, 5, 4, 7, 5)
)

El coeficiente de correlación de Pearson es una medida que indica la fuerza y dirección de la relación lineal entre dos variables. Su valor oscila entre -1 y 1, donde:

1: Indica una correlación positiva perfecta; a medida que una variable aumenta, la otra también lo hace proporcionalmente. 0: Indica ausencia de correlación lineal; no hay una relación lineal evidente entre las variables. -1: Indica una correlación negativa perfecta; a medida que una variable aumenta, la otra disminuye proporcionalmente.

# coeficiente de correlación de Pearson
correlacion <- cor(datos$Policias, datos$Delitos)
cat("Coeficiente de correlación de Pearson (r):", round(correlacion, 2), "\n")
## Coeficiente de correlación de Pearson (r): -0.26

El valor r de -0.26 indica una correlación negativa débil entre la cantidad de policias y el numero de delitos; lo que sugiere que, al aumentar el número de policías, el número de delitos tiende a disminuir ligeramente.

Diagrama de dispersión:

# diagrama de dispersión 
ggplot(datos, aes(x = Policias, y = Delitos)) +
  geom_point(color = "blue", size = 3) +
  geom_smooth(method = "lm", col = "red", se = FALSE) +
  labs(title = "Relación entre número de policías y número de delitos",
       x = "Número de policías",
       y = "Número de delitos") +
  theme_minimal()
## `geom_smooth()` using formula = 'y ~ x'

Note that the echo = FALSE parameter was added to the code chunk to prevent printing of the R code that generated the plot.