Examen-samid.knit

title: “EXAMEN ESTADISTICA” author: “Adriana R.” date: “2024-11-25” output: html_document —la estadística paramétrica y no paramétrica.

Estadística Paramétrica

Definición : Se basa en supuestos sobre la distribución de los datos, generalmente asumiendo que los datos provienen de una población con una distribución normal o conocida.

Características : Requiere que los datos signifiquen ciertos parámetros, como la normalidad y homogeneidad de variaciones. Es más potente (mayor capacidad para detectar diferencias o efectos) cuando se cumplen los supuestos. Ejemplos de pruebas: t de Student, ANOVA, regresión lineal

Ventajas : Ofrece resultados precisos si los datos cumplen los supuestos. Requiere menos datos para obtener inferencias confiables. Desventajas : Sensible a violaciones de los supuestos, lo que puede invalidar los resultados. Estadística No Paramétrica

Definición : No depende de supuestos estrictos sobre la distribución de los datos, y es adecuada para datos ordinales, categóricos o cuando no se conoce la distribución subyacente.

Características : Usa rangos o frecuencias en lugar de valores directos para realizar comparaciones. Es más flexible, pero puede ser menos potente en comparación con métodos paramétricos cuando los datos cumplen los supuestos de estos últimos.

Ejemplos de pruebas: prueba de Mann-Whitney, prueba de Kruskal-Wallis, prueba de chi-cuadrado.

Ventajas : Útil para datos con distribuciones no normales o variables cualitativas. No requiere homogeneidad de variaciones.

Desventajas : Requiere muestras más grandes para alcanzar la misma potencia que las pruebas paramétricas. Los resultados pueden ser menos precisos con datos complejos. tabla comparativa

library(knitr)

## Warning: package 'knitr' was built under R version 4.3.3

comparacion <- data.frame(
  Elementos = c("Supuestos", "Tipo de Datos", "potencia", "aplicaciones comunes", "Complejidad"),
  Paramétricas = c( 
    "Suponga una distribución específica (como normal).",
    "Datos intervalares o ratio.",
    "Mayor potencia si se cumplen los supuestos.",
    "Comparación de medios, regresiones.",
    "Más complejo debido a los supuestos."
  ),
    
  No_Paramétricas = c(
    "No se requieren supuestos estrictos.",
    "Datos ordinales, nominales o con distribución desconocida.",
    "Menor potencia relativa si los datos cumplen los supuestos paramétricos.",
    "Análisis de rangos, frecuencias.",
    "Más simple pero menos robusto en ciertos casos."
  )
)

# Tabla
kable(comparacion, caption = "tabla comparativa entre pruebas paramétricas y No paramétricas ")

tabla comparativa entre pruebas paramétricas y No paramétricas
Elementos	Paramétricas	No_Paramétricas
Supuestos	Suponga una distribución específica (como normal).	No se requieren supuestos estrictos.
Tipo de Datos	Datos intervalares o ratio.	Datos ordinales, nominales o con distribución desconocida.
potencia	Mayor potencia si se cumplen los supuestos.	Menor potencia relativa si los datos cumplen los supuestos paramétricos.
aplicaciones comunes	Comparación de medios, regresiones.	Análisis de rangos, frecuencias.
Complejidad	Más complejo debido a los supuestos.	Más simple pero menos robusto en ciertos casos.

library(moments)
library(plotrix)
library(modeest)

## Warning: package 'modeest' was built under R version 4.3.3

## 
## Attaching package: 'modeest'

## The following object is masked from 'package:moments':
## 
##     skewness

library(ggplot2)

## Warning: package 'ggplot2' was built under R version 4.3.3

library(stats)

# Instalar y cargar paquete necesario
if(!require("e1071")) install.packages("e1071")

## Loading required package: e1071

## Warning: package 'e1071' was built under R version 4.3.3

## 
## Attaching package: 'e1071'

## The following object is masked from 'package:modeest':
## 
##     skewness

## The following objects are masked from 'package:moments':
## 
##     kurtosis, moment, skewness

library(e1071)

# Vector de datos
a <- c(28, 26, 31, 21, 21, 32, 24, 26, 28, 30, 26, 23, 20, 28, 33, 28, 33, 23, 27, 31, 28, 29, 34, 32, 33)

# Estadísticas descriptivas
mean_a <- mean(a)                # Media
median_a <- median(a)            # Mediana
mode_a <- as.numeric(names(sort(table(a), decreasing = TRUE))[1]) # Moda
desviacion <- sd(a)              # Desviación estándar
var_a <- var(a)                  # Varianza
kurtosis_a <- kurtosis(a)        # Curtosis
skewness_a <- skewness(a)        # Coeficiente de asimetría

# Imprimir estadísticas
print(paste("Media:", mean_a))

## [1] "Media: 27.8"

print(paste("Mediana:", median_a))

## [1] "Mediana: 28"

print(paste("Moda:", mode_a))

## [1] "Moda: 28"

print(paste("Desviación estándar:", desviacion))

## [1] "Desviación estándar: 4.11298755975102"

print(paste("Varianza:", var_a))

## [1] "Varianza: 16.9166666666667"

print(paste("Curtosis:", kurtosis_a))

## [1] "Curtosis: -1.06990449659055"

print(paste("Asimetría:", skewness_a))

## [1] "Asimetría: -0.293885831384834"

  # Instalar y cargar el paquete necesario
library(nortest)

# Realizar la prueba de Anderson-Darling
ad_test <- ad.test(a)

# Mostrar los resultados de la prueba
ad_test

## 
##  Anderson-Darling normality test
## 
## data:  a
## A = 0.40996, p-value = 0.3188

ks_test <- ks.test(a, "pnorm", mean(a), sd(a))

## Warning in ks.test.default(a, "pnorm", mean(a), sd(a)): ties should not be
## present for the Kolmogorov-Smirnov test

# Mostrar los resultados de la prueba
ks_test

## 
##  Asymptotic one-sample Kolmogorov-Smirnov test
## 
## data:  a
## D = 0.11939, p-value = 0.8683
## alternative hypothesis: two-sided

# Gráficos
# Definir un nombre para los datos
nombre <- "Datos a"

# Graficar el histograma
hist(a, freq = FALSE, col = "lightblue", 
     main = paste("Histograma de", nombre),
     xlab = nombre, ylab = "Densidad")

# Agregar curva de densidad normal
curve(dnorm(x, mean = mean_a, sd = desviacion), 
      col = "red", lwd = 2, add = TRUE)

qqnorm(a)
  qqline(a, col = "red", lwd = 2)

CONCLUSION: de acuerdo con el analisis estadistico sugieren que los datos siguen una distribucion aproximadamente normal, sumando las pruebas d enormalidad, sugieren que la hipotisis nula no se rechaza, or lo tanto se consifdera que los daos siguen un adistribucion normal

library(moments)
library(plotrix)
library(modeest)
library(ggplot2)
library(stats)

# Instalar y cargar paquete necesario
if(!require("e1071")) install.packages("e1071")
library(e1071)

b=(c(22,29,24,24,23,23,25,23,33,28,31,23,28,28,26,30,30,28,22,19,29,18,31,28,27))


# Estadísticas descriptivas
mean_b <- mean(b)                # Media
median_b <- median(b)            # Mediana
mode_b <- as.numeric(names(sort(table(b), decreasing = TRUE))[1]) # Moda
desviacion <- sd(b)              # Desviación estándar
var_b <- var(b)                  # Varianza
kurtosis_b <- kurtosis(b)        # Curtosis
skewness_b <- skewness(b)        # Coeficiente de asimetría

# Imprimir estadísticas
print(paste("Media:", mean_b))

## [1] "Media: 26.08"

print(paste("Mediana:", median_b))

## [1] "Mediana: 27"

print(paste("Moda:", mode_b))

## [1] "Moda: 28"

print(paste("Desviación estándar:", desviacion))

## [1] "Desviación estándar: 3.87212258759112"

print(paste("Varianza:", var_b))

## [1] "Varianza: 14.9933333333333"

print(paste("Curtosis:", kurtosis_b))

## [1] "Curtosis: -0.886252921816346"

print(paste("Asimetría:", skewness_b))

## [1] "Asimetría: -0.260696044687537"

# Realizar la prueba de Anderson-Darling
ad_test <- ad.test(b)

# Mostrar los resultados de la prueba
ad_test

## 
##  Anderson-Darling normality test
## 
## data:  b
## A = 0.44321, p-value = 0.2639

ks_test <- ks.test(b, "pnorm", mean(b), sd(b))

## Warning in ks.test.default(b, "pnorm", mean(b), sd(b)): ties should not be
## present for the Kolmogorov-Smirnov test

# Mostrar los resultados de la prueba
ks_test

## 
##  Asymptotic one-sample Kolmogorov-Smirnov test
## 
## data:  b
## D = 0.17, p-value = 0.4653
## alternative hypothesis: two-sided

# Gráficos
# Definir un nombre para los datos
nombre <- "Datos b"

# Graficar el histograma
hist(b, freq = FALSE, col = "lightblue", 
     main = paste("Histograma de", nombre),
     xlab = nombre, ylab = "Densidad")

# Agregar curva de densidad normal
curve(dnorm(x, mean = mean_b, sd = desviacion), 
      col = "red", lwd = 2, add = TRUE)

qqnorm(b)
  qqline(b, col = "red", lwd = 2)

library(moments)
library(plotrix)
library(modeest)
library(ggplot2)
library(stats)

# Instalar y cargar paquete necesario
if(!require("e1071")) install.packages("e1071")
library(e1071)

c=(c(23,26,29,28,25,19,22,27,33,22,22,22,15,19,24,25,20,25,34,21,23,18,26,26,23))
# Estadísticas descriptivas
mean_c <- mean(c)                # Media
median_c <- median(c)            # Mediana
mode_c <- as.numeric(names(sort(table(c), decreasing = TRUE))[1]) # Moda
desviacion <- sd(c)              # Desviación estándar
var_c <- var(c)                  # Varianza
kurtosis_c <- kurtosis(c)        # Curtosis
skewness_c <- skewness(c)        # Coeficiente de asimetría

# Imprimir estadísticas
print(paste("Media:", mean_c))

## [1] "Media: 23.88"

print(paste("Mediana:", median_c))

## [1] "Mediana: 23"

print(paste("Moda:", mode_c))

## [1] "Moda: 22"

print(paste("Desviación estándar:", desviacion))

## [1] "Desviación estándar: 4.36195674745482"

print(paste("Varianza:", var_c))

## [1] "Varianza: 19.0266666666667"

print(paste("Curtosis:", kurtosis_c))

## [1] "Curtosis: 0.0315894832318362"

print(paste("Asimetría:", skewness_c))

## [1] "Asimetría: 0.39301084012692"

# Realizar la prueba de Anderson-Darling
ad_test <- ad.test(c)

# Mostrar los resultados de la prueba
ad_test

## 
##  Anderson-Darling normality test
## 
## data:  c
## A = 0.31651, p-value = 0.5192

ks_test <- ks.test(c, "pnorm", mean(c), sd(c))

## Warning in ks.test.default(c, "pnorm", mean(c), sd(c)): ties should not be
## present for the Kolmogorov-Smirnov test

# Mostrar los resultados de la prueba
ks_test

## 
##  Asymptotic one-sample Kolmogorov-Smirnov test
## 
## data:  c
## D = 0.11348, p-value = 0.9043
## alternative hypothesis: two-sided

# Gráficos
# Definir un nombre para los datos
nombre <- "Datos c"

# Graficar el histograma
hist(c, freq = FALSE, col = "lightblue", 
     main = paste("Histograma de", nombre),
     xlab = nombre, ylab = "Densidad")

# Agregar curva de densidad normal
curve(dnorm(x, mean = mean_c, sd = desviacion), 
      col = "red", lwd = 2, add = TRUE)

qqnorm(c)
  qqline(c, col = "red", lwd = 2)

library(moments)
library(plotrix)
library(modeest)
library(ggplot2)
library(stats)

# Instalar y cargar paquete necesario
if(!require("e1071")) install.packages("e1071")
library(e1071)

d=(c(28,28,25,25,25,30,27,28,29,28,25,28,27,28,30,25,28,28,28,30,27,25,25,28,30))
# Estadísticas descriptivas
mean_d <- mean(d)                # Media
median_d <- median(d)            # Mediana
mode_d <- as.numeric(names(sort(table(d), decreasing = TRUE))[1]) # Moda
desviacion <- sd(d)              # Desviación estándar
var_d <- var(d)                  # Varianza
kurtosis_d <- kurtosis(d)        # Curtosis
skewness_d <- skewness(d)        # Coeficiente de asimetría

# Imprimir estadísticas
print(paste("Media:", mean_d))

## [1] "Media: 27.4"

print(paste("Mediana:", median_d))

## [1] "Mediana: 28"

print(paste("Moda:", mode_d))

## [1] "Moda: 28"

print(paste("Desviación estándar:", desviacion))

## [1] "Desviación estándar: 1.75594229214212"

print(paste("Varianza:", var_d))

## [1] "Varianza: 3.08333333333333"

print(paste("Curtosis:", kurtosis_d))

## [1] "Curtosis: -1.22041665449233"

print(paste("Asimetría:", skewness_d))

## [1] "Asimetría: -0.150716028557973"

# Realizar la prueba de Anderson-Darling
ad_test <- ad.test(d)

# Mostrar los resultados de la prueba
ad_test

## 
##  Anderson-Darling normality test
## 
## data:  d
## A = 1.4893, p-value = 0.0005814

ks_test <- ks.test(d, "pnorm", mean(d), sd(d))

## Warning in ks.test.default(d, "pnorm", mean(d), sd(d)): ties should not be
## present for the Kolmogorov-Smirnov test

# Mostrar los resultados de la prueba
ks_test

## 
##  Asymptotic one-sample Kolmogorov-Smirnov test
## 
## data:  d
## D = 0.23371, p-value = 0.1303
## alternative hypothesis: two-sided

# Gráficos
# Definir un nombre para los datos
nombre <- "Datos c"

# Graficar el histograma
hist(d, freq = FALSE, col = "lightblue", 
     main = paste("Histograma de", nombre),
     xlab = nombre, ylab = "Densidad")

# Agregar curva de densidad normal
curve(dnorm(x, mean = mean_d, sd = desviacion), 
      col = "red", lwd = 2, add = TRUE)

qqnorm(d)
  qqline(d, col = "red", lwd = 2)

conclusion: de acuerdo con el analisis estadistico los resultados sugieren que los datos no siguien una distribucion normal por lo que la hipotesis nula se rechaza por la prueba de anderson, y se acepta la hipotesis alternativa, considerantdo que los datos no siguen una distribucion normal. sin embargo, la prueba Kolmogorov-Smirnov sugieren que estos datos son normales, pero observando el grafico de dispersion se puede observar que los datos no siguen una distribucion normal.

library(moments)
library(plotrix)
library(modeest)
library(ggplot2)
library(stats)

# Instalar y cargar paquete necesario
if(!require("e1071")) install.packages("e1071")
library(e1071)

e=(c(28,27,28,25,27,28,25,27,29,27,25,25,29,29,29,28,28,25,27,28,28,25,29,25,27))
# Estadísticas descriptivas
mean_e <- mean(e)                # Media
median_e <- median(e)            # Mediana
mode_e <- as.numeric(names(sort(table(e), decreasing = TRUE))[1]) # Moda
desviacion <- sd(e)              # Desviación estándar
var_e <- var(e)                  # Varianza
kurtosis_e <- kurtosis(e)        # Curtosis
skewness_e <- skewness(e)        # Coeficiente de asimetría

# Imprimir estadísticas
print(paste("Media:", mean_e))

## [1] "Media: 27.12"

print(paste("Mediana:", median_e))

## [1] "Mediana: 27"

print(paste("Moda:", mode_e))

## [1] "Moda: 25"

print(paste("Desviación estándar:", desviacion))

## [1] "Desviación estándar: 1.5088627063675"

print(paste("Varianza:", var_e))

## [1] "Varianza: 2.27666666666667"

print(paste("Curtosis:", kurtosis_e))

## [1] "Curtosis: -1.39438183365524"

print(paste("Asimetría:", skewness_e))

## [1] "Asimetría: -0.334347795424962"

# Realizar la prueba de Anderson-Darling
ad_test <- ad.test(e)

# Mostrar los resultados de la prueba
ad_test

## 
##  Anderson-Darling normality test
## 
## data:  e
## A = 1.4921, p-value = 0.0005718

ks_test <- ks.test(e, "pnorm", mean(e), sd(e))

## Warning in ks.test.default(e, "pnorm", mean(e), sd(e)): ties should not be
## present for the Kolmogorov-Smirnov test

# Mostrar los resultados de la prueba
ks_test

## 
##  Asymptotic one-sample Kolmogorov-Smirnov test
## 
## data:  e
## D = 0.20013, p-value = 0.2693
## alternative hypothesis: two-sided

# Gráficos
# Definir un nombre para los datos
nombre <- "Datos e"

# Graficar el histograma
hist(e, freq = FALSE, col = "lightblue", 
     main = paste("Histograma de", nombre),
     xlab = nombre, ylab = "Densidad")

# Agregar curva de densidad normal
curve(dnorm(x, mean = mean_e, sd = desviacion), 
      col = "red", lwd = 2, add = TRUE)

qqnorm(e)
  qqline(e, col = "red", lwd = 2)

library(moments)
library(plotrix)
library(modeest)
library(ggplot2)
library(stats)

# Instalar y cargar paquete necesario
if(!require("e1071")) install.packages("e1071")
library(e1071)

f=(c(25,28,27,29,27,25,25,25,25,27,27,28,28,25,27,27,25,25,27,28,25,28,29,25,27))
# Estadísticas descriptivas
mean_f <- mean(f)                # Media
median_f <- median(f)            # Mediana
mode_f <- as.numeric(names(sort(table(f), decreasing = TRUE))[1]) # Moda
desviacion <- sd(f)              # Desviación estándar
var_f <- var(f)                  # Varianza
kurtosis_f <- kurtosis(f)        # Curtosis
skewness_f <- skewness(f)        # Coeficiente de asimetría

# Imprimir estadísticas
print(paste("Media:", mean_f))

## [1] "Media: 26.56"

print(paste("Mediana:", median_f))

## [1] "Mediana: 27"

print(paste("Moda:", mode_f))

## [1] "Moda: 25"

print(paste("Desviación estándar:", desviacion))

## [1] "Desviación estándar: 1.41656862405839"

print(paste("Varianza:", var_f))

## [1] "Varianza: 2.00666666666667"

print(paste("Curtosis:", kurtosis_f))

## [1] "Curtosis: -1.49093988808071"

print(paste("Asimetría:", skewness_f))

## [1] "Asimetría: 0.0942917708687721"

# Realizar la prueba de Anderson-Darling
ad_test <- ad.test(f)

# Mostrar los resultados de la prueba
ad_test

## 
##  Anderson-Darling normality test
## 
## data:  f
## A = 1.8386, p-value = 7.574e-05

ks_test <- ks.test(f, "pnorm", mean(f), sd(f))

## Warning in ks.test.default(f, "pnorm", mean(f), sd(f)): ties should not be
## present for the Kolmogorov-Smirnov test

# Mostrar los resultados de la prueba
ks_test

## 
##  Asymptotic one-sample Kolmogorov-Smirnov test
## 
## data:  f
## D = 0.26461, p-value = 0.06034
## alternative hypothesis: two-sided

# Gráficos
# Definir un nombre para los datos
nombre <- "Datos f"

# Graficar el histograma
hist(f, freq = FALSE, col = "lightblue", 
     main = paste("Histograma de", nombre),
     xlab = nombre, ylab = "Densidad")

# Agregar curva de densidad normal
curve(dnorm(x, mean = mean_f, sd = desviacion), 
      col = "red", lwd = 4, add = TRUE)

qqnorm(f)
  qqline(f, col = "red", lwd = 2)

Análisis de varianza

# Datos iniciales
A <- c(21, 26, 31, 23, 21, 30, 26, 24, 22, 19)
B <- c(32, 30, 18, 27, 25, 28, 27, 27, 28, 22)
C <- c(26, 20, 24, 27, 21, 28, 24, 27, 32, 32)
D <- c(18, 30, 24, 27, 24, 21, 22, 22, 28, 29)

# Crear tabla larga
grupos <- rep(c("A", "B", "C", "D"), each = 10)
valores <- c(A, B, C, D)
datos <- data.frame(Grupo = grupos, Valor = valores)

# Realizar ANOVA
anova_result <- aov(Valor ~ Grupo, data = datos)
summary(anova_result)

##             Df Sum Sq Mean Sq F value Pr(>F)
## Grupo        3   34.9   11.62    0.74  0.535
## Residuals   36  565.9   15.72

# Gráfico de cajas para visualizar las diferencias
boxplot(Valor ~ Grupo, data = datos, 
        main = "Comparación de Grupos (ANOVA)", 
        xlab = "Grupo", 
        ylab = "Valor", 
        col = c("lightblue", "lightgreen", "pink", "lightyellow"),
        border = "black")

# Agregar los resultados del ANOVA al gráfico
text(1:4, tapply(datos$Valor, datos$Grupo, mean), 
     labels = round(tapply(datos$Valor, datos$Grupo, mean), 2), 
     pos = 3, col = "red", font = 2)

# Crear los datos
tratamiento <- c("pre", "post", "pre", "post", "pre", "post", "pre", "post", "pre",
                 "post", "pre", "post", "pre", "post", "pre", "post", "pre", "post",
                 "pre", "post", "pre", "post", "pre", "post", "pre", "post", "pre",
                 "post", "pre", "post")
respuesta <- c("NO", "SI", "SI", "SI", "NO", "SI", "SI", "NO", "SI", "SI", "NO",
               "SI", "NO", "SI", "NO", "SI", "NO", "SI", "SI", "SI", "NO", "NO",
               "SI", "SI", "NO", "SI", "NO", "NO", "NO", "SI")

# Crear un data frame
datos <- data.frame(tratamiento, respuesta)

# Resumir los datos en una tabla de contingencia
tabla <- table(datos$tratamiento, datos$respuesta)

# Realizar el test de McNemar
test_mcnemar <- mcnemar.test(tabla)
print("Resultados del test de McNemar:")

## [1] "Resultados del test de McNemar:"

print(test_mcnemar)

## 
##  McNemar's Chi-squared test with continuity correction
## 
## data:  tabla
## McNemar's chi-squared = 0.045455, df = 1, p-value = 0.8312

Conclusion: Con un valor p de 0.535 , que es mayor que 0.05 , no se rechaza la hipótesis nula.

# Datos
Ciudad <- c("Cd. Guzmán", "Zapotiltic", "Tamazula", "Huescalapa", "Contla", "Mazamitla", "Gómez Farías", "Sayula")
Policias <- c(2, 1, 3, 5, 6, 8, 5, 2)
Delitos <- c(6, 5, 6, 6, 6, 8, 5, 2)

# Crear un data frame
datos <- data.frame(Ciudad, Policias, Delitos)

# Calcular la correlación de Pearson
cor_pearson <- cor(datos$Policias, datos$Delitos, method = "pearson")
print(paste("Correlación de Pearson:", round(cor_pearson, 2)))

## [1] "Correlación de Pearson: 0.64"

# Gráfico de dispersión
plot(datos$Policias, datos$Delitos, 
     main = "Gráfico de Dispersión: Policías vs Delitos",
     xlab = "Número de Policías", 
     ylab = "Número de Delitos", 
     pch = 19, 
     col = "blue")
text(datos$Policias, datos$Delitos, labels = datos$Ciudad, pos = 4, cex = 0.8)
abline(lm(Delitos ~ Policias, data = datos), col = "red", lwd = 2)

conclusion: El valor r de -0.26 indica una correlación negativa débil entre la cantidad de policias y el numero de delitos; lo que sugiere que, al aumentar el número de policías, el número de delitos tiende a disminuir ligeramente.