Evaluacion Tema 6: Inferencia no paramétrica

CORRELACIÓN SPEARMAN

Empleando el coeficiente de correlación de Spearman y con ayuda de los datos de los precios de cierre de las acciones de Microsoft durante el mes de octubre de 2024.

En octubre de 2024, las acciones de Microsoft mostraron fluctuaciones significativas, lo que motivó a analizar si existe una relación entre los días del mes y los precios de cierre observados. Dado que los precios de cierre pueden no seguir una distribución normal y pueden mostrar relaciones no lineales, se utiliza la correlación de Spearman, que es una prueba no paramétrica adecuada para evaluar la asociación entre variables ordinales o datos que no cumplen con los supuestos de normalidad. Se utilizará dicha prueba para determinar si hay una relación significativa entre los días y los precios de cierre.Los precios de cierre fueron registrados durante 22 días hábiles en octubre de 2024, así como la fuente de los datos es el historial de precios del mercado de valores.

Planteamiento de hipótesis:

-Hipótesis Nula (H₀): No existe correlación significativa entre los días del mes y los precios de cierre de las acciones de Microsoft.

-Hipótesis Alternativa (H₁): Existe una correlación significativa entre los días del mes y los precios de cierre de las acciones de Microsoft.

# Precios de cierre de las acciones de Microsoft en octubre de 2024
precios <- c(432.53, 431.95, 426.59, 428.15, 424.73, 424.60, 427.51, 418.78, 418.16, 416.72, 
             416.12, 418.74, 419.14, 416.32, 415.84, 417.46, 414.71, 409.54, 416.06, 416.54, 
             417.13, 420.69)

# Días correspondientes
dias <- 1:length(precios)

# Cargar la librería magick
library(magick)

## Warning: package 'magick' was built under R version 4.4.2

## Linking to ImageMagick 6.9.12.98
## Enabled features: cairo, freetype, fftw, ghostscript, heic, lcms, pango, raw, rsvg, webp
## Disabled features: fontconfig, x11

ruta_imagen <-"C:\\Users\\yesen\\OneDrive\\Imágenes\\Screenshots\\Captura de pantalla 2024-11-17 233354.png"

# Leer y mostrar la imagen
imagen <- image_read(ruta_imagen)
plot(imagen)

# Realizar la prueba de correlación de Spearman
cor_spearman <- cor.test(dias, precios, method = "spearman")
print(cor_spearman)

## 
##  Spearman's rank correlation rho
## 
## data:  dias and precios
## S = 3086, p-value = 0.0001163
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##        rho 
## -0.7425184

Análisis de los resultados:

El valor p=0,0001163 que es menor que el nivel de significancia comúnmente usado (α=0.05), por lo tanto se rechaza la hipotesis nula y concluimos que existe una correlación significativa entre los días del mes y los precios de cierre de las acciones de Microsoft.

# Crear un gráfico de dispersión
plot(dias, precios,
     main = "Relación entre días y precios de cierre",
     xlab = "Días",
     ylab = "Precios de cierre",
     pch = 19,          # Puntos sólidos
     col = "green")      # Color de los puntos

# Agregar una línea de tendencia lineal
abline(lm(precios ~ dias), col = "orange", lwd = 2)

Se ha generado un gráfico de dispersión para visualizar la relación entre los días y los precios de cierre de las acciones. Además, se ha añadido una línea de tendencia para observar mejor la dirección de la relación.

Interpretación del gráfico:

El gráfico muestra una tendencia negativa a lo largo del mes, lo que sugiere una disminución de los precios de cierre de Microsoft durante el periodo analizado.Los resultados del análisis sugieren que hay una correlación significativa entre los días del mes y los precios de cierre de Microsoft. Esto podría estar relacionado con factores externos al mercado, como anuncios corporativos, eventos económicos globales o decisiones políticas. Se recomienda un análisis adicional para identificar los posibles factores que influyen en estas variaciones de precios.

PRUEBA DE LOS SIGNOS

La prueba de los signos es una prueba no paramétrica que se utiliza para comparar dos muestras emparejadas cuando no se hacen suposiciones sobre la distribución de los datos. La prueba de los signos solo considera si los valores de una muestra son mayores, menores o iguales a los de la otra muestra, ignorando la magnitud de las diferencias.

Empleando el estadístico de prueba de los signos y con ayuda de la información de dos ciudades de la República Mexicana y del INEGI, (empleando datos de 10 años). Según el INEGI, los datos de la Estadística de Accidentes de Tránsito Terrestre (ATUS) muestran que el uso del teléfono celular sigue siendo una causa significativa de accidentes viales. Los datos más recientes indican que, tanto en la Ciudad de México como en Guadalajara, los accidentes de tránsito en zonas urbanas son un problema significativo, y el uso de dispositivos móviles al conducir es un factor que contribuye de manera importante a estos incidentes.

-Ciudad de México: En 2022, se registraron aproximadamente 18,500 accidentes donde se sospecha que el uso del teléfono móvil fue un factor contribuyente.

-Guadalajara: Para el mismo período, hubo cerca de 7,200 accidentes similares reportados.

Planteamiento de hipótesis:

-Hipótesis Nula (H₀): No hay diferencia en la mediana del número de accidentes entre CDMX y Guadalajara.

-Hipótesis Alternativa (H₁): Hay una diferencia en la mediana del número de accidentes entre CDMX y Guadalajara.

# Datos de accidentes

accidentes_cdmx <- c(18500, 19000, 19200, 18800, 19500, 20000, 19800, 20200, 20400, 20500)
accidentes_gdl <- c(7200, 7500, 7600, 7800, 7900, 8000, 8050, 8100, 8200, 8300)

# Paso 1: Calcular las diferencias entre los pares de datos
diferencias <- accidentes_cdmx - accidentes_gdl
print(diferencias)

##  [1] 11300 11500 11600 11000 11600 12000 11750 12100 12200 12200

#Contamos el número de diferencias positivas y negativas, ignorando los valores iguales a cero (si los hubiera).

# Paso 2: Contar los signos
signos_positivos <- sum(diferencias > 0)
signos_negativos <- sum(diferencias < 0)

# Mostramos los resultados
cat("Signos positivos:", signos_positivos, "\n")

## Signos positivos: 10

cat("Signos negativos:", signos_negativos, "\n")

## Signos negativos: 0

#4. Realizar la prueba de los signos manualmente:
#La prueba de los signos puede realizarse manualmente utilizando una prueba binomial, donde el número de éxitos es el número de diferencias positivas y la probabilidad bajo la hipótesis nula es 0.5 (es decir, no se espera que haya una diferencia sistemática).

# Paso 3: Realizar la prueba binomial
prueba_signos <- binom.test(signos_positivos, n = signos_positivos + signos_negativos, p = 0.5, alternative = "two.sided")
print(prueba_signos)

## 
##  Exact binomial test
## 
## data:  signos_positivos and signos_positivos + signos_negativos
## number of successes = 10, number of trials = 10, p-value = 0.001953
## alternative hypothesis: true probability of success is not equal to 0.5
## 95 percent confidence interval:
##  0.6915029 1.0000000
## sample estimates:
## probability of success 
##                      1

Analisis de resultados;

Dado que el valor𝑝0.001953, que es menor que el nivel de significancia comúnmente usado (α=0.05), rechazamos la hipótesis nula.Esto indica que hay una diferencia significativa entre el número de accidentes relacionados con el uso del teléfono móvil en la CDMX y Guadalajara.La prueba de los signos sugiere que existe una diferencia significativa entre ambas ciudades en cuanto al número de accidentes viales relacionadas con el uso de dispositivos moviles. Esta diferencia puede deberse a factores como la densidad del tráfico y el comportamiento de los conductores, entre otros.

#Grafico
years <- seq(2013, 2022)
data <- data.frame(
  years = rep(years, 2),
  accidentes = c(accidentes_cdmx, accidentes_gdl),
  ciudad = c(rep("CDMX", 10), rep("Guadalajara", 10))
)
library(ggplot2)

## Warning: package 'ggplot2' was built under R version 4.4.2

ggplot(data, aes(x = factor(years), y = accidentes, fill = ciudad)) +
  geom_bar(stat = "identity", position = "dodge") +
  labs(title = "Comparación de Accidentes de Tránsito Relacionados con el Uso de Teléfono Móvil",
       x = "Año", y = "Número de Accidentes",
       fill = "Ciudad") +
  scale_fill_manual(values = c("CDMX" = "green", "Guadalajara" = "orange")) +
  theme_minimal()

Interpretación del gráfico:

El gráfico muestra una clara diferencia en el número de accidentes viales entre CDMX y Guadalajara para el periodo 2013-2022.CDMX tiene consistentemente un mayor número de accidentes en comparación con Guadalajara, lo que respalda los resultados de la prueba de los signos.La diferencia visual entre las barras de cada ciudad ayuda a ilustrar la magnitud de la diferencia observada en los datos.La gráfica, junto con los resultados de la prueba de los signos, sugiere que existe una diferencia significativa en el número de accidentes entre las dos ciudades.

PRUEBA DE RANGOS CON SIGNOS WILCOXON

Empleando el estadístico de prueba de rangos con signos de Wilcoxon en R y con ayuda de la información de dos ciudades de la República Mexicana y del INEGI, (empleando datos de 10 años). Según el INEGI, los datos de la Estadística de Accidentes de Tránsito Terrestre (ATUS) muestran que el uso del teléfono celular sigue siendo una causa significativa de accidentes viales. Los datos más recientes indican que, tanto en la Ciudad de México como en Guadalajara, los accidentes de tránsito en zonas urbanas son un problema significativo, y el uso de dispositivos móviles al conducir es un factor que contribuye de manera importante a estos incidentes.

Para comparar el numero de accidentes entre CDMX y Guadalajara utilizando la prueba de rangos con signos de Wilcoxon, planteamos las siguientes hipótesis:

-Hipótesis Nula (H₀): No hay diferencia significativa en el numero de accidentes debido al uso del telefono movil entre estas dos ciudades (2013-2022)

-Hipótesis Alternativa (H₁):Si hay diferencia significativa en el numero de accidentes debido al uso del telefono movil entre estas dos ciudades (2013-2022)

#Paso 1: Establecer los datos como valores.
accidentes_cdmx <- c(18500, 19000, 19200, 18800, 19500, 20000, 19800, 20200, 20400, 20500)
accidentes_gdl <- c(7200, 7500, 7600, 7800, 7900, 8000, 8050, 8100, 8200, 8300)

##Paso 2: Realizar la prueba de rangos con signos de Wilcoxon
wilcoxon_test <- wilcox.test(accidentes_cdmx, accidentes_gdl, paired = TRUE)

## Warning in wilcox.test.default(accidentes_cdmx, accidentes_gdl, paired = TRUE):
## cannot compute exact p-value with ties

print(wilcoxon_test)

## 
##  Wilcoxon signed rank test with continuity correction
## 
## data:  accidentes_cdmx and accidentes_gdl
## V = 55, p-value = 0.005857
## alternative hypothesis: true location shift is not equal to 0

Análisis de los resultados:

Dado que el valor p (0.005857) es menor que el nivel de significancia comúnmente utilizado (0.05), se rechaza la hipótesis nula. Esto sugiere que existe una diferencia significativa en el numero de accidente automovilisticas relacionadas con el uso del telefono movil durante el periodo de 2013 a 2022. Con un valor de p tan bajo, es muy poco probable que los resultados observados se deban al azar. Esto sugiere firmemente que hay una diferencia real y significativa en el numero de accidente automovilisticas relacionadas con el uso del telefono movil durante 2013 a 2022. Podría haber varios factores que contribuyan a estas diferencias, como el numero de habitantes, el transito, etc. Es importante realizar un análisis adicional para comprender mejor las razones detrás de estas diferencias y cómo podrían impactar en el desarrollo económico y social de cada ciudad, asi como en las repercusiones en la salud de los conductores.

# Paso 3: Graficar 
years <- seq(2013, 2022)
data <- data.frame(years, accidentes_cdmx, accidentes_gdl)
library(ggplot2)
ggplot(data, aes(x = years)) +
geom_line(aes(y = accidentes_cdmx, color = "CDMX"), linewidth = 1) +
geom_line(aes(y = accidentes_gdl, color = "Guadalajara"), linewidth = 1) +
labs(title = "Accidentes de transito por el uso de dispositivos moviles", x = "Año", y = "Accidentes (miles)") +
scale_color_manual("", values = c("CDMX" = "green", "Guadalajara" = "orange")) +
theme_minimal()

Interpretación de la gráfica:

La gráfica ayuda a visualizar las diferencias en las tendencias del accidentes viales entre las dos ciudades. La prueba de Wilcoxon complementa esta visualización al proporcionar evidencia estadística de que estas diferencias pueden deberse a diveros factores como el transito, poblacion, entre otos factores.Ciudad de Mexico tiene consistentemente un indice mayor de accidentes que Guadalajara durante el período estudiado, lo que se refleja tanto en la gráfica como en el resultado significativo de la prueba estadística.

PRUEBA DE KRUSKAL-WALLIS

Empleando la prueba de Kruskal-Wallis en R y con ayuda de la información de dos ciudades de la República Mexicana (Ciudad de México y Guadalajara), utilizando datos diarios de concentración de ozono (O₃) durante la temporada de invierno en 2023.Según los datos más recientes de las estaciones de monitoreo de calidad del aire, la contaminación por ozono sigue siendo una preocupación significativa en ambas ciudades, especialmente durante la temporada de invierno debido a las condiciones climáticas que favorecen la acumulación de contaminantes. La exposición al ozono puede tener efectos adversos en la salud, afectando la calidad de vida de los habitantes.

Para analizar si existe una diferencia significativa en los niveles de ozono entre estas dos ciudades durante el invierno de 2023, se utilizarán datos quincenales durente los meses de diciembre, enero y febrero que son los meses de duracion de la estación recopilados de dos fuentes principales de monitoreo de calidad del aire:

-CDMX: Utilizando la Red de Meteorología y Radiación Solar (REDMET), se han encontrado los datos promedio diarios para el invierno 2023. La concentración promedio de O3 varía entre 0.001 ppm y 0.095 ppm

-Guadalajara: Basados en los informes de la Secretaría de Medio Ambiente de Jalisco (SEMADET), se observaron valores de concentración de O3 similares, con un rango que va de 0.002 ppm a 0.08 ppm durante el mismo período

Planteamiento de la hipótesis;

-Hipótesis Nula (H0):No hay diferencias significativas en la concentración de O3 entre las estaciones del Valle de México.

-Hipótesis Alternativa (H1):Hay al menos una diferencia significativa en la concentración de O3 entre las estaciones del Valle de México.

o3_data <- data.frame(quincena=c(1:24), 
                      CDMX=c(0.001,0.003,0.006,0.007,0.009,0.005,0.002,0.003,0.015,0.035,0.070,0.090,0.095,0.092,0.080,0.075,0.065,0.048,0.033,0.020,0.011,0.002,0.005,0.003), 
                      GDL=c(0.002,0.004,0.008,0.005,0.010,0.006,0.007,0.008,0.018,0.040,0.065,0.080,0.085,0.083,0.078,0.070,0.062,0.055,0.041,0.025,0.016,0.004,0.006,0.004))
o3_data

##    quincena  CDMX   GDL
## 1         1 0.001 0.002
## 2         2 0.003 0.004
## 3         3 0.006 0.008
## 4         4 0.007 0.005
## 5         5 0.009 0.010
## 6         6 0.005 0.006
## 7         7 0.002 0.007
## 8         8 0.003 0.008
## 9         9 0.015 0.018
## 10       10 0.035 0.040
## 11       11 0.070 0.065
## 12       12 0.090 0.080
## 13       13 0.095 0.085
## 14       14 0.092 0.083
## 15       15 0.080 0.078
## 16       16 0.075 0.070
## 17       17 0.065 0.062
## 18       18 0.048 0.055
## 19       19 0.033 0.041
## 20       20 0.020 0.025
## 21       21 0.011 0.016
## 22       22 0.002 0.004
## 23       23 0.005 0.006
## 24       24 0.003 0.004

kruskal_test <- kruskal.test(list(o3_data$CDMX, o3_data$GDL))
cat("Resultado de la prueba de Kruskal-Wallis:\n")

## Resultado de la prueba de Kruskal-Wallis:

print(kruskal_test)

## 
##  Kruskal-Wallis rank sum test
## 
## data:  list(o3_data$CDMX, o3_data$GDL)
## Kruskal-Wallis chi-squared = 0.18775, df = 1, p-value = 0.6648

Análisis de los resultados:

Dado que el valor p (0.6648) es mayor que el nivel de significancia comúnmente utilizado (0.05), no rechazamos la hipótesis nula. Por lo tanto, hay evidencia suficiente para concluir que no existen diferencias significativas en la concentración de O3 entre CDMX y Guadalajara en la estacion de invierno. El valor p de 0.6648 indica que es poco probable que los resultados observados se deban al azar. Por lo tanto, hay una alta confianza en que las diferencias en la concentración de O3 entre las estaciones son genuinas y no se deben simplemente a la variabilidad aleatoria en los datos. Esto se puede traducir como que factores como la ubicación geográfica, las condiciones climáticas y las fuentes de contaminación son similares en ambas ciudades al no haber una diferencia significativa en la concentración de O3 entre dos ciudades.

A continuación podrá apreciar el grafico de la concentración de O3 en invierno en la CDMX y Guadalajara respectivamente.

o3_data_long <- data.frame(
  quincena = rep(o3_data$quincena, 2),
  concentracion = c(o3_data$CDMX, o3_data$GDL),
  ciudad = c(rep("CDMX", 24), rep("Guadalajara", 24))
)
ggplot(o3_data_long, aes(x = quincena, y = concentracion, color = ciudad, group = ciudad)) +
  geom_line(linewidth = 1) +
  geom_point(size = 2) +
  labs(
    title = "Concentración de O3 durante la Temporada de Invierno en 2023",
    x = "Quincena",
    y = "Concentración de O3 (ppm)",
    color = "Ciudad"
  ) +
  scale_color_manual(values = c("CDMX" = "green", "Guadalajara" = "orange")) +
  theme_minimal()

Interpretación del gráfico:

La gráfica de lineas ayuda a visualizar las diferencias en las tendencias de concentracion de O3 entre las dos ciudades. La prueba de Kruskal-Wallis complementa esta visualización al proporcionar una comparacion entre los niveles de O3 en las dos ciudades en el periodo establecido, observando que no hay diferencia significativa.

c)Con ayuda de el precio de cierre de las acciones de Microsoft y aplicando la Prueba de Rachas: Aplicaremos la prueba de rachas para determinar si la secuencia de aumentos y disminuciones de los precios de cierre de las acciones de microsoft son aleatorias. Utilizaremos los precios de cierre de las acciones de Microsoft en octubre de 2024.

Planteamientos de la hipótesis:

-Hipótesis Nula (H₀): La secuencia de cambios en los precios de cierre es aleatoria.

-Hipótesis Alternativa (H₁): La secuencia de cambios en los precios de cierre no es aleatoria.

# Resultados de precios de cierre.
precios <- c(432.53, 431.95, 426.59, 428.15, 424.73, 424.60, 427.51, 418.78, 418.16, 416.72, 416.12, 418.74, 419.14, 416.32, 415.84, 417.46, 414.71, 409.54, 416.06, 416.54, 417.13, 420.69)

# Calcular la media de los precios de cierre
media_precios <- mean(precios)

#Hipótesis Nula (H0): La secuencia de precios no es aleatoria..
#Hipótesis Alternativa (H1): La secuencia de precios es aleatoria.

# Convertir los precios a una secuencia binaria
precios_binarios <- ifelse(precios > media_precios, 1, 0)

# Realizar la prueba de rachas
rachas_test <- rle(precios_binarios)
n1 <- sum(precios_binarios == 1)
n0 <- sum(precios_binarios == 0)
R <- length(rachas_test$lengths)  # Número de rachas observadas
E_R <- 1 + 2 * n1 * n0 / (n1 + n0)  # Valor esperado de rachas
Var_R <- 2 * n1 * n0 * (2 * n1 * n0 - n1 - n0) / ((n1 + n0)^2 * (n1 + n0 - 1))
Z <- (R - E_R) / sqrt(Var_R)

# Resultado de la prueba de rachas
p_value_rachas <- 2 * pnorm(-abs(Z))
cat("Resultado de la prueba de rachas:\n")

## Resultado de la prueba de rachas:

cat("Número de rachas observadas (R):", R, "\n")

## Número de rachas observadas (R): 3

cat("Valor esperado de rachas (E(R)):", E_R, "\n")

## Valor esperado de rachas (E(R)): 11.18182

cat("Varianza de rachas (Var(R)):", Var_R, "\n")

## Varianza de rachas (Var(R)): 4.451791

cat("Valor Z:", Z, "\n")

## Valor Z: -3.877774

cat("Valor p:", p_value_rachas, "\n")

## Valor p: 0.0001054167

Análisis de los resultados:

El valor p=0.0001054167 es menor que el nivel de significancia (comúnmente 0.05) por lo tanto no se rechaza la hipótesis nula, lo que significa que la variacion de los precios de cierre de las acciones es aleatoria; Se consideran factores como informacion financiera dela empresa, condiciones macroeconomicas (tasas de interes, inflacion, politica, etc), eventos economicos y tendencias de mercado.

# Crear gráfico de línea para los precios de cierre
dias <- 1:length(precios)

plot(dias, precios, type = "o", col = "green", pch = 16,
     main = "Precios de Cierre Diarios",
     xlab = "Días del Mes",
     ylab = "Precio de Cierre",
     ylim = c(min(precios) - 5, max(precios) + 5))

# Añadir una línea horizontal indicando la media
abline(h = media_precios, col = "orange", lty = 2)

legend("topright", legend = c("Precios de Cierre", "Media de Precios"),
       col = c("green", "orange"), lty = c(1, 2), pch = c(16, NA))

Interpretación del gráfico:

Este histograma muestra cómo se distribuyen los precios de cierre en octubre de 2024, proporcionando una representación visual de la aleatoriedad en los datos y se observa que no se sigue ningun patrón.Se muestra un gráfico de línea con los precios de cierre y se indica la media.

Con los datos utlizados en la prueba de rachas y aplicando la prueba de Kolmogorov-Smirnov

Hipotesis:

-Hipótesis Nula (H₀): Los precios de cierre siguen una distribución uniforme continua.

-Hipótesis Alternativa (H₁): Los precios de cierre no siguen una distribución uniforme continua.

# Datos de precios de cierre (mismos datos utilizados en la prueba de rachas)
precios <- c(432.53, 431.95, 426.59, 428.15, 424.73, 424.60, 427.51, 418.78, 418.16, 416.72, 416.12, 418.74, 419.14, 416.32, 415.84, 417.46, 414.71, 409.54, 416.06, 416.54, 417.13, 420.69)

# Determinamos el rango de los datos
min_val <- min(precios)
max_val <- max(precios)

# Realizar la prueba de Kolmogorov-Smirnov comparando con una distribución uniforme continua
ks_test <- ks.test(precios, "punif", min = min_val, max = max_val)

# Mostrar resultados de la prueba
print(ks_test)

## 
##  Exact one-sample Kolmogorov-Smirnov test
## 
## data:  precios
## D = 0.21879, p-value = 0.2096
## alternative hypothesis: two-sided

Análisis de los resultados:

Con un valor de p=0.2096 mayor que el nivel de significancia (comúnmente 0.05), no rechazamos la hipotesis nula, lo que indica que no hay suficiente evidencia para decir que los precios de cierre de las acciones de Microsoft no siguen una distribución uniforme discreta.El valor p (0.2096) es mayor que el nivel de significancia (0.05). Por lo tanto, no rechazamos la hipótesis nula; lo que indica que no hay suficiente evidencia para decir que los precios de cierre de las acciones de Microsoft no siguen una distribución uniforme discreta. En otras palabras, los datos observados son consistentes con una distribución uniforme discreta, lo que sugiere que los lanzamientos del dado se comportan como una secuencia aleatoria, cada precio tiene la misma probabilidad de aparecer.

# Crear un histograma para visualizar la distribución de los precios
hist(precios, 
     main = "Histograma de precios de cierre",
     xlab = "Precios de cierre",
     ylab = "Frecuencia",
     col = "orange",
     border = "black")

Interpretación del gráfico:

Podemos observar que los precios en el rango más bajo (alrededor de 405) y en el rango más alto (alrededor de 435) tienen frecuencias más bajas (2 observaciones cada uno).A su vez,la distribución de los precios no parece ser uniforme; está más concentrada en los intervalos centrales.El histograma sugiere que los precios de cierre tienden a agruparse más cerca de 420, con valores extremos menos comunes.

Con los datos del índice de accidentes viales po el uso de telefonos moviles aplicar la prueba de correlación de rangos.

#Realizar la prueba de correlación de rangos de Spearman
correlacion_spearman <- cor.test(accidentes_cdmx, accidentes_gdl, method = "spearman")
print(correlacion_spearman)

## 
##  Spearman's rank correlation rho
## 
## data:  accidentes_cdmx and accidentes_gdl
## S = 8, p-value < 2.2e-16
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##       rho 
## 0.9515152

Análisis de resultados:

El valor de ρ <2.2e-16, lo que indica una correlación positiva muy débil entre el numero de accidentes de la cdmx y guadalajara. Sin embargo, el valor p es 0.9515152, que es mayor que el nivel de significancia comúnmente utilizado (0.05). Por lo tanto, no hay suficiente evidencia para rechazar la hipótesis nula de que no hay correlación entre ambas ciudades. Aunque el coeficiente de correlación de Spearman indica una correlación positiva débil, esta correlación no es estadísticamente significativa. Esto sugiere que, según los datos disponibles, no hay una asociación significativa entre las variaciones de accidentes automovilisticas por el uso de smartphones en el lapso de tiempo estudiado.

CONCLUSIONES GENERALES

Los resultados obtenidos a través de las pruebas no paramétricas destacan las siguientes observaciones clave:

Prueba de Rachas: La detección de patrones en la serie temporal de precios sugiere la presencia o ausencia de aleatoriedad, proporcionando una visión sobre la eficiencia del mercado.

Kolmogorov-Smirnov: Ayudó a evaluar si los datos siguen una distribución uniforme, confirmando que las desviaciones de la distribución esperada son mínimas o significativas.

Kruskal-Wallis: Indicó diferencias en las medianas de concentraciones de ozono entre dos ciudades, lo que puede estar relacionado con factores externos como políticas ambientales o geografía.

Correlación de Spearman: Identificó asociaciones positivas o negativas entre accidentes en dos regiones, útil para explorar tendencias en datos ordinales.

Prueba de los Signos: Confirmó si los accidentes en diferentes regiones presentan diferencias estadísticamente significativas, sin asumir una distribución específica.

SUGERENCIAS

Análisis adicional:

En las pruebas como Kolmogorov-Smirnov o Kruskal-Wallis, complementar con visualizaciones (boxplots, histogramas) para interpretar mejor las diferencias entre grupos o distribuciones.

Si se detectan asociaciones en la correlación de Spearman, considerar modelos adicionales como regresiones para cuantificar el impacto. Uso combinado de métodos:

Cuando los datos lo permitan, realizar pruebas paramétricas para confirmar resultados y maximizar potencia estadística. Si los supuestos no se cumplen, validar con las pruebas no paramétricas.

Tamaño de la muestra:

Aumentar el tamaño muestral en futuras recopilaciones de datos para mejorar la confiabilidad de los resultados, especialmente en escenarios donde las diferencias son marginales.

Contexto de interpretación:

Considerar factores externos (ambientales, económicos o sociales) al interpretar resultados, especialmente en pruebas como Kruskal-Wallis y Spearman, donde los datos pueden estar influenciados por variables no incluidas en el análisis.

Aplicación práctica:

Los resultados pueden usarse para respaldar decisiones prácticas, como ajustes en políticas públicas o estrategias de mercado, siempre complementados con un análisis multidimensional.

REFERENCIAS

##1.De Estadística y Geografía, I. N. (s. f.). Tabulados. https://www.inegi.org.mx/app/tabulados/default.aspx?pr=17&vr=7&in=2&tp=20&wr=1&cno=2

##2.R Core Team. (2023). R: A language and environment for statistical computing (Version 4.3.0) [Computer software]. R Foundation for Statistical Computing. https://www.R-project.org/

##3.Herramientas para Investigación en Salud. (2023, 11 febrero). Análisis Estadístico de Correlación con R Studio: Correlación de Pearson y Correlación de Spearman [Vídeo]. YouTube. https://www.youtube.com/watch?v=uG9JwXejW9

##4.Wickham, H. (2016). ggplot2: Elegant graphics for data analysis (2nd ed.). Springer-Verlag. https://ggplot2.tidyverse.org

##5.Dirección de Monitoreo Atmosférico. (s. f.). http://www.aire.cdmx.gob.mx/default.php?opc=%27aqBjnmg=%27

##6.R Documentation: hist function. Disponible en: https://stat.ethz.ch/R-manual/R-devel/library/graphics/html/hist.html

##7.Chambers, J. M., Cleveland, W. S., Kleiner, B., & Tukey, P. A. (1983). Graphical Methods for Data Analysis. Belmont, CA: Wadsworth International Group. Disponible en: https://www.taylorfrancis.com/books/mono/10.1201/9780367804412/graphical-methods-data-analysis-martin-chambers-william-cleveland-beat-kleiner-paul-tukey

##8.R Documentation: ks.test function. Disponible en: https://stat.ethz.ch/R-manual/R-devel/library/stats/html/ks.test.html

##9.R Documentation: kruskal.test function. Disponible en: https://stat.ethz.ch/R-manual/R-devel/library/stats/html/kruskal.test.html

```

Evaluacion Tema 6: Inferencia no paramétrica

Baeza Montoya Yesenia / Cerezo Tello Dniel / Ramirez Pineda Vania Rebeca

2024-11-17