Preparación

# Manejo de datos y gráficos
library(tidyverse)

## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.2.0     ✔ readr     2.1.6
## ✔ forcats   1.0.1     ✔ stringr   1.6.0
## ✔ ggplot2   4.0.2     ✔ tibble    3.3.1
## ✔ lubridate 1.9.5     ✔ tidyr     1.3.2
## ✔ purrr     1.2.1     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors

# Lectura de archivos: Excel (readxl) y SPSS/Stata (haven)
library(readxl)
library(haven)
# Gráficos de correlación
library(corrplot)

## Warning: package 'corrplot' was built under R version 4.5.3

## corrplot 0.95 loaded

library(PerformanceAnalytics)

## Warning: package 'PerformanceAnalytics' was built under R version 4.5.3

## Cargando paquete requerido: xts

## Warning: package 'xts' was built under R version 4.5.3

## Cargando paquete requerido: zoo

## Warning: package 'zoo' was built under R version 4.5.3

## 
## Adjuntando el paquete: 'zoo'
## 
## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric
## 
## 
## ######################### Warning from 'xts' package ##########################
## #                                                                             #
## # The dplyr lag() function breaks how base R's lag() function is supposed to  #
## # work, which breaks lag(my_xts). Calls to lag(my_xts) that you type or       #
## # source() into this session won't work correctly.                            #
## #                                                                             #
## # Use stats::lag() to make sure you're not using dplyr::lag(), or you can add #
## # conflictRules('dplyr', exclude = 'lag') to your .Rprofile to stop           #
## # dplyr from breaking base R's lag() function.                                #
## #                                                                             #
## # Code in packages is not affected. It's protected by R's namespace mechanism #
## # Set `options(xts.warn_dplyr_breaks_lag = FALSE)` to suppress this warning.  #
## #                                                                             #
## ###############################################################################
## 
## Adjuntando el paquete: 'xts'
## 
## The following objects are masked from 'package:dplyr':
## 
##     first, last
## 
## 
## Adjuntando el paquete: 'PerformanceAnalytics'
## 
## The following object is masked from 'package:graphics':
## 
##     legend

# Asimetría y curtosis (coeficientes de forma para evaluar normalidad)
library(moments)

## 
## Adjuntando el paquete: 'moments'
## 
## The following objects are masked from 'package:PerformanceAnalytics':
## 
##     kurtosis, skewness

# Pruebas de supuestos: Breusch-Pagan (homocedasticidad) y Durbin-Watson (independencia)
library(lmtest)

## Warning: package 'lmtest' was built under R version 4.5.3

# VIF para medir multicolinealidad
library(car)

## Warning: package 'car' was built under R version 4.5.3

## Cargando paquete requerido: carData

## Warning: package 'carData' was built under R version 4.5.3

## 
## Adjuntando el paquete: 'car'
## 
## The following object is masked from 'package:dplyr':
## 
##     recode
## 
## The following object is masked from 'package:purrr':
## 
##     some

# Pruebas de normalidad para muestras grandes (Lilliefors, Anderson-Darling)
library(nortest)
# Formato de ejes y cifras
library(scales)

## 
## Adjuntando el paquete: 'scales'
## 
## The following object is masked from 'package:purrr':
## 
##     discard
## 
## The following object is masked from 'package:readr':
## 
##     col_factor

# Salidas ordenadas de los modelos
library(broom)

Modelo 1: Análisis de la relación entre la diferencia de distancias y el número de errores

Descripción inicial de las variables

Se estudió la relación entre la diferencia de las distancias algorítmicas y el número de errores cometidos por los sujetos durante la tarea de clasificación. La diferencia de distancias se consideró como variable explicativa, mientras que el número de errores se tomó como variable respuesta.

x1 <- c(0.71,0.67,1.98,1.61,0.67,1.48,0.25,1.44,1.06,0.95)

y <- c(12,10,4,2,6,5,16,3,4,8)

Como primera aproximación se realizó un análisis descriptivo para conocer el comportamiento general de las variables estudiadas.

summary(x1)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.250   0.680   1.005   1.082   1.470   1.980

summary(y)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     2.0     4.0     5.5     7.0     9.5    16.0

Las estadísticas descriptivas muestran que la diferencia de distancias (x1) presenta valores comprendidos entre 0.25 y 1.98, con una media de 1.082 y una mediana de 1.005. La cercanía entre ambas medidas sugiere una distribución relativamente equilibrada, aunque algunos valores altos elevan ligeramente el promedio.

Por su parte, el número de errores (y) varía entre 2 y 16 errores, con una media de 7 y una mediana de 5.5. Dado que la media es superior a la mediana, se observa una ligera asimetría positiva, indicando la presencia de algunos sujetos con un número de errores superior al comportamiento típico del grupo.

Análisis gráfico

Con el fin de visualizar la distribución de las variables y detectar posibles valores atípicos, se construyeron histogramas y diagramas de caja.

par(mfrow = c(2,2))

hist(x1,
     main = "Histograma Distancias",
     xlab = "Distancia",
     col = "steelblue")

boxplot(x1,
        main = "Boxplot Distancias",
        xlab = "Distancia",
        col = "steelblue",
        horizontal = TRUE)

hist(y,
     main = "Histograma Errores",
     xlab = "Número de errores",
     col = "steelblue")

boxplot(y,
        main = "Boxplot Errores",
        xlab = "Número de errores",
        col = "steelblue",
        horizontal = TRUE)

Los gráficos permiten observar una distribución relativamente estable de los datos y no evidencian valores atípicos marcados. Asimismo, se aprecia una ligera asimetría en la variable número de errores, asociada a la presencia de algunas observaciones con valores superiores al promedio.

##Análisis gráfico de correlación

Con el propósito de explorar visualmente la relación entre la diferencia de distancias y el número de errores, se construyó una matriz de correlación. Esta representación permite examinar simultáneamente la distribución de las variables, los diagramas de dispersión y la intensidad de la asociación lineal entre ellas.

datos_cor <- data.frame(
  Diferencia_Distancias = x1,
  Numero_Errores = y
)

chart.Correlation(
  datos_cor,
  histogram = TRUE,
  pch = 19,
  method = "pearson"
)

La matriz de correlación muestra una asociación negativa fuerte entre la diferencia de distancias y el número de errores (r=−0.83). Esto indica que las láminas con mayores diferencias entre las distancias tienden a generar menos errores de clasificación. El diagrama de dispersión confirma esta tendencia descendente, mientras que los histogramas evidencian una distribución relativamente dispersa de ambas variables. En consecuencia, existe evidencia gráfica suficiente para considerar una relación lineal importante entre las variables y proceder con el análisis inferencial correspondiente.

Evaluación del supuesto de normalidad

Antes de seleccionar el coeficiente de correlación más adecuado, es necesario verificar si las variables siguen una distribución normal. Debido a que la muestra está compuesta por únicamente 10 observaciones, se empleó la prueba de Shapiro-Wilk, la cual es recomendada para tamaños muestrales pequeños.

#Hipotesis para la variable diferencia de distancias (x1)
#H0: La diferencia de distancias sigue una distribución normal.
#H1: La diferencia de distancias no sigue una distribución normal.
shapiro.test(x1)

## 
##  Shapiro-Wilk normality test
## 
## data:  x1
## W = 0.96224, p-value = 0.8111

#Hipotesis para la variable numero de errores (y)
#H0: La variable numero de errores sigue una distribución normal.
#H1: La variable numero de errores no sigue una distribución normal.
shapiro.test(y)

## 
##  Shapiro-Wilk normality test
## 
## data:  y
## W = 0.91166, p-value = 0.2926

Los resultados de la prueba de Shapiro-Wilk indican que ambas variables presentan distribución normal (p>0.05). Por consiguiente, se cumplen los supuestos necesarios para utilizar el coeficiente de correlación de Pearson en el estudio de la asociación entre la diferencia de distancias y el número de errores.

#Ajuste del modelo de regresión lineal simple

Dado que se encontró evidencia de asociación entre las variables, se ajustó un modelo de regresión lineal simple con el propósito de explicar el número de errores a partir de la diferencia de distancias.

Coeficiente de correlación de Spearman modelo 1

H0:No existe asociación entre la diferencia de distancias y el número de errores.

H1: Existe asociación entre la diferencia de distancias y el número de errores.

Se trabajará con un nivel de significancia de α=0.05. Si el valor p es menor que 0.05, se rechazará la hipótesis nula y se concluirá que existe una asociación estadísticamente significativa entre las variables.

modelo1 <- lm(y~x1)

summary(modelo1)

## 
## Call:
## lm(formula = y ~ x1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.8650 -1.4650  0.1086  2.0018  3.2445 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   14.524      1.979   7.339 8.08e-05 ***
## x1            -6.954      1.657  -4.197  0.00301 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.651 on 8 degrees of freedom
## Multiple R-squared:  0.6877, Adjusted R-squared:  0.6486 
## F-statistic: 17.61 on 1 and 8 DF,  p-value: 0.00301

Significancia de los coeficientes

Significancia del intercepto

Hipótesis:

\[H_0:\beta_0=0 \]

\[ H_1:\beta_0\neq0 \]

El valor p asociado al intercepto fue \[8.08\times10^{-5}\].

Dado que el valor p es inferior a 0.05, se rechaza la hipótesis nula y se concluye que el intercepto es estadísticamente significativo.

Significancia de la pendiente

Hipótesis:

\[ H_0:\beta_1=0 \]

\[ H_1:\beta_1\neq0 \]

El valor p asociado a la pendiente fue 0.00301.

Como el valor p es menor que 0.05, se rechaza la hipótesis nula. Por tanto, existe evidencia estadísticamente significativa para afirmar que la diferencia de distancias influye sobre el número de errores.

Capacidad explicativa del modelo

Con el fin de evaluar la calidad del ajuste obtenido, se analizaron tanto el coeficiente de correlación (r) como el coeficiente de determinación (R 2 ). El primero permite medir la intensidad y dirección de la relación lineal entre la diferencia de distancias y el número de errores, mientras que el segundo cuantifica la proporción de la variabilidad observada en la variable respuesta que puede ser explicada por el modelo de regresión ajustado. De esta manera, ambos indicadores proporcionan información complementaria sobre la fuerza de la asociación y la capacidad explicativa del modelo.

El modelo presentó un coeficiente de determinación de:

\[ R^2=0.6877 \]

y un coeficiente de determinación ajustado de:

\[ R^2_{ajustado}=0.6486 \]

Esto indica que aproximadamente el 68.77 % de la variabilidad observada en el número de errores es explicada por la diferencia de distancias. Después de ajustar por el tamaño de la muestra y el número de variables incluidas, la capacidad explicativa se mantiene en 64.86 %.

Modelo 2: Distancia Euclídea y Número de Errores

Descripción de las variables

Con el propósito de evaluar una segunda medida de distancia, se analizó la relación entre la diferencia de distancias euclídeas y el número de errores cometidos por los sujetos. La diferencia de distancias euclídeas se consideró como variable explicativa, mientras que el número de errores se tomó como variable respuesta.

x2 <- c(9.98,9.97,9.93,9.92,9.99,9.99,9.93,9.93,9.97,8.00)

y <- c(12,10,4,2,6,5,16,3,4,8)

Exploración descriptiva de los datos

Como primera aproximación al comportamiento de las variables, se realizó un análisis descriptivo con el fin de identificar medidas de tendencia central, dispersión y posibles características relevantes de los datos.

summary(x2)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   8.000   9.930   9.950   9.761   9.977   9.990

summary(y)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     2.0     4.0     5.5     7.0     9.5    16.0

La variable distancia euclídea presenta valores comprendidos entre 8.00 y 9.99, con una media de 9.761 y una mediana de 9.950. La media es inferior a la mediana debido a la presencia de un valor considerablemente más bajo (8.00), lo que sugiere una ligera asimetría negativa en la distribución. Además, la cercanía entre el primer y tercer cuartil indica una baja dispersión en la mayoría de las observaciones.

Por su parte, el número de errores registra valores entre 2 y 16, con una media de 7 y una mediana de 5.5. La media superior a la mediana sugiere una ligera asimetría positiva, asociada a la presencia de algunos individuos con un número de errores superior al comportamiento típico del grupo.

Análisis gráfico de las variables modelo

Con el fin de examinar la distribución de los datos y detectar posibles valores atípicos, se construyeron histogramas y diagramas de caja para cada una de las variables consideradas en el análisis.

par(mfrow=c(2,2))

hist(x2,
     main="Histograma Distancia Euclídea",
     xlab="Distancia Euclídea",
     col="steelblue")

boxplot(x2,
        main="Boxplot Distancia Euclídea",
        xlab="Distancia Euclídea",
        col="steelblue",
        horizontal=TRUE)

hist(y,
     main="Histograma Número de Errores",
     xlab="Número de Errores",
     col="steelblue")

boxplot(y,
        main="Boxplot Número de Errores",
        xlab="Número de Errores",
        col="steelblue",
        horizontal=TRUE)

Los gráficos evidencian que la distancia euclídea presenta una fuerte concentración de valores cercanos a 10 y una observación atípica alrededor de 8, lo que genera asimetría negativa. Por su parte, el número de errores muestra una distribución más dispersa y una ligera asimetría positiva. En general, la variabilidad de la distancia euclídea es reducida en comparación con la observada en el número de errores.

Análisis gráfico de correlación

Como complemento al análisis descriptivo, se construyó una matriz gráfica de correlación para visualizar simultáneamente la distribución de las variables y la posible asociación existente entre ellas.

datos_cor2 <- data.frame(
  Distancia_Euclidea = x2,
  Numero_Errores = y
)

chart.Correlation(datos_cor2)

La matriz de correlación muestra una asociación prácticamente nula entre la distancia euclídea y el número de errores, como lo evidencia el coeficiente de correlación de Pearson (r=−0.073). El diagrama de dispersión no presenta una tendencia lineal clara y los puntos aparecen ampliamente dispersos, lo que sugiere que la distancia euclídea tiene una capacidad muy limitada para explicar la variabilidad observada en el número de errores. En comparación con el Modelo 1, la relación observada es considerablemente más débil.

Evaluación del supuesto de normalidad modelo 2

Antes de analizar formalmente la relación entre la distancia euclídea y el número de errores, se verificó el cumplimiento del supuesto de normalidad mediante la prueba de Shapiro-Wilk. Dado que la muestra está compuesta por diez observaciones, esta prueba resulta apropiada para determinar si las variables pueden considerarse normalmente distribuidas.

#Hipotesis para la variable distancia euclidea (x2)
#H0: La distancia euclidea sigue una distribución normal.
#H1: La distancia euclidea no sigue una distribución normal.
shapiro.test(x2)

## 
##  Shapiro-Wilk normality test
## 
## data:  x2
## W = 0.40466, p-value = 2.824e-07

#Hipotesis para la variable numero de errores (y)
#H0: La variable numero de errores sigue una distribución normal.
#H1: La variable numero de errores no sigue una distribución normal.
shapiro.test(y)

## 
##  Shapiro-Wilk normality test
## 
## data:  y
## W = 0.91166, p-value = 0.2926

La variable distancia euclídea no presenta una distribución normal (p<0.05), mientras que el número de errores sí cumple este supuesto (p>0.05). Por lo tanto, la asociación entre ambas variables se estudiará mediante el coeficiente de correlación de Spearman.

Coeficiente de correlación de Spearman modelo 2

H0:No existe asociación entre la distancia euclídea y el número de errores.

H1: Existe asociación entre la distancia euclídea y el número de errores.

cor.test(x2, y, method = "spearman")

## Warning in cor.test.default(x2, y, method = "spearman"): Cannot compute exact
## p-value with ties

## 
##  Spearman's rank correlation rho
## 
## data:  x2 and y
## S = 124.64, p-value = 0.4958
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##       rho 
## 0.2446114

El análisis mediante el coeficiente de correlación de Spearman produjo un valor de ρs=0.2446, lo que indica una asociación positiva débil entre la distancia euclídea y el número de errores. Sin embargo, el valor p obtenido (p=0.4958) es superior al nivel de significancia de 0.05, por lo que no se rechaza la hipótesis nula de ausencia de asociación. En consecuencia, no existe evidencia estadísticamente significativa para afirmar que la distancia euclídea influya o se relacione con el número de errores.

Ajuste del modelo de regresión lineal simple

Aunque el análisis de correlación no evidenció una asociación estadísticamente significativa entre la distancia euclídea y el número de errores, se procedió a ajustar un modelo de regresión lineal simple con el propósito de cuantificar la relación entre ambas variables y comparar posteriormente su capacidad explicativa con la obtenida en el primer modelo. Este procedimiento permitirá determinar cuál de las dos medidas de distancia describe de mejor manera el comportamiento del número de errores.

modelo2 <- lm(y ~ x2)

summary(modelo2)

## 
## Call:
## lm(formula = y ~ x2)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -4.917 -2.906 -1.380  2.351  9.089 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)
## (Intercept)  12.1176    24.8983   0.487    0.640
## x2           -0.5243     2.5462  -0.206    0.842
## 
## Residual standard error: 4.731 on 8 degrees of freedom
## Multiple R-squared:  0.005272,   Adjusted R-squared:  -0.1191 
## F-statistic: 0.0424 on 1 and 8 DF,  p-value: 0.842

Ajuste del modelo de regresión lineal simple

Con el propósito de cuantificar la relación entre la distancia euclídea y el número de errores, se ajustó un modelo de regresión lineal simple utilizando el método de mínimos cuadrados ordinarios. Este modelo permite estimar el efecto de la distancia euclídea sobre el número esperado de errores.

modelo2 <- lm(y ~ x2)
summary(modelo2)

## 
## Call:
## lm(formula = y ~ x2)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -4.917 -2.906 -1.380  2.351  9.089 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)
## (Intercept)  12.1176    24.8983   0.487    0.640
## x2           -0.5243     2.5462  -0.206    0.842
## 
## Residual standard error: 4.731 on 8 degrees of freedom
## Multiple R-squared:  0.005272,   Adjusted R-squared:  -0.1191 
## F-statistic: 0.0424 on 1 and 8 DF,  p-value: 0.842

Ecuación estimada del modelo

La ecuación estimada fue:

\[ \hat{y}=12.118-0.524x_2 \]

donde:

\[\hat{y}\] representa el número estimado de errores.
\[x_2\] corresponde a la distancia euclídea.

Interpretación de los coeficientes

Intercepto (\(\beta_0\))

El intercepto estimado fue:

\[ \beta_0=12.118 \]

Cuando la distancia euclídea es igual a cero, el número esperado de errores es aproximadamente 12.12. Sin embargo, este valor tiene poca interpretación práctica debido a que dicho valor no se encuentra dentro del rango observado de los datos.

Pendiente (\(\beta_1\))

La pendiente estimada fue:

\[ \beta_1=-0.524 \]

Por cada unidad adicional en la distancia euclídea, el número esperado de errores disminuye en promedio 0.52 unidades. No obstante, la magnitud de este efecto es reducida y requiere ser evaluada mediante pruebas de significancia.

Significancia de los coeficientes

Significancia del intercepto

Hipótesis:

\[ H_0:\beta_0=0 \]

\[ H_1:\beta_0\neq0 \]

El valor p asociado al intercepto fue:

\[ p=0.640 \]

Dado que el valor p es superior a 0.05, no se rechaza la hipótesis nula. Por lo tanto, el intercepto no resulta estadísticamente significativo.

Significancia de la pendiente

Hipótesis:

\[ H_0:\beta_1=0 \]

\[ H_1:\beta_1\neq0 \]

El valor p asociado a la pendiente fue:

\[ p=0.842 \]

Como el valor p es mayor que 0.05, no se rechaza la hipótesis nula. En consecuencia, no existe evidencia estadísticamente significativa para afirmar que la distancia euclídea influye sobre el número de errores.

Significancia global del modelo

Hipótesis:

\[ H_0:\beta_1=0 \]

\[ H_1:\beta_1\neq0 \]

La prueba F produjo:

\[ F=0.0424 \]

con un valor p de:

\[ p=0.842 \]

Dado que el valor p es superior a 0.05, no se rechaza la hipótesis nula. Por lo tanto, el modelo de regresión no resulta estadísticamente significativo y no proporciona evidencia suficiente para explicar la variabilidad observada en el número de errores.

Capacidad explicativa del modelo

Con el fin de evaluar la calidad del ajuste obtenido, se analizaron tanto el coeficiente de correlación como el coeficiente de determinación. El primero permite medir la intensidad y dirección de la relación entre las variables, mientras que el segundo cuantifica la proporción de la variabilidad observada en la variable respuesta que puede ser explicada por el modelo ajustado.

El modelo presentó un coeficiente de determinación de:

\[ R^2=0.0053 \]

y un coeficiente de determinación ajustado de:

\[ R^2_{ajustado}=-0.1191 \]

Esto indica que únicamente el 0.53 % de la variabilidad observada en el número de errores es explicada por la distancia euclídea. Además, el valor negativo del coeficiente de determinación ajustado evidencia una capacidad explicativa muy baja, sugiriendo que la inclusión de esta variable no mejora la predicción del número de errores.

Tabla comparativas de modelo 1 y modelo 2

Comparación de los modelos de regresión

Indicador	Modelo 1: Distancia algorítmica	Modelo 2: Distancia euclídea
Coeficiente de correlación	-0.829	0.245
Significancia de la correlación (p-value)	< 0.05	0.4958
Pendiente (\(\beta_1\))	-6.954	-0.524
Significancia de la pendiente (p-value)	0.0030	0.842
Coeficiente de determinación (\(R^2\))	0.6877	0.0053
Coeficiente de determinación ajustado (\(R^2_{ajustado}\))	0.6486	-0.1191
Error estándar residual	2.651	4.731
Significancia global del modelo (Prueba F)	0.0030	0.842
Capacidad explicativa	Alta	Muy baja
Decisión	Modelo seleccionado	No recomendado

La comparación evidencia que el Modelo 1 presenta una asociación más fuerte y significativa entre las variables, una mayor capacidad explicativa (R 2 =68.77%) y un menor error estándar residual. Por el contrario, el Modelo 2 explica únicamente el 0.53 % de la variabilidad observada en el número de errores y no resulta estadísticamente significativo. En consecuencia, se selecciona el Modelo 1 como la alternativa más adecuada para explicar el comportamiento de la variable respuesta.

Selección del modelo

Los resultados muestran que el Modelo 1, basado en la diferencia de distancias algorítmicas, presenta una asociación negativa fuerte y estadísticamente significativa con el número de errores (r=−0.829, p<0.05). Además, explica aproximadamente el 68.77 % de la variabilidad observada en la variable respuesta y presenta un menor error estándar residual. Por el contrario, el Modelo 2 evidencia una asociación débil y no significativa, con una capacidad explicativa prácticamente nula (R 2 =0.53%). En consecuencia, el Modelo 1 proporciona un ajuste considerablemente superior y constituye la alternativa más adecuada para describir y explicar el comportamiento del número de errores.

Verificación de los supuestos del modelo seleccionado (Modelo 1)

Una vez identificado el modelo con mejor desempeño estadístico, se procedió a evaluar los supuestos asociados a la regresión lineal mediante el análisis de los residuos. Esta etapa permite verificar la validez de las inferencias realizadas y determinar si el modelo cumple las condiciones necesarias para su adecuada interpretación.

residuos <- residuals(modelo1)

par(mfrow=c(2,2))
plot(modelo1)

Los gráficos de diagnóstico sugieren que los residuos se distribuyen de manera relativamente aleatoria alrededor de cero y no evidencian patrones sistemáticos fuertes. El gráfico Q-Q muestra que la mayoría de los puntos se encuentran próximos a la línea de referencia, lo que indica un comportamiento aproximadamente normal de los residuos. Asimismo, los gráficos Residuals vs Fitted y Scale-Location no muestran cambios drásticos en la dispersión de los residuos, aunque la reducida cantidad de observaciones limita una evaluación concluyente. Finalmente, el gráfico Residuals vs Leverage señala algunas observaciones con influencia moderada, pero no se identifican puntos extremadamente influyentes que comprometan el ajuste del modelo.

Prueba de normalidad de los residuos

Con el propósito de verificar uno de los supuestos fundamentales de la regresión lineal, se evaluó la normalidad de los residuos mediante la prueba de Shapiro-Wilk. Este análisis permite determinar si los errores del modelo siguen una distribución aproximadamente normal, condición necesaria para garantizar la validez de algunas inferencias estadísticas asociadas al modelo.

H0Los residuos del modelo siguen una distribución normal.

H1:Los residuos del modelo no siguen una distribución normal.

residuos <- residuals(modelo1)

shapiro.test(residuos)

## 
##  Shapiro-Wilk normality test
## 
## data:  residuos
## W = 0.94111, p-value = 0.5654

La prueba de Shapiro-Wilk (p=0.5654) indica que los residuos presentan una distribución aproximadamente normal. En consecuencia, el supuesto de normalidad de los errores puede considerarse satisfecho para el modelo seleccionado.

Homocedasticidad de los residuos

Otro supuesto fundamental de la regresión lineal establece que la varianza de los residuos debe permanecer constante para todos los niveles de la variable explicativa. Para evaluar este supuesto se empleó la prueba de Breusch-Pagan, la cual permite detectar la presencia de heterocedasticidad en los errores del modelo.

H0: Los residuos presentan varianza constante (homocedasticidad). H1: :Los residuos no presentan varianza constante (heterocedasticidad).

bptest(modelo1)

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo1
## BP = 0.47855, df = 1, p-value = 0.4891

La prueba de Breusch-Pagan (p=0.4891) indica que no existe evidencia de heterocedasticidad en los residuos. En consecuencia, puede asumirse que la varianza de los errores permanece aproximadamente constante, cumpliéndose el supuesto de homocedasticidad del modelo.

Independencia de los residuos

Finalmente, se evaluara el supuesto de independencia de los residuos mediante la prueba de Durbin-Watson. Este análisis permite determinar si existe autocorrelación entre los errores del modelo, condición necesaria para garantizar la validez de las estimaciones obtenidas mediante regresión linea.

H0:No existe autocorrelaciÓN entre los residuos. H1:Existe autocorrelaciÓN entre los residuos.

dwtest(modelo1)

## 
##  Durbin-Watson test
## 
## data:  modelo1
## DW = 1.8701, p-value = 0.4507
## alternative hypothesis: true autocorrelation is greater than 0

La prueba de Durbin-Watson produjo un estadístico de prueba de DW=1.8701 y un valor p de 0.4507.

Dado que el valor p es superior a 0.05, no se rechaza la hipótesis nula de independencia de los residuos. Por lo tanto, no existe evidencia estadística suficiente para afirmar la presencia de autocorrelación en los errores del modelo.

Adicionalmente, el valor del estadístico Durbin-Watson es cercano a 2, lo que respalda la ausencia de dependencia entre los residuos y sugiere que el supuesto de independencia puede considerarse satisfecho

Evaluación general de los supuestos del modelo

El análisis de los residuos del modelo seleccionado evidenció un comportamiento adecuado respecto a los principales supuestos de la regresión lineal. La prueba de Shapiro-Wilk (p=0.5654) indicó que los residuos siguen una distribución aproximadamente normal, mientras que la prueba de Breusch-Pagan (p=0.4891) no encontró evidencia de heterocedasticidad, sugiriendo una varianza constante de los errores. Asimismo, la prueba de Durbin-Watson (p=0.4507) confirmó la independencia de los residuos. En conjunto, estos resultados permiten concluir que los supuestos fundamentales del modelo lineal se cumplen razonablemente, por lo que las inferencias y estimaciones obtenidas pueden considerarse válidas dentro del contexto del estudio.

Conclusiones

El análisis realizado permitió evaluar dos medidas de distancia como posibles explicaciones del número de errores cometidos en una tarea de clasificación de patrones. Inicialmente, el estudio exploratorio mostró diferencias importantes en la variabilidad de las variables analizadas, sugiriendo que la distancia algorítmica podría contener mayor información para explicar el comportamiento de la variable respuesta.

Los resultados obtenidos para el primer modelo evidenciaron una relación lineal negativa fuerte y estadísticamente significativa entre la diferencia de distancias algorítmicas y el número de errores (r=−0.829, p<0.05). El modelo de regresión ajustado presentó una pendiente significativa (β1=−6.954, p=0.003) y una capacidad explicativa considerable, alcanzando un coeficiente de determinación de R2=0.6877. Esto indica que aproximadamente el 68.77 % de la variabilidad observada en el número de errores puede ser explicada por la diferencia de distancias algorítmicas.

En contraste, la distancia euclídea mostró una asociación débil y no significativa con el número de errores (ρs=0.2446, p=0.4958). De igual forma, el modelo de regresión construido a partir de esta variable presentó una capacidad explicativa prácticamente nula (R2=0.0053), evidenciando que esta medida de distancia no resulta adecuada para describir el comportamiento de la variable respuesta.

La comparación entre ambos modelos permitió identificar claramente al modelo basado en la diferencia de distancias algorítmicas como la alternativa más apropiada. Además de presentar mejores indicadores de ajuste y significancia estadística, cumplió satisfactoriamente los supuestos de normalidad, homocedasticidad e independencia de los residuos, lo que fortalece la validez de las conclusiones obtenidas.

En consecuencia, se concluye que la diferencia de distancias algorítmicas constituye una medida más efectiva que la distancia euclídea para explicar y predecir el número de errores en la tarea de clasificación analizada.

Punto Parcial 1 Maira Vargas

Maira Vargas Castro

2026-06-13

Preparación

Modelo 1: Análisis de la relación entre la diferencia de distancias y el número de errores

Descripción inicial de las variables

Análisis gráfico

Evaluación del supuesto de normalidad

Coeficiente de correlación de Spearman modelo 1

Significancia de los coeficientes

Significancia del intercepto

Significancia de la pendiente

Capacidad explicativa del modelo

Modelo 2: Distancia Euclídea y Número de Errores

Exploración descriptiva de los datos

Análisis gráfico de las variables modelo

Análisis gráfico de correlación

Evaluación del supuesto de normalidad modelo 2

Coeficiente de correlación de Spearman modelo 2

Ajuste del modelo de regresión lineal simple

Ajuste del modelo de regresión lineal simple

Ecuación estimada del modelo

Interpretación de los coeficientes

Intercepto (\(\beta_0\))

Pendiente (\(\beta_1\))

Significancia de los coeficientes

Significancia del intercepto

Significancia de la pendiente

Significancia global del modelo

Capacidad explicativa del modelo

Tabla comparativas de modelo 1 y modelo 2

Comparación de los modelos de regresión

Selección del modelo

Verificación de los supuestos del modelo seleccionado (Modelo 1)

Prueba de normalidad de los residuos

Homocedasticidad de los residuos

Independencia de los residuos

Evaluación general de los supuestos del modelo

Conclusiones