1 Introducción

El presente informe tiene como objetivo analizar el comportamiento del juego El Avispado mediante técnicas de estadística descriptiva y modelos de regresión lineal simples y múltiples. Para ello, se utilizaron dos bases de datos suministradas por el docente: los resultados generales de cada partida y el desempeño individual de los jugadores. A partir de estos datos se realizó un proceso de limpieza, transformación y construcción de variables relevantes como el tiempo total en segundos y el número de cartas procesadas por grupo o por jugador. Posteriormente, se desarrollaron análisis descriptivos que permitieron identificar tendencias iniciales en el comportamiento del tiempo, el número de participantes y el desempeño general.

1.1 Preparación de datos

2 Análisis descriptivo

En la Tabla Resumen descriptivo general del juego se presentan las estadísticas básicas de las partidas analizadas. Se observa el número total de partidas registradas, junto con medidas de tendencia central del tiempo (promedio y mediana), el promedio de cartas procesadas por grupo y el promedio de participantes.

El tiempo promedio indica cuánto suelen durar las partidas en general, mientras que la mediana permite identificar un valor típico sin que los extremos afecten demasiado. El promedio de cartas y de participantes muestra la carga de trabajo y el tamaño de los grupos, lo cual será útil más adelante para relacionar estas variables con el rendimiento y el tiempo mediante modelos de regresión.

Resumen descriptivo general del juego
n_partidas	tiempo_promedio	tiempo_mediana	cartas_promedio	participantes_promedio
273	119.7015	41	19.2967	2.776557

Si el tiempo promedio es mayor que la mediana, significa que hay algunas partidas muy largas que elevan el promedio. El promedio de cartas refleja la producción típica de los grupos. El promedio de participantes ayuda a contextualizar si las partidas suelen ser de grupos pequeños o grandes.

2.1 Asociación entre cartas procesadas y tiempo total

En la figura se observa una relación positiva entre el número total de cartas procesadas por el grupo y el tiempo total de la partida. Cada punto representa una partida individual, y la línea roja corresponde al ajuste de un modelo de regresión lineal. A medida que aumenta la cantidad de cartas, también se incrementa el tiempo requerido para completar la actividad, lo cual es coherente con la lógica operativa del juego El Avispado.

La pendiente positiva de la recta indica que, en promedio, cada carta adicional implica un aumento en el tiempo total. El intervalo de confianza alrededor de la línea sugiere que, aunque existe variabilidad entre partidas, la tendencia general es consistente. Este comportamiento será evaluado formalmente en los modelos de regresión lineal simples y múltiples, para determinar si el número de cartas es un predictor significativo del tiempo de juego.

# Modelos de regresión lineal

2.2 Modelo 1: Regresión lineal simple

En la primera figura se presenta un diagrama de dispersión que muestra la relación entre el número total de cartas procesadas por el grupo y el tiempo total de la partida en segundos. Se observa una tendencia positiva: a medida que aumenta el volumen de cartas, también tiende a incrementarse el tiempo requerido para completar la actividad.

La línea roja representa el modelo de regresión lineal simple (ModA), y el área sombreada indica el intervalo de confianza. Aunque la mayoría de los puntos se agrupan en la parte inferior del gráfico, existen algunas partidas con tiempos considerablemente más altos, lo que genera una dispersión vertical que puede dificultar la visualización de la tendencia general.

Para mejorar la legibilidad del patrón central, se aplicó un ajuste visual al eje Y en la segunda gráfica mediante coord_cartesian(ylim = c(0, 600)). Este recorte permite enfocar el análisis en el rango donde se concentra la mayoría de las observaciones, sin eliminar los datos extremos del conjunto.

El objetivo del ajuste no es ocultar los outliers, sino facilitar la interpretación del modelo lineal en condiciones típicas del juego. Esta decisión es especialmente útil cuando se busca comunicar la relación general sin que los valores atípicos dominen la escala del gráfico.

La figura presenta el modelo de regresión lineal simple (ModA), en el cual se evalúa la relación entre el número total de cartas procesadas por el grupo y el tiempo total de la partida en segundos. El gráfico incluye una dispersión de puntos que representa cada partida individual, junto con una línea de ajuste lineal y su correspondiente intervalo de confianza.

Visualmente, se observa una tendencia positiva: a medida que aumenta el volumen de cartas, también lo hace el tiempo requerido para completar la actividad. Esta relación es coherente con la lógica operativa del juego, donde una mayor carga de trabajo implica una mayor duración. Para mejorar la legibilidad del patrón central, se aplicó un ajuste visual al eje Y mediante la función coord_cartesian(ylim = c(0, 600)). Esta decisión permite enfocar el análisis en el rango donde se concentra la mayoría de las observaciones, sin eliminar los valores extremos del conjunto de datos. El resultado es una visualización más clara y precisa de la tendencia general, que evita que los outliers distorsionen la escala del gráfico.

Desde el punto de vista estadístico, el modelo ModA permite cuantificar esta relación. El coeficiente de regresión indica el cambio esperado en el tiempo por cada carta adicional procesada. Si el coeficiente es positivo y estadísticamente significativo (p < 0.05), se puede afirmar que el número de cartas es un predictor relevante del tiempo de juego. Esta evidencia respalda la inclusión de esta variable en modelos múltiples posteriores, donde se analizará su efecto combinado con otros factores como el número de participantes o la tasa de errores.

2.3 Impacto del tiempo promedio por carta en el tiempo total de juego

2.3.1 Análisis visual

La distribución de los puntos muestra una clara tendencia positiva, respaldando la validez del modelo lineal. Las zonas de mayor densidad se concentran en un rango específico de segundos por carta (por ejemplo, entre 4 y 7 segundos), lo que sugiere que la mayoría de los grupos operan dentro de ese intervalo. La recta de regresión atraviesa el centro de la zona más densa, lo que indica que el modelo se ajusta bien al comportamiento típico del grupo. Algunos puntos se encuentran alejados de la zona densa, lo que podría indicar casos atípicos o condiciones particulares que afectaron el tiempo total del juego.

## 
## Call:
## lm(formula = tiempo_en_segundos ~ segundos_x_carta_grupo, data = resultados)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -472.61   -5.80    1.40    6.97  420.63 
## 
## Coefficients:
##                        Estimate Std. Error t value Pr(>|t|)    
## (Intercept)             -6.2454     2.8960  -2.157   0.0319 *  
## segundos_x_carta_grupo  21.4882     0.1352 158.910   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 46.02 on 271 degrees of freedom
## Multiple R-squared:  0.9894, Adjusted R-squared:  0.9893 
## F-statistic: 2.525e+04 on 1 and 271 DF,  p-value: < 2.2e-16

## ========================================

##    MODELO LINEAL ESTIMADO

## ========================================

## Ecuación del modelo:

## tiempo_en_segundos = β0 + β1 * segundos_x_carta_grupo

## Ecuación estimada:

## tiempo_en_segundos = -6.245 + 21.488 * segundos_x_carta_grupo

## 
## ========================================

## Interpretación del coeficiente β1:

## Por cada segundo adicional por carta del grupo, el tiempo total del juego aumenta en  21.488  segundos, manteniendo todo lo demás constante.

## ========================================

2.4 Modelo de regresión simple: Eficiencia individual

El gráfico muestra un modelo de regresión lineal simple que analiza cómo varía el tiempo promedio por carta en función del número de cartas jugadas. La línea roja representa la tendencia estimada por el modelo, mientras que los puntos naranjas reflejan las observaciones individuales. Se observa una ligera pendiente negativa, lo que sugiere que, en promedio, a medida que se juegan más cartas, el tiempo por carta tiende a disminuir. Esta relación puede interpretarse como una mejora en la eficiencia o fluidez del grupo al manejar mayor cantidad de cartas. Sin embargo, también se aprecia una dispersión considerable y la presencia de valores atípicos, lo que indica que el número de cartas no explica completamente la variabilidad en el tiempo por carta. En conjunto, el modelo ofrece una aproximación útil, pero limitada, sobre el comportamiento observado.

## 
## Call:
## lm(formula = tiempo_en_segundos ~ cant_participantes, data = resultados)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -119.3 -103.3  -92.0  -29.9 3353.7 
## 
## Coefficients:
##                    Estimate Std. Error t value Pr(>|t|)
## (Intercept)          -86.87     181.76  -0.478    0.633
## cant_participantes    74.40      64.74   1.149    0.251
## 
## Residual standard error: 445.6 on 271 degrees of freedom
## Multiple R-squared:  0.00485,    Adjusted R-squared:  0.001178 
## F-statistic: 1.321 on 1 and 271 DF,  p-value: 0.2515

3 Modelos de regresión múltiple

3.1 Modelo Múltiple 1: Eficiencia ~ Cartas + Puesto

El gráfico muestra el resultado de un modelo de regresión lineal múltiple que analiza cómo varía la eficiencia (medida en segundos por carta) en función de dos variables explicativas: la cantidad de cartas jugadas y el puesto del grupo. Los puntos representan las observaciones individuales, diferenciadas por color según el puesto, mientras que las líneas de tendencia muestran el ajuste lineal para cada categoría. Se observa que la relación entre cartas jugadas y eficiencia no es uniforme entre los puestos: cada grupo presenta una pendiente distinta, lo que sugiere que el puesto influye en cómo se comporta la eficiencia frente al número de cartas. En algunos casos, la pendiente es más pronunciada, indicando que ciertos puestos se ven más afectados por la cantidad de cartas. Además, la dispersión de los puntos permite identificar variabilidad interna dentro de cada grupo, y la presencia de valores alejados sugiere que hay casos atípicos que podrían requerir análisis adicional. En conjunto, el gráfico respalda la utilidad del modelo múltiple para capturar diferencias estructurales entre grupos y entender mejor los factores que afectan la eficiencia.

## 
## Call:
## lm(formula = segundos_por_carta ~ cartas + puesto, data = datos_limpios)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -34.47 -15.85  -8.52  -5.62 844.18 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)   
## (Intercept)  -27.857     23.627  -1.179  0.23876   
## cartas         2.533      1.954   1.297  0.19511   
## puesto        15.347      5.862   2.618  0.00902 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 71.23 on 748 degrees of freedom
## Multiple R-squared:  0.01173,    Adjusted R-squared:  0.009088 
## F-statistic: 4.439 on 2 and 748 DF,  p-value: 0.01212

3.2 Modelo Múltiple 2: Eficiencia ~ Cartas + Participantes

El gráfico representa un modelo de regresión lineal múltiple que analiza cómo varía la eficiencia individual (medida en segundos por carta) en función de dos variables explicativas: la cantidad de cartas jugadas y el número de participantes en la partida. Los puntos muestran las observaciones individuales, diferenciadas por color según la cantidad de jugadores, mientras que las líneas de tendencia reflejan el ajuste lineal para cada grupo. Se observa que la relación entre cartas jugadas y eficiencia no es uniforme entre los distintos tamaños de grupo: cada categoría de participantes presenta una pendiente distinta, lo que sugiere que el número de jugadores influye en el ritmo de juego. En general, los datos tienden a agruparse en la parte baja del gráfico, indicando que la mayoría de los jugadores tienen tiempos por carta relativamente bajos, aunque también se identifican valores atípicos que podrían corresponder a partidas más lentas o situaciones excepcionales. Este modelo permite visualizar cómo la dinámica del grupo afecta el rendimiento individual, y destaca la importancia de considerar tanto la cantidad de cartas como el número de participantes para entender la eficiencia en el juego.

## 
## Call:
## lm(formula = segundos_por_carta ~ cartas + cant_participantes, 
##     data = datos_limpios)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -19.90 -14.95 -13.42  -7.63 848.35 
## 
## Coefficients:
##                    Estimate Std. Error t value Pr(>|t|)
## (Intercept)          -3.824     23.796  -0.161    0.872
## cartas               -1.257      1.168  -1.076    0.282
## cant_participantes   11.000      7.246   1.518    0.129
## 
## Residual standard error: 71.45 on 748 degrees of freedom
## Multiple R-squared:  0.005736,   Adjusted R-squared:  0.003078 
## F-statistic: 2.158 on 2 and 748 DF,  p-value: 0.1163

3.3 Modelo Múltiple 3: Eficiencia ~ Cartas + Experiencia

El gráfico representa un modelo de regresión lineal múltiple que analiza cómo varía la eficiencia (medida en segundos por carta) en función de dos variables explicativas: la cantidad de cartas jugadas y la experiencia acumulada del jugador, representada por el número de partidas. Los puntos muestran las observaciones individuales, coloreadas según el nivel de experiencia, mientras que la línea roja representa el ajuste lineal del modelo. Se observa una tendencia general descendente, lo que sugiere que, en promedio, a medida que se juegan más cartas y se acumula más experiencia, el tiempo por carta tiende a disminuir. Esto puede interpretarse como una mejora en la fluidez o eficiencia del jugador con el aumento de práctica. Sin embargo, también se aprecia cierta dispersión en los datos, especialmente en niveles bajos de experiencia, lo que indica que el efecto de la experiencia no es uniforme en todos los casos.

## 
## Call:
## lm(formula = segundos_por_carta ~ cartas + partida, data = datos_limpios)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -24.43 -15.74 -12.21  -6.72 845.34 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  37.7884     8.8898   4.251  2.4e-05 ***
## cartas       -1.7712     1.1407  -1.553  0.12090    
## partida      -0.5066     0.1875  -2.702  0.00706 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 71.21 on 748 degrees of freedom
## Multiple R-squared:  0.01231,    Adjusted R-squared:  0.00967 
## F-statistic: 4.662 on 2 and 748 DF,  p-value: 0.009726

3.4 Comparación de modelos múltiples

La tabla comparativa permite evaluar el desempeño de tres modelos de regresión lineal múltiple que explican la eficiencia individual (segundos por carta) a partir de distintas variables: puesto (ModM1), cantidad de participantes (ModM2) y experiencia acumulada (ModM3). Al observar el R² ajustado, se evidencia que ModM3 presenta el mejor ajuste (R² ajustado = 0.0097), seguido muy de cerca por ModM1, mientras que ModM2 muestra el menor poder explicativo. Aunque los valores de R² ajustado son bajos en todos los casos, lo cual indica que las variables explicativas tienen un efecto limitado sobre la variabilidad de la eficiencia, ModM3 logra capturar ligeramente mejor la tendencia general.

En cuanto a los criterios de información, ModM3 también presenta los valores más bajos de AIC (8543.29) y BIC (8561.78), lo que sugiere que es el modelo más parsimonioso y con mejor balance entre ajuste y complejidad. Finalmente, el RMSE más bajo también corresponde a ModM3 (71.07), lo que indica menor error promedio en la predicción.

En conjunto, estos resultados permiten concluir que el modelo que incluye la experiencia del jugador (ModM3) ofrece el mejor desempeño global entre los tres, aunque las diferencias son sutiles. Esto sugiere que la experiencia acumulada tiene un efecto más consistente sobre la eficiencia individual que el puesto o el número de participantes.

## 🔎 Inicio de comprobaciones y generación de modelos / gráficas

## Columnas en 'datos':

##  [1] "marca_temporal"                      "cual_jugaron"                       
##  [3] "llave_juego"                         "cant_participantes"                 
##  [5] "jugador"                             "cedula"                             
##  [7] "minutos_tiempo"                      "segundos_tiempo"                    
##  [9] "tiempo_en_segundos"                  "cartas_sobra"                       
## [11] "jug_ganador"                         "ganador"                            
## [13] "puesto"                              "partida_grupo"                      
## [15] "partida"                             "cartas_totales_grupo"               
## [17] "segundos_x_carta_grupo"              "cartas"                             
## [19] "segundos_por_carta"                  "edad"                               
## [21] "sexo_biologico"                      "habias_jugado_antes_ultimos_3_meses"
## [23] "para_linea_de_ensamble"              "anos_escolares"                     
## [25] "salud_ojo"                           "ocupacion"                          
## [27] "habilidades"                         "lateralidad"

## 
## ✅ Todas las columnas necesarias están presentes.

## 
## Resumen de las variables clave:

##  segundos_por_carta     cartas          puesto      cant_participantes
##  Min.   :1.889      Min.   : 0.00   Min.   :1.000   Min.   :2.000     
##  1st Qu.:4.560      1st Qu.: 5.00   1st Qu.:1.000   1st Qu.:3.000     
##  Median :6.286      Median : 7.00   Median :2.000   Median :3.000     
##  Mean   :  Inf      Mean   : 6.95   Mean   :1.877   Mean   :2.839     
##  3rd Qu.:9.383      3rd Qu.: 9.00   3rd Qu.:2.000   3rd Qu.:3.000     
##  Max.   :  Inf      Max.   :10.00   Max.   :3.000   Max.   :3.000     
##     partida     
##  Min.   : 1.00  
##  1st Qu.: 4.00  
##  Median : 8.00  
##  Mean   :13.32  
##  3rd Qu.:18.00  
##  Max.   :72.00

## 
## Contando NA / Inf / 0 en columnas:

## segundos_por_carta : NA= 0   Inf= 7   zeros= 0 
## cartas : NA= 0   Inf= 0   zeros= 7 
## puesto : NA= 0   Inf= 0   zeros= 0 
## cant_participantes : NA= 0   Inf= 0   zeros= 0 
## partida : NA= 0   Inf= 0   zeros= 0

## 
## Filtrado completado. Filas antes: 758  -> filas después limpieza: 751

## 
## --- Summary modM1 ---
## 
## Call:
## lm(formula = formula, data = data)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -34.47 -15.85  -8.52  -5.62 844.18 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)   
## (Intercept)  -27.857     23.627  -1.179  0.23876   
## cartas         2.533      1.954   1.297  0.19511   
## puesto        15.347      5.862   2.618  0.00902 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 71.23 on 748 degrees of freedom
## Multiple R-squared:  0.01173,    Adjusted R-squared:  0.009088 
## F-statistic: 4.439 on 2 and 748 DF,  p-value: 0.01212

## 
## --- Summary modM2 ---
## 
## Call:
## lm(formula = formula, data = data)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -19.90 -14.95 -13.42  -7.63 848.35 
## 
## Coefficients:
##                    Estimate Std. Error t value Pr(>|t|)
## (Intercept)          -3.824     23.796  -0.161    0.872
## cartas               -1.257      1.168  -1.076    0.282
## cant_participantes   11.000      7.246   1.518    0.129
## 
## Residual standard error: 71.45 on 748 degrees of freedom
## Multiple R-squared:  0.005736,   Adjusted R-squared:  0.003078 
## F-statistic: 2.158 on 2 and 748 DF,  p-value: 0.1163

## 
## --- Summary modM3 ---
## 
## Call:
## lm(formula = formula, data = data)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -24.43 -15.74 -12.21  -6.72 845.34 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  37.7884     8.8898   4.251  2.4e-05 ***
## cartas       -1.7712     1.1407  -1.553  0.12090    
## partida      -0.5066     0.1875  -2.702  0.00706 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 71.21 on 748 degrees of freedom
## Multiple R-squared:  0.01231,    Adjusted R-squared:  0.00967 
## F-statistic: 4.662 on 2 and 748 DF,  p-value: 0.009726

## 
## Predicciones creadas (TRUE = columna presente):

## [1] TRUE TRUE TRUE

## 
## Estructura de datos_long (primeras filas):

## # A tibble: 6 × 30
##   marca_temporal cual_jugaron llave_juego      cant_participantes jugador cedula
##            <dbl> <chr>        <chr>                         <dbl>   <dbl>  <dbl>
## 1         45943. AVISPAO      1087987891-1087…                  2       1 1.09e9
## 2         45943. AVISPAO      1087987891-1087…                  2       1 1.09e9
## 3         45943. AVISPAO      1087987891-1087…                  2       1 1.09e9
## 4         45943. AVISPAO      1087987891-1087…                  2       1 1.09e9
## 5         45943. AVISPAO      1087987891-1087…                  2       1 1.09e9
## 6         45943. AVISPAO      1087987891-1087…                  2       1 1.09e9
## # ℹ 24 more variables: minutos_tiempo <dbl>, segundos_tiempo <dbl>,
## #   tiempo_en_segundos <dbl>, cartas_sobra <dbl>, jug_ganador <chr>,
## #   ganador <chr>, puesto <dbl>, partida_grupo <int>, partida <dbl>,
## #   cartas_totales_grupo <dbl>, segundos_x_carta_grupo <dbl>, cartas <dbl>,
## #   segundos_por_carta <dbl>, edad <dbl>, sexo_biologico <chr>,
## #   habias_jugado_antes_ultimos_3_meses <chr>, para_linea_de_ensamble <chr>,
## #   anos_escolares <chr>, salud_ojo <chr>, ocupacion <chr>, …

4 Conclusiones

La Causa Principal del Tiempo

El tiempo total del juego está directamente determinado por la cantidad de cartas que los grupos procesan. Esta relación es altamente positiva, lo que valida la coherencia operativa básica del juego.

Eficiencia con Ruido

La eficiencia individual (tiempo por carta) muestra una gran variabilidad (dispersión). Los modelos lineales solo explican una parte limitada de este comportamiento, indicando que hay muchos factores no medidos que influyen en el rendimiento de cada jugador.

El Factor Clave: Experiencia

El mejor modelo predictivo para la eficiencia es el que incluye la experiencia acumulada del jugador (número de partidas jugadas). La práctica tiene un impacto explicativo superior al del puesto o la cantidad de participantes en el grupo.

Limitaciones del Modelo

Los modelos de regresión lineal son útiles para identificar tendencias generales, pero no son adecuados para realizar predicciones precisas debido a la alta variabilidad y la influencia de los valores atípicos (los cuales deben ser investigados individualmente).

Análisis Juego del Avispado

Universidad Tecnológica de Pereira

Mariana Salazar Buritica

2025-12-01