El presente informe tiene como objetivo analizar el comportamiento del juego El Avispado mediante técnicas de estadística descriptiva y modelos de regresión lineal simples y múltiples. Para ello, se utilizaron dos bases de datos suministradas por el docente: los resultados generales de cada partida y el desempeño individual de los jugadores. A partir de estos datos se realizó un proceso de limpieza, transformación y construcción de variables relevantes como el tiempo total en segundos y el número de cartas procesadas por grupo o por jugador. Posteriormente, se desarrollaron análisis descriptivos que permitieron identificar tendencias iniciales en el comportamiento del tiempo, el número de participantes y el desempeño general.
En la Tabla Resumen descriptivo general del juego se presentan las estadísticas básicas de las partidas analizadas. Se observa el número total de partidas registradas, junto con medidas de tendencia central del tiempo (promedio y mediana), el promedio de cartas procesadas por grupo y el promedio de participantes.
El tiempo promedio indica cuánto suelen durar las partidas en general, mientras que la mediana permite identificar un valor típico sin que los extremos afecten demasiado. El promedio de cartas y de participantes muestra la carga de trabajo y el tamaño de los grupos, lo cual será útil más adelante para relacionar estas variables con el rendimiento y el tiempo mediante modelos de regresión.
| n_partidas | tiempo_promedio | tiempo_mediana | cartas_promedio | participantes_promedio |
|---|---|---|---|---|
| 273 | 119.7015 | 41 | 19.2967 | 2.776557 |
Si el tiempo promedio es mayor que la mediana, significa que hay algunas partidas muy largas que elevan el promedio. El promedio de cartas refleja la producción típica de los grupos. El promedio de participantes ayuda a contextualizar si las partidas suelen ser de grupos pequeños o grandes.
En la figura se observa una relación positiva entre el número total de cartas procesadas por el grupo y el tiempo total de la partida. Cada punto representa una partida individual, y la línea roja corresponde al ajuste de un modelo de regresión lineal. A medida que aumenta la cantidad de cartas, también se incrementa el tiempo requerido para completar la actividad, lo cual es coherente con la lógica operativa del juego El Avispado.
La pendiente positiva de la recta indica que, en promedio, cada carta adicional implica un aumento en el tiempo total. El intervalo de confianza alrededor de la línea sugiere que, aunque existe variabilidad entre partidas, la tendencia general es consistente. Este comportamiento será evaluado formalmente en los modelos de regresión lineal simples y múltiples, para determinar si el número de cartas es un predictor significativo del tiempo de juego.
# Modelos de regresión lineal
En la primera figura se presenta un diagrama de dispersión que muestra la relación entre el número total de cartas procesadas por el grupo y el tiempo total de la partida en segundos. Se observa una tendencia positiva: a medida que aumenta el volumen de cartas, también tiende a incrementarse el tiempo requerido para completar la actividad.
La línea roja representa el modelo de regresión lineal simple (ModA), y el área sombreada indica el intervalo de confianza. Aunque la mayoría de los puntos se agrupan en la parte inferior del gráfico, existen algunas partidas con tiempos considerablemente más altos, lo que genera una dispersión vertical que puede dificultar la visualización de la tendencia general.
Para mejorar la legibilidad del patrón central, se aplicó un ajuste
visual al eje Y en la segunda gráfica mediante
coord_cartesian(ylim = c(0, 600)). Este recorte permite
enfocar el análisis en el rango donde se concentra la mayoría de las
observaciones, sin eliminar los datos extremos del conjunto.
El objetivo del ajuste no es ocultar los outliers, sino facilitar la interpretación del modelo lineal en condiciones típicas del juego. Esta decisión es especialmente útil cuando se busca comunicar la relación general sin que los valores atípicos dominen la escala del gráfico.
La figura presenta el modelo de regresión lineal simple (ModA), en el cual se evalúa la relación entre el número total de cartas procesadas por el grupo y el tiempo total de la partida en segundos. El gráfico incluye una dispersión de puntos que representa cada partida individual, junto con una línea de ajuste lineal y su correspondiente intervalo de confianza.
Visualmente, se observa una tendencia positiva: a medida que aumenta
el volumen de cartas, también lo hace el tiempo requerido para completar
la actividad. Esta relación es coherente con la lógica operativa del
juego, donde una mayor carga de trabajo implica una mayor duración. Para
mejorar la legibilidad del patrón central, se aplicó un ajuste visual al
eje Y mediante la función
coord_cartesian(ylim = c(0, 600)). Esta decisión permite
enfocar el análisis en el rango donde se concentra la mayoría de las
observaciones, sin eliminar los valores extremos del conjunto de datos.
El resultado es una visualización más clara y precisa de la tendencia
general, que evita que los outliers distorsionen la escala del
gráfico.
Desde el punto de vista estadístico, el modelo ModA permite cuantificar esta relación. El coeficiente de regresión indica el cambio esperado en el tiempo por cada carta adicional procesada. Si el coeficiente es positivo y estadísticamente significativo (p < 0.05), se puede afirmar que el número de cartas es un predictor relevante del tiempo de juego. Esta evidencia respalda la inclusión de esta variable en modelos múltiples posteriores, donde se analizará su efecto combinado con otros factores como el número de participantes o la tasa de errores.
La distribución de los puntos muestra una clara tendencia positiva, respaldando la validez del modelo lineal. Las zonas de mayor densidad se concentran en un rango específico de segundos por carta (por ejemplo, entre 4 y 7 segundos), lo que sugiere que la mayoría de los grupos operan dentro de ese intervalo. La recta de regresión atraviesa el centro de la zona más densa, lo que indica que el modelo se ajusta bien al comportamiento típico del grupo. Algunos puntos se encuentran alejados de la zona densa, lo que podría indicar casos atípicos o condiciones particulares que afectaron el tiempo total del juego.
##
## Call:
## lm(formula = tiempo_en_segundos ~ segundos_x_carta_grupo, data = resultados)
##
## Residuals:
## Min 1Q Median 3Q Max
## -472.61 -5.80 1.40 6.97 420.63
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -6.2454 2.8960 -2.157 0.0319 *
## segundos_x_carta_grupo 21.4882 0.1352 158.910 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 46.02 on 271 degrees of freedom
## Multiple R-squared: 0.9894, Adjusted R-squared: 0.9893
## F-statistic: 2.525e+04 on 1 and 271 DF, p-value: < 2.2e-16
## ========================================
## MODELO LINEAL ESTIMADO
## ========================================
## Ecuación del modelo:
## tiempo_en_segundos = β0 + β1 * segundos_x_carta_grupo
## Ecuación estimada:
## tiempo_en_segundos = -6.245 + 21.488 * segundos_x_carta_grupo
##
## ========================================
## Interpretación del coeficiente β1:
## Por cada segundo adicional por carta del grupo, el tiempo total del juego aumenta en 21.488 segundos, manteniendo todo lo demás constante.
## ========================================
El gráfico muestra un modelo de regresión lineal simple que analiza cómo varía el tiempo promedio por carta en función del número de cartas jugadas. La línea roja representa la tendencia estimada por el modelo, mientras que los puntos naranjas reflejan las observaciones individuales. Se observa una ligera pendiente negativa, lo que sugiere que, en promedio, a medida que se juegan más cartas, el tiempo por carta tiende a disminuir. Esta relación puede interpretarse como una mejora en la eficiencia o fluidez del grupo al manejar mayor cantidad de cartas. Sin embargo, también se aprecia una dispersión considerable y la presencia de valores atípicos, lo que indica que el número de cartas no explica completamente la variabilidad en el tiempo por carta. En conjunto, el modelo ofrece una aproximación útil, pero limitada, sobre el comportamiento observado.
##
## Call:
## lm(formula = tiempo_en_segundos ~ cant_participantes, data = resultados)
##
## Residuals:
## Min 1Q Median 3Q Max
## -119.3 -103.3 -92.0 -29.9 3353.7
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -86.87 181.76 -0.478 0.633
## cant_participantes 74.40 64.74 1.149 0.251
##
## Residual standard error: 445.6 on 271 degrees of freedom
## Multiple R-squared: 0.00485, Adjusted R-squared: 0.001178
## F-statistic: 1.321 on 1 and 271 DF, p-value: 0.2515
El gráfico muestra el resultado de un modelo de regresión lineal múltiple que analiza cómo varía la eficiencia (medida en segundos por carta) en función de dos variables explicativas: la cantidad de cartas jugadas y el puesto del grupo. Los puntos representan las observaciones individuales, diferenciadas por color según el puesto, mientras que las líneas de tendencia muestran el ajuste lineal para cada categoría. Se observa que la relación entre cartas jugadas y eficiencia no es uniforme entre los puestos: cada grupo presenta una pendiente distinta, lo que sugiere que el puesto influye en cómo se comporta la eficiencia frente al número de cartas. En algunos casos, la pendiente es más pronunciada, indicando que ciertos puestos se ven más afectados por la cantidad de cartas. Además, la dispersión de los puntos permite identificar variabilidad interna dentro de cada grupo, y la presencia de valores alejados sugiere que hay casos atípicos que podrían requerir análisis adicional. En conjunto, el gráfico respalda la utilidad del modelo múltiple para capturar diferencias estructurales entre grupos y entender mejor los factores que afectan la eficiencia.
##
## Call:
## lm(formula = segundos_por_carta ~ cartas + puesto, data = datos_limpios)
##
## Residuals:
## Min 1Q Median 3Q Max
## -34.47 -15.85 -8.52 -5.62 844.18
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -27.857 23.627 -1.179 0.23876
## cartas 2.533 1.954 1.297 0.19511
## puesto 15.347 5.862 2.618 0.00902 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 71.23 on 748 degrees of freedom
## Multiple R-squared: 0.01173, Adjusted R-squared: 0.009088
## F-statistic: 4.439 on 2 and 748 DF, p-value: 0.01212
El gráfico representa un modelo de regresión lineal múltiple que analiza cómo varía la eficiencia individual (medida en segundos por carta) en función de dos variables explicativas: la cantidad de cartas jugadas y el número de participantes en la partida. Los puntos muestran las observaciones individuales, diferenciadas por color según la cantidad de jugadores, mientras que las líneas de tendencia reflejan el ajuste lineal para cada grupo. Se observa que la relación entre cartas jugadas y eficiencia no es uniforme entre los distintos tamaños de grupo: cada categoría de participantes presenta una pendiente distinta, lo que sugiere que el número de jugadores influye en el ritmo de juego. En general, los datos tienden a agruparse en la parte baja del gráfico, indicando que la mayoría de los jugadores tienen tiempos por carta relativamente bajos, aunque también se identifican valores atípicos que podrían corresponder a partidas más lentas o situaciones excepcionales. Este modelo permite visualizar cómo la dinámica del grupo afecta el rendimiento individual, y destaca la importancia de considerar tanto la cantidad de cartas como el número de participantes para entender la eficiencia en el juego.
##
## Call:
## lm(formula = segundos_por_carta ~ cartas + cant_participantes,
## data = datos_limpios)
##
## Residuals:
## Min 1Q Median 3Q Max
## -19.90 -14.95 -13.42 -7.63 848.35
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -3.824 23.796 -0.161 0.872
## cartas -1.257 1.168 -1.076 0.282
## cant_participantes 11.000 7.246 1.518 0.129
##
## Residual standard error: 71.45 on 748 degrees of freedom
## Multiple R-squared: 0.005736, Adjusted R-squared: 0.003078
## F-statistic: 2.158 on 2 and 748 DF, p-value: 0.1163
El gráfico representa un modelo de regresión lineal múltiple que analiza cómo varía la eficiencia (medida en segundos por carta) en función de dos variables explicativas: la cantidad de cartas jugadas y la experiencia acumulada del jugador, representada por el número de partidas. Los puntos muestran las observaciones individuales, coloreadas según el nivel de experiencia, mientras que la línea roja representa el ajuste lineal del modelo. Se observa una tendencia general descendente, lo que sugiere que, en promedio, a medida que se juegan más cartas y se acumula más experiencia, el tiempo por carta tiende a disminuir. Esto puede interpretarse como una mejora en la fluidez o eficiencia del jugador con el aumento de práctica. Sin embargo, también se aprecia cierta dispersión en los datos, especialmente en niveles bajos de experiencia, lo que indica que el efecto de la experiencia no es uniforme en todos los casos.
##
## Call:
## lm(formula = segundos_por_carta ~ cartas + partida, data = datos_limpios)
##
## Residuals:
## Min 1Q Median 3Q Max
## -24.43 -15.74 -12.21 -6.72 845.34
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 37.7884 8.8898 4.251 2.4e-05 ***
## cartas -1.7712 1.1407 -1.553 0.12090
## partida -0.5066 0.1875 -2.702 0.00706 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 71.21 on 748 degrees of freedom
## Multiple R-squared: 0.01231, Adjusted R-squared: 0.00967
## F-statistic: 4.662 on 2 and 748 DF, p-value: 0.009726
La tabla comparativa permite evaluar el desempeño de tres modelos de regresión lineal múltiple que explican la eficiencia individual (segundos por carta) a partir de distintas variables: puesto (ModM1), cantidad de participantes (ModM2) y experiencia acumulada (ModM3). Al observar el R² ajustado, se evidencia que ModM3 presenta el mejor ajuste (R² ajustado = 0.0097), seguido muy de cerca por ModM1, mientras que ModM2 muestra el menor poder explicativo. Aunque los valores de R² ajustado son bajos en todos los casos, lo cual indica que las variables explicativas tienen un efecto limitado sobre la variabilidad de la eficiencia, ModM3 logra capturar ligeramente mejor la tendencia general.
En cuanto a los criterios de información, ModM3 también presenta los valores más bajos de AIC (8543.29) y BIC (8561.78), lo que sugiere que es el modelo más parsimonioso y con mejor balance entre ajuste y complejidad. Finalmente, el RMSE más bajo también corresponde a ModM3 (71.07), lo que indica menor error promedio en la predicción.
En conjunto, estos resultados permiten concluir que el modelo que incluye la experiencia del jugador (ModM3) ofrece el mejor desempeño global entre los tres, aunque las diferencias son sutiles. Esto sugiere que la experiencia acumulada tiene un efecto más consistente sobre la eficiencia individual que el puesto o el número de participantes.
## 🔎 Inicio de comprobaciones y generación de modelos / gráficas
## Columnas en 'datos':
## [1] "marca_temporal" "cual_jugaron"
## [3] "llave_juego" "cant_participantes"
## [5] "jugador" "cedula"
## [7] "minutos_tiempo" "segundos_tiempo"
## [9] "tiempo_en_segundos" "cartas_sobra"
## [11] "jug_ganador" "ganador"
## [13] "puesto" "partida_grupo"
## [15] "partida" "cartas_totales_grupo"
## [17] "segundos_x_carta_grupo" "cartas"
## [19] "segundos_por_carta" "edad"
## [21] "sexo_biologico" "habias_jugado_antes_ultimos_3_meses"
## [23] "para_linea_de_ensamble" "anos_escolares"
## [25] "salud_ojo" "ocupacion"
## [27] "habilidades" "lateralidad"
##
## ✅ Todas las columnas necesarias están presentes.
##
## Resumen de las variables clave:
## segundos_por_carta cartas puesto cant_participantes
## Min. :1.889 Min. : 0.00 Min. :1.000 Min. :2.000
## 1st Qu.:4.560 1st Qu.: 5.00 1st Qu.:1.000 1st Qu.:3.000
## Median :6.286 Median : 7.00 Median :2.000 Median :3.000
## Mean : Inf Mean : 6.95 Mean :1.877 Mean :2.839
## 3rd Qu.:9.383 3rd Qu.: 9.00 3rd Qu.:2.000 3rd Qu.:3.000
## Max. : Inf Max. :10.00 Max. :3.000 Max. :3.000
## partida
## Min. : 1.00
## 1st Qu.: 4.00
## Median : 8.00
## Mean :13.32
## 3rd Qu.:18.00
## Max. :72.00
##
## Contando NA / Inf / 0 en columnas:
## segundos_por_carta : NA= 0 Inf= 7 zeros= 0
## cartas : NA= 0 Inf= 0 zeros= 7
## puesto : NA= 0 Inf= 0 zeros= 0
## cant_participantes : NA= 0 Inf= 0 zeros= 0
## partida : NA= 0 Inf= 0 zeros= 0
##
## Filtrado completado. Filas antes: 758 -> filas después limpieza: 751
##
## --- Summary modM1 ---
##
## Call:
## lm(formula = formula, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -34.47 -15.85 -8.52 -5.62 844.18
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -27.857 23.627 -1.179 0.23876
## cartas 2.533 1.954 1.297 0.19511
## puesto 15.347 5.862 2.618 0.00902 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 71.23 on 748 degrees of freedom
## Multiple R-squared: 0.01173, Adjusted R-squared: 0.009088
## F-statistic: 4.439 on 2 and 748 DF, p-value: 0.01212
##
## --- Summary modM2 ---
##
## Call:
## lm(formula = formula, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -19.90 -14.95 -13.42 -7.63 848.35
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -3.824 23.796 -0.161 0.872
## cartas -1.257 1.168 -1.076 0.282
## cant_participantes 11.000 7.246 1.518 0.129
##
## Residual standard error: 71.45 on 748 degrees of freedom
## Multiple R-squared: 0.005736, Adjusted R-squared: 0.003078
## F-statistic: 2.158 on 2 and 748 DF, p-value: 0.1163
##
## --- Summary modM3 ---
##
## Call:
## lm(formula = formula, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -24.43 -15.74 -12.21 -6.72 845.34
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 37.7884 8.8898 4.251 2.4e-05 ***
## cartas -1.7712 1.1407 -1.553 0.12090
## partida -0.5066 0.1875 -2.702 0.00706 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 71.21 on 748 degrees of freedom
## Multiple R-squared: 0.01231, Adjusted R-squared: 0.00967
## F-statistic: 4.662 on 2 and 748 DF, p-value: 0.009726
##
## Predicciones creadas (TRUE = columna presente):
## [1] TRUE TRUE TRUE
##
## Estructura de datos_long (primeras filas):
## # A tibble: 6 × 30
## marca_temporal cual_jugaron llave_juego cant_participantes jugador cedula
## <dbl> <chr> <chr> <dbl> <dbl> <dbl>
## 1 45943. AVISPAO 1087987891-1087… 2 1 1.09e9
## 2 45943. AVISPAO 1087987891-1087… 2 1 1.09e9
## 3 45943. AVISPAO 1087987891-1087… 2 1 1.09e9
## 4 45943. AVISPAO 1087987891-1087… 2 1 1.09e9
## 5 45943. AVISPAO 1087987891-1087… 2 1 1.09e9
## 6 45943. AVISPAO 1087987891-1087… 2 1 1.09e9
## # ℹ 24 more variables: minutos_tiempo <dbl>, segundos_tiempo <dbl>,
## # tiempo_en_segundos <dbl>, cartas_sobra <dbl>, jug_ganador <chr>,
## # ganador <chr>, puesto <dbl>, partida_grupo <int>, partida <dbl>,
## # cartas_totales_grupo <dbl>, segundos_x_carta_grupo <dbl>, cartas <dbl>,
## # segundos_por_carta <dbl>, edad <dbl>, sexo_biologico <chr>,
## # habias_jugado_antes_ultimos_3_meses <chr>, para_linea_de_ensamble <chr>,
## # anos_escolares <chr>, salud_ojo <chr>, ocupacion <chr>, …
El tiempo total del juego está directamente determinado por la cantidad de cartas que los grupos procesan. Esta relación es altamente positiva, lo que valida la coherencia operativa básica del juego.
La eficiencia individual (tiempo por carta) muestra una gran variabilidad (dispersión). Los modelos lineales solo explican una parte limitada de este comportamiento, indicando que hay muchos factores no medidos que influyen en el rendimiento de cada jugador.
El mejor modelo predictivo para la eficiencia es el que incluye la experiencia acumulada del jugador (número de partidas jugadas). La práctica tiene un impacto explicativo superior al del puesto o la cantidad de participantes en el grupo.
Los modelos de regresión lineal son útiles para identificar tendencias generales, pero no son adecuados para realizar predicciones precisas debido a la alta variabilidad y la influencia de los valores atípicos (los cuales deben ser investigados individualmente).