Resumen de los datos que usaremos

library(ggplot2)
library(readr)
library(knitr)
library(GGally)
## Registered S3 method overwritten by 'GGally':
##   method from   
##   +.gg   ggplot2
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
premier.league.2 <- read.csv("premier league 2.csv", header = TRUE, sep = ";")
##      Name           Jersey.Number       Club             Position        
##  Length:571         Min.   : 1.00   Length:571         Length:571        
##  Class :character   1st Qu.: 8.00   Class :character   Class :character  
##  Mode  :character   Median :18.00   Mode  :character   Mode  :character  
##                     Mean   :19.53                                        
##                     3rd Qu.:27.00                                        
##                     Max.   :82.00                                        
##                     NA's   :8                                            
##  Nationality             Age         Appearances          Wins       
##  Length:571         Min.   :17.00   Min.   :  0.00   Min.   :  0.00  
##  Class :character   1st Qu.:22.00   1st Qu.:  3.00   1st Qu.:  1.00  
##  Mode  :character   Median :26.00   Median : 36.00   Median : 12.00  
##                     Mean   :25.79   Mean   : 68.82   Mean   : 28.96  
##                     3rd Qu.:29.00   3rd Qu.:108.00   3rd Qu.: 41.00  
##                     Max.   :38.00   Max.   :539.00   Max.   :272.00  
##                     NA's   :1                                        
##      Losses          Goals         Goals.per.match   Headed.goals   
##  Min.   :  0.0   Min.   :  0.000   Min.   : 0.000   Min.   : 0.000  
##  1st Qu.:  1.0   1st Qu.:  0.000   1st Qu.: 0.050   1st Qu.: 0.000  
##  Median : 14.0   Median :  1.000   Median : 0.140   Median : 0.000  
##  Mean   : 23.9   Mean   :  7.327   Mean   : 2.648   Mean   : 1.414  
##  3rd Qu.: 36.0   3rd Qu.:  6.000   3rd Qu.: 0.390   3rd Qu.: 1.000  
##  Max.   :158.0   Max.   :180.000   Max.   :57.000   Max.   :31.000  
##                                    NA's   :262      NA's   :69      
##  Goals.with.right.foot Goals.with.left.foot Penalties.scored  Freekicks.scored
##  Min.   :  0.000       Min.   : 0.000       Min.   : 0.0000   Min.   :0.0000  
##  1st Qu.:  0.000       1st Qu.: 0.000       1st Qu.: 0.0000   1st Qu.:0.0000  
##  Median :  1.000       Median : 0.000       Median : 0.0000   Median :0.0000  
##  Mean   :  4.468       Mean   : 2.388       Mean   : 0.9741   Mean   :0.2913  
##  3rd Qu.:  3.000       3rd Qu.: 2.000       3rd Qu.: 0.0000   3rd Qu.:0.0000  
##  Max.   :127.000       Max.   :63.000       Max.   :27.0000   Max.   :8.0000  
##  NA's   :69            NA's   :69           NA's   :262       NA's   :262     
##      Shots       Shots.on.target  Shooting.accuracy..  Hit.woodwork   
##  Min.   :  0.0   Min.   :  0.00   Length:571          Min.   : 0.000  
##  1st Qu.:  6.0   1st Qu.:  1.00   Class :character    1st Qu.: 0.000  
##  Median : 41.0   Median : 12.00   Mode  :character    Median : 0.000  
##  Mean   :102.5   Mean   : 36.92                       Mean   : 2.062  
##  3rd Qu.:144.0   3rd Qu.: 47.00                       3rd Qu.: 2.000  
##  Max.   :996.0   Max.   :411.00                       Max.   :34.000  
##  NA's   :262     NA's   :262                          NA's   :69      
##  Big.chances.missed  Clean.sheets    Goals.conceded      Tackles     
##  Min.   :  0.000    Min.   :  0.00   Min.   :  0.00   Min.   :  0.0  
##  1st Qu.:  0.000    1st Qu.:  0.00   1st Qu.:  0.25   1st Qu.:  5.0  
##  Median :  2.000    Median :  6.00   Median : 40.00   Median : 45.0  
##  Mean   :  9.029    Mean   : 16.69   Mean   : 75.69   Mean   :101.1  
##  3rd Qu.: 11.000    3rd Qu.: 26.00   3rd Qu.:117.00   3rd Qu.:139.8  
##  Max.   :126.000    Max.   :127.00   Max.   :452.00   Max.   :860.0  
##  NA's   :262        NA's   :309      NA's   :309      NA's   :69     
##  Tackle.success..   Last.man.tackles Blocked.shots    Interceptions   
##  Length:571         Min.   : 0.000   Min.   :  0.00   Min.   :  0.00  
##  Class :character   1st Qu.: 0.000   1st Qu.:  0.00   1st Qu.:  2.00  
##  Mode  :character   Median : 0.000   Median :  7.00   Median : 26.00  
##                     Mean   : 1.259   Mean   : 20.55   Mean   : 72.76  
##                     3rd Qu.: 1.000   3rd Qu.: 27.00   3rd Qu.: 99.25  
##                     Max.   :24.000   Max.   :230.00   Max.   :618.00  
##                     NA's   :378      NA's   :69       NA's   :69      
##    Clearances     Headed.Clearance  Clearances.off.line   Recoveries     
##  Min.   :   0.0   Min.   :   0.00   Min.   : 0.000      Min.   :   0.00  
##  1st Qu.:   3.0   1st Qu.:   1.00   1st Qu.: 0.000      1st Qu.:  10.25  
##  Median :  31.0   Median :  13.00   Median : 0.000      Median : 174.00  
##  Mean   : 141.6   Mean   :  69.91   Mean   : 1.036      Mean   : 326.91  
##  3rd Qu.: 147.0   3rd Qu.:  68.00   3rd Qu.: 1.000      3rd Qu.: 512.25  
##  Max.   :2974.0   Max.   :1155.00   Max.   :10.000      Max.   :2330.00  
##  NA's   :69       NA's   :69        NA's   :378         NA's   :181      
##    Duels.won        Duels.lost     Successful.50.50s Aerial.battles.won
##  Min.   :   0.0   Min.   :   0.0   Min.   :  0.00    Min.   :   0.00   
##  1st Qu.:  12.0   1st Qu.:  12.0   1st Qu.:  2.00    1st Qu.:   3.00   
##  Median : 154.5   Median : 145.5   Median : 21.00    Median :  28.50   
##  Mean   : 313.8   Mean   : 275.9   Mean   : 49.25    Mean   :  99.76   
##  3rd Qu.: 489.0   3rd Qu.: 408.8   3rd Qu.: 58.75    3rd Qu.: 130.00   
##  Max.   :1946.0   Max.   :2223.0   Max.   :415.00    Max.   :1157.00   
##  NA's   :181      NA's   :181      NA's   :181       NA's   :181       
##  Aerial.battles.lost   Own.goals      Errors.leading.to.goal    Assists      
##  Min.   :  0.00      Min.   :0.0000   Min.   : 0.0           Min.   : 0.000  
##  1st Qu.:  3.00      1st Qu.:0.0000   1st Qu.: 0.0           1st Qu.: 0.000  
##  Median : 41.50      Median :0.0000   Median : 0.0           Median : 1.000  
##  Mean   : 84.85      Mean   :0.4084   Mean   : 1.1           Mean   : 5.285  
##  3rd Qu.:119.50      3rd Qu.:0.0000   3rd Qu.: 1.0           3rd Qu.: 6.000  
##  Max.   :562.00      Max.   :6.0000   Max.   :20.0           Max.   :84.000  
##  NA's   :181         NA's   :309      NA's   :112                            
##      Passes      Passes.per.match Big.chances.created    Crosses      
##  Min.   :    0   Min.   : 0.00    Min.   : 0.000      Min.   :   0.0  
##  1st Qu.:   92   1st Qu.:11.26    1st Qu.: 0.000      1st Qu.:   2.0  
##  Median : 1000   Median :25.01    Median : 3.000      Median :  20.5  
##  Mean   : 2310   Mean   :25.90    Mean   : 8.171      Mean   : 121.9  
##  3rd Qu.: 3285   3rd Qu.:37.97    3rd Qu.: 9.000      3rd Qu.: 107.8  
##  Max.   :17932   Max.   :98.50    Max.   :97.000      Max.   :2247.0  
##                                   NA's   :69          NA's   :69      
##  Cross.accuracy..   Through.balls     Accurate.long.balls     Saves      
##  Length:571         Min.   :  0.000   Min.   :   0.0      Min.   :  0.0  
##  Class :character   1st Qu.:  0.000   1st Qu.:   3.0      1st Qu.:  0.0  
##  Mode  :character   Median :  2.000   Median :  59.0      Median : 20.0  
##                     Mean   :  8.577   Mean   : 184.9      Mean   :150.5  
##                     3rd Qu.:  7.750   3rd Qu.: 228.5      3rd Qu.:195.0  
##                     Max.   :156.000   Max.   :1943.0      Max.   :941.0  
##                     NA's   :181       NA's   :112         NA's   :502    
##  Penalties.saved    Punches        High.Claims        Catches      
##  Min.   :0.000   Min.   :  0.00   Min.   :  0.00   Min.   :  0.00  
##  1st Qu.:0.000   1st Qu.:  0.00   1st Qu.:  0.00   1st Qu.:  0.00  
##  Median :0.000   Median :  2.00   Median :  6.00   Median :  3.00  
##  Mean   :1.087   Mean   : 24.65   Mean   : 45.87   Mean   : 20.78  
##  3rd Qu.:2.000   3rd Qu.: 31.00   3rd Qu.: 45.00   3rd Qu.: 17.00  
##  Max.   :7.000   Max.   :269.00   Max.   :391.00   Max.   :249.00  
##  NA's   :502     NA's   :502      NA's   :502      NA's   :502     
##  Sweeper.clearances   Throw.outs     Goal.Kicks      Yellow.cards   
##  Min.   :  0.00     Min.   :   0   Min.   :   0.0   Min.   : 0.000  
##  1st Qu.:  0.00     1st Qu.:   0   1st Qu.:   0.0   1st Qu.: 0.000  
##  Median :  4.00     Median :  39   Median :  53.0   Median : 3.000  
##  Mean   : 25.57     Mean   : 210   Mean   : 414.1   Mean   : 7.918  
##  3rd Qu.: 28.00     3rd Qu.: 300   3rd Qu.: 527.0   3rd Qu.:11.000  
##  Max.   :257.00     Max.   :1516   Max.   :2806.0   Max.   :81.000  
##  NA's   :502        NA's   :502    NA's   :502                      
##    Red.cards          Fouls           Offsides     
##  Min.   :0.0000   Min.   :  0.00   Min.   :  0.00  
##  1st Qu.:0.0000   1st Qu.:  1.00   1st Qu.:  0.00  
##  Median :0.0000   Median : 22.00   Median :  2.00  
##  Mean   :0.3012   Mean   : 53.03   Mean   : 11.06  
##  3rd Qu.:0.0000   3rd Qu.: 74.00   3rd Qu.:  8.75  
##  Max.   :5.0000   Max.   :438.00   Max.   :203.00  
##                                    NA's   :69

Pregunta 1: ¿Qué conjunto de datos se va a trabajar?

Respuesta: Se utilizará una base de datos de jugadores de la Premier League. Esta contiene información sobre posición, nacionalidad, edad, goles, porterías imbatidas, pases, goles concedidos, apariciones, club, número de camiseta, entre otros. El conjunto de datos incluye 571 jugadores y 59 variables.


Pregunta 2: Describir cada variable (tipo, escala, unidad)

Variable. Tipo.de.variable. Medición. Unidades.de.medición.
Nacionalidad  Cualitativa  Nominal  Conteo 
Edad  Cuantitativa  Continua  Conteo 
Goles  Cuantitativa  Discretas   Conteo 
Porterías imbatidas   Cuantitativa  Discretas   Conteo 
Pases   Cuantitativa  Discretas   Conteo 
Goles concedidos  Cuantitativa  Discretas   Conteo 
Apariciones  Cuantitativa  Discreta  Conteo 
Equipo  Cualitativa  Nominal  Conteo 
Número de la camisa   Cualitativa  Nominal  Conteo 
Posición  Cualitativa  Nominal  Conteo  

Pregunta 3: Limpieza y preprocesamiento de los datos

Respuesta: Se encontraron valores vacíos y nombres mal digitados. Se realizará la imputación de datos faltantes y estandarización de nombres, especialmente en los nombres de jugadores por temas de acentuación.


Pregunta 4: Estadísticas descriptivas univariadas

Tabla: Posit Gráfica 2
VARIABLES.CUANTITATIVAS. MIN. MAX. PROM. X MEDIANA. RANGO.INTERCUARTILICO. DESVIACION.ESTANDAR.
NA
EDAD  17  38  25.79  NA 26  4.38 
GOLES  180  7.33  NA 16.81 
PORTERIAS   127  16.70  NA 26.25  23.60 
IMBATIDAS  NA
PASES  17922  2309.70  NA 1000  3198  3127.23 
GOOLES  452  77.24  NA 41.5  117  95.49 
 CONCEDIDOS   NA
APARICIONES  539  68.82  NA 36  106  81.80 
NA
NA
VARIABLES CUALITATIVAS                          CANTIDAD %  NA
EQUIPO  arsenal 5.74%  aston villa 5.17% wolverhampton wanderers 4.21% wes-ham-united 5.55% tottenham-hostpur  6.13% southampton 4.59% sheffield-united 5.17% newcastle-united 5.74% mancherter-united 5.93% manchester- city 5.17% liverpool 6.15% leicester-city 5.93% leeds-united 4.98% fulham 4.78% everton 5.93% crystral-palace 5.93% chelsea 5.17% burnley 4.59% brighton-and-hove-albion 6.32%  NA
NUMERO   SIN NUMERO:1.40%, 1:2.8% ,33:1.75% ,13:2.10% , 2:3.15% , 3:2.80% , 4: 3.15% ,5: 3.15% , 16: 2.10% , 20: 2.80% , 21: 3.15% , 23: 3.15% , 31:1.58% , 6: 3.15%, 10: 3.50%,11: 3.33%,15:2.28%,25:2.45%,28: 2.10%,29: 1.75%,32: 1.23% ,34:1.40% ,7: 3.33%,8: 3.33%,9:3.33%,14:2.45%,192.63%,24:2.63,30:1.75%,35:1.23%,12:2.63%,26:2.10%,18:2.63%,22:2.45%,27:1.93%,17:2.63%,41:1.23%,39:0.35%,52:0.18%,50:0.53%,58:0.35%,49:0.88%,53:0.18%,55:0.18%,42:0.53%,37:0.53%,45:0.35%,44:0.53%,40:0.35%,470.70%,36:0.35%,43:0.18%,46:0.18%,38:0.35%,62:0.18%,73:0.18%,66:0.18%,76:0.18%,72:0.18%,59:0.35%,67:0.18%,69:0.18%,82:0.18%,48:0.35%,71:0.18%,54:0.18%,56:0.18%,57:0.18%   NA
NACIONALIDAD  GERMANY:2.34%,ENGLAND:43.08%,ICELAND:0.58%  NA
SPAIN:5.46%,SCOTLAND:3.90%,FRANCE:5.85%,GREECE:0.39%  NA
BRAZIL:4.68%,BOSNIA AND HERZEGOVINA:0.39%,URUGUAY:0.19%,EGYPT:0.97%,SWITZERLAND:0.78%,GABON:0.39%,COTED´LVOIRE:1.36%,NORWAY:0.58%,CROATIA:0.58%,ARGENTINA:2.53%,WALES:2.53%,BELGIUM:2.53%,ZIMBABWE:0.19%,IRELAND:4.68%,NETHERLANDS:3.51%,BURKINA FASO:0.19%,AUSTRALIA:0.39%,MALI:0.58%,COLOMBIA:0.97%,SWEDEN:0.78%,IRAN:0.19%,ROMANIA:0.19%,NORTHERN IRELAND:1.17%,NEW ZELAND:0.19%,CZECH REPUBLIC:0.19%,denmark:1.36%,italy:0.97%,MOROCCO:0.58%,UNITED STATES:1.17%,POLAND:1.36%,SERBIA:0.97%,SENEGAL:0.58%,GHANA:0.97%,PORTUGAL:4.09%,THE DEMOCRATIC REPUBLIC OF CONGO:0.78%,TURKEY:0.58%,NIGERIA:1.17%,SLOVAKIA:0.39%,JAMAICA:0.58%,CAMEROON:0.39%,AUSTRIA:0.19%,ALGERIA:0.58%,GUINEA:0.19%,JAPAN:0.19%,UKRANIE:0.39%,PARAGUAY:0.39%,SOUTH KOREA 0.19%,SAINT KITTS AND NEVIS:0.19%,MEXICO:0.19%, ECUADOR:0.19%  NA
NA
POSICION  GOALKEEPER:12%,DEFENDER:34%,MIDFIELDER:35%, FORWARD:19%  NA
NA

Pregunta 5: Gráficos exploratorios

ggplot(premier.league.2, aes(x = reorder(Nationality, -table(Nationality)[Nationality]))) +
  geom_bar(fill = "blue") +
  labs(title = "Distribución de Nacionalidades", x = "Nacionalidad", y = "Frecuencia") +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 90, vjust = 0.5, hjust = 1, size = 8))

ggplot(premier.league.2, aes(x = reorder(Club, -table(Club)[Club]))) +
  geom_bar(fill = "aquamarine") +
  labs(title = "Número de Jugadores por Club", x = "Club", y = "Cantidad") +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 90, vjust = 0.5, hjust = 1, size = 8))

ggplot(premier.league.2, aes(x = Clean.sheets)) +
  geom_histogram(fill = "gold", bins = 10) +
  labs(title = "Distribución de Arcos en Cero", x = "Clean Sheets", y = "Frecuencia") +
  theme_minimal()
## Warning: Removed 309 rows containing non-finite outside the scale range
## (`stat_bin()`).

ggplot(premier.league.2, aes(x = Passes)) +
  geom_histogram(fill = "red", bins = 20) +
  labs(title = "Distribución de Pases", x = "Pases", y = "Frecuencia") +
  theme_minimal()

ggplot(premier.league.2, aes(x = Goals.conceded)) +
  geom_histogram(fill = "purple", bins = 10) +
  labs(title = "Distribución de Goles Concedidos", x = "Goles Concedidos", y = "Frecuencia") +
  theme_minimal()
## Warning: Removed 309 rows containing non-finite outside the scale range
## (`stat_bin()`).

ggplot(premier.league.2, aes(x = Appearances)) +
  geom_histogram(fill = "orange", bins = 10) +
  labs(title = "Distribución de Apariciones", x = "Apariciones", y = "Frecuencia") +
  theme_minimal()

ggplot(premier.league.2, aes(x = factor(Jersey.Number), fill = factor(Jersey.Number %% 2))) +
  geom_bar() +
  scale_fill_manual(values = c("blue", "red"), labels = c("Par", "Impar")) +
  labs(title = "Distribución de Números de Camiseta", x = "Número de Camiseta", y = "Cantidad de Jugadores", fill = "Tipo de Número") +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 90, vjust = 0.5, hjust = 1, size = 8))


INFORME 2

##MATRIZ DE CORRELACION
``` r library(ggplot2) library(readr) library(dplyr) library(GGally)
# Leer los datos (si aún no los tienes cargados en este nuevo documento) datos <- read.csv(“graficos pearson.csv”, sep = “;”, header = TRUE)
# Filtrar datos válidos datos_filtrados <- datos %>% filter(!is.na(Goals), !is.na(Passes))
# Seleccionar solo algunas variables numéricas importantes datos_reducidos <- datos_filtrados %>% select(Goals, Passes, Age, Appearances)
# Matriz de correlación visual más ligera ggpairs(datos_reducidos, title = “Matriz de correlación reducida”) ```
## Warning in ggally_statistic(data = data, mapping = mapping, na.rm = na.rm, : ## Removing 1 row that contained a missing value ## Warning in ggally_statistic(data = data, mapping = mapping, na.rm = na.rm, : ## Removing 1 row that contained a missing value
## Warning: Removed 1 row containing missing values or values outside the scale range ## (`geom_point()`). ## Removed 1 row containing missing values or values outside the scale range ## (`geom_point()`).
## Warning: Removed 1 row containing non-finite outside the scale range ## (`stat_density()`).
## Warning in ggally_statistic(data = data, mapping = mapping, na.rm = na.rm, : ## Removing 1 row that contained a missing value
## Warning: Removed 1 row containing missing values or values outside the scale range ## (`geom_point()`).
##INTERPRETACION
se tuvo que hacer un summary de los datos ya que la ram del programa no pudo leerlos todos por completo, mas sin embargo en la matriz se analizaron las variables Goals, Passes, Age y Appearances.Se observa una correlación positiva moderada entre Goals y Passes, lo cual sugiere que los jugadores que marcan más goles también suelen tener una mayor participación en el juego ofensivo a través de los pases.La variable Age muestra una correlación débil con Goals y Passes, lo que indica que la edad no es un factor determinante en el rendimiento ofensivo dentro de este conjunto de datos.Appearances (apariciones) tiene una correlación positiva tanto con Goals como con Passes, lo cual es lógico: los jugadores que participan en más partidos tienen más oportunidades de anotar y asistir.las correlaciones obtenidas no son extremadamente altas, lo que indica que no hay dependencia fuerte entre las variables, pero sí hay tendencias importantes que permiten plantear modelos predictivos simples.
## Correlación entre variables cuantitativas
r datos <- read.csv("graficos pearson.csv", sep = ";", header = TRUE) datos_filtrados <- datos %>% filter(!is.na(Goals), !is.na(Passes)) correlacion <- cor(datos_filtrados$Goals, datos_filtrados$Passes, method = "pearson") correlacion
## [1] 0.3966698
r ggplot(datos_filtrados, aes(x = Goals, y = Passes)) + geom_point(color = "steelblue", size = 3) + geom_smooth(method = "lm", se = FALSE, color = "red") + labs(title = "Dispersión entre Goals y Passes", x = "Goals", y = "Passes") + theme_minimal()
## `geom_smooth()` using formula = 'y ~ x'
El gráfico de dispersión muestra una relación positiva entre los goles y los pases de los jugadores, lo que indica que, en general, quienes tienen mayor participación ofensiva también tienden a anotar más. La línea de regresión refuerza esta tendencia, mostrando que hay una conexión lineal entre ambas variables, aunque no perfecta, lo cual es lógico dado que influyen otros factores en el rendimiento individual.
r modelo <- lm(Passes ~ Goals, data = datos_filtrados) summary(modelo)
## ## Call: ## lm(formula = Passes ~ Goals, data = datos_filtrados) ## ## Residuals: ## Min 1Q Median 3Q Max ## -8917.5 -1768.5 -1249.0 671.3 13949.3 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 1768.995 131.184 13.48 <2e-16 *** ## Goals 73.792 7.159 10.31 <2e-16 *** ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Residual standard error: 2873 on 569 degrees of freedom ## Multiple R-squared: 0.1573, Adjusted R-squared: 0.1559 ## F-statistic: 106.2 on 1 and 569 DF, p-value: < 2.2e-16
Interpretación: La correlación de Pearson entre Goals y Passes fue 0.4, indicando una relación positiva. El modelo lineal indica que por cada gol adicional, se generan 73.79 pases en promedio. El intercepto estimado es 1768.99.

Diagrama de caja entre variable cuantitativa y cualitativa

ggplot(premier.league.2, aes(x = Nationality, y = Age, fill = Nationality)) +
  geom_boxplot() +
  labs(title = "Distribución de Edad por Nacionalidad", x = "Nacionalidad", y = "Edad") +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 90, vjust = 0.5, hjust = 1, size = 8), legend.position = "none")
## Warning: Removed 1 row containing non-finite outside the scale range
## (`stat_boxplot()`).

En el diagrama de caja, con las variables edad y nacionalidad se puede interpretar que hay alta diferencia en la mediana de la edad, algunos países como Australia y Japón tienen la mediana de edad más alta y los países como Nigeria y Ghana tienen la mediana de edad más baja; también identificamos que algunos países tienen rangos de edad más amplios como Italia y Francia, y otros con dispersión de edad más baja como Jamaica lo que indica que las edades suelen ser más homogéneas y por último se puede distinguir que en algunas nacionalidades hay datos atípicos como en Brasil, Egipto, Nigeria, Portugal y Suiza. —

Tabla cruzada y gráfico de barras apiladas (solo Arsenal)

Arsenal_data <- subset(premier.league.2, Club == "Arsenal")
tabla_cruzada_arsenal <- table(Arsenal_data$Position, Arsenal_data$Nationality)
print(tabla_cruzada_arsenal)
##             
##              Bosnia And Herzegovina Brazil Cote D'Ivoire Egypt England France
##   Defender                        1      2             0     0       2      1
##   Forward                         0      2             1     0       2      1
##   Goalkeeper                      0      0             0     0       1      0
##   Midfielder                      0      0             0     1       4      1
##             
##              Gabon Germany Greece Iceland Scotland Spain Switzerland Uruguay
##   Defender       0       1      1       0        1     1           0       0
##   Forward        1       0      0       0        0     0           0       0
##   Goalkeeper     0       1      0       1        0     0           0       0
##   Midfielder     0       1      0       0        0     1           1       1
ggplot(Arsenal_data, aes(x = Position, fill = Nationality)) +
  geom_bar(position = "fill") +
  labs(title = "Distribución de Nacionalidades por Posición (Arsenal)", 
       x = "Posición", y = "Proporción", fill = "Nacionalidad") +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

En el diagrama de barras, muestra la distribución de nacionalidades por posición en el equipo Arsenal, podemos ver en el diagrama que los defensores tienen una gran diversidad de nacionalidad, destacando Inglaterra, Alemania y Brasil; En los delanteros predominan los jugadores de Brasil, Inglaterra y Costa de marfil; En los porteros casi todos son solo de tres nacionalidades siendo Alemania e Inglaterra las más representativas y en los mediocampistas se nota la fuerte presencia de jugadores de Inglaterra, Suiza y España

## Tabla cruzada y gráfico con todos los equipos
r ggplot(premier.league.2, aes(x = Position, fill = Nationality)) + geom_bar(position = "fill") + labs(title = "", x = "Posición", y = "Proporción", fill = "Nacionalidad") + theme_minimal() + theme(axis.text.x = element_text(angle = 45, hjust = 1))
## Suavización Exponencial
``` r library(forecast) library(ggplot2)
temporada <- 2000:2024 goles <- c(800, 820, 845, 860, 870, 880, 890, 895, 910, 925, 930, 935, 940, 950, 960, 962, 965, 968, 970, 972, 975, 977, 980, 982, 985)
serie_goles <- ts(goles, start = 2000, frequency = 1)
modelo_suav <- ses(serie_goles, h = 5) # h = 5 predicciones hacia el futuro
summary(modelo_suav) ```
## ## Forecast method: Simple exponential smoothing ## ## Model Information: ## Simple exponential smoothing ## ## Call: ## ses(y = serie_goles, h = 5) ## ## Smoothing parameters: ## alpha = 0.9999 ## ## Initial states: ## l = 800.0006 ## ## sigma: 10.1411 ## ## AIC AICc BIC ## 200.2174 201.3603 203.8740 ## ## Error measures: ## ME RMSE MAE MPE MAPE MASE ACF1 ## Training set 7.400705 9.727045 7.400751 0.8259102 0.825916 0.9600975 0.5255741 ## ## Forecasts: ## Point Forecast Lo 80 Hi 80 Lo 95 Hi 95 ## 2025 984.9997 972.0033 997.9961 965.1234 1004.876 ## 2026 984.9997 966.6209 1003.3785 956.8918 1013.108 ## 2027 984.9997 962.4908 1007.5086 950.5753 1019.424 ## 2028 984.9997 959.0088 1010.9906 945.2501 1024.749 ## 2029 984.9997 955.9412 1014.0582 940.5585 1029.441
r autoplot(modelo_suav) + labs(title = "Pronóstico de Goles con Suavización Exponencial", x = "Año", y = "Goles")

##CONCLUISONES

Este trabajo nos permitió conocer a fondo cómo se comportan los jugadores de la Premier League a partir de datos como goles, pases, edad, posición y nacionalidad. Al limpiar la base y visualizarla con gráficos, pudimos identificar diferencias interesantes entre países y roles dentro del campo. Al analizar la relación entre variables como goles y pases, notamos que sí existe una conexión, y el modelo lineal lo confirmó. Además, probamos una técnica de pronóstico con suavización exponencial para ver cómo podrían cambiar los goles en el futuro. En general, este análisis nos dio herramientas para entender mejor el rendimiento de los jugadores y cómo los datos pueden ayudarnos a tomar decisiones más acertadas en el deporte.

#NOTA

Como los datos de la matriz de correlación era tan pesado no se pudier