library(ggplot2)
library(readr)
library(knitr)
library(GGally)
## Registered S3 method overwritten by 'GGally':
## method from
## +.gg ggplot2
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
premier.league.2 <- read.csv("premier league 2.csv", header = TRUE, sep = ";")
## Name Jersey.Number Club Position
## Length:571 Min. : 1.00 Length:571 Length:571
## Class :character 1st Qu.: 8.00 Class :character Class :character
## Mode :character Median :18.00 Mode :character Mode :character
## Mean :19.53
## 3rd Qu.:27.00
## Max. :82.00
## NA's :8
## Nationality Age Appearances Wins
## Length:571 Min. :17.00 Min. : 0.00 Min. : 0.00
## Class :character 1st Qu.:22.00 1st Qu.: 3.00 1st Qu.: 1.00
## Mode :character Median :26.00 Median : 36.00 Median : 12.00
## Mean :25.79 Mean : 68.82 Mean : 28.96
## 3rd Qu.:29.00 3rd Qu.:108.00 3rd Qu.: 41.00
## Max. :38.00 Max. :539.00 Max. :272.00
## NA's :1
## Losses Goals Goals.per.match Headed.goals
## Min. : 0.0 Min. : 0.000 Min. : 0.000 Min. : 0.000
## 1st Qu.: 1.0 1st Qu.: 0.000 1st Qu.: 0.050 1st Qu.: 0.000
## Median : 14.0 Median : 1.000 Median : 0.140 Median : 0.000
## Mean : 23.9 Mean : 7.327 Mean : 2.648 Mean : 1.414
## 3rd Qu.: 36.0 3rd Qu.: 6.000 3rd Qu.: 0.390 3rd Qu.: 1.000
## Max. :158.0 Max. :180.000 Max. :57.000 Max. :31.000
## NA's :262 NA's :69
## Goals.with.right.foot Goals.with.left.foot Penalties.scored Freekicks.scored
## Min. : 0.000 Min. : 0.000 Min. : 0.0000 Min. :0.0000
## 1st Qu.: 0.000 1st Qu.: 0.000 1st Qu.: 0.0000 1st Qu.:0.0000
## Median : 1.000 Median : 0.000 Median : 0.0000 Median :0.0000
## Mean : 4.468 Mean : 2.388 Mean : 0.9741 Mean :0.2913
## 3rd Qu.: 3.000 3rd Qu.: 2.000 3rd Qu.: 0.0000 3rd Qu.:0.0000
## Max. :127.000 Max. :63.000 Max. :27.0000 Max. :8.0000
## NA's :69 NA's :69 NA's :262 NA's :262
## Shots Shots.on.target Shooting.accuracy.. Hit.woodwork
## Min. : 0.0 Min. : 0.00 Length:571 Min. : 0.000
## 1st Qu.: 6.0 1st Qu.: 1.00 Class :character 1st Qu.: 0.000
## Median : 41.0 Median : 12.00 Mode :character Median : 0.000
## Mean :102.5 Mean : 36.92 Mean : 2.062
## 3rd Qu.:144.0 3rd Qu.: 47.00 3rd Qu.: 2.000
## Max. :996.0 Max. :411.00 Max. :34.000
## NA's :262 NA's :262 NA's :69
## Big.chances.missed Clean.sheets Goals.conceded Tackles
## Min. : 0.000 Min. : 0.00 Min. : 0.00 Min. : 0.0
## 1st Qu.: 0.000 1st Qu.: 0.00 1st Qu.: 0.25 1st Qu.: 5.0
## Median : 2.000 Median : 6.00 Median : 40.00 Median : 45.0
## Mean : 9.029 Mean : 16.69 Mean : 75.69 Mean :101.1
## 3rd Qu.: 11.000 3rd Qu.: 26.00 3rd Qu.:117.00 3rd Qu.:139.8
## Max. :126.000 Max. :127.00 Max. :452.00 Max. :860.0
## NA's :262 NA's :309 NA's :309 NA's :69
## Tackle.success.. Last.man.tackles Blocked.shots Interceptions
## Length:571 Min. : 0.000 Min. : 0.00 Min. : 0.00
## Class :character 1st Qu.: 0.000 1st Qu.: 0.00 1st Qu.: 2.00
## Mode :character Median : 0.000 Median : 7.00 Median : 26.00
## Mean : 1.259 Mean : 20.55 Mean : 72.76
## 3rd Qu.: 1.000 3rd Qu.: 27.00 3rd Qu.: 99.25
## Max. :24.000 Max. :230.00 Max. :618.00
## NA's :378 NA's :69 NA's :69
## Clearances Headed.Clearance Clearances.off.line Recoveries
## Min. : 0.0 Min. : 0.00 Min. : 0.000 Min. : 0.00
## 1st Qu.: 3.0 1st Qu.: 1.00 1st Qu.: 0.000 1st Qu.: 10.25
## Median : 31.0 Median : 13.00 Median : 0.000 Median : 174.00
## Mean : 141.6 Mean : 69.91 Mean : 1.036 Mean : 326.91
## 3rd Qu.: 147.0 3rd Qu.: 68.00 3rd Qu.: 1.000 3rd Qu.: 512.25
## Max. :2974.0 Max. :1155.00 Max. :10.000 Max. :2330.00
## NA's :69 NA's :69 NA's :378 NA's :181
## Duels.won Duels.lost Successful.50.50s Aerial.battles.won
## Min. : 0.0 Min. : 0.0 Min. : 0.00 Min. : 0.00
## 1st Qu.: 12.0 1st Qu.: 12.0 1st Qu.: 2.00 1st Qu.: 3.00
## Median : 154.5 Median : 145.5 Median : 21.00 Median : 28.50
## Mean : 313.8 Mean : 275.9 Mean : 49.25 Mean : 99.76
## 3rd Qu.: 489.0 3rd Qu.: 408.8 3rd Qu.: 58.75 3rd Qu.: 130.00
## Max. :1946.0 Max. :2223.0 Max. :415.00 Max. :1157.00
## NA's :181 NA's :181 NA's :181 NA's :181
## Aerial.battles.lost Own.goals Errors.leading.to.goal Assists
## Min. : 0.00 Min. :0.0000 Min. : 0.0 Min. : 0.000
## 1st Qu.: 3.00 1st Qu.:0.0000 1st Qu.: 0.0 1st Qu.: 0.000
## Median : 41.50 Median :0.0000 Median : 0.0 Median : 1.000
## Mean : 84.85 Mean :0.4084 Mean : 1.1 Mean : 5.285
## 3rd Qu.:119.50 3rd Qu.:0.0000 3rd Qu.: 1.0 3rd Qu.: 6.000
## Max. :562.00 Max. :6.0000 Max. :20.0 Max. :84.000
## NA's :181 NA's :309 NA's :112
## Passes Passes.per.match Big.chances.created Crosses
## Min. : 0 Min. : 0.00 Min. : 0.000 Min. : 0.0
## 1st Qu.: 92 1st Qu.:11.26 1st Qu.: 0.000 1st Qu.: 2.0
## Median : 1000 Median :25.01 Median : 3.000 Median : 20.5
## Mean : 2310 Mean :25.90 Mean : 8.171 Mean : 121.9
## 3rd Qu.: 3285 3rd Qu.:37.97 3rd Qu.: 9.000 3rd Qu.: 107.8
## Max. :17932 Max. :98.50 Max. :97.000 Max. :2247.0
## NA's :69 NA's :69
## Cross.accuracy.. Through.balls Accurate.long.balls Saves
## Length:571 Min. : 0.000 Min. : 0.0 Min. : 0.0
## Class :character 1st Qu.: 0.000 1st Qu.: 3.0 1st Qu.: 0.0
## Mode :character Median : 2.000 Median : 59.0 Median : 20.0
## Mean : 8.577 Mean : 184.9 Mean :150.5
## 3rd Qu.: 7.750 3rd Qu.: 228.5 3rd Qu.:195.0
## Max. :156.000 Max. :1943.0 Max. :941.0
## NA's :181 NA's :112 NA's :502
## Penalties.saved Punches High.Claims Catches
## Min. :0.000 Min. : 0.00 Min. : 0.00 Min. : 0.00
## 1st Qu.:0.000 1st Qu.: 0.00 1st Qu.: 0.00 1st Qu.: 0.00
## Median :0.000 Median : 2.00 Median : 6.00 Median : 3.00
## Mean :1.087 Mean : 24.65 Mean : 45.87 Mean : 20.78
## 3rd Qu.:2.000 3rd Qu.: 31.00 3rd Qu.: 45.00 3rd Qu.: 17.00
## Max. :7.000 Max. :269.00 Max. :391.00 Max. :249.00
## NA's :502 NA's :502 NA's :502 NA's :502
## Sweeper.clearances Throw.outs Goal.Kicks Yellow.cards
## Min. : 0.00 Min. : 0 Min. : 0.0 Min. : 0.000
## 1st Qu.: 0.00 1st Qu.: 0 1st Qu.: 0.0 1st Qu.: 0.000
## Median : 4.00 Median : 39 Median : 53.0 Median : 3.000
## Mean : 25.57 Mean : 210 Mean : 414.1 Mean : 7.918
## 3rd Qu.: 28.00 3rd Qu.: 300 3rd Qu.: 527.0 3rd Qu.:11.000
## Max. :257.00 Max. :1516 Max. :2806.0 Max. :81.000
## NA's :502 NA's :502 NA's :502
## Red.cards Fouls Offsides
## Min. :0.0000 Min. : 0.00 Min. : 0.00
## 1st Qu.:0.0000 1st Qu.: 1.00 1st Qu.: 0.00
## Median :0.0000 Median : 22.00 Median : 2.00
## Mean :0.3012 Mean : 53.03 Mean : 11.06
## 3rd Qu.:0.0000 3rd Qu.: 74.00 3rd Qu.: 8.75
## Max. :5.0000 Max. :438.00 Max. :203.00
## NA's :69
Respuesta: Se utilizará una base de datos de jugadores de la Premier League. Esta contiene información sobre posición, nacionalidad, edad, goles, porterías imbatidas, pases, goles concedidos, apariciones, club, número de camiseta, entre otros. El conjunto de datos incluye 571 jugadores y 59 variables.
| Variable. | Tipo.de.variable. | Medición. | Unidades.de.medición. |
|---|---|---|---|
| Nacionalidad | Cualitativa | Nominal | Conteo |
| Edad | Cuantitativa | Continua | Conteo |
| Goles | Cuantitativa | Discretas | Conteo |
| Porterías imbatidas | Cuantitativa | Discretas | Conteo |
| Pases | Cuantitativa | Discretas | Conteo |
| Goles concedidos | Cuantitativa | Discretas | Conteo |
| Apariciones | Cuantitativa | Discreta | Conteo |
| Equipo | Cualitativa | Nominal | Conteo |
| Número de la camisa | Cualitativa | Nominal | Conteo |
| Posición | Cualitativa | Nominal | Conteo |
Respuesta: Se encontraron valores vacíos y nombres mal digitados. Se realizará la imputación de datos faltantes y estandarización de nombres, especialmente en los nombres de jugadores por temas de acentuación.
| VARIABLES.CUANTITATIVAS. | MIN. | MAX. | PROM. | X | MEDIANA. | RANGO.INTERCUARTILICO. | DESVIACION.ESTANDAR. |
|---|---|---|---|---|---|---|---|
| NA | |||||||
| EDAD | 17 | 38 | 25.79 | NA | 26 | 7 | 4.38 |
| GOLES | 0 | 180 | 7.33 | NA | 1 | 6 | 16.81 |
| PORTERIAS | 0 | 127 | 16.70 | NA | 6 | 26.25 | 23.60 |
| IMBATIDAS | NA | ||||||
| PASES | 0 | 17922 | 2309.70 | NA | 1000 | 3198 | 3127.23 |
| GOOLES | 0 | 452 | 77.24 | NA | 41.5 | 117 | 95.49 |
| CONCEDIDOS | NA | ||||||
| APARICIONES | 0 | 539 | 68.82 | NA | 36 | 106 | 81.80 |
| NA | |||||||
| NA | |||||||
| VARIABLES CUALITATIVAS | CANTIDAD % | NA | |||||
| EQUIPO | arsenal 5.74% aston villa 5.17% wolverhampton wanderers 4.21% wes-ham-united 5.55% tottenham-hostpur 6.13% southampton 4.59% sheffield-united 5.17% newcastle-united 5.74% mancherter-united 5.93% manchester- city 5.17% liverpool 6.15% leicester-city 5.93% leeds-united 4.98% fulham 4.78% everton 5.93% crystral-palace 5.93% chelsea 5.17% burnley 4.59% brighton-and-hove-albion 6.32% | NA | |||||
| NUMERO | SIN NUMERO:1.40%, 1:2.8% ,33:1.75% ,13:2.10% , 2:3.15% , 3:2.80% , 4: 3.15% ,5: 3.15% , 16: 2.10% , 20: 2.80% , 21: 3.15% , 23: 3.15% , 31:1.58% , 6: 3.15%, 10: 3.50%,11: 3.33%,15:2.28%,25:2.45%,28: 2.10%,29: 1.75%,32: 1.23% ,34:1.40% ,7: 3.33%,8: 3.33%,9:3.33%,14:2.45%,192.63%,24:2.63,30:1.75%,35:1.23%,12:2.63%,26:2.10%,18:2.63%,22:2.45%,27:1.93%,17:2.63%,41:1.23%,39:0.35%,52:0.18%,50:0.53%,58:0.35%,49:0.88%,53:0.18%,55:0.18%,42:0.53%,37:0.53%,45:0.35%,44:0.53%,40:0.35%,470.70%,36:0.35%,43:0.18%,46:0.18%,38:0.35%,62:0.18%,73:0.18%,66:0.18%,76:0.18%,72:0.18%,59:0.35%,67:0.18%,69:0.18%,82:0.18%,48:0.35%,71:0.18%,54:0.18%,56:0.18%,57:0.18% | NA | |||||
| NACIONALIDAD | GERMANY:2.34%,ENGLAND:43.08%,ICELAND:0.58% | NA | |||||
| SPAIN:5.46%,SCOTLAND:3.90%,FRANCE:5.85%,GREECE:0.39% | NA | ||||||
| BRAZIL:4.68%,BOSNIA AND HERZEGOVINA:0.39%,URUGUAY:0.19%,EGYPT:0.97%,SWITZERLAND:0.78%,GABON:0.39%,COTED´LVOIRE:1.36%,NORWAY:0.58%,CROATIA:0.58%,ARGENTINA:2.53%,WALES:2.53%,BELGIUM:2.53%,ZIMBABWE:0.19%,IRELAND:4.68%,NETHERLANDS:3.51%,BURKINA FASO:0.19%,AUSTRALIA:0.39%,MALI:0.58%,COLOMBIA:0.97%,SWEDEN:0.78%,IRAN:0.19%,ROMANIA:0.19%,NORTHERN IRELAND:1.17%,NEW ZELAND:0.19%,CZECH REPUBLIC:0.19%,denmark:1.36%,italy:0.97%,MOROCCO:0.58%,UNITED STATES:1.17%,POLAND:1.36%,SERBIA:0.97%,SENEGAL:0.58%,GHANA:0.97%,PORTUGAL:4.09%,THE DEMOCRATIC REPUBLIC OF CONGO:0.78%,TURKEY:0.58%,NIGERIA:1.17%,SLOVAKIA:0.39%,JAMAICA:0.58%,CAMEROON:0.39%,AUSTRIA:0.19%,ALGERIA:0.58%,GUINEA:0.19%,JAPAN:0.19%,UKRANIE:0.39%,PARAGUAY:0.39%,SOUTH KOREA 0.19%,SAINT KITTS AND NEVIS:0.19%,MEXICO:0.19%, ECUADOR:0.19% | NA | ||||||
| NA | |||||||
| POSICION | GOALKEEPER:12%,DEFENDER:34%,MIDFIELDER:35%, FORWARD:19% | NA | |||||
| NA |
ggplot(premier.league.2, aes(x = reorder(Nationality, -table(Nationality)[Nationality]))) +
geom_bar(fill = "blue") +
labs(title = "Distribución de Nacionalidades", x = "Nacionalidad", y = "Frecuencia") +
theme_minimal() +
theme(axis.text.x = element_text(angle = 90, vjust = 0.5, hjust = 1, size = 8))
ggplot(premier.league.2, aes(x = reorder(Club, -table(Club)[Club]))) +
geom_bar(fill = "aquamarine") +
labs(title = "Número de Jugadores por Club", x = "Club", y = "Cantidad") +
theme_minimal() +
theme(axis.text.x = element_text(angle = 90, vjust = 0.5, hjust = 1, size = 8))
ggplot(premier.league.2, aes(x = Clean.sheets)) +
geom_histogram(fill = "gold", bins = 10) +
labs(title = "Distribución de Arcos en Cero", x = "Clean Sheets", y = "Frecuencia") +
theme_minimal()
## Warning: Removed 309 rows containing non-finite outside the scale range
## (`stat_bin()`).
ggplot(premier.league.2, aes(x = Passes)) +
geom_histogram(fill = "red", bins = 20) +
labs(title = "Distribución de Pases", x = "Pases", y = "Frecuencia") +
theme_minimal()
ggplot(premier.league.2, aes(x = Goals.conceded)) +
geom_histogram(fill = "purple", bins = 10) +
labs(title = "Distribución de Goles Concedidos", x = "Goles Concedidos", y = "Frecuencia") +
theme_minimal()
## Warning: Removed 309 rows containing non-finite outside the scale range
## (`stat_bin()`).
ggplot(premier.league.2, aes(x = Appearances)) +
geom_histogram(fill = "orange", bins = 10) +
labs(title = "Distribución de Apariciones", x = "Apariciones", y = "Frecuencia") +
theme_minimal()
ggplot(premier.league.2, aes(x = factor(Jersey.Number), fill = factor(Jersey.Number %% 2))) +
geom_bar() +
scale_fill_manual(values = c("blue", "red"), labels = c("Par", "Impar")) +
labs(title = "Distribución de Números de Camiseta", x = "Número de Camiseta", y = "Cantidad de Jugadores", fill = "Tipo de Número") +
theme_minimal() +
theme(axis.text.x = element_text(angle = 90, vjust = 0.5, hjust = 1, size = 8))
| ##MATRIZ DE CORRELACION |
| ``` r library(ggplot2) library(readr) library(dplyr) library(GGally) |
| # Leer los datos (si aún no los tienes cargados en este nuevo documento) datos <- read.csv(“graficos pearson.csv”, sep = “;”, header = TRUE) |
| # Filtrar datos válidos datos_filtrados <- datos %>% filter(!is.na(Goals), !is.na(Passes)) |
| # Seleccionar solo algunas variables numéricas importantes datos_reducidos <- datos_filtrados %>% select(Goals, Passes, Age, Appearances) |
| # Matriz de correlación visual más ligera ggpairs(datos_reducidos, title = “Matriz de correlación reducida”) ``` |
## Warning in ggally_statistic(data = data, mapping = mapping, na.rm = na.rm, : ## Removing 1 row that contained a missing value ## Warning in ggally_statistic(data = data, mapping = mapping, na.rm = na.rm, : ## Removing 1 row that contained a missing value |
## Warning: Removed 1 row containing missing values or values outside the scale range ## (`geom_point()`). ## Removed 1 row containing missing values or values outside the scale range ## (`geom_point()`). |
## Warning: Removed 1 row containing non-finite outside the scale range ## (`stat_density()`). |
## Warning in ggally_statistic(data = data, mapping = mapping, na.rm = na.rm, : ## Removing 1 row that contained a missing value |
## Warning: Removed 1 row containing missing values or values outside the scale range ## (`geom_point()`). |
| se tuvo que hacer un summary de los datos ya que la ram del programa no pudo leerlos todos por completo, mas sin embargo en la matriz se analizaron las variables Goals, Passes, Age y Appearances.Se observa una correlación positiva moderada entre Goals y Passes, lo cual sugiere que los jugadores que marcan más goles también suelen tener una mayor participación en el juego ofensivo a través de los pases.La variable Age muestra una correlación débil con Goals y Passes, lo que indica que la edad no es un factor determinante en el rendimiento ofensivo dentro de este conjunto de datos.Appearances (apariciones) tiene una correlación positiva tanto con Goals como con Passes, lo cual es lógico: los jugadores que participan en más partidos tienen más oportunidades de anotar y asistir.las correlaciones obtenidas no son extremadamente altas, lo que indica que no hay dependencia fuerte entre las variables, pero sí hay tendencias importantes que permiten plantear modelos predictivos simples. |
| ## Correlación entre variables cuantitativas |
r datos <- read.csv("graficos pearson.csv", sep = ";", header = TRUE) datos_filtrados <- datos %>% filter(!is.na(Goals), !is.na(Passes)) correlacion <- cor(datos_filtrados$Goals, datos_filtrados$Passes, method = "pearson") correlacion |
## [1] 0.3966698 |
r ggplot(datos_filtrados, aes(x = Goals, y = Passes)) + geom_point(color = "steelblue", size = 3) + geom_smooth(method = "lm", se = FALSE, color = "red") + labs(title = "Dispersión entre Goals y Passes", x = "Goals", y = "Passes") + theme_minimal() |
## `geom_smooth()` using formula = 'y ~ x' |
r modelo <- lm(Passes ~ Goals, data = datos_filtrados) summary(modelo) |
## ## Call: ## lm(formula = Passes ~ Goals, data = datos_filtrados) ## ## Residuals: ## Min 1Q Median 3Q Max ## -8917.5 -1768.5 -1249.0 671.3 13949.3 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 1768.995 131.184 13.48 <2e-16 *** ## Goals 73.792 7.159 10.31 <2e-16 *** ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Residual standard error: 2873 on 569 degrees of freedom ## Multiple R-squared: 0.1573, Adjusted R-squared: 0.1559 ## F-statistic: 106.2 on 1 and 569 DF, p-value: < 2.2e-16 |
| Interpretación: La correlación de Pearson entre Goals y Passes fue 0.4, indicando una relación positiva. El modelo lineal indica que por cada gol adicional, se generan 73.79 pases en promedio. El intercepto estimado es 1768.99. |
ggplot(premier.league.2, aes(x = Nationality, y = Age, fill = Nationality)) +
geom_boxplot() +
labs(title = "Distribución de Edad por Nacionalidad", x = "Nacionalidad", y = "Edad") +
theme_minimal() +
theme(axis.text.x = element_text(angle = 90, vjust = 0.5, hjust = 1, size = 8), legend.position = "none")
## Warning: Removed 1 row containing non-finite outside the scale range
## (`stat_boxplot()`).
En el diagrama de caja, con las variables edad y nacionalidad se puede
interpretar que hay alta diferencia en la mediana de la edad, algunos
países como Australia y Japón tienen la mediana de edad más alta y los
países como Nigeria y Ghana tienen la mediana de edad más baja; también
identificamos que algunos países tienen rangos de edad más amplios como
Italia y Francia, y otros con dispersión de edad más baja como Jamaica
lo que indica que las edades suelen ser más homogéneas y por último se
puede distinguir que en algunas nacionalidades hay datos atípicos como
en Brasil, Egipto, Nigeria, Portugal y Suiza. —
Arsenal_data <- subset(premier.league.2, Club == "Arsenal")
tabla_cruzada_arsenal <- table(Arsenal_data$Position, Arsenal_data$Nationality)
print(tabla_cruzada_arsenal)
##
## Bosnia And Herzegovina Brazil Cote D'Ivoire Egypt England France
## Defender 1 2 0 0 2 1
## Forward 0 2 1 0 2 1
## Goalkeeper 0 0 0 0 1 0
## Midfielder 0 0 0 1 4 1
##
## Gabon Germany Greece Iceland Scotland Spain Switzerland Uruguay
## Defender 0 1 1 0 1 1 0 0
## Forward 1 0 0 0 0 0 0 0
## Goalkeeper 0 1 0 1 0 0 0 0
## Midfielder 0 1 0 0 0 1 1 1
ggplot(Arsenal_data, aes(x = Position, fill = Nationality)) +
geom_bar(position = "fill") +
labs(title = "Distribución de Nacionalidades por Posición (Arsenal)",
x = "Posición", y = "Proporción", fill = "Nacionalidad") +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1))
En el diagrama de barras, muestra la distribución de nacionalidades por
posición en el equipo Arsenal, podemos ver en el diagrama que los
defensores tienen una gran diversidad de nacionalidad, destacando
Inglaterra, Alemania y Brasil; En los delanteros predominan los
jugadores de Brasil, Inglaterra y Costa de marfil; En los porteros casi
todos son solo de tres nacionalidades siendo Alemania e Inglaterra las
más representativas y en los mediocampistas se nota la fuerte presencia
de jugadores de Inglaterra, Suiza y España
| ## Tabla cruzada y gráfico con todos los equipos |
r ggplot(premier.league.2, aes(x = Position, fill = Nationality)) + geom_bar(position = "fill") + labs(title = "", x = "Posición", y = "Proporción", fill = "Nacionalidad") + theme_minimal() + theme(axis.text.x = element_text(angle = 45, hjust = 1)) |
| ## Suavización Exponencial |
| ``` r library(forecast) library(ggplot2) |
| temporada <- 2000:2024 goles <- c(800, 820, 845, 860, 870, 880, 890, 895, 910, 925, 930, 935, 940, 950, 960, 962, 965, 968, 970, 972, 975, 977, 980, 982, 985) |
| serie_goles <- ts(goles, start = 2000, frequency = 1) |
| modelo_suav <- ses(serie_goles, h = 5) # h = 5 predicciones hacia el futuro |
| summary(modelo_suav) ``` |
## ## Forecast method: Simple exponential smoothing ## ## Model Information: ## Simple exponential smoothing ## ## Call: ## ses(y = serie_goles, h = 5) ## ## Smoothing parameters: ## alpha = 0.9999 ## ## Initial states: ## l = 800.0006 ## ## sigma: 10.1411 ## ## AIC AICc BIC ## 200.2174 201.3603 203.8740 ## ## Error measures: ## ME RMSE MAE MPE MAPE MASE ACF1 ## Training set 7.400705 9.727045 7.400751 0.8259102 0.825916 0.9600975 0.5255741 ## ## Forecasts: ## Point Forecast Lo 80 Hi 80 Lo 95 Hi 95 ## 2025 984.9997 972.0033 997.9961 965.1234 1004.876 ## 2026 984.9997 966.6209 1003.3785 956.8918 1013.108 ## 2027 984.9997 962.4908 1007.5086 950.5753 1019.424 ## 2028 984.9997 959.0088 1010.9906 945.2501 1024.749 ## 2029 984.9997 955.9412 1014.0582 940.5585 1029.441 |
r autoplot(modelo_suav) + labs(title = "Pronóstico de Goles con Suavización Exponencial", x = "Año", y = "Goles") |
##CONCLUISONES
Este trabajo nos permitió conocer a fondo cómo se comportan los jugadores de la Premier League a partir de datos como goles, pases, edad, posición y nacionalidad. Al limpiar la base y visualizarla con gráficos, pudimos identificar diferencias interesantes entre países y roles dentro del campo. Al analizar la relación entre variables como goles y pases, notamos que sí existe una conexión, y el modelo lineal lo confirmó. Además, probamos una técnica de pronóstico con suavización exponencial para ver cómo podrían cambiar los goles en el futuro. En general, este análisis nos dio herramientas para entender mejor el rendimiento de los jugadores y cómo los datos pueden ayudarnos a tomar decisiones más acertadas en el deporte.
#NOTA
Como los datos de la matriz de correlación era tan pesado no se pudier