1 Objetivo

Construir modelos de regresión lineal simple y polinómico importando datos FIFA con variable Overall y Valor para realizar predicciones y evaluar y comparar su rendimiento.

2 Descripción

Cargar datos de FIFA
Métricas a evaluar
Explorar datos
- Variables independiente y dependiente
- Visualizar dispersión de los datos
Construir datos de entrenamiento y datos de validación.
Regresión Lineal Simple
- Construir el modelo
- Predicciones
- Metricas del modelo
Regresión Polinómica de segundo
- Construir el modelo
- Predicciones
- Métricas del modelo
Regresión Polinómica de quinto nivel
- Construir el modelo
- Predicciones
- Métricas del modelo
Interpretación

3 Desarrollo

3.1 Métricas a valorar en los modelos

Se van a realizar y evaluar métricas de las predicciones con los modelos de regresión lineal simple y regresión polinómica con los mismos datos.

Los modelos se aceptan si las métricas cumplen estos requisitos:

El valor de R Square y R Square ajustado sobrepasa el 50%,
Que sus variables sea estadísticamente significativas al 95%. Al menos un ‘*’
Que el valor de RMSE (Raiz del Error Estándar Medio) sea menor que : 2 000 000 (dos millones).
Al final se deben comparar los modelos.

3.2 Cargar librerías

library(readr) # Para importar datos
library(dplyr) # Para filtrar   
library(knitr) # Para datos tabulares
library(ggplot2) # Para visualizar
library(plotly)
library(caret)  # Para particionar
library(Metrics) # Para determinar rmse

3.3 Cargar datos

datos <- read.csv("https://raw.githubusercontent.com/rpizarrog/Analisis-Inteligente-de-datos/main/datos/datos.limpios.csv", stringsAsFactors = TRUE)

3.4 Explorar datos

str(datos)

## 'data.frame':    17907 obs. of  51 variables:
##  $ X.1                     : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ X                       : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ Name                    : Factor w/ 16912 levels "A. Ábalos","A. Abang",..: 9504 3128 12343 4091 8510 4377 9512 9716 15209 7686 ...
##  $ Age                     : int  31 33 26 27 27 27 32 31 32 25 ...
##  $ Nationality             : Factor w/ 163 levels "Afghanistan",..: 7 123 21 140 14 14 36 158 140 137 ...
##  $ Overall                 : int  94 94 92 91 91 91 91 91 91 90 ...
##  $ Potential               : int  94 94 93 93 92 91 91 91 91 93 ...
##  $ Club                    : Factor w/ 651 levels " SSV Jahn Regensburg",..: 214 329 436 376 375 137 473 214 473 61 ...
##  $ Preferred.Foot          : Factor w/ 2 levels "Left","Right": 1 2 2 2 2 2 2 2 2 2 ...
##  $ International.Reputation: int  5 5 5 4 4 4 4 5 4 3 ...
##  $ Weak.Foot               : int  4 4 5 3 5 4 4 4 3 3 ...
##  $ Skill.Moves             : int  4 5 5 1 4 4 4 3 3 1 ...
##  $ Height                  : Factor w/ 21 levels "5'1","5'10","5'11",..: 9 14 11 16 3 10 10 12 12 14 ...
##  $ Weight                  : Factor w/ 57 levels "110lbs","115lbs",..: 22 33 18 26 20 24 16 36 32 37 ...
##  $ Crossing                : int  84 84 79 17 93 81 86 77 66 13 ...
##  $ Finishing               : int  95 94 87 13 82 84 72 93 60 11 ...
##  $ HeadingAccuracy         : int  70 89 62 21 55 61 55 77 91 15 ...
##  $ ShortPassing            : int  90 81 84 50 92 89 93 82 78 29 ...
##  $ Volleys                 : int  86 87 84 13 82 80 76 88 66 13 ...
##  $ Dribbling               : int  97 88 96 18 86 95 90 87 63 12 ...
##  $ Curve                   : int  93 81 88 21 85 83 85 86 74 13 ...
##  $ FKAccuracy              : int  94 76 87 19 83 79 78 84 72 14 ...
##  $ LongPassing             : int  87 77 78 51 91 83 88 64 77 26 ...
##  $ BallControl             : int  96 94 95 42 91 94 93 90 84 16 ...
##  $ Acceleration            : int  91 89 94 57 78 94 80 86 76 43 ...
##  $ SprintSpeed             : int  86 91 90 58 76 88 72 75 75 60 ...
##  $ Agility                 : int  91 87 96 60 79 95 93 82 78 67 ...
##  $ Reactions               : int  95 96 94 90 91 90 90 92 85 86 ...
##  $ Balance                 : int  95 70 84 43 77 94 94 83 66 49 ...
##  $ ShotPower               : int  85 95 80 31 91 82 79 86 79 22 ...
##  $ Jumping                 : int  68 95 61 67 63 56 68 69 93 76 ...
##  $ Stamina                 : int  72 88 81 43 90 83 89 90 84 41 ...
##  $ Strength                : int  59 79 49 64 75 66 58 83 83 78 ...
##  $ LongShots               : int  94 93 82 12 91 80 82 85 59 12 ...
##  $ Aggression              : int  48 63 56 38 76 54 62 87 88 34 ...
##  $ Interceptions           : int  22 29 36 30 61 41 83 41 90 19 ...
##  $ Positioning             : int  94 95 89 12 87 87 79 92 60 11 ...
##  $ Vision                  : int  94 82 87 68 94 89 92 84 63 70 ...
##  $ Penalties               : int  75 85 81 40 79 86 82 85 75 11 ...
##  $ Composure               : int  96 95 94 68 88 91 84 85 82 70 ...
##  $ Marking                 : int  33 28 27 15 68 34 60 62 87 27 ...
##  $ StandingTackle          : int  28 31 24 21 58 27 76 45 92 12 ...
##  $ SlidingTackle           : int  26 23 33 13 51 22 73 38 91 18 ...
##  $ GKDiving                : int  6 7 9 90 15 11 13 27 11 86 ...
##  $ GKHandling              : int  11 11 9 85 13 12 9 25 8 92 ...
##  $ GKKicking               : int  15 15 15 87 5 6 7 31 9 78 ...
##  $ GKPositioning           : int  14 14 15 88 10 8 14 33 7 88 ...
##  $ GKReflexes              : int  8 11 11 94 13 8 9 37 11 89 ...
##  $ Valor                   : int  110500000 77000000 118500000 72000000 102000000 93000000 67000000 80000000 51000000 68000000 ...
##  $ Estatura                : num  1.7 1.88 1.75 1.93 1.8 1.73 1.73 1.83 1.83 1.88 ...
##  $ PesoKgs                 : num  72.1 83 68 76.2 69.8 ...

3.4.1 Variables independiente y dependiente

Se identifican dos variables numéricas de interés:

Overall: Reputación y jerarquía internacional numérica del jugador
Valor: Sería el valor económico internacional de los jugadores

Se define a la variable independiente como Overall y la variable dependiente Valor, es decir, Overall impacta sobre Value o los valores de la variable Valor dependen de Overall.

print ("Variable Overall")

## [1] "Variable Overall"

summary(datos$Overall)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   46.00   62.00   66.00   66.24   71.00   94.00

print ("Variable Valor que significa el valor económico del jugador en moneda Euros ")

## [1] "Variable Valor que significa el valor económico del jugador en moneda Euros "

summary(datos$Valor)

##      Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
##     10000    325000    700000   2450133   2100000 118500000

3.4.2 head(datos)

kable(head(datos[, c('X', 'Name', 'Overall', 'Valor')], 20), caption = "Datos. Primeros 20 registros")

Datos. Primeros 20 registros
X	Name	Overall	Valor
1	L. Messi	94	110500000
2	Cristiano Ronaldo	94	77000000
3	Neymar Jr	92	118500000
4	De Gea	91	72000000
5	K. De Bruyne	91	102000000
6	E. Hazard	91	93000000
7	L. Modric	91	67000000
8	L. Suárez	91	80000000
9	Sergio Ramos	91	51000000
10	J. Oblak	90	68000000
11	R. Lewandowski	90	77000000
12	T. Kroos	90	76500000
13	D. Godín	90	44000000
14	David Silva	90	60000000
15	N. Kanté	89	63000000
16	P. Dybala	89	89000000
17	H. Kane	89	83500000
18	A. Griezmann	89	78000000
19	M. ter Stegen	89	58000000
20	T. Courtois	89	53500000

tail(datos)

kable(head(datos[, c('X', 'Name', 'Overall', 'Valor')], 20), caption = "Datos. Primeros 20 registros")

Datos. Primeros 20 registros
X	Name	Overall	Valor
1	L. Messi	94	110500000
2	Cristiano Ronaldo	94	77000000
3	Neymar Jr	92	118500000
4	De Gea	91	72000000
5	K. De Bruyne	91	102000000
6	E. Hazard	91	93000000
7	L. Modric	91	67000000
8	L. Suárez	91	80000000
9	Sergio Ramos	91	51000000
10	J. Oblak	90	68000000
11	R. Lewandowski	90	77000000
12	T. Kroos	90	76500000
13	D. Godín	90	44000000
14	David Silva	90	60000000
15	N. Kanté	89	63000000
16	P. Dybala	89	89000000
17	H. Kane	89	83500000
18	A. Griezmann	89	78000000
19	M. ter Stegen	89	58000000
20	T. Courtois	89	53500000

3.5 Dispersión de los datos

g <- plot_ly(data = datos, 
             x = ~Overall, 
             y = ~Valor) %>%
layout(title = 'Jugadores FIFA. Dispersión de Overall y Valor')
g

## No trace type specified:
##   Based on info supplied, a 'scatter' trace seems appropriate.
##   Read more about this trace type -> https://plotly.com/r/reference/#scatter

## No scatter mode specifed:
##   Setting the mode to markers
##   Read more about this attribute -> https://plotly.com/r/reference/#scatter-mode

Se observa que la relación de los datos no es del todo lineal, pero se construirán los modelos de regresión lineal simple y polinómico con las mismas variables.

Datos de entrenamiento y datos de validación

Sembrar semilla para la aleatoriedad de los datos

n <- nrow(datos)

# Modificar la semilla estableciendo como parámetro los útimos cuatro dígitos de su no de control. 
# Ej. set.seed(0732), o set.seed(1023)
# set.seed(2022) 
set.seed(0421)

3.5.1 Datos de entrenamiento

De manera aleatoria se construyen los datos de entrenamiento y los datos de validación.

En la variable entrena se generan los registros que van a ser los datos de entrenamiento, de tal forma que los datos de validación serán los que no sena de entrenamiento [-entrena].

entrena <- createDataPartition(y = datos$Valor, p = 0.70, list = FALSE, times = 1)

# Datos entrenamiento
datos.entrenamiento <- datos[entrena, ]  # [renglones, columna]

# Datos validación
datos.validacion <- datos[-entrena, ]

3.5.1.1 head()

kable(head(datos.entrenamiento[, c('X', 'Name', 'Overall', 'Valor')], 20), caption = "Datos de Entrenamiento. Primeros 20 registros")

Datos de Entrenamiento. Primeros 20 registros
	X	Name	Overall	Valor
1	1	L. Messi	94	110500000
3	3	Neymar Jr	92	118500000
5	5	K. De Bruyne	91	102000000
7	7	L. Modric	91	67000000
8	8	L. Suárez	91	80000000
9	9	Sergio Ramos	91	51000000
11	11	R. Lewandowski	90	77000000
12	12	T. Kroos	90	76500000
13	13	D. Godín	90	44000000
14	14	David Silva	90	60000000
15	15	N. Kanté	89	63000000
17	17	H. Kane	89	83500000
18	18	A. Griezmann	89	78000000
19	19	M. ter Stegen	89	58000000
21	21	Sergio Busquets	89	51500000
24	24	S. Agüero	89	64500000
26	26	K. Mbappé	88	81000000
27	27	M. Salah	88	69500000
28	28	Casemiro	88	59500000
29	29	J. Rodríguez	88	69500000

3.5.1.2 tail()

kable(tail(datos.validacion[, c('X', 'Name', 'Overall', 'Valor')], 20), caption = "Datos de Entrenamiento. Primeros 20 registros")

Datos de Entrenamiento. Primeros 20 registros
	X	Name	Overall	Valor
17836	17884	F. Ranocchia	49	60000
17845	17893	W. Henry	49	50000
17852	17900	C. Levingston	49	50000
17853	17901	R. Hughes	49	60000
17856	17904	M. Roberts	48	60000
17857	17905	Liu Guobo	48	60000
17859	17907	K. Taylor	48	60000
17862	17910	D. Szczepaniak	48	50000
17863	17911	P. Wieliczko	48	40000
17867	17915	H. Norris	48	50000
17869	17917	Wu Lei	48	40000
17871	17919	T. Pugh	48	60000
17877	17925	E. Clarke	48	40000
17878	17926	T. Hillman	48	40000
17879	17927	R. Roache	48	70000
17885	17933	D. Horton	48	40000
17890	17938	A. Kaltner	47	60000
17895	17943	J. Milli	47	50000
17896	17944	S. Griffin	47	60000
17899	17947	J. Livesey	47	60000

3.5.2 Datos de validación

3.5.2.1 head()

kable(head(datos.validacion[, c('X', 'Name', 'Overall', 'Valor')], 20), caption = "Datos de Entrenamiento. Primeros 20 registros")

Datos de Entrenamiento. Primeros 20 registros
	X	Name	Overall	Valor
2	2	Cristiano Ronaldo	94	77000000
4	4	De Gea	91	72000000
6	6	E. Hazard	91	93000000
10	10	J. Oblak	90	68000000
16	16	P. Dybala	89	89000000
20	20	T. Courtois	89	53500000
22	22	E. Cavani	89	60000000
23	23	M. Neuer	89	38000000
25	25	G. Chiellini	89	27000000
32	32	C. Eriksen	88	73500000
35	35	M. Hummels	88	46000000
38	38	H. Lloris	88	36000000
39	39	G. Higuaín	88	57000000
40	40	Thiago Silva	88	24000000
41	41	S. Handanovic	88	30000000
43	43	S. Umtiti	87	57000000
53	53	M. Hamšík	87	46500000
55	55	Piqué	87	34000000
68	68	Thiago	86	45500000
70	70	Azpilicueta	86	35000000

3.5.2.2 tail()

kable(tail(datos.entrenamiento[, c('X', 'Name', 'Overall', 'Valor')], 20), caption = "Datos de Entrenamiento. Primeros 20 registros")

Datos de Entrenamiento. Primeros 20 registros
	X	Name	Overall	Valor
17883	17931	C. Maher	48	50000
17884	17932	Y. Góez	48	50000
17886	17934	E. Tweed	48	50000
17887	17935	Zhang Yufeng	47	60000
17888	17936	C. Ehlich	47	40000
17889	17937	L. Collins	47	60000
17891	17939	L. Watkins	47	60000
17892	17940	J. Norville-Williams	47	50000
17893	17941	S. Squire	47	50000
17894	17942	N. Fuentes	47	50000
17897	17945	K. Fujikawa	47	60000
17898	17946	D. Holland	47	60000
17900	17948	M. Baldisimo	47	70000
17901	17949	J. Young	47	60000
17902	17950	D. Walsh	47	60000
17903	17951	J. Lundstram	47	60000
17904	17952	N. Christoffersson	47	60000
17905	17953	B. Worman	47	60000
17906	17954	D. Walker-Rice	47	60000
17907	17955	G. Nugent	46	60000

3.6 Modelos de regresión

3.6.1 Regresión Lineal Simple

modelo.ls <- lm(formula = Valor ~ Overall, data = datos.entrenamiento)
modelo.ls

## 
## Call:
## lm(formula = Valor ~ Overall, data = datos.entrenamiento)
## 
## Coefficients:
## (Intercept)      Overall  
##   -32061082       521411

3.6.1.1 Coeficientes del modelo

Se determinan los valores de a y b de la fórmula \(Y=a+bx\)

a <- modelo.ls$coefficients[1]
b <- modelo.ls$coefficients[2]

paste("Valor de la abcisa a es   : ", round(a, 6))

## [1] "Valor de la abcisa a es   :  -32061081.536953"

paste("Valor de la pendiente b es: ", round(b, 6))

## [1] "Valor de la pendiente b es:  521410.693103"

3.6.1.2 Linea de tendencia del modelo

Con la el valor de los valores de tendencia o valores ajustados del modelo se visualiza la recta de tendencia del modelo.

La gráfica g se construye por partes, primero la dispersión, segundo la linea de tendencia, tercero se agrega el título, para luego solo mostrar la gráfica g.

g <- plot_ly(data = datos.entrenamiento, 
             x = ~Overall, 
             y = ~Valor, 
             name = 'Dispersión',
             type = 'scatter', 
             mode = 'markers', 
             color = I('blue')) 
g <- g %>% add_trace(x = ~Overall,
                     y = ~modelo.ls$fitted.values, name = 'Tendencia', mode = 'lines+markers', color = I('red'))
g <- g %>%
layout(title = 'Jugadores FIFA. Dispersión y Tendencia de Overall y Valor económico.')
g

3.6.1.3 Predicciones

Con los datos de validación, se hacen predicciones con la función predict().

Se hace un data.frame de comparaciones con lo cual se presentan los valores reales y los valores de las predicciones. Se presenta solo las primeras 20 y últimas 20 predicciones.

predicciones <- predict(object = modelo.ls, newdata = datos.validacion)

comparaciones <- data.frame(Overall = datos.validacion$Overall, Valor = datos.validacion$Valor, predicccion = predicciones)

 kable(x = head(comparaciones, 20), caption = "Predicciones")

Predicciones
	Overall	Valor	predicccion
2	94	77000000	16951524
4	91	72000000	15387292
6	91	93000000	15387292
10	90	68000000	14865881
16	89	89000000	14344470
20	89	53500000	14344470
22	89	60000000	14344470
23	89	38000000	14344470
25	89	27000000	14344470
32	88	73500000	13823059
35	88	46000000	13823059
38	88	36000000	13823059
39	88	57000000	13823059
40	88	24000000	13823059
41	88	30000000	13823059
43	87	57000000	13301649
53	87	46500000	13301649
55	87	34000000	13301649
68	86	45500000	12780238
70	86	35000000	12780238

kable(x = tail(comparaciones, 20), caption = "Predicciones")

Predicciones
	Overall	Valor	predicccion
17836	49	60000	-6511958
17845	49	50000	-6511958
17852	49	50000	-6511958
17853	49	60000	-6511958
17856	48	60000	-7033368
17857	48	60000	-7033368
17859	48	60000	-7033368
17862	48	50000	-7033368
17863	48	40000	-7033368
17867	48	50000	-7033368
17869	48	40000	-7033368
17871	48	60000	-7033368
17877	48	40000	-7033368
17878	48	40000	-7033368
17879	48	70000	-7033368
17885	48	40000	-7033368
17890	47	60000	-7554779
17895	47	50000	-7554779
17896	47	60000	-7554779
17899	47	60000	-7554779

¡Salen predicciones negativas!, ¿que significa? , no debiera haber predicciones negativas, sin embargo, esto sucede porque el modelo así lo calcula por lo estricto de la linea de tendencia.

3.6.2 Determinando métricas

res.modelo.ls <- summary(modelo.ls)
res.modelo.ls

## 
## Call:
## lm(formula = Valor ~ Overall, data = datos.entrenamiento)
## 
## Residuals:
##       Min        1Q    Median        3Q       Max 
##  -9823059  -2148435   -905614   1016440 102591298 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -32061082     383336  -83.64   <2e-16 ***
## Overall        521411       5755   90.60   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4478000 on 12535 degrees of freedom
## Multiple R-squared:  0.3957, Adjusted R-squared:  0.3957 
## F-statistic:  8209 on 1 and 12535 DF,  p-value: < 2.2e-16

El coeficiente de interseción ‘a’ y la pendiente ‘b’ si son estadísticamente significativas por encima del 99.9%

El valor de R Square no sobrepasa el 50% por lo que NO SE ACEPTA el modelo

3.6.3 Determinando rmse()

El valor de rmse se interpreta en que tanto se desvía una predicción media sobre los valore reales.

rmse.ls <- rmse(actual =comparaciones$Valor, predicted = comparaciones$predicccion)
rmse.ls

## [1] 4098737

El valor de rmse en el modelo de regresión lineal simple no está por debajo de los 2,000,000 (dos millones) que se establecieron como métrica aceptable, por lo que este modelo NO SE ACEPTA.

3.6.3.1 Regresión polinómica segundo nivel

Se usa el argumento poly “poly(Overall, 2)” en la construcción del modelo para indicar que es polinomial de segunda potencia.

\[ y=β0+β1xi+β2xi2+β3xi3…+βdxin+ϵi \]

\[ y=a+bx+cx2+dx3…zxn \]

modelo.poly2 <- lm(formula = Valor ~ poly(Overall, 2), data = datos.entrenamiento, )
modelo.poly2

## 
## Call:
## lm(formula = Valor ~ poly(Overall, 2), data = datos.entrenamiento)
## 
## Coefficients:
##       (Intercept)  poly(Overall, 2)1  poly(Overall, 2)2  
##           2480786          405704915          389137530

3.6.3.2 Coeficientes del modelo

Se determinan los valores de a y b de la fórmula \(Y=a+bx\)

a <- modelo.poly2$coefficients[1]
b <- modelo.poly2$coefficients[2]

paste("Valor de la abcisa a es   : ", round(a, 6))

## [1] "Valor de la abcisa a es   :  2480786.073223"

paste("Valor de la pendiente b es: ", round(b, 6))

## [1] "Valor de la pendiente b es:  405704914.507488"

3.6.3.3 Curva de tendencia del modelo

Con la el valor de los valores de tendencia o valores ajustados del modelo se visualiza la curva de tendencia del modelo.

La gráfica g se construye por partes, primero la dispersión, segundo la curva de tendencia, tercero se agrega el título, para luego solo mostrar la gráfica g.

g <- plot_ly(data = datos.entrenamiento, 
             x = ~Overall, 
             y = ~Valor, 
             name = 'Dispersión',
             type = 'scatter', 
             mode = 'markers', 
             color = I('blue')) 
g <- g %>% add_trace(x = ~Overall,
                     y = ~modelo.poly2$fitted.values, name = 'Tendencia', mode = 'lines+markers', color = I('red'))
g <- g %>%
layout(title = 'Jugadores FIFA. Dispersión y Tendencia de Overall y Valor económico.')
g

3.6.3.4 Predicciones

Con los datos de validación, se hacen predicciones con la función predict().

Se hace un data.frame de comparaciones con lo cual se presentan los valores reales y los valores de las predicciones. Se presenta solo las primeras 20 y últimas 20 predicciones.

predicciones <- predict(object = modelo.poly2, newdata = datos.validacion)

comparaciones <- data.frame(Overall = datos.validacion$Overall, Valor = datos.validacion$Valor, predicccion = predicciones)

kable(x = head(comparaciones, 20), caption = "Predicciones")

Predicciones
	Overall	Valor	predicccion
2	94	77000000	52279985
4	91	72000000	42929655
6	91	93000000	42929655
10	90	68000000	40012540
16	89	89000000	37195254
20	89	53500000	37195254
22	89	60000000	37195254
23	89	38000000	37195254
25	89	27000000	37195254
32	88	73500000	34477800
35	88	46000000	34477800
38	88	36000000	34477800
39	88	57000000	34477800
40	88	24000000	34477800
41	88	30000000	34477800
43	87	57000000	31860175
53	87	46500000	31860175
55	87	34000000	31860175
68	86	45500000	29342381
70	86	35000000	29342381

kable(x = tail(comparaciones, 20), caption = "Predicciones")

Predicciones
	Overall	Valor	predicccion
17836	49	60000	6364825
17845	49	50000	6364825
17852	49	50000	6364825
17853	49	60000	6364825
17856	48	60000	7640588
17857	48	60000	7640588
17859	48	60000	7640588
17862	48	50000	7640588
17863	48	40000	7640588
17867	48	50000	7640588
17869	48	40000	7640588
17871	48	60000	7640588
17877	48	40000	7640588
17878	48	40000	7640588
17879	48	70000	7640588
17885	48	40000	7640588
17890	47	60000	9016183
17895	47	50000	9016183
17896	47	60000	9016183
17899	47	60000	9016183

3.6.3.5 Determinando métricas

res.modelo.poly2 <- summary(modelo.poly2)
res.modelo.poly2

## 
## Call:
## lm(formula = Valor ~ poly(Overall, 2), data = datos.entrenamiento)
## 
## Residuals:
##       Min        1Q    Median        3Q       Max 
## -30477800   -934622    377389   1241976  72553398 
## 
## Coefficients:
##                    Estimate Std. Error t value Pr(>|t|)    
## (Intercept)         2480786      25215   98.38   <2e-16 ***
## poly(Overall, 2)1 405704915    2823331  143.70   <2e-16 ***
## poly(Overall, 2)2 389137530    2823331  137.83   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2823000 on 12534 degrees of freedom
## Multiple R-squared:  0.7598, Adjusted R-squared:  0.7598 
## F-statistic: 1.982e+04 on 2 and 12534 DF,  p-value: < 2.2e-16

El coeficiente de interseción ‘a’ y la pendiente ‘b’ si son estadísticamente significativas por encima del 99.9%

El valor de R Square SI sobrepasa el 50% por lo que SI SE ACEPTA el modelo

3.6.4 Determinando rmse()

El valor de rmse se interpreta en que tanto se desvía una predicción media sobre los valore reales.

rmse.poly2 <- rmse(actual =comparaciones$Valor, predicted = comparaciones$predicccion)
rmse.poly2

## [1] 2518765

El valor de rmse en el modelo de regresión lineal simple no está por debajo de los 2,000,000 (dos millones) que se establecieron como métrica aceptable, por lo que este modelo NO SE ACEPTA por esta métrica.

3.6.5 Regresión polinómica quinto nivel

Se usa el argumento poly “poly(Overall, 5)” en la construcción del modelo para indicar que es polinomial de segunda potencia.

\[ y=β0+β1xi+β2xi2+β3xi3…+βdxin+ϵi \]

\[ y=a+bx+cx2+dx3…zxn \]

modelo.poly5 <- lm(formula = Valor ~ poly(Overall, 5), data = datos.entrenamiento, )
modelo.poly5

## 
## Call:
## lm(formula = Valor ~ poly(Overall, 5), data = datos.entrenamiento)
## 
## Coefficients:
##       (Intercept)  poly(Overall, 5)1  poly(Overall, 5)2  poly(Overall, 5)3  
##           2480786          405704915          389137530          232446972  
## poly(Overall, 5)4  poly(Overall, 5)5  
##          77906413           17149667

3.6.6 Coeficientes del modelo

Se determinan los valores de a y b de la fórmula \(Y=a+bx\)

a <- modelo.poly5$coefficients[1]
b <- modelo.poly5$coefficients[2]

paste("Valor de la abcisa a es   : ", round(a, 6))

## [1] "Valor de la abcisa a es   :  2480786.073224"

paste("Valor de la pendiente b es: ", round(b, 6))

## [1] "Valor de la pendiente b es:  405704914.507494"

3.6.7 Curva de tendencia del modelo

Con la el valor de los valores de tendencia o valores ajustados del modelo se visualiza la curva de tendencia del modelo.

La gráfica g se construye por partes, primero la dispersión, segundo la curva de tendencia, tercero se agrega el título, para luego solo mostrar la gráfica g.

g <- plot_ly(data = datos.entrenamiento, 
             x = ~Overall, 
             y = ~Valor, 
             name = 'Dispersión',
             type = 'scatter', 
             mode = 'markers', 
             color = I('blue')) 
g <- g %>% add_trace(x = ~Overall,
                     y = ~modelo.poly5$fitted.values, name = 'Tendencia', mode = 'lines+markers', color = I('red'))
g <- g %>%
layout(title = 'Jugadores FIFA. Dispersión y Tendencia de Overall y Valor económico.')
g

3.6.8 Predicciones

Con los datos de validación, se hacen predicciones con la función predict().

Se hace un data.frame de comparaciones con lo cual se presentan los valores reales y los valores de las predicciones. Se presenta solo las primeras 20 y últimas 20 predicciones.

predicciones <- predict(object = modelo.poly5, newdata = datos.validacion)

comparaciones <- data.frame(Overall = datos.validacion$Overall, Valor = datos.validacion$Valor, predicccion = predicciones)

kable(x = head(comparaciones, 20), caption = "Predicciones")

Predicciones
	Overall	Valor	predicccion
2	94	77000000	120096302
4	91	72000000	82000205
6	91	93000000	82000205
10	90	68000000	71766521
16	89	89000000	62603972
20	89	53500000	62603972
22	89	60000000	62603972
23	89	38000000	62603972
25	89	27000000	62603972
32	88	73500000	54423880
35	88	46000000	54423880
38	88	36000000	54423880
39	88	57000000	54423880
40	88	24000000	54423880
41	88	30000000	54423880
43	87	57000000	47142776
53	87	46500000	47142776
55	87	34000000	47142776
68	86	45500000	40682229
70	86	35000000	40682229

kable(x = tail(comparaciones, 20), caption = "Predicciones")

Predicciones
	Overall	Valor	predicccion
17836	49	60000	-56104.01
17845	49	50000	-56104.01
17852	49	50000	-56104.01
17853	49	60000	-56104.01
17856	48	60000	-197037.19
17857	48	60000	-197037.19
17859	48	60000	-197037.19
17862	48	50000	-197037.19
17863	48	40000	-197037.19
17867	48	50000	-197037.19
17869	48	40000	-197037.19
17871	48	60000	-197037.19
17877	48	40000	-197037.19
17878	48	40000	-197037.19
17879	48	70000	-197037.19
17885	48	40000	-197037.19
17890	47	60000	-386241.94
17895	47	50000	-386241.94
17896	47	60000	-386241.94
17899	47	60000	-386241.94

3.6.9 Determinando métricas

res.modelo.poly5 <- summary(modelo.poly5)
res.modelo.poly5

## 
## Call:
## lm(formula = Valor ~ poly(Overall, 5), data = datos.entrenamiento)
## 
## Residuals:
##       Min        1Q    Median        3Q       Max 
## -50423880   -175490      -490    183699  26576120 
## 
## Coefficients:
##                    Estimate Std. Error t value Pr(>|t|)    
## (Intercept)         2480786      15860 156.420   <2e-16 ***
## poly(Overall, 5)1 405704915    1775796 228.464   <2e-16 ***
## poly(Overall, 5)2 389137530    1775796 219.134   <2e-16 ***
## poly(Overall, 5)3 232446972    1775796 130.897   <2e-16 ***
## poly(Overall, 5)4  77906413    1775796  43.871   <2e-16 ***
## poly(Overall, 5)5  17149667    1775796   9.657   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1776000 on 12531 degrees of freedom
## Multiple R-squared:  0.905,  Adjusted R-squared:  0.905 
## F-statistic: 2.387e+04 on 5 and 12531 DF,  p-value: < 2.2e-16

El coeficiente de interseción ‘a’ y la pendiente ‘b’ si son estadísticamente significativas por encima del 95%

El valor de R Square SI sobrepasa el 50% por lo que SI SE ACEPTA el modelo

3.6.10 Determinando rmse()

rmse.poly5 <- rmse(actual =comparaciones$Valor, predicted = comparaciones$predicccion)
rmse.poly5

## [1] 1793262

El valor de rmse en el modelo de regresión lineal simple SI está por debajo de los 2,000,000 (dos millones) que se establecieron como métrica aceptable, por lo que este modelo SI SE ACEPTA.

4 Interpretación

El análisis de regresión engloba a un conjunto de métodos estadísticos que usamos cuando tanto la variable de respuesta como la la(s) variable(s) predictiva(s) son contínuas y queremos predecir valores de la primera en función de valores observados de las segundas. En esencia, el análisis de regresión consiste en ajustar un modelo a los datos, estimando coeficientes a partir de las observaciones, con el fin de predecir valores de la variable de respuesa a partir de una (regresión simple) o más variables (regresión múltiple) predictivas o explicativas.

Entonces en este punto lo que se realizo fue

identificar a las variables predictivas relacionadas con una variable de respuesta
describir la forma de la relación entre estas variables y para derivar una función matemática óptima que modele esta relación
predecir la variable de respuesta a partir de la(s) explicativas o predictoras

Podemos observar en el primer coeficiente del modelo lo siguiente:

El “Valor de la abcisa a es : -32061081.536953”

El “Valor de la pendiente b es: 521410.693103”

En el segundo caso de el coeficiente del modelo tenemos como valor lo siguiente:

El “Valor de la abcisa a es : 2480786.073223”

El “Valor de la pendiente b es: 405704914.507488”

Determinando el rmse del valor nos da como resultado “1793262”

En regresion polinomica de quinto nivel nos arrojo como resultado los siguientes datos:

El “Valor de la abcisa a es : 2480786.073224”

El “Valor de la pendiente b es: 405704914.507494”

5 Bibliografía

https://la.mathworks.com/discovery/linear-regression.html

https://www.cienciadedatos.net/documentos/32_metodos_de_regresion_no_lineal_polinomica_splines_gams

Caso 2. Comparación y evaluación de métricas de regresión lineal simple vs regresión polinomial

Jesus Miguel Acosta Gurrola

10/03/2022

1 Objetivo

2 Descripción

3 Desarrollo

3.1 Métricas a valorar en los modelos

3.2 Cargar librerías

3.3 Cargar datos

3.4 Explorar datos

3.4.1 Variables independiente y dependiente

3.4.2 head(datos)

3.5 Dispersión de los datos

3.5.1 Datos de entrenamiento

3.5.1.1 head()

3.5.1.2 tail()

3.5.2 Datos de validación

3.5.2.1 head()

3.5.2.2 tail()

3.6 Modelos de regresión

3.6.1 Regresión Lineal Simple

3.6.1.1 Coeficientes del modelo

3.6.1.2 Linea de tendencia del modelo

3.6.1.3 Predicciones

3.6.2 Determinando métricas

3.6.3 Determinando rmse()

3.6.3.1 Regresión polinómica segundo nivel

3.6.3.2 Coeficientes del modelo

3.6.3.3 Curva de tendencia del modelo

3.6.3.4 Predicciones

3.6.3.5 Determinando métricas

3.6.4 Determinando rmse()

3.6.5 Regresión polinómica quinto nivel

3.6.6 Coeficientes del modelo

3.6.7 Curva de tendencia del modelo

3.6.8 Predicciones

3.6.9 Determinando métricas

3.6.10 Determinando rmse()

4 Interpretación

5 Bibliografía