library(data.table)
library(ggplot2)
library(caret)
library(jtools)
library(scales)
library(dplyr)
library(lattice)
library(MASS)
library(faraway)
library(cvTools)
library(lmtest)
library(faraway)
library(latex2exp)
library(cvTools)
Inicialmente contamos con un total de 3 bases de datos como candidatas para nuestro proyecto. Cada base de datos se compone de distintas cantidades y variables asociadas. Nuestras propuestas en orden de preferencia son las que siguen. Cada una de estas bases contempla valores “NA”, por lo cual las dimensiones proporcionadas se podrán modificar posterior a la limpieza y trabajo de cada una de la BD.
Esta base de datos (en adelante BD) contiene un total de 391 observaciones, las cuales corresponden a distintas jugadoras de fútbol. La BD se compone de 23 columnas, las cuales entregan la información pertinente de cada jugadora. Para este proyecto nos gustaría enfocarnos en la variable “overall” ya que nos permitirá estimar el rendimiento de la persona dentro de su equipo, considerando la rama del fútbol con mayor potencial de crecimiento de los últimos años.
df<- data.table(read.csv('Fifa_mujeres.csv', header = T, sep = "," , encoding = 'Latin-1'))
head(df[,], 10)
Esta BD contiene un total de 19.239 observaciones, las cuales corresponden a jugadores profesionales de fútbol. La BD se compone de 27 columnas, las cuales entregan la información pertinente de cada jugador. Debido al tamaño de esta base, tenemos la posibilidad de proponer dos variables respuesta. En primer lugar podemos considerar el “overall” del jugador y en segundo lugar “value_eur” que corresponderá al valor en euros del jugador.
df<- data.table(read.csv('Fifa_hombres.csv', header = T, sep = "," , encoding = 'Latin-1'))
head(df[,], 10)
Esta BD Contiene el detalle de los clientes de un banco, considerando una variable dicotómica por si es que la persona cierra o no su cuenta con el banco. Para esta base y dada la característica del proyecto, nosotros proponemos un modelo enfocado en predecir el “CreditScore” de la persona. Esto permitirá conocer y relacionar la causalidad de la salida del banco con el valor que se asocia a su crédito. Las características de la base son 10.000 observaciones y un total de 14 variables asociadas a cada individuo.
df<- data.table(read.csv('Churn_Modelling.csv', header = T, sep = "," , encoding = 'Latin-1'))
head(df[,], 10)