Aquest conjunt de dades prove de la pàgina web Kaggle. L’objectiu del projecte es analitzar i entendre la relació entre la mida inicial d’un joc i la seva capacitat de créixer de manera sostinguda.
Es a dir, l’objectiu es respondre la pregunta que ens vam plantejar.
La pregunta que ens vam plantejar va ser la següent: Els jocs que presenten un creixement percentual (gain_percent) positiu i sostingut són generalment jocs que ja tenien una base de jugadors mitjana (avg_players) petita o gran a l’inici del període de creixement?
Mostreu com heu importat el fitxer i quin nom té l’objecte carregat.
# datos <- load("steamcharts.RData")
Expliqueu:
El format original era un csv extret de la app de Kaggle el cual hem tingut que pasar a R.data. No hem tingut que fer cap tipus de modificació previa pero segurament haurem de afegir alguna columna per poder resoldre la nostre pregunta.
# dim(datos)
# glimpse(datos)
| variable | tipus | Descripció | Valors possibles / Rang |
|---|---|---|---|
| month | character | Mes de mesura i any | Format Mes-Any |
| avg_players | numeric | Base mitjana de jugadors | 0 fins a milions |
| gain | character | Creixement de jugadors | -∞ fins ∞ |
| gain_percent | numeric | Creixement percentual | -∞ fins ∞ |
| peak_players | integer | Nombre màxim de jugadors | 1 fins a milions |
| name | character | Nom del títol del joc | 0–100 caràcters |
| steam_appid | integer | ID únic del joc | 0 fins 1.000.000 |
# tibble(
# variable = names(datos),
# tipus = sapply(datos, class)
# )
# summary(datos)
month : Length: 612265 | Class: character | Mode: character
avg_players
Min. : 0.00 1st Qu.: 2.53 Median : 10.61 Mean : 593.30 3rd Qu.: 60.46
Max. : 1,585,000.00
gain : Length: 612265 | Class: character | Mode: character
gain_percent Min. : -1.00 1st Qu.: -0.17 Median : -0.02 Mean : 14.71 3rd Qu.: 0.15 Max. : 1,622,960.34
peak_players Min. : 0 1st Qu.: 10 Median : 32 Mean : 1193 3rd Qu.: 162 Max. : 3,236,027
name : Length: 612265 | Class: character | Mode: character
steam_appid Min. : 10 1st Qu.: 221,260 Median : 336,610 Mean : 346,922 3rd Qu.: 502,800 Max. : 802,870
Els valors mes extranys se observen en els avg_players. Hi ha una asimetria enorme entre la mediana i la mitjana. Això es deu a la gran quantitat de jocs petits amb pocs jugadors i poc jocs enormes que tenen milions de jugadors.
També observem aixo en el creixement percentual. Deuen ser jocs amb 0 jugadors que al guanyar un minim de jugadors generen un outliner enorme.
Incloeu una o dues gràfiques exploratòries.
# Exemple:
# ggplot(dades, aes(x = variable)) + geom_histogram()
ggplot(datos, aes(avg_players)) + geom_histogram(bins = 50, fill = “steelblue”, alpha = 0.7) + scale_x_continuous(trans = “log10”) + labs( title = “Distribució de la base de jugadors (avg_players)”, x = “avg_players (log scale)”, y = “Freqüència” )
ggplot(datos, aes(gain_percent)) + geom_histogram(bins = 50, fill = “darkgreen”, alpha = 0.7) + xlim(-1, 1) + # per treure outliers extrems labs( title = “Distribució de gain_percent (limitat a [-1, 1])”, x = “gain_percent”, y = “Freqüència” )
Segurament necessitarem varies variables noves per respondre la pregunta i completar el analisi com ara una variable per dividir els jocs per tamanys diferents, alguna variable tambe per classificar el jocs per creixement entre altres. Aquestes variables les podrem fer nosaltres a partir dels propis coneixements que tenim sobre el conjunt de dades i imposan uns criteris propis per fer aquesta delimitació de per exemple que es considera un joc petit o que es considera un joc com a gran.
Probablament haurem de buscar alguna manera de netejar les dades ja que hi ha alguns valors que no son realistes ja que guanys en jocs molt petits posen percentatges enormes poc realistes.