1. Introducció

Aquest conjunt de dades prove de la pàgina web Kaggle. L’objectiu del projecte es analitzar i entendre la relació entre la mida inicial d’un joc i la seva capacitat de créixer de manera sostinguda.

Es a dir, l’objectiu es respondre la pregunta que ens vam plantejar.

La pregunta que ens vam plantejar va ser la següent: Els jocs que presenten un creixement percentual (gain_percent) positiu i sostingut són generalment jocs que ja tenien una base de jugadors mitjana (avg_players) petita o gran a l’inici del període de creixement?

2. Importació de les dades

Mostreu com heu importat el fitxer i quin nom té l’objecte carregat.

# datos <- load("steamcharts.RData")

Expliqueu:

El format original era un csv extret de la app de Kaggle el cual hem tingut que pasar a R.data. No hem tingut que fer cap tipus de modificació previa pero segurament haurem de afegir alguna columna per poder resoldre la nostre pregunta.

3. Dimensions del dataset

# dim(datos)
# glimpse(datos)

4. Diccionari de variables

variable tipus Descripció Valors possibles / Rang
month character Mes de mesura i any Format Mes-Any
avg_players numeric Base mitjana de jugadors 0 fins a milions
gain character Creixement de jugadors -∞ fins ∞
gain_percent numeric Creixement percentual -∞ fins ∞
peak_players integer Nombre màxim de jugadors 1 fins a milions
name character Nom del títol del joc 0–100 caràcters
steam_appid integer ID únic del joc 0 fins 1.000.000
# tibble(
#   variable = names(datos),
#   tipus = sapply(datos, class)
# )

5. Estadístiques descriptives

# summary(datos)

month : Length: 612265 | Class: character | Mode: character

avg_players
Min. : 0.00 1st Qu.: 2.53 Median : 10.61 Mean : 593.30 3rd Qu.: 60.46 Max. : 1,585,000.00

gain : Length: 612265 | Class: character | Mode: character

gain_percent Min. : -1.00 1st Qu.: -0.17 Median : -0.02 Mean : 14.71 3rd Qu.: 0.15 Max. : 1,622,960.34

peak_players Min. : 0 1st Qu.: 10 Median : 32 Mean : 1193 3rd Qu.: 162 Max. : 3,236,027

name : Length: 612265 | Class: character | Mode: character

steam_appid Min. : 10 1st Qu.: 221,260 Median : 336,610 Mean : 346,922 3rd Qu.: 502,800 Max. : 802,870

Els valors mes extranys se observen en els avg_players. Hi ha una asimetria enorme entre la mediana i la mitjana. Això es deu a la gran quantitat de jocs petits amb pocs jugadors i poc jocs enormes que tenen milions de jugadors.

També observem aixo en el creixement percentual. Deuen ser jocs amb 0 jugadors que al guanyar un minim de jugadors generen un outliner enorme.

6. Visualització inicial

Incloeu una o dues gràfiques exploratòries.

# Exemple:
# ggplot(dades, aes(x = variable)) + geom_histogram()

ggplot(datos, aes(avg_players)) + geom_histogram(bins = 50, fill = “steelblue”, alpha = 0.7) + scale_x_continuous(trans = “log10”) + labs( title = “Distribució de la base de jugadors (avg_players)”, x = “avg_players (log scale)”, y = “Freqüència” )

ggplot(datos, aes(gain_percent)) + geom_histogram(bins = 50, fill = “darkgreen”, alpha = 0.7) + xlim(-1, 1) + # per treure outliers extrems labs( title = “Distribució de gain_percent (limitat a [-1, 1])”, x = “gain_percent”, y = “Freqüència” )

7. Variables externes i dades addicionals

Segurament necessitarem varies variables noves per respondre la pregunta i completar el analisi com ara una variable per dividir els jocs per tamanys diferents, alguna variable tambe per classificar el jocs per creixement entre altres. Aquestes variables les podrem fer nosaltres a partir dels propis coneixements que tenim sobre el conjunt de dades i imposan uns criteris propis per fer aquesta delimitació de per exemple que es considera un joc petit o que es considera un joc com a gran.

8. Altres comentaris

Probablament haurem de buscar alguna manera de netejar les dades ja que hi ha alguns valors que no son realistes ja que guanys en jocs molt petits posen percentatges enormes poc realistes.