u1a4

Jesus Urrego

10/02/2021

Análisis de correlación por medio de una regresion lineal y su análisis de confiabilidad

Se utilizarán datos de Google Trends para analizar si existe una relación entre las búsquedas de Egoland (serie virtual de un videojuego creada por streamers) y el interes por el videojuego Rust.

Arriba el logo de “Egoland” y abajo el logo de “Rust”.

Introducción

Egoland fue un proyecto que consistió en reunir a varios creadores de contenido famosos en un servidor del videojuego Rust.

Como ya se ha evidenciado en casos anteriores, cuando un creador de contenido juega a un determinado videojuego, las ventas y popularidad del juego se disparan, ya que es muy evidente el hecho de que un creador de contenido famoso juegue y haga transmisiones de su experiencia siempre será una gran ventana comercial hacia el videojuego, dándole sus “15 minutos de fama”.

Si bien, lo anteriormente mencionado ya es un hecho, en este proyecto se pretende evidenciar de manera más gráfica y con bases científicas como funciona este fenómeno y como afecta a las búsquedas relacionadas con el videojuego.

Proyecto

En la siguiente grafica (cortesía de Google Trends), podemos observar un histórico de búsquedas en un periodo comprendido de 90 días realizadas en España (país de origen del proyecto Egoland).

Grafica extraida de Google Trends.

En la gráfica ya podemos observar como solo Rust ha tenido un histórico “estable” de búsquedas que oscilan entre las 3 y las 8 búsquedas diarias.

Egoland se anuncia el 01 de enero de 2021 y se evidencia el alza en las búsquedas relacionadas con Rust.

Ahora veamos que nos dicen los números y el índice de correlación de Pearson.

library(readr) #para leer datos
library(DT) # tablas interactivas
library(prettydoc) #documentos con mejor formato
setwd("~/Estadistica aplicada/Asignacion 02") # folder de trabajo
datos <- read_csv("datos.csv") #importar datos
## 
## -- Column specification --------------------------------------------------------
## cols(
##   Egoland = col_double(),
##   Rust = col_double()
## )

¿Existe alguna relación?

  • Matriz de coeficientes de correlación

##Visualizar

Tabla

Tabla interactiva con los datos

datatable(datos)

Grafica

  • Exploraremos la relacion que existe entre las variables por medio de matriz de diagramas de dispercion
pairs(datos)

Sí bien los datos se notan algo dispersos a primera vista, analizando la gráfica podemos ver que hay una tendencia (aunque pequeña) positiva.

Calculo y representacion de la recta de minimos cuadrados

regresion = lm ( Egoland ~ Rust, data=datos )
summary(regresion)
## 
## Call:
## lm(formula = Egoland ~ Rust, data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -7.3263 -2.3390 -1.0142 -0.2371 28.7629 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  0.02687    1.15258   0.023    0.981    
## Rust         0.21019    0.02934   7.164    3e-09 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 6.098 on 51 degrees of freedom
## Multiple R-squared:  0.5016, Adjusted R-squared:  0.4918 
## F-statistic: 51.32 on 1 and 51 DF,  p-value: 3.002e-09

Ecuación de la recta de mínimos cuadrados:

\[ y = 0.02687 + 0.21019x \]

Con esta ecuación podemos modelar y predecir valores.

Predicción de valores utilizando la ecuación de la recta de mínimos cuadrados

plot(datos$Egoland, datos$Rust, xlab="Búsquedas de Egoland", ylab ="Búsquedas de Rust")
abline(regresion)

El coeficiente de determinación (es decir, el coeficiente de correlación al cuadrad) mide la bondad del ajuste de la recta a los datos. A partir de la salida anterior, vemos que su valor en este caso es Multiple R-Square:

Estimación de predicciones

nuevos.Egoland <- data.frame(Egoland = seq(0,52), Rust = seq(0,52))
# genera un vector de secuencia de valoes de 1 en 1, hasta el 50 desde el 0
predict(regresion, nuevos.Egoland)
##          1          2          3          4          5          6          7 
##  0.0268712  0.2370641  0.4472570  0.6574499  0.8676427  1.0778356  1.2880285 
##          8          9         10         11         12         13         14 
##  1.4982214  1.7084143  1.9186072  2.1288001  2.3389929  2.5491858  2.7593787 
##         15         16         17         18         19         20         21 
##  2.9695716  3.1797645  3.3899574  3.6001503  3.8103431  4.0205360  4.2307289 
##         22         23         24         25         26         27         28 
##  4.4409218  4.6511147  4.8613076  5.0715005  5.2816933  5.4918862  5.7020791 
##         29         30         31         32         33         34         35 
##  5.9122720  6.1224649  6.3326578  6.5428507  6.7530435  6.9632364  7.1734293 
##         36         37         38         39         40         41         42 
##  7.3836222  7.5938151  7.8040080  8.0142009  8.2243937  8.4345866  8.6447795 
##         43         44         45         46         47         48         49 
##  8.8549724  9.0651653  9.2753582  9.4855511  9.6957439  9.9059368 10.1161297 
##         50         51         52         53 
## 10.3263226 10.5365155 10.7467084 10.9569013

Intervalo de confianza en el modelo de regresión simple

confint(regresion)
##                  2.5 %    97.5 %
## (Intercept) -2.2870297 2.3407721
## Rust         0.1512869 0.2690988

El hecho de que exista una correlación pearson alta, no significa que exista una causalidad

Intervalo de confianza para el 90% de los datos

confint(regresion, level=0.90) #90%
##                    5 %      95 %
## (Intercept) -1.9040287 1.9577711
## Rust         0.1610372 0.2593486

Conclusión

Con un índice de correlación Pearson de 0.70 determinamos que existe una correlación, mas no necesariamente una causalidad.

Es evidente que el índice de correlación de Pearson se cumple de manera positiva, por lo que ahora podemos afirmar de manera científica que la promoción comercial de un creador de contenido famoso es valiosa para un producto, sobre todo si estamos hablando de videojuegos.

También, aunque la matriz de diagramas de dispersión nos dio unos resultados positivos, la razón por la que vemos los datos tan dispersos es porque es evidente que el “hype” de este evento ya paso, por lo que las búsquedas en ambos conceptos han ido reduciendo con el tiempo (eventualmente volverán a sus mismos números antes de que Egoland fuera anunciado). Con esto evidenciamos que de alguna manera es muy volátil este mundo del marketing, teniendo en cuenta que este proyecto duro tan solo un mes.

Para agregar, en la predicción de valores utilizando la ecuación de la recta de mínimos cuadrados vemos una pendiente muy pequeña, pero claramente positiva. Este resultado se debe a que, como ya se ha dicho, hablamos de un hype. Son eventos o sucesos muy espontaneos que llaman la atención como si fueran “una burbuja”.