U1A9

Análisis de búsqueda

En el presente documento analizaremos las búsquedas de los anteriores 30 días sobre los cantantes más relevantes del país de México.

Importar datos

Los datos obtenidos son de Google trends: https://trends.google.com.mx/ de la cual podemos obtener datos de búsquedas en el búscador de Google.

library(readr)
comparacion <- read_csv("~/ProbabilidadyEstadistica/luismi_josejose.csv",col_types = cols (Dia = col_number(), 'Luis Miguel (Mexico)'=col_number(), 'Jose Jose (Mexico)'= col_number()))

## Warning: The following named parsers don't match the column names: Luis Miguel
## (Mexico), Jose Jose (Mexico)

names(comparacion)

## [1] "Dia"        "luismiguel" "josejose"

Visualizar

Ahora visualizaremos los datos en una tabla.

library(DT)
datatable(comparacion)

Análisis de coordinación

Matriz de diagramas de dispersion

pairs(comparacion)

#Creamos un gráfico de caja y bigote para visualizar los datos.

boxplot(comparacion$luismiguel~ comparacion$josejose, col="red" )

Matriz de coeficientes de correlación

A continuación se hará una cuantificacion del grado de relación lineal, por medio de de la matriz de coeficientes de correlacion.

cor(comparacion)

##                   Dia luismiguel  josejose
## Dia         1.0000000 -0.0050540 0.2892243
## luismiguel -0.0050540  1.0000000 0.6666921
## josejose    0.2892243  0.6666921 1.0000000

Existe una relación del 66% en cuanto a la búsquedas del cantante Luis Miguel y José José. La corealación es del 0.6666921

Recta de minimos cuadrados

Se hace un acomodo de los datos de la tendencia a un modelo líneal

regresion <- lm(luismiguel~josejose, data = comparacion )
summary(regresion)

## 
## Call:
## lm(formula = luismiguel ~ josejose, data = comparacion)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -19.916  -8.744  -1.138   4.125  26.559 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -45.5836    17.9153  -2.544    0.017 *  
## josejose      1.4344     0.3086   4.648 7.85e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 11.71 on 27 degrees of freedom
## Multiple R-squared:  0.4445, Adjusted R-squared:  0.4239 
## F-statistic:  21.6 on 1 and 27 DF,  p-value: 7.846e-05

Con base a lo estimado en el análisis de regresión lineal, obtenemos la ecuación de la recta de mínimos cuadrados:

\[y= -45.5836 + 1.4344x\]

plot(comparacion$josejose, comparacion$luismiguel, xlab="José José", ylab="Luis Miguel")
abline(regresion)

Modelación (Cálculo) de predicciones

nuevas.jose <-data.frame(josejose=seq(0,100))
predict(regresion, nuevas.jose)

##           1           2           3           4           5           6 
## -45.5835727 -44.1491480 -42.7147233 -41.2802987 -39.8458740 -38.4114494 
##           7           8           9          10          11          12 
## -36.9770247 -35.5426000 -34.1081754 -32.6737507 -31.2393261 -29.8049014 
##          13          14          15          16          17          18 
## -28.3704767 -26.9360521 -25.5016274 -24.0672028 -22.6327781 -21.1983534 
##          19          20          21          22          23          24 
## -19.7639288 -18.3295041 -16.8950795 -15.4606548 -14.0262301 -12.5918055 
##          25          26          27          28          29          30 
## -11.1573808  -9.7229562  -8.2885315  -6.8541068  -5.4196822  -3.9852575 
##          31          32          33          34          35          36 
##  -2.5508329  -1.1164082   0.3180165   1.7524411   3.1868658   4.6212904 
##          37          38          39          40          41          42 
##   6.0557151   7.4901398   8.9245644  10.3589891  11.7934137  13.2278384 
##          43          44          45          46          47          48 
##  14.6622631  16.0966877  17.5311124  18.9655370  20.3999617  21.8343864 
##          49          50          51          52          53          54 
##  23.2688110  24.7032357  26.1376603  27.5720850  29.0065097  30.4409343 
##          55          56          57          58          59          60 
##  31.8753590  33.3097836  34.7442083  36.1786330  37.6130576  39.0474823 
##          61          62          63          64          65          66 
##  40.4819070  41.9163316  43.3507563  44.7851809  46.2196056  47.6540303 
##          67          68          69          70          71          72 
##  49.0884549  50.5228796  51.9573042  53.3917289  54.8261536  56.2605782 
##          73          74          75          76          77          78 
##  57.6950029  59.1294275  60.5638522  61.9982769  63.4327015  64.8671262 
##          79          80          81          82          83          84 
##  66.3015508  67.7359755  69.1704002  70.6048248  72.0392495  73.4736741 
##          85          86          87          88          89          90 
##  74.9080988  76.3425235  77.7769481  79.2113728  80.6457974  82.0802221 
##          91          92          93          94          95          96 
##  83.5146468  84.9490714  86.3834961  87.8179207  89.2523454  90.6867701 
##          97          98          99         100         101 
##  92.1211947  93.5556194  94.9900440  96.4244687  97.8588934

Intervalo de confianza

los datos proceden de un modelo de regresión simple:

\[y_i = \beta_0 + \beta_1 x_i + \epsilon_i, \ \ \ \ i=1,\ldots,n,\]

Los errores aleatorios ϵi son independientes con distribución normal 0 y varianza σ2

Los errores típicos de los stimadores de los parámetros $ _0 y _1 $ se encuentran en la columna std error serían de manera correspondiente: 17.9153 y 0.3086

Cálculo de nivel de confianza

confint(regresion)

##                   2.5 %    97.5 %
## (Intercept) -82.3427973 -8.824348
## josejose      0.8011932  2.067656

El intervalo de confianza es del 97.5% para los datos

Ahora veamos uno intervalo de confianza para el 90% de los datos

confint(regresion, level=0.90)

##                     5 %      95 %
## (Intercept) -76.0985504 -15.06859
## josejose      0.9087595   1.96009

nuevas.jose <-data.frame(josejose=seq(0,100))
plot(comparacion$josejose, comparacion$luismiguel, xlab="José José", ylab="Luis Miguel")
abline(regresion)
# Intervalos de confianza de la respuesta media
# ic es una matriz con tres columnas:
#La primera es la predicción, y las otras son los extremos del intervalo

ic <- predict(regresion,nuevas.jose, interval = "prediction")
lines(nuevas.jose$josejose, ic[, 2], lty=2)
lines(nuevas.jose$josejose, ic[, 3], lty=2)
#Intervalos de predicción
ic <- predict(regresion,nuevas.jose, interval = "confidence")
lines(nuevas.jose$josejose, ic[, 2], lty=2, col="pink")
lines(nuevas.jose$josejose, ic[, 3], lty=2, col="Purple")

Conclusion

En base a los datos representados en graficas, podemos analizar que ambos cantantes tienen una aproximación cercana, pues ellos son dos de los cantantes más representativos de México que aún siguen escuchandose, pero entre los dos, el aún mas escuchados es José José, a pesar de ya ha fallecido.