Análisis de búsqueda
En el presente documento analizaremos las búsquedas de los anteriores 30 días sobre los cantantes más relevantes del país de México.
Importar datos
Los datos obtenidos son de Google trends: https://trends.google.com.mx/ de la cual podemos obtener datos de búsquedas en el búscador de Google.
library(readr)
comparacion <- read_csv("~/ProbabilidadyEstadistica/luismi_josejose.csv",col_types = cols (Dia = col_number(), 'Luis Miguel (Mexico)'=col_number(), 'Jose Jose (Mexico)'= col_number()))## Warning: The following named parsers don't match the column names: Luis Miguel
## (Mexico), Jose Jose (Mexico)
## [1] "Dia" "luismiguel" "josejose"
Análisis de coordinación
Matriz de diagramas de dispersion
#Creamos un gráfico de caja y bigote para visualizar los datos.
boxplot(comparacion$luismiguel~ comparacion$josejose, col="red" )Matriz de coeficientes de correlación
A continuación se hará una cuantificacion del grado de relación lineal, por medio de de la matriz de coeficientes de correlacion.
## Dia luismiguel josejose
## Dia 1.0000000 -0.0050540 0.2892243
## luismiguel -0.0050540 1.0000000 0.6666921
## josejose 0.2892243 0.6666921 1.0000000
Existe una relación del 66% en cuanto a la búsquedas del cantante Luis Miguel y José José. La corealación es del 0.6666921
Recta de minimos cuadrados
Se hace un acomodo de los datos de la tendencia a un modelo líneal
##
## Call:
## lm(formula = luismiguel ~ josejose, data = comparacion)
##
## Residuals:
## Min 1Q Median 3Q Max
## -19.916 -8.744 -1.138 4.125 26.559
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -45.5836 17.9153 -2.544 0.017 *
## josejose 1.4344 0.3086 4.648 7.85e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 11.71 on 27 degrees of freedom
## Multiple R-squared: 0.4445, Adjusted R-squared: 0.4239
## F-statistic: 21.6 on 1 and 27 DF, p-value: 7.846e-05
Con base a lo estimado en el análisis de regresión lineal, obtenemos la ecuación de la recta de mínimos cuadrados:
\[y= -45.5836 + 1.4344x\]
plot(comparacion$josejose, comparacion$luismiguel, xlab="José José", ylab="Luis Miguel")
abline(regresion)Modelación (Cálculo) de predicciones
## 1 2 3 4 5 6
## -45.5835727 -44.1491480 -42.7147233 -41.2802987 -39.8458740 -38.4114494
## 7 8 9 10 11 12
## -36.9770247 -35.5426000 -34.1081754 -32.6737507 -31.2393261 -29.8049014
## 13 14 15 16 17 18
## -28.3704767 -26.9360521 -25.5016274 -24.0672028 -22.6327781 -21.1983534
## 19 20 21 22 23 24
## -19.7639288 -18.3295041 -16.8950795 -15.4606548 -14.0262301 -12.5918055
## 25 26 27 28 29 30
## -11.1573808 -9.7229562 -8.2885315 -6.8541068 -5.4196822 -3.9852575
## 31 32 33 34 35 36
## -2.5508329 -1.1164082 0.3180165 1.7524411 3.1868658 4.6212904
## 37 38 39 40 41 42
## 6.0557151 7.4901398 8.9245644 10.3589891 11.7934137 13.2278384
## 43 44 45 46 47 48
## 14.6622631 16.0966877 17.5311124 18.9655370 20.3999617 21.8343864
## 49 50 51 52 53 54
## 23.2688110 24.7032357 26.1376603 27.5720850 29.0065097 30.4409343
## 55 56 57 58 59 60
## 31.8753590 33.3097836 34.7442083 36.1786330 37.6130576 39.0474823
## 61 62 63 64 65 66
## 40.4819070 41.9163316 43.3507563 44.7851809 46.2196056 47.6540303
## 67 68 69 70 71 72
## 49.0884549 50.5228796 51.9573042 53.3917289 54.8261536 56.2605782
## 73 74 75 76 77 78
## 57.6950029 59.1294275 60.5638522 61.9982769 63.4327015 64.8671262
## 79 80 81 82 83 84
## 66.3015508 67.7359755 69.1704002 70.6048248 72.0392495 73.4736741
## 85 86 87 88 89 90
## 74.9080988 76.3425235 77.7769481 79.2113728 80.6457974 82.0802221
## 91 92 93 94 95 96
## 83.5146468 84.9490714 86.3834961 87.8179207 89.2523454 90.6867701
## 97 98 99 100 101
## 92.1211947 93.5556194 94.9900440 96.4244687 97.8588934
Intervalo de confianza
los datos proceden de un modelo de regresión simple:
\[y_i = \beta_0 + \beta_1 x_i + \epsilon_i, \ \ \ \ i=1,\ldots,n,\]
Los errores aleatorios ϵi son independientes con distribución normal 0 y varianza σ2
Los errores típicos de los stimadores de los parámetros $ _0 y _1 $ se encuentran en la columna std error serían de manera correspondiente: 17.9153 y 0.3086
Cálculo de nivel de confianza
## 2.5 % 97.5 %
## (Intercept) -82.3427973 -8.824348
## josejose 0.8011932 2.067656
El intervalo de confianza es del 97.5% para los datos
Ahora veamos uno intervalo de confianza para el 90% de los datos
## 5 % 95 %
## (Intercept) -76.0985504 -15.06859
## josejose 0.9087595 1.96009
nuevas.jose <-data.frame(josejose=seq(0,100))
plot(comparacion$josejose, comparacion$luismiguel, xlab="José José", ylab="Luis Miguel")
abline(regresion)
# Intervalos de confianza de la respuesta media
# ic es una matriz con tres columnas:
#La primera es la predicción, y las otras son los extremos del intervalo
ic <- predict(regresion,nuevas.jose, interval = "prediction")
lines(nuevas.jose$josejose, ic[, 2], lty=2)
lines(nuevas.jose$josejose, ic[, 3], lty=2)
#Intervalos de predicción
ic <- predict(regresion,nuevas.jose, interval = "confidence")
lines(nuevas.jose$josejose, ic[, 2], lty=2, col="pink")
lines(nuevas.jose$josejose, ic[, 3], lty=2, col="Purple")Conclusion
En base a los datos representados en graficas, podemos analizar que ambos cantantes tienen una aproximación cercana, pues ellos son dos de los cantantes más representativos de México que aún siguen escuchandose, pero entre los dos, el aún mas escuchados es José José, a pesar de ya ha fallecido.