- Importar Datos de las búsquedas en google de la salida de la consola Play Station 5, y el costo del USD en ese momento, para datos de todo el mundo en los últimos 28 días (4 semanas). Esto para ver si encontramos una relación entre estas dos variables y si ver podríamos decir que las personas buscan el cambio del dolar a su moneda para ver el costo que tendría para ellos en su país la consola PS5.
library(pacman)
p_load("readr","DT","prettydoc","fdth","modeest")
u1r <- read_csv("u1r.csv", col_types = cols(costo = col_number(),
ps5 = col_number()))- Visualizar
Primer repaso de la unidad 1 de la materia de estadística aplicada
Definición de estadística
es la rama de las matemáticas que estudia la variabilidad, así como el proceso aleatorio que la genera siguiendo las leyes de la probabilidad.2. Como parte de la matemática, la estadística es una ciencia formal deductiva, con un conocimiento propio, dinámico y en continuo desarrollo obtenido a través del método científico formal. En ocasiones, las ciencias fácticas necesitan utilizar técnicas estadísticas durante su proceso de investigación factual, con el fin de obtener nuevos conocimientos basados en la experimentación y en la observación. En estos casos, la aplicación de la estadística permite el análisis de datos provenientes de una muestra representativa, que busca explicar las correlaciones y dependencias de un fenómeno físico o natural, de ocurrencia en forma aleatoria o condicional.
La estadística se divide en dos grandes áreas:
Estadística descriptiva: Se dedica a la descripción, visualización y resumen de datos originados a partir de los fenómenos de estudio. Los datos pueden ser resumidos numérica o gráficamente. Su objetivo es organizar y describir las características sobre un conjunto de datos con el propósito de facilitar su aplicación, generalmente con el apoyo de gráficas, tablas o medidas numéricas. Ejemplos básicos de parámetros estadísticos son: la media y la desviación estándar. Ejemplos gráficos son: histograma, pirámide poblacional, gráfico circular, entre otros.
Estadística inferencial: Se dedica a la generación de los modelos, inferencias y predicciones asociadas a los fenómenos en cuestión teniendo en cuenta la aleatoriedad de las observaciones. Se usa para modelar patrones en los datos y extraer inferencias acerca de la población bajo estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas sí/no (prueba de hipótesis), estimaciones de unas características numéricas (estimación), pronósticos de futuras observaciones, descripciones de asociación (correlación) o modelamiento de relaciones entre variables (análisis de regresión). Otras técnicas de modelamiento incluyen análisis de varianza, series de tiempo y minería de datos. Su objetivo es obtener conclusiones útiles para lograr hacer deducciones acerca de la totalidad de todas las observaciones hechas, basándose en la información numérica.
Distribuciones de frecuencia
Tabla de distribución de frecuencia
## costo
## Class limits f rf rf(%) cf cf(%)
## [27.7,39.9) 4 0.14 14.29 4 14.29
## [39.9,52.1) 7 0.25 25.00 11 39.29
## [52.1,64.4) 2 0.07 7.14 13 46.43
## [64.4,76.6) 6 0.21 21.43 19 67.86
## [76.6,88.8) 4 0.14 14.29 23 82.14
## [88.8,101) 5 0.18 17.86 28 100.00
##
## ps5
## Class limits f rf rf(%) cf cf(%)
## [0,12.793) 3 0.11 10.71 3 10.71
## [12.793,25.587) 15 0.54 53.57 18 64.29
## [25.587,38.38) 5 0.18 17.86 23 82.14
## [38.38,51.173) 1 0.04 3.57 24 85.71
## [51.173,63.967) 2 0.07 7.14 26 92.86
## [63.967,76.76) 2 0.07 7.14 28 100.00
Histograma de distribución de frecuencia
Polígono de distribución de frecuencia
De lo primero que nos podemos dar cuenta es que solamente viendo los polígonos e hostogramas podemos decir que existe cierta relación, pero no podemos saber solamente con esto que es una relación directa o dependiente una variable de otra, ni tampoco podemos saber que tan exacta o confiable es esta relación.
Medidas de tendencia central
Ordenar datos de menor a mayor
## [1] 28 32 32 33 41 41 41 43 43 48 48 54 61 65 67 71 72 74 75
## [20] 77 81 82 85 89 90 93 99 100
## [1] 0 0 0 13 14 14 14 14 14 15 16 16 21 21 21 21 24 24 27 27 30 32 36 48 55
## [26] 56 64 76
Cuantiles
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 28.00 42.50 66.00 63.04 81.25 100.00
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00 14.00 21.00 25.46 30.50 76.00
Valores máximos y mínimos
Medidas de dispersión
Amplitud (rango, alcance)
Ambas variables tienen una amplitud similar
Análisis de correlación
Correlación pearson
## ps5 costo
## ps5 1.0000000 0.2444179
## costo 0.2444179 1.0000000
Diagramas de dispersión
Esta prueba de correlación Pearson que se acaba de efectuar nos dice que tiene una correlación muy pequeña, dando a entender no tuvieron mucha similitud las fechas en las que anunciaron la salida del PS5, y buscar luego el precio del dólar, y en dado caso en las fechas que hubo algunas similitudes no se puede inferir que fue por la salida del PS5.
Regresión lineal simple
##
## Call:
## lm(formula = costo ~ ps5, data = u1r)
##
## Residuals:
## Min 1Q Median 3Q Max
## -33.741 -18.856 5.199 13.054 37.349
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 55.6515 7.1114 7.826 2.67e-08 ***
## ps5 0.2900 0.2256 1.285 0.21
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 22.18 on 26 degrees of freedom
## Multiple R-squared: 0.05974, Adjusted R-squared: 0.02358
## F-statistic: 1.652 on 1 and 26 DF, p-value: 0.21
Recta de minimos cuadrados
Ecuación de la recta
\[ y = 55.6515 + 0.29x \] #### Ajuste de la recta
#Recta ajustada al gráfico de dispersión
plot(rela$ps5, rela$costo, xlab="Salida de PS5", ylab="Precio del USD")
abline(regresion)Una vez más, ahora con la regresión lineal, se confirma que la búsqueda de los datos en las fechas que se hicieron no tienen relación directa alguna. Todo esto pues ningún dato se agrupa hacia la recta de mínimos cuadrados.
Predicción
## [1] 28 32 32 33 41 41 41 43 43 48 48 54 61 65 67 71 72 74 75
## [20] 77 81 82 85 89 90 93 99 100
nuevas.c <- data.frame(costo=seq(0,27))
nuevas.p <- data.frame(ps5=seq(0, 27))
predict(regresion, nuevas.c)## 1 2 3 4 5 6 7 8
## 59.71124 63.48105 61.74114 71.89062 59.71124 69.57074 64.93097 55.65145
## 9 10 11 12 13 14 15 16
## 59.71124 71.60063 77.69032 66.09091 74.21050 62.61109 59.42126 63.48105
## 17 18 19 20 21 22 23 24
## 59.71124 59.71124 64.35100 55.65145 62.61109 61.74114 61.74114 61.74114
## 25 26 27 28
## 55.65145 60.00123 60.29121 60.29121
Intervalos de confianza
## 2.5 % 97.5 %
## (Intercept) 41.033726 70.2691759
## ps5 -0.173786 0.7537562
nuevas.p<- data.frame(ps5=seq(0,100))
#Recta ajustada al gráfico de dispersión
plot(rela$ps5, rela$costo, xlab="Salida de PS5", ylab="Precio del USD")
abline(regresion)
#Intervalos de confianza para la respuesta media
#ic es una matriz con tres columnas: la primera es la predicción, las otras dos son los extremos del intervalo.
ic <- predict(regresion, nuevas.p, interval = "confidence")
lines(nuevas.p$ps5, ic[, 2], lty=2)
lines(nuevas.p$ps5, ic[, 3], lty=2)
#Intervalos de predicción
ic <- predict(regresion, nuevas.p, interval = "prediction")
lines(nuevas.p$ps5, ic[, 2], lty=2)
lines(nuevas.p$ps5, ic[, 3], lty=2)Estos intervalos de confianza nos dicen que no es realmente una muestra confiable. Pues aunque a pesar de que tiene los límites muy alejados de la recta de límites cuadrados, aún hay muchos datos de la muestra fuera de los límites. No es confiable.
Análisis ANOVA (Análisis de varianza)
## Analysis of Variance Table
##
## Response: costo
## Df Sum Sq Mean Sq F value Pr(>F)
## ps5 1 812.4 812.40 1.6519 0.21
## Residuals 26 12786.6 491.79
Análisis de residuales
Diagnóstico del modelo
residuos <- rstandard(regresion)
valores.ajustados <- fitted(regresion)
plot(valores.ajustados, residuos)Pruebas de normalidad
No se observa comportamiento regular, en un rango solamente un poco en unos pocos datos de lamuestra. La hipótesis de normalidad se suele comprobar mediante un QQ plot de los residuos. El siguiente código sirve para obtenerlo.
Redacción
Lo que queda de este análisis es que no tiene una relación dependiente la salida del Play Station 5 con las búsquedas del precio del dólar, pues no hay ninguna prueba que muestre datos o números que nos digan que es confiable la relación entre estas dos variables, al menos todo esto para los últimos 28 días.
Introducción a la probabilidad
Probabilidad clásica
La probabilidad clásica predice un resultado en base a todos los posibles sucesos que tenga un evento aleatorio. La probabilidad clásica se encarga de distribuir equitativamente la probabilidad en cada uno de los sucesos que componen al espacio muestral.
La probabilidad clásica cambia cambia si en el espacio muestral hay conjuntos en lugar de solamente sucesos individuales, pues al haber conjuntos formados por sucesos, habrán algunos conjuntos de sucesos (que también se toman como sucesos individuales) que tenga una mayor probabilidad de salir, pero esto no significa que la probabilidad no se distribuya equitativamente.
Probabilidad distribuida
Esta expresa que se obtiene la misma respuesta cuando multiplicas un conjunto de números por otro número que cuando se hace cada multiplicación por separado.
Distribuciones de frecuencia
Distribución normal
Ésta es una distribución con forma de campana donde las desviaciones estándar sucesivas con respecto a la media establecen valores de referencia para estimar el porcentaje de observaciones de los datos.
Distribución binomial
Es una distribución de probabilidad discreta que describe el número de éxitos al realizar n experimentos independientes entre sí, acerca de una variable aleatoria.
Distribución exponencial
Distribución del tiempo que transcurre hasta que se produce un fallo, si se cumple la condición que la probabilidad de producirse un fallo en un instante no depende del tiempo transcurrido .
Referencias bibliográficas
Fhybea. (2019). Definición de Probabilidad Clásica, Ejemplos y Fórmulas. 06 de Octubre de 2020, de Fhybea.com Sitio web: https://www.fhybea.com/probabilidad_clasica.html
Disfruta las matemáticas. (2011). Ley Distributiva. 06 de Octubre de 2020, de Disfruta las Matemáticas Sitio web: https://www.disfrutalasmatematicas.com/definiciones/ley-distributiva.html#:~:text=La%20Ley%20Distributiva%20expresa%20que,y%2010%20%2B%2020%20%3D%2030.
Minitab. (2018). ¿Qué es la distribución normal?. 06 de Octubre de 2020, de Minitab 18 Sitio web: https://support.minitab.com/es-mx/minitab/18/help-and-how-to/statistics/basic-statistics/supporting-topics/normality/what-is-the-normal-distribution/
Francisco Javier Moreno Sanjuán. (2019). Distribución binomial. 06 de Octubre de 2020, de Economipedia Sitio web: https://economipedia.com/definiciones/distribucion-binomial.html