library(pacman)
p_load("readr","DT","prettydoc","fdth","modeest")
u1r <- read_csv("u1r.csv", col_types = cols(costo = col_number(), 
    ps5 = col_number()))
datatable(u1r)

Primer repaso de la unidad 1 de la materia de estadística aplicada

Definición de estadística

es la rama de las matemáticas que estudia la variabilidad, así como el proceso aleatorio que la genera siguiendo las leyes de la probabilidad.2. Como parte de la matemática, la estadística es una ciencia formal deductiva, con un conocimiento propio, dinámico y en continuo desarrollo obtenido a través del método científico formal. En ocasiones, las ciencias fácticas necesitan utilizar técnicas estadísticas durante su proceso de investigación factual, con el fin de obtener nuevos conocimientos basados en la experimentación y en la observación. En estos casos, la aplicación de la estadística permite el análisis de datos provenientes de una muestra representativa, que busca explicar las correlaciones y dependencias de un fenómeno físico o natural, de ocurrencia en forma aleatoria o condicional.

La estadística se divide en dos grandes áreas:

  • Estadística descriptiva: Se dedica a la descripción, visualización y resumen de datos originados a partir de los fenómenos de estudio. Los datos pueden ser resumidos numérica o gráficamente. Su objetivo es organizar y describir las características sobre un conjunto de datos con el propósito de facilitar su aplicación, generalmente con el apoyo de gráficas, tablas o medidas numéricas. Ejemplos básicos de parámetros estadísticos son: la media y la desviación estándar. Ejemplos gráficos son: histograma, pirámide poblacional, gráfico circular, entre otros.

  • Estadística inferencial: Se dedica a la generación de los modelos, inferencias y predicciones asociadas a los fenómenos en cuestión teniendo en cuenta la aleatoriedad de las observaciones. Se usa para modelar patrones en los datos y extraer inferencias acerca de la población bajo estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas sí/no (prueba de hipótesis), estimaciones de unas características numéricas (estimación), pronósticos de futuras observaciones, descripciones de asociación (correlación) o modelamiento de relaciones entre variables (análisis de regresión). Otras técnicas de modelamiento incluyen análisis de varianza, series de tiempo y minería de datos. Su objetivo es obtener conclusiones útiles para lograr hacer deducciones acerca de la totalidad de todas las observaciones hechas, basándose en la información numérica.

Distribuciones de frecuencia

Tabla de distribución de frecuencia

dist <- fdt(u1r, breaks="Sturges")
dist
## costo 
##  Class limits f   rf rf(%) cf  cf(%)
##   [27.7,39.9) 4 0.14 14.29  4  14.29
##   [39.9,52.1) 7 0.25 25.00 11  39.29
##   [52.1,64.4) 2 0.07  7.14 13  46.43
##   [64.4,76.6) 6 0.21 21.43 19  67.86
##   [76.6,88.8) 4 0.14 14.29 23  82.14
##    [88.8,101) 5 0.18 17.86 28 100.00
## 
## ps5 
##     Class limits  f   rf rf(%) cf  cf(%)
##       [0,12.793)  3 0.11 10.71  3  10.71
##  [12.793,25.587) 15 0.54 53.57 18  64.29
##   [25.587,38.38)  5 0.18 17.86 23  82.14
##   [38.38,51.173)  1 0.04  3.57 24  85.71
##  [51.173,63.967)  2 0.07  7.14 26  92.86
##   [63.967,76.76)  2 0.07  7.14 28 100.00
#nos brinda una tabla con los calculos de la distribución de frecuencias.
#Donde
#f= frecuencia absoluta
#rf= frecuencia relativa
#rf(%) frecuencia relativa porcentual
#cf= frecuencia acumulada
#cf(%)=frecuencia acumulada porcentual

Histograma de distribución de frecuencia

plot(dist, type="fh") # histograma de frecuencia absoluta

plot(dist, type="cfh") # histograma de frecuencia acumulada

plot(dist, type="rfh") # histograma de frecuencia relativa

Polígono de distribución de frecuencia

plot(dist, type="fp") # Polígono de frecuencia absoluta

plot(dist, type="cfp") # Polígono de frecuencia acumulada

plot(dist, type="rfp") # Polígono de frecuencia relativa

De lo primero que nos podemos dar cuenta es que solamente viendo los polígonos e hostogramas podemos decir que existe cierta relación, pero no podemos saber solamente con esto que es una relación directa o dependiente una variable de otra, ni tampoco podemos saber que tan exacta o confiable es esta relación.

Medidas de tendencia central

Media

mean(u1r$costo)
## [1] 63.03571
mean(u1r$ps5)
## [1] 25.46429

Mediana

median(u1r$costo)
## [1] 66
median(u1r$ps5)
## [1] 21

Moda

mfv(u1r$costo)
## [1] 41
mfv(u1r$ps5)
## [1] 14

Ordenar datos de menor a mayor

sort(u1r$costo)
##  [1]  28  32  32  33  41  41  41  43  43  48  48  54  61  65  67  71  72  74  75
## [20]  77  81  82  85  89  90  93  99 100
sort(u1r$ps5)
##  [1]  0  0  0 13 14 14 14 14 14 15 16 16 21 21 21 21 24 24 27 27 30 32 36 48 55
## [26] 56 64 76

Cuantiles

summary(u1r$costo)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   28.00   42.50   66.00   63.04   81.25  100.00
summary(u1r$ps5)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00   14.00   21.00   25.46   30.50   76.00

Valores máximos y mínimos

ps5max <- max(u1r$ps5)
ps5min <- min(u1r$ps5)
costomax <- max(u1r$costo)
costomin <- min(u1r$costo)

Gráfico (diagrama) de caja y bigote

boxplot(x = u1r$ps5, y= u1r$costo)

Este boxplot, nos dice que a pesar de que la mayoría de los datos están siendo homogéneos o se encuentran dentro de los rangos hay una minoría que está totalmente desviada de la tendencia que sigue la muestra.

Medidas de dispersión

Amplitud (rango, alcance)

amp0 <- (ps5max - ps5min)
amp1 <- (costomax - costomin)

Ambas variables tienen una amplitud similar

Varianza

var(u1r$ps5)
## [1] 357.8135
var(u1r$costo)
## [1] 503.6653

Desviación estándar

sd(u1r$ps5)
## [1] 18.91596
sd(u1r$costo)
## [1] 22.44249

Varianzas diferentes y desviaciones estándares similares, probablemente por los datos que están muy alejados de los demás de la muestra.

Análisis de correlación

Correlación pearson

ps5<- u1r$ps5
costo<- u1r$costo
rela<- data.frame(ps5, costo)
cor(rela)
##             ps5     costo
## ps5   1.0000000 0.2444179
## costo 0.2444179 1.0000000

Diagramas de dispersión

pairs(rela)

Esta prueba de correlación Pearson que se acaba de efectuar nos dice que tiene una correlación muy pequeña, dando a entender no tuvieron mucha similitud las fechas en las que anunciaron la salida del PS5, y buscar luego el precio del dólar, y en dado caso en las fechas que hubo algunas similitudes no se puede inferir que fue por la salida del PS5.

Regresión lineal simple

regresion <- lm(costo ~ ps5, data = u1r)
summary(regresion)
## 
## Call:
## lm(formula = costo ~ ps5, data = u1r)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -33.741 -18.856   5.199  13.054  37.349 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  55.6515     7.1114   7.826 2.67e-08 ***
## ps5           0.2900     0.2256   1.285     0.21    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 22.18 on 26 degrees of freedom
## Multiple R-squared:  0.05974,    Adjusted R-squared:  0.02358 
## F-statistic: 1.652 on 1 and 26 DF,  p-value: 0.21

Recta de minimos cuadrados

Ecuación de la recta

\[ y = 55.6515 + 0.29x \] #### Ajuste de la recta

#Recta ajustada al gráfico de dispersión
plot(rela$ps5, rela$costo, xlab="Salida de PS5", ylab="Precio del USD")
abline(regresion)

Una vez más, ahora con la regresión lineal, se confirma que la búsqueda de los datos en las fechas que se hicieron no tienen relación directa alguna. Todo esto pues ningún dato se agrupa hacia la recta de mínimos cuadrados.

Predicción

sort(costo)
##  [1]  28  32  32  33  41  41  41  43  43  48  48  54  61  65  67  71  72  74  75
## [20]  77  81  82  85  89  90  93  99 100
nuevas.c <- data.frame(costo=seq(0,27))
nuevas.p <- data.frame(ps5=seq(0, 27))
predict(regresion, nuevas.c)
##        1        2        3        4        5        6        7        8 
## 59.71124 63.48105 61.74114 71.89062 59.71124 69.57074 64.93097 55.65145 
##        9       10       11       12       13       14       15       16 
## 59.71124 71.60063 77.69032 66.09091 74.21050 62.61109 59.42126 63.48105 
##       17       18       19       20       21       22       23       24 
## 59.71124 59.71124 64.35100 55.65145 62.61109 61.74114 61.74114 61.74114 
##       25       26       27       28 
## 55.65145 60.00123 60.29121 60.29121

Intervalos de confianza

confint(regresion)
##                 2.5 %     97.5 %
## (Intercept) 41.033726 70.2691759
## ps5         -0.173786  0.7537562
nuevas.p<- data.frame(ps5=seq(0,100))
#Recta ajustada al gráfico de dispersión
plot(rela$ps5, rela$costo, xlab="Salida de PS5", ylab="Precio del USD")
abline(regresion)
#Intervalos de confianza para la respuesta media
#ic es una matriz con tres columnas: la primera es la predicción, las otras dos son los extremos del intervalo.
ic <- predict(regresion, nuevas.p, interval = "confidence")
lines(nuevas.p$ps5, ic[, 2], lty=2)
lines(nuevas.p$ps5, ic[, 3], lty=2)

#Intervalos de predicción
ic <- predict(regresion, nuevas.p, interval = "prediction")
lines(nuevas.p$ps5, ic[, 2], lty=2)
lines(nuevas.p$ps5, ic[, 3], lty=2)

Estos intervalos de confianza nos dicen que no es realmente una muestra confiable. Pues aunque a pesar de que tiene los límites muy alejados de la recta de límites cuadrados, aún hay muchos datos de la muestra fuera de los límites. No es confiable.

Análisis ANOVA (Análisis de varianza)

anova(regresion)
## Analysis of Variance Table
## 
## Response: costo
##           Df  Sum Sq Mean Sq F value Pr(>F)
## ps5        1   812.4  812.40  1.6519   0.21
## Residuals 26 12786.6  491.79

Análisis de residuales

Diagnóstico del modelo

residuos <- rstandard(regresion)
valores.ajustados <- fitted(regresion)
plot(valores.ajustados, residuos)

Pruebas de normalidad

No se observa comportamiento regular, en un rango solamente un poco en unos pocos datos de lamuestra. La hipótesis de normalidad se suele comprobar mediante un QQ plot de los residuos. El siguiente código sirve para obtenerlo.

qqnorm(residuos)
qqline(residuos)

Shapiro-wilk

shapiro.test(residuos)
## 
##  Shapiro-Wilk normality test
## 
## data:  residuos
## W = 0.94415, p-value = 0.1409

Redacción

Lo que queda de este análisis es que no tiene una relación dependiente la salida del Play Station 5 con las búsquedas del precio del dólar, pues no hay ninguna prueba que muestre datos o números que nos digan que es confiable la relación entre estas dos variables, al menos todo esto para los últimos 28 días.

Introducción a la probabilidad

Probabilidad clásica

La probabilidad clásica predice un resultado en base a todos los posibles sucesos que tenga un evento aleatorio. La probabilidad clásica se encarga de distribuir equitativamente la probabilidad en cada uno de los sucesos que componen al espacio muestral.

La probabilidad clásica cambia cambia si en el espacio muestral hay conjuntos en lugar de solamente sucesos individuales, pues al haber conjuntos formados por sucesos, habrán algunos conjuntos de sucesos (que también se toman como sucesos individuales) que tenga una mayor probabilidad de salir, pero esto no significa que la probabilidad no se distribuya equitativamente. Lanzamiento de una moneda

Probabilidad distribuida

Esta expresa que se obtiene la misma respuesta cuando multiplicas un conjunto de números por otro número que cuando se hace cada multiplicación por separado. Unión de sucesos podría ser un ejemplo

Distribuciones de frecuencia

Distribución normal

Ésta es una distribución con forma de campana donde las desviaciones estándar sucesivas con respecto a la media establecen valores de referencia para estimar el porcentaje de observaciones de los datos. Distribución normal

Distribución binomial

Es una distribución de probabilidad discreta que describe el número de éxitos al realizar n experimentos independientes entre sí, acerca de una variable aleatoria. Distribución binomial

Distribución exponencial

Distribución del tiempo que transcurre hasta que se produce un fallo, si se cumple la condición que la probabilidad de producirse un fallo en un instante no depende del tiempo transcurrido . Distribución exponencial

Referencias bibliográficas