Primer repaso de la unidad 1 de la materia de estadística aplicada

Probabilidad

Definición de estadística

es la rama de las matemáticas que estudia la variabilidad, así como el proceso aleatorio que la genera siguiendo las leyes de la probabilidad.2. Como parte de la matemática, la estadística es una ciencia formal deductiva, con un conocimiento propio, dinámico y en continuo desarrollo obtenido a través del método científico formal. En ocasiones, las ciencias fácticas necesitan utilizar técnicas estadísticas durante su proceso de investigación factual, con el fin de obtener nuevos conocimientos basados en la experimentación y en la observación. En estos casos, la aplicación de la estadística permite el análisis de datos provenientes de una muestra representativa, que busca explicar las correlaciones y dependencias de un fenómeno físico o natural, de ocurrencia en forma aleatoria o condicional.

La estadística se divide en dos grandes áreas:

Estadística descriptiva: Se dedica a la descripción, visualización y resumen de datos originados a partir de los fenómenos de estudio. Los datos pueden ser resumidos numérica o gráficamente. Su objetivo es organizar y describir las características sobre un conjunto de datos con el propósito de facilitar su aplicación, generalmente con el apoyo de gráficas, tablas o medidas numéricas. Ejemplos básicos de parámetros estadísticos son: la media y la desviación estándar. Ejemplos gráficos son: histograma, pirámide poblacional, gráfico circular, entre otros.
Estadística inferencial: Se dedica a la generación de los modelos, inferencias y predicciones asociadas a los fenómenos en cuestión teniendo en cuenta la aleatoriedad de las observaciones. Se usa para modelar patrones en los datos y extraer inferencias acerca de la población bajo estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas sí/no (prueba de hipótesis), estimaciones de unas características numéricas (estimación), pronósticos de futuras observaciones, descripciones de asociación (correlación) o modelamiento de relaciones entre variables (análisis de regresión). Otras técnicas de modelamiento incluyen análisis de varianza, series de tiempo y minería de datos. Su objetivo es obtener conclusiones útiles para lograr hacer deducciones acerca de la totalidad de todas las observaciones hechas, basándose en la información numérica.
Importar

setwd("~/PYE1112ADITSON")
library(pacman)
p_load("readr","DT","prettydoc","fdth","modeest")
datosr <- read_csv("datosr.csv")

## Parsed with column specification:
## cols(
##   mes = col_character(),
##   temp = col_double(),
##   prec = col_double()
## )

Visualizar

datatable(datosr)

Distribuciones de frecuencia

Tabla de distribución de frecuencia

dist <- fdt(datosr, breaks="Sturges")
dist

## temp 
##     Class limits f   rf rf(%) cf  cf(%)
##     [7.92,11.83) 3 0.25 25.00  3  25.00
##   [11.83,15.741) 2 0.17 16.67  5  41.67
##  [15.741,19.651) 2 0.17 16.67  7  58.33
##  [19.651,23.562) 1 0.08  8.33  8  66.67
##  [23.562,27.472) 4 0.33 33.33 12 100.00
## 
## prec 
##   Class limits f   rf rf(%) cf  cf(%)
##  [5.148,22.38) 7 0.58 58.33  7  58.33
##  [22.38,39.61) 2 0.17 16.67  9  75.00
##  [39.61,56.84) 1 0.08  8.33 10  83.33
##  [56.84,74.07) 0 0.00  0.00 10  83.33
##   [74.07,91.3) 2 0.17 16.67 12 100.00

#nos brinda una tabla con los calculos de la distribución de frecuencias.
#Donde
#f= frecuencia absoluta
#rf= frecuencia relativa
#rf(%) frecuencia relativa porcentual
#cf= frecuencia acumulada
#cf(%)=frecuencia acumulada porcentual

Histograma de distribución de frecuencia

plot(dist, type="fh") # histograma de frecuencia absoluta

plot(dist, type="cfh") # histograma de frecuencia acumulada

plot(dist, type="rfh") # histograma de frecuencia relativa

Polígono de distribución de frecuencia

plot(dist, type="fp") # Polígono de frecuencia absoluta

plot(dist, type="cfp") # Polígono de frecuencia acumulada

plot(dist, type="rfp") # Polígono de frecuencia relativa

Medidas de tendencia central

Media

mean(datosr$temp)

## [1] 17.48333

mean(datosr$prec)

## [1] 29.6

Mediana

median(datosr$temp)

## [1] 17.4

median(datosr$prec)

## [1] 19.45

Moda

mfv(datosr$prec, method="discrete")

##  [1]  5.2  6.3 10.6 12.2 17.1 19.0 19.9 23.4 28.1 41.6 81.4 90.4

mfv(datosr$temp, method="discrete")

##  [1]  8.0  8.2  9.8 12.2 12.9 16.6 18.2 21.1 23.6 25.9 26.1 27.2

Ordenar datos de menor a mayor

sort(datosr$temp)

##  [1]  8.0  8.2  9.8 12.2 12.9 16.6 18.2 21.1 23.6 25.9 26.1 27.2

sort(datosr$prec)

##  [1]  5.2  6.3 10.6 12.2 17.1 19.0 19.9 23.4 28.1 41.6 81.4 90.4

Cuantiles

summary(datosr$temp)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    8.00   11.60   17.40   17.48   24.18   27.20

summary(datosr$prec)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    5.20   11.80   19.45   29.60   31.48   90.40

Valores máximos y mínimos

TempMax <- max(datosr$temp)
TempMin <- min(datosr$temp)

Gráfico (diagrama) de caja y bigote

boxplot(datosr$temp)

boxplot(datosr$prec)

Medidas de dispersión

Amplitud (rango, alcance)

amp <- (TempMax - TempMin)

Varianza

var(datosr$temp)

## [1] 52.30515

var(datosr$prec)

## [1] 793.5709

Desviación estándar

sd(datosr$temp)

## [1] 7.23223

sd(datosr$prec)

## [1] 28.17039

Análisis de correlación

Correlación pearson

temp <- datosr$temp
prec <- datosr$prec
clima <- data.frame(temp,prec)
cor(clima)

##           temp      prec
## temp 1.0000000 0.5519655
## prec 0.5519655 1.0000000

Diagramas de dispersión

pairs(clima)

Regresión lineal simple

regresion <- lm (prec ~ temp, data=clima )
summary(regresion)

## 
## Call:
## lm(formula = prec ~ temp, data = clima)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -35.496 -12.210  -0.196  12.631  39.909 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)  
## (Intercept)   -7.989     19.314  -0.414   0.6879  
## temp           2.150      1.027   2.093   0.0628 .
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 24.64 on 10 degrees of freedom
## Multiple R-squared:  0.3047, Adjusted R-squared:  0.2351 
## F-statistic: 4.382 on 1 and 10 DF,  p-value: 0.06279

Recta de minimos cuadrados

Ecuación de la recta

\[ y = -7.989 + 2.150 x \]

Ajuste de la recta

plot(clima$temp, clima$prec, xlab = "Temperatura", ylab="Precipitación")
abline(regresion)

Predicción

sort(prec)

##  [1]  5.2  6.3 10.6 12.2 17.1 19.0 19.9 23.4 28.1 41.6 81.4 90.4

nuevas.prec <- data.frame(prec=seq(0,100))
nuevas.temp <- data.frame(temp=seq(7,32))
predict(regresion,nuevas.temp)

##         1         2         3         4         5         6         7         8 
##  7.061140  9.211111 11.361082 13.511052 15.661023 17.810994 19.960965 22.110935 
##         9        10        11        12        13        14        15        16 
## 24.260906 26.410877 28.560847 30.710818 32.860789 35.010760 37.160730 39.310701 
##        17        18        19        20        21        22        23        24 
## 41.460672 43.610643 45.760613 47.910584 50.060555 52.210526 54.360496 56.510467 
##        25        26 
## 58.660438 60.810409

Intervalos de confianza

confint(regresion)

##                   2.5 %    97.5 %
## (Intercept) -51.0238698 35.046560
## temp         -0.1385753  4.438517

nuevas.temp <- data.frame(temp=seq(7,32))

#Recta ajustada al gráfico de dispersión
plot(clima$temp, clima$prec, xlab = "Temperatura", ylab="Precipitación")
abline(regresion)

#Intervalos de confianza para la respuesta media 
# ic es una matriz con tres columnas: la primera es la prediccion, las otras dos son los extremos del intervalo
ic <- predict(regresion, nuevas.temp, interval = 'confidence')
lines(nuevas.temp$temp, ic[, 2], lty = 2)
lines(nuevas.temp$temp, ic[, 3], lty = 2)

# Intervalos de predicción
ic <- predict(regresion, nuevas.temp, interval = 'prediction')
lines(nuevas.temp$temp, ic[, 2], lty = 2, col = "red")
lines(nuevas.temp$temp, ic[, 3], lty = 2, col = "red")

Análisis de residuales

##" Análisis ANOVA (Análisis de varianza)

anova(regresion)

## Analysis of Variance Table
## 
## Response: prec
##           Df Sum Sq Mean Sq F value  Pr(>F)  
## temp       1 2659.5 2659.51  4.3816 0.06279 .
## Residuals 10 6069.8  606.98                  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Diagnóstico del modelo

residuos <- rstandard(regresion)
valores.ajustados <- fitted(regresion)
plot(valores.ajustados,residuos)

Pruebas de normalidad

No se observa ningún patrón especial, por lo que tanto la homocedasticidad como la linealidad resultan hipótesis razonables.

La hipótesis de normalidad se suele comprobar mediante un QQ plot de los residuos. El siguiente código sirve para obtenerlo:

qqnorm(residuos)
qqline(residuos)

Shapiro-wilk

shapiro.test(residuos)

## 
##  Shapiro-Wilk normality test
## 
## data:  residuos
## W = 0.9737, p-value = 0.9455

Introducción a la probabilidad

Incertidumbre

“Probabilidad es el lenguaje matemático para cuantificar la incertidumbre.” -Wasserman

Terminología de probabilidad:, espacio de resultados, eventos, funciones de probabilidad, etc.
Interpretación frecuentista de la probabilidad.
Probabilidad condicional y su relación con la independencia.

Probabilidad clásica

El espacio de resultado \(\Omega\) es el conjunto de resultados de un experimento aleatorio.

e.g. Sí lanzamos una moneda dos veces entonces:

\[\Omega = \{AA, AS, SA, SS \} \] Un Evento es un subconjunto del espacio muestral, los eventos usualmente se denotan por mayúsculas.

e.g. Que el primer lanzamiento resulte águila.

\[ A=\{AA, AS\} \] ## Eventos equiprobables

La probabilidad se puede ver como una extensión de la ide a de proporción, o cociente de una parte con respecto a un todo.

e.g. En la carrera de Ing. Química hay 300 Hombres y 700 Mujeres, la proporción de hombres es:

\[\frac{300}{700+300} = 0.3 \] Eventos equiprobables Sí todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el número de resultados de A dividido entre el número total de posibles resultados:

\[ P(A)=\frac{\#(A)}{\#(\Omega)} \] Por lo que solo hace falta contar.

Probabilidad distribuida

Distribuciones de frecuencia

Se le llama distribución de frecuencias a la agrupación de datos en categorías mutuamente excluyentes que indican el número de observaciones en cada categoría. Esto proporciona un valor añadido a la agrupación de datos.

Tipos de frecuencias

Frecuencia absoluta
Frecuencia relativa
Frecuencia acumulada
Frecuencia relativa acumulada

Distribución normal

Si \(x\) es una variable aleatoria, con distribución normal de media 3, y su desviación típica es de 0.5, la probabilidad de que \(x\) sea menor que 3.5 se calcula en R de esta forma:

pnorm(3.5, mean=3, sd=0.5)

## [1] 0.8413447

Para calcular el cuantil 0.7 de una variavle aleatoria normal estandar Z, es decir un valor X tal que

qnorm(0.7)

## [1] 0.5244005

Para calcular el mismo cuantil, pero para una v.a. normal de media 0 y DT 0.5

qnorm(0.7, sd=0.5)

## [1] 0.2622003

El valor \(z_\alpha\) que aparece en muchas fórmulas para intervalos y contrastes se obtiene con elcomando qnorm (1-alfa). algunos ejemplos:

qnorm(0.975)

## [1] 1.959964

Para generar una muestra de tamaño 100 de una publicaciión normal de media 10 y desviación típica 1 (y guardarla en un vector x):

x <- rnorm(100, mean = 10, sd=1)
x

##   [1]  8.817819  9.947388  8.128149  9.478693 11.759012  9.138055 10.441121
##   [8]  9.318762 10.014694 12.319534 10.076214  8.985721 10.361698 11.930845
##  [15]  9.151691  9.626049  9.268415 10.641065  9.814415 10.553398  9.757375
##  [22] 11.421155  9.585321 10.603975  9.924496 11.282295  8.743383 10.645297
##  [29]  9.562199  9.045463  7.700824 10.484789 10.138781 10.119881  9.506456
##  [36] 10.779979 11.199669 11.211476  9.854190 10.216871  8.620107 10.367242
##  [43] 11.265896 10.681458  9.412468 10.779265 10.387037  9.229852 10.000739
##  [50]  9.457116 10.975801  9.114721 10.166150  8.114981  9.361596  9.600616
##  [57] 10.902859  8.845549  9.017657  9.079849  8.843430  8.699469  9.972295
##  [64]  8.796391 10.104338 10.102774 10.474440 10.780082  9.170119 10.833049
##  [71]  9.996717  9.435654  9.821777  6.983560 11.052910 10.078293  9.641394
##  [78]  8.624432  9.966306 11.398683  9.660944 11.027135 10.403163  8.975399
##  [85]  8.682430  9.720992 11.775978  9.698023 10.070033  8.617474 12.258859
##  [92]  9.849085  9.717260  9.545964 11.300060  9.555936  9.777020 10.106640
##  [99]  9.763175  9.482541

Para estimar el promedio de x

mean(x)

## [1] 9.917018

Histograma de frecuencias

hist(x)

Gráfico de cajas y bigote

boxplot(x)

Histograma de la muestra (normalizado para que la suma de las areas de los rectangulos sean 1) junto con la densidad de poblacion:

hist(x,freq =FALSE) #FREAQ= FALSE,PARA QUE EL AREA DEL HISTOGRAMA SEA 1
curve(dnorm(x, mean=10, sd=1), form= 7, to =13, add = TRUE)

## Warning in plot.xy(xy.coords(x, y), type = type, ...): "form" is not a graphical
## parameter

Distribución binomial

x<- rbinom(20,1,0.5)
#genera 20 obervaciones 
x

##  [1] 0 1 1 0 1 0 1 1 1 0 0 0 0 1 1 0 0 0 1 1

#Genera 20 observaciones con distribución B(1,0,5)

Contando exitos vs fracasos

table(x)

## x
##  0  1 
## 10 10

Distribución exponencial

curve (dexp(x), from=0, to=10)

#r}Repesenta la dencidad de una exponencial de media 1 entre 0 y 10