Temperatura y Precipitación de la ciudad de Hermosillo, Sonora. Periodo: 1981-2010
Clima
- Importar
Se utiliza la librería pacman para instalar y cargar los paquetes que se indican. Además se crea la variable de los datos importados a utilizar Datos obtenidos de https://smn.conagua.gob.mx/es/informacion-climatologica-por-estado?estado=son
library(pacman)
p_load("readr","DT","prettydoc","fdth","modeest")
datoshillo <- read_csv("datoshillo.csv")## Parsed with column specification:
## cols(
## Fecha = col_character(),
## temp = col_double(),
## prec = col_double()
## )
- Visualizar Se crea una tabla con las variables que pertenecen a los datos importados para visualizarlas
Primer repaso de la unidad 1 de la materia de estadística aplicada
Distribuciones de frecuencia
Tabla de distribución de frecuencia
Se obtienen tablas de distribución de frecuencia para analizar las frecuencias absolutas, relativas y acumuladas, con sus respectivas clases.
## temp
## Class limits f rf rf(%) cf cf(%)
## [16.929,20.108) 3 0.25 25.00 3 25.00
## [20.108,23.287) 2 0.17 16.67 5 41.67
## [23.287,26.467) 1 0.08 8.33 6 50.00
## [26.467,29.646) 2 0.17 16.67 8 66.67
## [29.646,32.825) 4 0.33 33.33 12 100.00
##
## prec
## Class limits f rf rf(%) cf cf(%)
## [2.475,22.22) 8 0.67 66.67 8 66.67
## [22.22,41.966) 1 0.08 8.33 9 75.00
## [41.966,61.711) 0 0.00 0.00 9 75.00
## [61.711,81.457) 1 0.08 8.33 10 83.33
## [81.457,101.2) 2 0.17 16.67 12 100.00
Histograma de distribución de frecuencia
Se crean histogramas que representan la frecuencia absoluta, acumulada y relativa. Se puede analizar que en Hermosillo la temperatura más frecuente está en la clase 29.65 y su precipitación está en la clase 2.48 a 22.22
Polígono de distribución de frecuencia
En los polígonos se expresan con mayor claridad los datos que se encuentran más frecuentes
Medidas de tendencia central
Media
La temperatura promedio en Hermosillo corresponde a 25 grados, mientras que la precipitación promedio a 32.24
## [1] 25.09167
## [1] 32.24167
Mediana
La mediana corresponde al valor medio de los datos
## [1] 25.5
## [1] 17.3
Moda
En la temperatura existe una moda de 17.3, es decir, que ese valor de temperatura se repite más que los demás valores. Por otra parte, en la precipitación no existe una moda debido a que ningún valor se repite.
## [1] 17.3
## [1] 17.1 17.2 18.5 20.9 21.3 24.1 26.9 27.9 31.0 31.8 31.9 32.5
Ordenar datos de menor a mayor
Al ordenar datos podemos observar que la temperatura media más baja en Hermosillo es de 17.1°C, mientras que la media máxima es de 32.5°C y la precipitación va de 2.5 hasta 100.2
## [1] 17.1 17.2 18.5 20.9 21.3 24.1 26.9 27.9 31.0 31.8 31.9 32.5
## [1] 2.5 3.7 6.5 8.4 16.6 17.3 17.3 18.3 29.1 69.0 98.0 100.2
Cuantiles
En el 25% de los valores de temperatura se encuentra el primer cuantil, el cual es de 20.3°C, el tercer cuantil representa el 75% de los valores con el 31.2°C. Por otra parte, en los datos de precipitación se obtiene 7.925 correspondiendo al 25% de los datos y 39.075 al 75%.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 17.10 20.30 25.50 25.09 31.20 32.50
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.500 7.925 17.300 32.242 39.075 100.200
Valores máximos y mínimos
La temperatura media máxima en Hermosillo es de 32.5°C, mientras que su mínima es de 17.1°C
Medidas de dispersión
Varianza
Se analiza la dispersión de los datos
## [1] 35.89356
## [1] 1283.575
Análisis de correlación
Correlación pearson
Aquí se analiza si existe una relación entre las variables de los datos Temperatura y Precipitación. Al obtener un valor de 0.566 se puede decir que hay una cierta relación pero no es muy grande.
## temp prec
## temp 1.0000000 0.5664066
## prec 0.5664066 1.0000000
Regresión lineal simple
Se obtiene el sumario de la regresión lineal, el cual nos ayuda a identificar valores de cuantiles y coeficientes
##
## Call:
## lm(formula = prec ~ temp, data = clima)
##
## Residuals:
## Min 1Q Median 3Q Max
## -46.564 -21.346 2.293 18.541 44.898
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -52.747 40.113 -1.315 0.2179
## temp 3.387 1.558 2.173 0.0549 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 30.97 on 10 degrees of freedom
## Multiple R-squared: 0.3208, Adjusted R-squared: 0.2529
## F-statistic: 4.724 on 1 and 10 DF, p-value: 0.05486
Recta de minimos cuadrados
Ecuación de la recta
Con los datos que proporcionó el sumario, se puede obtener la ecuación de la recta \[ y = -52.747 + 3.387 x \]
Predicción
Se pueden predecir valores de temperatura y precipitación con un rango más amplio al original
## [1] 2.5 3.7 6.5 8.4 16.6 17.3 17.3 18.3 29.1 69.0 98.0 100.2
nuevas.prec <- data.frame(prec=seq(1.5,101))
nuevas.temp <- data.frame(temp=seq(16,33))
predict(regresion,nuevas.temp)## 1 2 3 4 5 6 7 8
## 1.447091 4.834212 8.221333 11.608455 14.995576 18.382697 21.769818 25.156939
## 9 10 11 12 13 14 15 16
## 28.544060 31.931181 35.318302 38.705423 42.092544 45.479665 48.866786 52.253907
## 17 18
## 55.641028 59.028149
Intervalos de confianza
## 2.5 % 97.5 %
## (Intercept) -142.12456791 36.630878
## temp -0.08534703 6.859589
nuevas.temp <- data.frame(temp=seq(16,33))
#Recta ajustada al gráfico de dispersión
plot(clima$temp, clima$prec, xlab = "Temperatura", ylab="Precipitación")
abline(regresion)
#Intervalos de confianza para la respuesta media
# ic es una matriz con tres columnas: la primera es la prediccion, las otras dos son los extremos del intervalo
ic <- predict(regresion, nuevas.temp, interval = 'confidence')
lines(nuevas.temp$temp, ic[, 2], lty = 2)
lines(nuevas.temp$temp, ic[, 3], lty = 2)
# Intervalos de predicción
ic <- predict(regresion, nuevas.temp, interval = 'prediction')
lines(nuevas.temp$temp, ic[, 2], lty = 2, col = "red")
lines(nuevas.temp$temp, ic[, 3], lty = 2, col = "red")Los datos generados de confianza se encuentran cerca de la recta de mínimo cuadrados. Sin embargo, los datos predecidos están muy alejados a la recta
Análisis de residuales
##" Análisis ANOVA (Análisis de varianza)
## Analysis of Variance Table
##
## Response: prec
## Df Sum Sq Mean Sq F value Pr(>F)
## temp 1 4529.7 4529.7 4.7236 0.05486 .
## Residuals 10 9589.6 959.0
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Diagnóstico del modelo
Se observa que los datos no están tan dispersos. Sin embargo no se ve una correlación notoria
residuos <- rstandard(regresion)
valores.ajustados <- fitted(regresion)
plot(valores.ajustados,residuos)Pruebas de normalidad
No se observa ningún patrón especial, por lo que tanto la homocedasticidad como la linealidad resultan hipótesis razonables.
La hipótesis de normalidad se suele comprobar mediante un QQ plot de los residuos. El siguiente código sirve para obtenerlo:
Los datos presentan una linealidad, por ello se puede expresar como residuos normales
Introducción a la probabilidad
Probabilidad
Probabilidad clásica
La probabilidad clásica predice un resultado en base a todos los posibles sucesos que tenga un evento aleatorio. La probabilidad clásica se encarga de distribuir equitativamente la probabilidad en cada uno de los sucesos que componen al espacio muestral, eso cambia si en el espacio muestral hay conjuntos en lugar de solamente sucesos individuales, pues al haber conjuntos formados por sucesos, habrán algunos conjuntos de sucesos (que también se toman como sucesos individuales) que tenga una mayor probabilidad de salir, pero esto no significa que la probabilidad no se distribuya equitativamente.
Probabilidad distribuida
La distribución de probabilidad de una variable aleatoria es una función que asigna a cada suceso definido sobre la variable la probabilidad de que dicho suceso ocurra.
Distribuciones de frecuencia
La distribución de frecuencias o tabla de frecuencias es una ordenación en forma de tabla de los datos estadísticos, asignando a cada dato su frecuencia correspondiente.
Distribución normal
La distribución normal es un modelo teórico capaz de aproximar satisfactoriamente el valor de una variable aleatoria continua a una situación ideal.
En otras palabras, la distribución normal adapta una variable aleatoria continua a una función que depende de la media y la desviación típica. Es decir, la función y la variable aleatoria continua tendrán la misma representación pero con ligeras diferencias.
Distribución normal
Distribución binomial
Una distribución binomial es una distribución de probabilidad discreta que describe el número de éxitos al realizar n experimentos independientes entre sí, acerca de una variable aleatoria.
Existen una gran diversidad de experimentos o sucesos que pueden ser caracterizados bajo esta distribución de probabilidad. Imaginemos el lanzamiento de una moneda en el que definimos el suceso “sacar cara” como el éxito. Si lanzamos 5 veces la moneda y contamos los éxitos (sacar cara) que obtenemos, nuestra distribución de probabilidades se ajustaría a una distribución binomial.
Distribución binomial
Distribución exponencial
Este modelo suele utilizarse para variables que describen el tiempo hasta que se produce un determinado suceso.
Distribución exponencial
Conclusiones
Las variables Temperatura y Precipitación de la ciudad de Hermosillo si mantienen una relación. Sin embargo, no se puede decir que sea la causalidad una de la otra, ya que son muchos los factores que afectan al clima.
Referencias
Marco Sanjuán, F. (2019). Distribución binomial - Definición, qué es y concepto | Economipedia. Retrieved 6 October 2020, from https://economipedia.com/definiciones/distribucion-binomial.html
Rodó, Paula. (2020). Distribución normal - Definición, qué es y concepto | Economipedia. Retrieved 6 October 2020, from https://economipedia.com/definiciones/distribucion-normal.html
Quintela del Rio, A. (2019). Estadística Básica Edulcoradal. Retrieved 6 October 2020, from https://bookdown.org/aquintela/EBE/
Probabilidad clásica - Ejemplos y definición| Fhybea. Retrieved 6 October 2020, from https://www.fhybea.com/probabilidad_clasica.html