U1R1

Marijose González del Real

06/Oct/2020

Temperatura y Precipitación de la ciudad de Hermosillo, Sonora. Periodo: 1981-2010

Clima

  • Importar

Se utiliza la librería pacman para instalar y cargar los paquetes que se indican. Además se crea la variable de los datos importados a utilizar Datos obtenidos de https://smn.conagua.gob.mx/es/informacion-climatologica-por-estado?estado=son

library(pacman)
p_load("readr","DT","prettydoc","fdth","modeest")
datoshillo <- read_csv("datoshillo.csv")
## Parsed with column specification:
## cols(
##   Fecha = col_character(),
##   temp = col_double(),
##   prec = col_double()
## )
  • Visualizar Se crea una tabla con las variables que pertenecen a los datos importados para visualizarlas
datatable(datoshillo)

Primer repaso de la unidad 1 de la materia de estadística aplicada

Distribuciones de frecuencia

Tabla de distribución de frecuencia

Se obtienen tablas de distribución de frecuencia para analizar las frecuencias absolutas, relativas y acumuladas, con sus respectivas clases.

dist <- fdt(datoshillo, breaks="Sturges")
dist
## temp 
##     Class limits f   rf rf(%) cf  cf(%)
##  [16.929,20.108) 3 0.25 25.00  3  25.00
##  [20.108,23.287) 2 0.17 16.67  5  41.67
##  [23.287,26.467) 1 0.08  8.33  6  50.00
##  [26.467,29.646) 2 0.17 16.67  8  66.67
##  [29.646,32.825) 4 0.33 33.33 12 100.00
## 
## prec 
##     Class limits f   rf rf(%) cf  cf(%)
##    [2.475,22.22) 8 0.67 66.67  8  66.67
##   [22.22,41.966) 1 0.08  8.33  9  75.00
##  [41.966,61.711) 0 0.00  0.00  9  75.00
##  [61.711,81.457) 1 0.08  8.33 10  83.33
##   [81.457,101.2) 2 0.17 16.67 12 100.00
#nos brinda una tabla con los calculos de la distribución de frecuencias.
#Donde
#f= frecuencia absoluta
#rf= frecuencia relativa
#rf(%) frecuencia relativa porcentual
#cf= frecuencia acumulada
#cf(%)=frecuencia acumulada porcentual

Histograma de distribución de frecuencia

Se crean histogramas que representan la frecuencia absoluta, acumulada y relativa. Se puede analizar que en Hermosillo la temperatura más frecuente está en la clase 29.65 y su precipitación está en la clase 2.48 a 22.22

plot(dist, type="fh") # histograma de frecuencia absoluta

plot(dist, type="cfh") # histograma de frecuencia acumulada

plot(dist, type="rfh") # histograma de frecuencia relativa

Polígono de distribución de frecuencia

En los polígonos se expresan con mayor claridad los datos que se encuentran más frecuentes

plot(dist, type="fp") # Polígono de frecuencia absoluta

plot(dist, type="cfp") # Polígono de frecuencia acumulada

plot(dist, type="rfp") # Polígono de frecuencia relativa

Medidas de tendencia central

Media

La temperatura promedio en Hermosillo corresponde a 25 grados, mientras que la precipitación promedio a 32.24

mean(datoshillo$temp)
## [1] 25.09167
mean(datoshillo$prec)
## [1] 32.24167

Mediana

La mediana corresponde al valor medio de los datos

median(datoshillo$temp)
## [1] 25.5
median(datoshillo$prec)
## [1] 17.3

Moda

En la temperatura existe una moda de 17.3, es decir, que ese valor de temperatura se repite más que los demás valores. Por otra parte, en la precipitación no existe una moda debido a que ningún valor se repite.

mfv(datoshillo$prec, method="discrete")
## [1] 17.3
mfv(datoshillo$temp, method="discrete")
##  [1] 17.1 17.2 18.5 20.9 21.3 24.1 26.9 27.9 31.0 31.8 31.9 32.5

Ordenar datos de menor a mayor

Al ordenar datos podemos observar que la temperatura media más baja en Hermosillo es de 17.1°C, mientras que la media máxima es de 32.5°C y la precipitación va de 2.5 hasta 100.2

sort(datoshillo$temp)
##  [1] 17.1 17.2 18.5 20.9 21.3 24.1 26.9 27.9 31.0 31.8 31.9 32.5
sort(datoshillo$prec)
##  [1]   2.5   3.7   6.5   8.4  16.6  17.3  17.3  18.3  29.1  69.0  98.0 100.2

Cuantiles

En el 25% de los valores de temperatura se encuentra el primer cuantil, el cual es de 20.3°C, el tercer cuantil representa el 75% de los valores con el 31.2°C. Por otra parte, en los datos de precipitación se obtiene 7.925 correspondiendo al 25% de los datos y 39.075 al 75%.

summary(datoshillo$temp)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   17.10   20.30   25.50   25.09   31.20   32.50
summary(datoshillo$prec)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   2.500   7.925  17.300  32.242  39.075 100.200

Valores máximos y mínimos

La temperatura media máxima en Hermosillo es de 32.5°C, mientras que su mínima es de 17.1°C

TempMax <- max(datoshillo$temp)
TempMin <- min(datoshillo$temp)

Gráfico (diagrama) de caja y bigote

En este gráfico se observa que no hay valores atípicos en los datos

boxplot(datoshillo$temp)

boxplot(datoshillo$prec)

Medidas de dispersión

Amplitud (rango, alcance)

El rango de la temperatura es de 15.4

amp <- (TempMax - TempMin)

Varianza

Se analiza la dispersión de los datos

var(datoshillo$temp)
## [1] 35.89356
var(datoshillo$prec)
## [1] 1283.575

Desviación estándar

Los datos no están tan dispersos debido a que sus desviaciones estándar son pequeñas

sd(datoshillo$temp)
## [1] 5.991123
sd(datoshillo$prec)
## [1] 35.82702

Análisis de correlación

Correlación pearson

Aquí se analiza si existe una relación entre las variables de los datos Temperatura y Precipitación. Al obtener un valor de 0.566 se puede decir que hay una cierta relación pero no es muy grande.

temp <- datoshillo$temp
prec <- datoshillo$prec
clima <- data.frame(temp,prec)
cor(clima)
##           temp      prec
## temp 1.0000000 0.5664066
## prec 0.5664066 1.0000000

Diagramas de dispersión

De manera visual podemos ver que tan dispersos estan nuestros datos y si se observa una línea de correlación, la cual no se aprecia tan a detalle.

pairs(clima)

Regresión lineal simple

Se obtiene el sumario de la regresión lineal, el cual nos ayuda a identificar valores de cuantiles y coeficientes

regresion <- lm (prec ~ temp, data=clima )
summary(regresion)
## 
## Call:
## lm(formula = prec ~ temp, data = clima)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -46.564 -21.346   2.293  18.541  44.898 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)  
## (Intercept)  -52.747     40.113  -1.315   0.2179  
## temp           3.387      1.558   2.173   0.0549 .
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 30.97 on 10 degrees of freedom
## Multiple R-squared:  0.3208, Adjusted R-squared:  0.2529 
## F-statistic: 4.724 on 1 and 10 DF,  p-value: 0.05486

Recta de minimos cuadrados

Ecuación de la recta

Con los datos que proporcionó el sumario, se puede obtener la ecuación de la recta \[ y = -52.747 + 3.387 x \]

Ajuste de la recta

Aquí se puede analizar como están distribuidos los datos con respecto a la recta, los cuales se ven un poco alejados

plot(clima$temp, clima$prec, xlab = "Temperatura", ylab="Precipitación")
abline(regresion)

Predicción

Se pueden predecir valores de temperatura y precipitación con un rango más amplio al original

sort(prec)
##  [1]   2.5   3.7   6.5   8.4  16.6  17.3  17.3  18.3  29.1  69.0  98.0 100.2
nuevas.prec <- data.frame(prec=seq(1.5,101))
nuevas.temp <- data.frame(temp=seq(16,33))
predict(regresion,nuevas.temp)
##         1         2         3         4         5         6         7         8 
##  1.447091  4.834212  8.221333 11.608455 14.995576 18.382697 21.769818 25.156939 
##         9        10        11        12        13        14        15        16 
## 28.544060 31.931181 35.318302 38.705423 42.092544 45.479665 48.866786 52.253907 
##        17        18 
## 55.641028 59.028149

Intervalos de confianza

confint(regresion)
##                     2.5 %    97.5 %
## (Intercept) -142.12456791 36.630878
## temp          -0.08534703  6.859589
nuevas.temp <- data.frame(temp=seq(16,33))

#Recta ajustada al gráfico de dispersión
plot(clima$temp, clima$prec, xlab = "Temperatura", ylab="Precipitación")
abline(regresion)

#Intervalos de confianza para la respuesta media 
# ic es una matriz con tres columnas: la primera es la prediccion, las otras dos son los extremos del intervalo
ic <- predict(regresion, nuevas.temp, interval = 'confidence')
lines(nuevas.temp$temp, ic[, 2], lty = 2)
lines(nuevas.temp$temp, ic[, 3], lty = 2)

# Intervalos de predicción
ic <- predict(regresion, nuevas.temp, interval = 'prediction')
lines(nuevas.temp$temp, ic[, 2], lty = 2, col = "red")
lines(nuevas.temp$temp, ic[, 3], lty = 2, col = "red")

Los datos generados de confianza se encuentran cerca de la recta de mínimo cuadrados. Sin embargo, los datos predecidos están muy alejados a la recta

Análisis de residuales

##" Análisis ANOVA (Análisis de varianza)

anova(regresion)
## Analysis of Variance Table
## 
## Response: prec
##           Df Sum Sq Mean Sq F value  Pr(>F)  
## temp       1 4529.7  4529.7  4.7236 0.05486 .
## Residuals 10 9589.6   959.0                  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Diagnóstico del modelo

Se observa que los datos no están tan dispersos. Sin embargo no se ve una correlación notoria

residuos <- rstandard(regresion)
valores.ajustados <- fitted(regresion)
plot(valores.ajustados,residuos)

Pruebas de normalidad

No se observa ningún patrón especial, por lo que tanto la homocedasticidad como la linealidad resultan hipótesis razonables.

La hipótesis de normalidad se suele comprobar mediante un QQ plot de los residuos. El siguiente código sirve para obtenerlo:

qqnorm(residuos)
qqline(residuos)

Los datos presentan una linealidad, por ello se puede expresar como residuos normales

Shapiro-wilk

shapiro.test(residuos)
## 
##  Shapiro-Wilk normality test
## 
## data:  residuos
## W = 0.97286, p-value = 0.9383

los datos son normales

Introducción a la probabilidad

Probabilidad

Probabilidad clásica

La probabilidad clásica predice un resultado en base a todos los posibles sucesos que tenga un evento aleatorio. La probabilidad clásica se encarga de distribuir equitativamente la probabilidad en cada uno de los sucesos que componen al espacio muestral, eso cambia si en el espacio muestral hay conjuntos en lugar de solamente sucesos individuales, pues al haber conjuntos formados por sucesos, habrán algunos conjuntos de sucesos (que también se toman como sucesos individuales) que tenga una mayor probabilidad de salir, pero esto no significa que la probabilidad no se distribuya equitativamente.

Probabilidad distribuida

La distribución de probabilidad de una variable aleatoria es una función que asigna a cada suceso definido sobre la variable la probabilidad de que dicho suceso ocurra.

Distribuciones de frecuencia

La distribución de frecuencias o tabla de frecuencias es una ordenación en forma de tabla de los datos estadísticos, asignando a cada dato su frecuencia correspondiente.

Distribución normal

La distribución normal es un modelo teórico capaz de aproximar satisfactoriamente el valor de una variable aleatoria continua a una situación ideal.

En otras palabras, la distribución normal adapta una variable aleatoria continua a una función que depende de la media y la desviación típica. Es decir, la función y la variable aleatoria continua tendrán la misma representación pero con ligeras diferencias.

Distribución normal

Distribución binomial

Una distribución binomial es una distribución de probabilidad discreta que describe el número de éxitos al realizar n experimentos independientes entre sí, acerca de una variable aleatoria.

Existen una gran diversidad de experimentos o sucesos que pueden ser caracterizados bajo esta distribución de probabilidad. Imaginemos el lanzamiento de una moneda en el que definimos el suceso “sacar cara” como el éxito. Si lanzamos 5 veces la moneda y contamos los éxitos (sacar cara) que obtenemos, nuestra distribución de probabilidades se ajustaría a una distribución binomial.

Distribución binomial

Distribución exponencial

Este modelo suele utilizarse para variables que describen el tiempo hasta que se produce un determinado suceso.

Distribución exponencial

Conclusiones

Las variables Temperatura y Precipitación de la ciudad de Hermosillo si mantienen una relación. Sin embargo, no se puede decir que sea la causalidad una de la otra, ya que son muchos los factores que afectan al clima.

Referencias