library(readxl)
datost <- read_excel("datost.xlsx")
humr <- hist(datost$RHUM, col = 'blue', ylim = c(0, 800), xlim = c(60, 110), main = 'Distribucion de Humedad relativa', xlab = 'Humedad relativa %')
rug(datost$RHUM, col = 'green')
tmed <- hist(datost$Tmed, col = 'red', ylim = c(0,400), xlim = c(20,30), main = 'Distribucion de Temperatura media', xlab = 'Temperatura media °C')
rug(datost$Tmed, col = 'green')
plot(datost$Tmed,datost$RHUM, main = 'Temperatura media vs Humedad relativa', ylab = 'Humedad Relativa', xlab = 'Temperatura media', pch = 16)
\[Z = \frac{x-\mu_x}{\sigma_x}\] * Para hacer uso de la formula de estandarizacion se debe sacar la media y la desviacion estandar
medtemp = mean(datost$Tmed); medtemp
## [1] 26.20355
sdtemp = sd(datost$Tmed); sdtemp
## [1] 1.174865
medhumr = mean(datost$RHUM); medhumr
## [1] 87.97851
sdhumr = sd(datost$RHUM); sdhumr
## [1] 7.024278
# funcion para estandarizar
estand = function(x){
media = mean(x)
desv = sd(x)
z = (x - media)/desv
return(z)
}
# estandarizando Tmed
etmed = estand(datost$Tmed)
# estandarizando vis
ehumr = estand(datost$RHUM)
#Generando graficos de comparacion
par(mfrow = c(2, 2))
hist(datost$Tmed, main = 'Tmed NO estandarizada', xlab = 'Temperatura media °C', col = 'green' )
hist(etmed, main = 'Tmed estandarizada', xlab = 'Temperatura media', col = 'orange')
hist(datost$RHUM, main = 'Humr NO estandarizada', xlab = 'Humedad relativa', col = 'green')
hist(ehumr, main = 'Humr estandarizada', xlab = 'Humedad relativa', col = 'orange')
Como la estandarizacion hace que la media sea 0 vamos a comprobar
# Datos de temperatura
(medtemp = mean(datost$Tmed)) # media temperatura sin estandarizar
## [1] 26.20355
(dstemp = sd(datost$Tmed)) # desviación temperatura sin estandarizar
## [1] 1.174865
(medetmed = mean(etmed)) # media de temperatura estandarizada
## [1] -8.148022e-16
(desvetmed = sd(etmed)) # desviación de temperatura estandarizada
## [1] 1
#Datos de humedad relariva
(medhumr = mean(datost$RHUM)) # media temperatura sin estandarizar
## [1] 87.97851
(dshumr = sd(datost$RHUM)) # desviación temperatura sin estandarizar
## [1] 7.024278
(medehumr = mean(ehumr)) # media de temperatura estandarizada = 0
## [1] 2.866366e-16
(desvehumr = sd(ehumr)) # desviación de temperatura estandarizada = 1
## [1] 1
pch = 19, cex = 0.8, pch = 19, cex = 0.8
par(mfrow = c(1, 2))
plot(etmed, ehumr, pch = 19, cex = 0.5, main = 'Estandarizado')
points(x = mean(etmed), y = mean(ehumr), col = 'red', pch = 20)
plot(datost$Tmed, datost$RHUM, pch =19, cex = 0.5, main = 'No Estandarizado')
points(x = mean(datost$Tmed), y = mean(datost$RHUM), col = 'orange', pch = 20)
grafico no estandarizado con igual escala en los ejes
plot(datost$Tmed, datost$RHUM, pch =19, cex = 0.5, ylim = c(0,100), xlim = c(0,100), main = 'No Estandarizado', ylab = 'Humedad relativa %', xlab = 'Temperatura media en °C')
cor(datost$Tmed, datost$RHUM)
## [1] -0.6034923
Analisis: La grafica de los datos sin estandarizar es engañosa ya que al evidenciar escalas de medida diferentes pueden arrojar datos de correlacion erroneos mientras que la estandarizada al estar con la misma escala nos da una vision mas cercana de la correlacion de los datos.