Ejemplo en clase:

La correlación de variables es una medida que nos indica que tan relacionadas estan dos variables.

Si cov = 0 significa que no existe una relación entre las variables

Si cov>0 significa que la relacion entre variables es positiva

Si cov<0 significa que la relación entre variables es positiva

Correlación alta –> cov( +-0.8 , +- 1)

Correlación moderada –> cov ( +-0.6 , +- 0.8)

Correlación baja –> cov( +-0 ,+- 0.6)

Ejercicio-ejemplo 1: X=Gasto , Y=Ingreso

x=c(10,2,5,6,8,9)
y=c(40,10,25,26,30,45)
cor(x,y)
## [1] 0.9493806

Dado que la correlación es igual a 0.9493 esto significa que la relación entre el gasto y el ingreso es alta, es direccatamente proporcional con una tendencia positiva.

Diagrama de dispersión

data1=data.frame(x,y)
library(ggplot2)
ggplot(data1 , aes(x,y))+
  geom_jitter(color="royalblue")+
  geom_smooth(method = lm, color="red")+
  labs(x="Gasto",y="Ingreso")
## `geom_smooth()` using formula = 'y ~ x'

###Regresión lineal del ingreso en función del Gasto

modelo=lm(y~x)
summary(modelo)
## 
## Call:
## lm(formula = y ~ x)
## 
## Residuals:
##       1       2       3       4       5       6 
## -2.6154 -0.7385  2.3077 -0.6769 -4.6462  6.3692 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)   
## (Intercept)   2.7692     4.7384   0.584  0.59031   
## x             3.9846     0.6592   6.045  0.00378 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.339 on 4 degrees of freedom
## Multiple R-squared:  0.9013, Adjusted R-squared:  0.8767 
## F-statistic: 36.54 on 1 and 4 DF,  p-value: 0.003779

Intercepto si x= 0 –> y = 2.7692

si no se gasta en publicidad el ingreso es de 2.7692 millones

pendiente

pendiente—> 3.9846

por cada aumento en el Gasto el ingreso aumenta en 3.9846

Ejemplo 3_ X= Años de experiencia , Y= Ventas Anuales

x1=c(1,3,4,4,6,8,10,10,11,13)
y1=c(80,97,92,102,103,111,119,123,117,136)
cor(x1,y1)
## [1] 0.9645646

Dado que la correlación es igual a 0.9945 esto significa que la relación entre el gasto y el ingreso es alta, es direccatamente proporcional con una tendencia positiva.

Diagrama de dispersión

data2=data.frame(x1,y1)
library(ggplot2)
ggplot(data2 , aes(x1,y1))+
  geom_jitter(color="royalblue")+
  geom_smooth(method = lm, color="red")+
  labs(x="Años de experiencia",y="Ventas anuales(en miles)")
## `geom_smooth()` using formula = 'y ~ x'

Regresión lineal de las ventas anuales en función de los años de experiencia

modelo2=lm(y1~x1)
summary(modelo2)
## 
## Call:
## lm(formula = y1 ~ x1)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
##  -7.00  -3.25  -1.00   3.75   6.00 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  80.0000     3.0753   26.01 5.12e-09 ***
## x1            4.0000     0.3868   10.34 6.61e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.61 on 8 degrees of freedom
## Multiple R-squared:  0.9304, Adjusted R-squared:  0.9217 
## F-statistic: 106.9 on 1 and 8 DF,  p-value: 6.609e-06

EL intercepto es de 80, lo que significa que cuando un vendedor no tiene ningun año de experiecia las ventas son de 80.000 al año . La pendiente es de 4, lo que significa que por cada año mas de experiencia que gane el vendedor sus ventas anuales aumentaran 4.000 por año.

Predicciónes

80+(4*5)
## [1] 100

Vemos que las ventas estimadas para un vendedor que tiene 5 años de experiencia es de 100.000 $ anuales

80+(4*7)
## [1] 108

Vemos que las ventas estimadas para un vendedor que tiene 7 años de experiencia es de 108.000 $ anuales

80+(4*9)
## [1] 116

Vemos que las ventas estimadas para un vendedor que tiene 9 años de experiencia es de 116.000 $ anuales