Regresión lineal simple parte 2

Para este ejercicio se utilizará la serie de datos “acaho” que son los datos de busquedas de acapulco y busquedas de hoteles en el estado de Guerrero

acapulco.jpg

Importar datos

library(pacman)
library(dplyr)

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

library(readr)
acaho <- read_csv("acaho.csv", col_types = cols(hoteles = col_number(), 
    Acapulco = col_number()))
View(acaho)

Conociendo los datos

glimpse(acaho)

## Rows: 52
## Columns: 2
## $ hoteles  <dbl> 50, 49, 51, 50, 46, 52, 56, 58, 52, 52, 54, 62, 85, 97, 63...
## $ Acapulco <dbl> 66, 67, 70, 67, 65, 75, 80, 75, 69, 68, 69, 75, 100, 99, 7...

Resumen estadístico

summary(acaho)

##     hoteles         Acapulco     
##  Min.   :34.00   Min.   : 28.00  
##  1st Qu.:50.00   1st Qu.: 42.75  
##  Median :58.00   Median : 53.50  
##  Mean   :58.44   Mean   : 58.02  
##  3rd Qu.:67.50   3rd Qu.: 72.50  
##  Max.   :97.00   Max.   :100.00

Matriz de diagramas de dispersión

pairs(acaho)

Matriz de diagramas de coeficientes de correlación

cor(acaho)

##           hoteles Acapulco
## hoteles  1.000000 0.421323
## Acapulco 0.421323 1.000000

Prueba de Correlación de pearson

cor.test(x = acaho$Acapulco, y= acaho$hoteles, method="pearson", digits=3)

## 
##  Pearson's product-moment correlation
## 
## data:  acaho$Acapulco and acaho$hoteles
## t = 3.285, df = 50, p-value = 0.001867
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.1677052 0.6226334
## sample estimates:
##      cor 
## 0.421323

library(GGally)

## Loading required package: ggplot2

## Registered S3 method overwritten by 'GGally':
##   method from   
##   +.gg   ggplot2

ggpairs(acaho, lower = list(continuous = "smooth"), diag = list(continuous = "bar"), axisLabels = "none")

## Warning in check_and_set_ggpairs_defaults("diag", diag, continuous =
## "densityDiag", : Changing diag$continuous from 'bar' to 'barDiag'

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

De lo analizado hasta aquí, podemos concluír que:

La variable “Acapulco” esta relacionada con la variable “Hotles”, por lo cual la usarmeos como respuesta en este modelo.
El coeficiente de correlación de pearson es bajo (0.421323 ) y el valor de P es alto (0.001867), esto indica no tiene una correlación intensa.
No tiene sentido generar un modelo de regresión lineal simple, dado que tiene una correlación y significancia bajas

Modelo de regresión lineal simple

modelo.lineal <- lm(hoteles ~ Acapulco, data= acaho)
summary(modelo.lineal)

## 
## Call:
## lm(formula = hoteles ~ Acapulco, data = acaho)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -16.911 -10.693  -4.634  10.658  29.762 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  39.4595     6.0557   6.516 3.43e-08 ***
## Acapulco      0.3272     0.0996   3.285  0.00187 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 13.06 on 50 degrees of freedom
## Multiple R-squared:  0.1775, Adjusted R-squared:  0.1611 
## F-statistic: 10.79 on 1 and 50 DF,  p-value: 0.001867

Ecuación de la recta de mínimos cuadrados

\[39.4595 + 0.3272x \]

Intervalos de confianza

confint(modelo.lineal)

##                  2.5 %     97.5 %
## (Intercept) 27.2962370 51.6228294
## Acapulco     0.1271316  0.5272299

Representación gráfica del modelo

library(ggplot2)
ggplot(data = acaho, mapping = aes(x = Acapulco, y = hoteles)) +
geom_point(color = "firebrick", size = 2) +
geom_smooth(method = "lm", se = TRUE, color = "black") +
labs(title = "Hotles ~ Acapulco", x = "Busuedas de Acapulco", y = "Busquedas de Hoteles") +
theme_bw() + theme(plot.title = element_text(hjust = 0.5))

## `geom_smooth()` using formula 'y ~ x'

## Verificar condiciones para aceptar o no el modelo

para evualuar las condiciones que permiten decir que el modelo es válido, se hará un análisis de residuos.

par(mfrow =c(1,2))
plot(modelo.lineal)

Contraste de hipótesis (normalidad de los residuos)

Según el método de prueba de Shapiro-wilk

shapiro.test(modelo.lineal$residuals)

## 
##  Shapiro-Wilk normality test
## 
## data:  modelo.lineal$residuals
## W = 0.90128, p-value = 0.000407

Descripción

En este ejricio hizimos un analisis muy completo de de las busquedas de Acapulco y Hotles en el estado de Guerrero como podemos ver no tienes mucha correlacion ya que es de un 43 % y el valor de P es alto (0.001867), esto indica no tiene una correlación intensa, no es recomendable hacer un analisis a estos datos por lo mismo pero se hizo con el fin de ser un ejemplo, se tubo uns hipotesis que estas estaban correlacionadas porque la ciudad de Acapulco en Mexico es unas de las ciudades con un gran indice turistico y por lo tanto las personas buscan hoteles en la ciudad o cerca de esta pra hospedarse pero como pudimos obervas hay muy poca relacion, tambien como lo podemos ver en la la reprecentacion grafica del modelos los datos estan muy alejados de la linea principal y esta muy dispersos por lo tanto el modelo no es confiable, tambien podemos ver que tiene muchos resiudos y por eso se hizo un estudio de los mismos, podemos concluir que los temas propuestos no se relacionan mucho.

U1A14

felipe escarrega valdez

4/10/2020