Regresión lineal simple parte 2
- Para este ejercicio se utilizará la serie de datos “acaho” que son los datos de busquedas de acapulco y busquedas de hoteles en el estado de Guerrero
acapulco.jpg
- Importar datos
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(readr)
acaho <- read_csv("acaho.csv", col_types = cols(hoteles = col_number(),
Acapulco = col_number()))
View(acaho)Conociendo los datos
## Rows: 52
## Columns: 2
## $ hoteles <dbl> 50, 49, 51, 50, 46, 52, 56, 58, 52, 52, 54, 62, 85, 97, 63...
## $ Acapulco <dbl> 66, 67, 70, 67, 65, 75, 80, 75, 69, 68, 69, 75, 100, 99, 7...
Resumen estadístico
## hoteles Acapulco
## Min. :34.00 Min. : 28.00
## 1st Qu.:50.00 1st Qu.: 42.75
## Median :58.00 Median : 53.50
## Mean :58.44 Mean : 58.02
## 3rd Qu.:67.50 3rd Qu.: 72.50
## Max. :97.00 Max. :100.00
Matriz de diagramas de coeficientes de correlación
## hoteles Acapulco
## hoteles 1.000000 0.421323
## Acapulco 0.421323 1.000000
Prueba de Correlación de pearson
##
## Pearson's product-moment correlation
##
## data: acaho$Acapulco and acaho$hoteles
## t = 3.285, df = 50, p-value = 0.001867
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.1677052 0.6226334
## sample estimates:
## cor
## 0.421323
## Loading required package: ggplot2
## Registered S3 method overwritten by 'GGally':
## method from
## +.gg ggplot2
ggpairs(acaho, lower = list(continuous = "smooth"), diag = list(continuous = "bar"), axisLabels = "none")## Warning in check_and_set_ggpairs_defaults("diag", diag, continuous =
## "densityDiag", : Changing diag$continuous from 'bar' to 'barDiag'
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
De lo analizado hasta aquí, podemos concluír que:
La variable “Acapulco” esta relacionada con la variable “Hotles”, por lo cual la usarmeos como respuesta en este modelo.
El coeficiente de correlación de pearson es bajo (0.421323 ) y el valor de P es alto (0.001867), esto indica no tiene una correlación intensa.
No tiene sentido generar un modelo de regresión lineal simple, dado que tiene una correlación y significancia bajas
Modelo de regresión lineal simple
##
## Call:
## lm(formula = hoteles ~ Acapulco, data = acaho)
##
## Residuals:
## Min 1Q Median 3Q Max
## -16.911 -10.693 -4.634 10.658 29.762
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 39.4595 6.0557 6.516 3.43e-08 ***
## Acapulco 0.3272 0.0996 3.285 0.00187 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 13.06 on 50 degrees of freedom
## Multiple R-squared: 0.1775, Adjusted R-squared: 0.1611
## F-statistic: 10.79 on 1 and 50 DF, p-value: 0.001867
Ecuación de la recta de mínimos cuadrados
\[39.4595 + 0.3272x \]
Intervalos de confianza
## 2.5 % 97.5 %
## (Intercept) 27.2962370 51.6228294
## Acapulco 0.1271316 0.5272299
Representación gráfica del modelo
library(ggplot2)
ggplot(data = acaho, mapping = aes(x = Acapulco, y = hoteles)) +
geom_point(color = "firebrick", size = 2) +
geom_smooth(method = "lm", se = TRUE, color = "black") +
labs(title = "Hotles ~ Acapulco", x = "Busuedas de Acapulco", y = "Busquedas de Hoteles") +
theme_bw() + theme(plot.title = element_text(hjust = 0.5)) ## `geom_smooth()` using formula 'y ~ x'
## Verificar condiciones para aceptar o no el modelo
- para evualuar las condiciones que permiten decir que el modelo es válido, se hará un análisis de residuos.
Descripción
En este ejricio hizimos un analisis muy completo de de las busquedas de Acapulco y Hotles en el estado de Guerrero como podemos ver no tienes mucha correlacion ya que es de un 43 % y el valor de P es alto (0.001867), esto indica no tiene una correlación intensa, no es recomendable hacer un analisis a estos datos por lo mismo pero se hizo con el fin de ser un ejemplo, se tubo uns hipotesis que estas estaban correlacionadas porque la ciudad de Acapulco en Mexico es unas de las ciudades con un gran indice turistico y por lo tanto las personas buscan hoteles en la ciudad o cerca de esta pra hospedarse pero como pudimos obervas hay muy poca relacion, tambien como lo podemos ver en la la reprecentacion grafica del modelos los datos estan muy alejados de la linea principal y esta muy dispersos por lo tanto el modelo no es confiable, tambien podemos ver que tiene muchos resiudos y por eso se hizo un estudio de los mismos, podemos concluir que los temas propuestos no se relacionan mucho.