Como ejemplo de análisis de regresión, nos basaremos en el caso de Pizzería Armand, cadena de restaurantes de comida italiana.
Los lugares donde sus establecimientos han tenido más éxito están cercanos a establecimientos de educación superior. Se cree que las ventas trimestrales (representadas por y) en esos restaurantes, se relacionan en forma positiva con la población estudiantil (representada por x). Es decir, que los restaurantes cercanos a centros escolares con gran población tienden a generar más ventas que los que están cerca de centros con población pequeña.
Aplicando el análisis de regresión podremos plantear una ecuación que muestre cómo se relaciona la variable dependiente “y” con la variable independiente “x”.
Para el análisis se tomaron en cuenta los datos datos de población estudiantil y las ventas trimestrales para una muestra de 10 restaurantes.
regresion <- lm(Ventas ~ Estudiantes, data = restaurante)
plot(restaurante$Estudiantes, restaurante$Ventas, xlab='Estudiantes', ylab='Ventas')
abline(regresion)
pairs(restaurante)
cor(restaurante)
## Estudiantes Ventas
## Estudiantes 1.000000 0.950123
## Ventas 0.950123 1.000000
De acuerdo a la gráfica, podemos observar fácilmente que si tenemos un aumento en x provocará una tendencia a un aumento en y, por lo tanto se dice que tenemos una Posible Correlación Positiva.
Utilizamos la línea de ajuste ya que cuando dibujamos la recta nos asegurarnos que está encajara con la mayor cantidad de los datos para poder realizar la siguiente predicción.
Predicción: Tomando en cuenta los datos, podemos predecir fácilmente que cuanto mayor sea la cantidad de estudiantes que lleguen a la pizzería, se generará una mayor cantidad de ventas y por lo tanto se deduce que la pizzería tendrá más ganancias.
Nota: Por correlación se entiende que es el cómo se relacionan ambas variables entre sí.
Siguiendo con la gráfica anterior nosotros calculamos la media y la representamos de la siguiente forma:
x<-median(restaurante$Ventas)
plot(restaurante$Estudiantes, restaurante$Ventas, xlab='Estudiantes', ylab='Ventas')
abline(regresion)
#qqnorm(x)
qqline(x)
Podemos observar que la venta media se encuentra entre los 130 mil pesos trimestrales.
Nota: La media de un conjunto de números, comúnmente llamada promedio, es la suma de los datos dividida entre el número total de los datos.
La distribución normal puede explicarse con la media y la desviación estándar, por ejemplo, generamos una curva teórica a partir de los valores de la media y la desviación estándar de nuestro conjunto de ventas.
ventas <- restaurante$Ventas
hist(ventas, freq = F,
ylab = "Densidad",
xlab = "Ventas", main = "", col="green")
dz <- density(ventas)
lines(dz, col = "red", lwd = 3)
curve(dnorm(x, mean(ventas), sd(ventas)),
col = "blue", lwd = 3, add = TRUE)
Nota: Campana de Gauss, es una representación gráfica de la distribución normal de un grupo de datos. Éstos se reparten en valores bajos, medios y altos, creando un gráfico de forma acampanada y simétrica con respecto a un determinado parámetro.
Fuentes consultadas para la realización de los diagramas: https://picandoconr.wordpress.com/2016/06/16/sobre-la-distribucion-normal/ https://picandoconr.wordpress.com/2016/02/08/graficos-con-r-histogramas/