Para hacer un correcto uso de la regresion lineal simple, para este tipo de problemas, utilizaré la correlacion lineal entre variables, dado que ambos métodos estadisticos que estudian la relacion lienal entre 2 variables. Antes de profundizar en cada uno de ellos, mostraremos algunas caracteristicas y funciones de cada uno:
La correlación lineal cuantifica cuan relacionadas están dos variables, sin tomar en cuenta el orden o asignación de cada variable, sino solo la relacion entre ambas, sin considerar la dependencia; mientras que la regresión lineal consiste en generar una ecuación (modelo) que, basándose en la correlación lineal existente entre 2 variables, permita predecir el valor de una variable a partir de la otra, dicho modelo si varía acorde cuál variable se considere dependiende de la otra(el orden de los productos si altera el resultado);
Para nuestro trabajo experimental, la correlación la emplearemos para 3 variables que no se han controlado y solo medido, entonces solo veremos cuáles si estan relacionadas y haremos posteriormente el respectivo modelo de regresión lineal.
En este caso una empresa de Publicidad está interesada en distribuir proporcionalmente las ventas por condados en Maryland y tenemos aleatoriamente información de varios condados: inventario de las revistas cada 1000 personas, la circulacion de revistas cada 1000 personas y las ventas -per capita- de las revistas.
Primeramente veremos cuales de 3 variables, 2 de ellas tengan a simple vista algun tipo de linealidad o relación, mediante diagramas de dispersión 2 a 2 y cálculo de matrices de variables para intuir si existe dicha correlación; en el caso de que no haya, no tendrá sentido calcular este tipo de correlaciones.
Aqui se observan todos los diagramas posibles que existen 2 a 2, entre las variables a estudiar; y es evidente que solo, a simple vista, existe una evidente correlacion entre: “ventas_per_capita” y “circulacion_revistas_por_cada_1000_personas”.
You can also embed plots, for example:
Note that the echo = FALSE
parameter was added to the code chunk to prevent printing of the R code that generated the plot.