Impactul corelatiei dintre predictori asupra estimarii coeficientilor de regresie

Regression model

Analyzed data set: generated.

Loading the necesary packages…

Project Objectives

Obiectivul proiectului este de a pune in evidenta efectul gradului de corelatie dintre predictori asupra estimatorilor coeficienților de regresie.

Modelul de regresie liniară multipla

Ecuatia modelului de regresie este:

\[Y_i = a + b X_i + \varepsilon_i\]

Linia de regresie estimata reprezinta media conditionata a variabilei dependente pentru o valoarea data a variabilelor independente:

\[\hat{y} = a + b x\]

Diferenta dintre valoarea estimata si valoarea observata represinta eroarea de estimare:

\[e_i = y_i - \hat{y}_i\]

Modelul OLS permite estimarea parametrilor de regresie prin minimizarea sumei patratelor erorilor (RSS):

Estimarea parametrilor de regresie

In modelul de regresie OLS estimarea parametrilor de regresie se face cu ajutorul metodei celor mai mici patrate care da si denumirea acestui model (OLS - Ordinary Least Squares)

\[ Y \mid X = x_i \sim N(\mu_i,\sigma^2) \]

Metoda este bazata pe determinarea valorilor coeficientilor de regresie care minimizeaza suma patratelor erorilor:

\[RSS = \sum_{i=1}^{n} (y_i - a - b x_i)^2 = min = \sum_{i=1}^{n} e_i^2 \]

prin minimizarea acestei functii se obtin valorile estimate ale coeficientilor de regresie:

panta de regresie sau parametrul b

\[\hat{b} = \frac{\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^{n}(x_i-\bar{x})^2}\]

ordonata la origine

\[\hat{a} = \bar{y} - \hat{b}\bar{x}\]

unde: \(\bar{y}\) este media variabilei răspuns, respectiv \(\bar{x}\) este media valorilor predictorului

Astfel obtinem valorile estimate sau linia de regresie estimata:

\[\hat{y}_i = \hat{a} + \hat{b}x_i\]

care aproximeaza legatura dintre variabila dependenta si variabilele predictor pentru care suma patratului erorilor este minima.

Modelul de regresie liniară multipla

Modelul de regresie liniară multiplă descrie relația dintre variabila dependentă și un set de predictori.

Ecuatia modelului de regresie pentru observația \(i\):

\[ Y_i = \beta_0 + \beta_1 X_{i1} + \beta_2 X_{i2} + \dots + \beta_p X_{ip} + \varepsilon_i \]

unde:

\(Y_i\) este variabila dependentă
\(X_{ij}\) reprezintă predictorii
\(\beta_j\) sunt coeficienții modelului
\(\varepsilon_i\) este termenul de eroare.

Media erorilor urmeaza o lege normala de medie zero si varianta constanta \(\sigma^2\).

\[ \varepsilon_i \sim N(0,\sigma^2) \]

Estimatorul reprezinta regula statistica prin care sunt obtinuti coeficienti de regresie intr-o simulare, aplicata asupra unui esantion de volum n. Estimatia este valoarea numerica obtinuta intr-o simulare.

\[\hat{\beta}\ =\ {(X^TX)}^{-1}X^Ty\]

Formula prin care obtinem coeficienti modelului de regresie in fiecare simulare.

Fiecare punct al norului de puncte corespunde unei simulari si reprezinta perechea estimarii (\(\widehat{\beta_1},\ \widehat{\beta_2}\)) corespunzator unei singure simulari. In Fig. sunt prezentate variatia estimarilor celor doi coeficienti de regresie (distributiile estimatiilor coeficientilor de regresie) (\(\widehat{\beta_1},\ \widehat{\beta_2}\)) sau a erorilor de estimare (\(e_1,\ e_2\)) de la o simulare al alta. Se poate observa cat de mult variaza estimatiile estimatorilor fata de valoarea adevarata. Graficele pun in evidenta efectul multicolinearitatii asupra estimatiilor coeficientilor de regresie, dependenta dintre acestia.

Calcularea erorii de estimare, a coeficientului de corelatie si a covariantei

Mai jos sunt prezentate valorile obtinute pentru coeficienti de corelatie, respectiv a covarianta pentru diferite valori ale coeficientului de corelatie intre predictori.

Observam ca intre estimatiile coeficientilor de regresie asociati predictorilor, respectiv intre erorile de estimare exista o leagatura inversa pentru valori pozitive ale coeficientului de regresie intre predictori.

Nr.Crt.	r	cor_errors	cov_errors
1	0	-0.0567	-0.00232
2	0.1	-0.123	-0.00508
3	0.2	-0.222	-0.00951
4	0.3	-0.321	-0.0145
5	0.4	-0.419	-0.0206
6	0.5	-0.517	-0.0286
7	0.6	-0.615	-0.0399
8	0.7	-0.712	-0.0581
9	0.8	-0.808	-0.0937
10	0.95	-0.952	-0.409
11	0.98	-0.981	-1.04
12	0.99	-0.99	-2.09

Reprezentarea grafica a erorii de estimare a coeficientilor de regresie

In Figura este prezentata, pentru diferite valori ale coeficientului de regresie intre predictori, dependenta dintre erorile de estimare.

Se poate observa ca intre eroile de estimare ale coeficientilor exista o legatura inversa.

Testarea coeficientului de corelatie dintre erorile de estimare

cu scopul de a vedea daca intre erorile estimate ale coeficientilor de regresie exista o legatura semnificativa am testat coeficeintul de corelatie.

Formularea ipotezlor:

\(H_0\): \(cov(e_1, e_2) \neq 0\) sau \(cor(e_1, e_2) \neq 0\)

\(H_1\): \(cov(e_1, e_2) = 0\) sau \(cov(e_1, e_2) = 0\)

Nr.Crt.	r	cor_test	p_value	hypothesis	decision
1	0	-0.0567	0.0731	accept H0	ns
2	0.1	-0.123	0.000101	reject H0	s
3	0.2	-0.222	1.22e-12	reject H0	s
4	0.3	-0.321	2.1e-25	reject H0	s
5	0.4	-0.419	6.78e-44	reject H0	s
6	0.5	-0.517	1.38e-69	reject H0	s
7	0.6	-0.615	4.41e-105	reject H0	s
8	0.7	-0.712	2.06e-155	reject H0	s
9	0.8	-0.808	0	reject H0	s
10	0.95	-0.952	0	reject H0	s
11	0.98	-0.981	0	reject H0	s
12	0.99	-0.99	0	reject H0	s

Deoarece, datele sunt generate gaussian, iar estimatori sunt combinatii liniare ale variabilei dependente, necorelarea erorilor si independenta coincid: \[cov(e_1, e_2) = 0 \Longleftrightarrow e_1 \text{ si } e_2 \text{ sunt independente}\] Motiv pentru care putem testa coeficienti de corelatie pentru verificarea independentei.

Observam ca erorile de estimare a coeficientilor de regresie nu sunt independente.Pentru valori mici ale coeficientului de corelatie intre predictori valorile p-value sunt foarte mici si incep sa creasca pe masura ce gradul de multicolinearitate creste.

Observam ca corelatia este semnificativ diferita de zero, prin urmare erorile de estimare sunt dependente.

Efectul multicolinearitatii asupra estimatiilor coeficientilor modelului de regresie

Pentru valori negative ale coeficietului de corelatie intre predictori observam ca legatura dintre estimatiile coeficientilor de regresie este directa.

Legatura dintre estimatiile coeficientilor modelului de regresie

Observam ca rezultatele obtinute sunt similare cu cele obtinute pentru valori pozitive ale coeficientului de corelatie intre predictori.

Calcularea erorii de estimare, a coeficientului de corelatie si a covariantei

Valorile coeficientului de corelatie dintre predictori sunt pozitive.

Nr.Crt.	r	cor_errors	cov_errors
1	-0.99	0.99	2.09
2	-0.98	0.981	1.04
3	-0.95	0.952	0.409
4	-0.8	0.808	0.0937
5	-0.7	0.712	0.0581
6	-0.6	0.615	0.0399
7	-0.5	0.517	0.0286
8	-0.4	0.419	0.0206
9	-0.3	0.321	0.0145
10	-0.2	0.222	0.00951
11	-0.1	0.123	0.00508
12	0	-0.0567	-0.00232

Reprezentarea grafica a erorii de estimare a coeficientilor

Testarea coeficientului de corelatie dintre erorile de estimare

Nr.Crt.	r	cor_test	p_value	hypothesis	decision
1	-0.99	0.99	0	reject H0	s
2	-0.98	0.981	0	reject H0	s
3	-0.95	0.952	0	reject H0	s
4	-0.8	0.808	0	reject H0	s
5	-0.7	0.712	2.06e-155	reject H0	s
6	-0.6	0.615	4.41e-105	reject H0	s
7	-0.5	0.517	1.38e-69	reject H0	s
8	-0.4	0.419	6.78e-44	reject H0	s
9	-0.3	0.321	2.1e-25	reject H0	s
10	-0.2	0.222	1.22e-12	reject H0	s
11	-0.1	0.123	0.000101	reject H0	s
12	0	-0.0567	0.0731	accept H0	ns

Bibliography

https://ehsanx.github.io/EpiMethods/predictivefactors1.html#:~:text=Avoiding%20collinear%20variables%20can%20result%20in%20a,predicted%20from%20the%20others%20with%20substantial%20accuracy.
Masdeu Lluís, Recognising and Dealing with Multicollinearity, 2025, https://medium.com/@masdeu.lluis/recognising-and-dealing-with-multicollinearity-e3fa899f0bfc.
Clay Ford, Addressing Multicollinearity, 2025, https://library.virginia.edu/data/articles/addressing-multicollinearity.
D.A. Belsley, E. Kuh, R.E. Welsch, Regression diagnostics. Identifying influential data and sources of collinearity, WILEY INTERSCIENCE, A JOHN WILEY & SONS, INC., PUBLICATION.
Stephanie C. C. van der Lubbe, Jose M. Valderas, Evangelos Kontopantelis, The effect of collinearity and sample size on linear regression results: a simulation study, 2026, https://arxiv.org/pdf/2601.18072.
Salmerón, R., García, C. B., & García, J. (2018). Variance Inflation Factor and Condition Number in multiple linear regression. Journal of Statistical Computation and Simulation, 88(12), 2365–2384.
https://doi.org/10.1080/00949655.2018.1463376
C. Davino, R. Romano, D. Vistocco, Handling multicollinearity in quantile regression through the use of principal component regression, METRON (2022) 80:153–174 https://doi.org/10.1007/s40300-022-00230-3.
D. E. Farrar, R. R. Glauber, Multicollinearity in regression analysis the problem revisited, 1964, Sloan School of Management Massachusetts Institute of Technology Cambridge 39, Massachusetts, https://dspace.mit.edu/bitstream/handle/1721.1/48530/multicollinearit00farr.pdf 18.03.2026.
Noora Shrestha, Detecting Multicollinearity in Regression Analysis, American Journal of Applied Mathematics and Statistics, 2020, Vol. 8, No. 2, 39-42, https://www.researchgate.net/publication/342413955_Detecting_Multicollinearity_in_Regression_Analysi.
https://rafalab.dfci.harvard.edu/dsbook/ggplot2.html accessed on 11.03.2026.
https://jrnold.github.io/r4ds-exercise-solutions/data-visualisation.html accessed on 11.03.2026.
https://www.appsilon.com/post/ggplot2-histograms accessed on 11.03.2026.
Number of predictors and multicollinearity: What are their effects on error and bias in regression? https://www.tandfonline.com/doi/full/10.1080/03610918.2017.1371750?scroll=top&needAccess=true

Impactul corelatiei dintre predictori asupra estimarii coeficientilor de regresie

by Irimia Mihaela

2026-03-22

Regression model

Analyzed data set: generated.

Bibliography