Loading the necesary packages…
Obiectivul proiectului este de a pune in evidenta efectul gradului de corelatie dintre predictori asupra estimatorilor coeficienților de regresie.
Ecuatia modelului de regresie este:
\[Y_i = a + b X_i + \varepsilon_i\]
Linia de regresie estimata reprezinta media conditionata a variabilei dependente pentru o valoarea data a variabilelor independente:
\[\hat{y} = a + b x\]
Diferenta dintre valoarea estimata si valoarea observata represinta eroarea de estimare:
\[e_i = y_i - \hat{y}_i\]
Modelul OLS permite estimarea parametrilor de regresie prin minimizarea sumei patratelor erorilor (RSS):
In modelul de regresie OLS estimarea parametrilor de regresie se face cu ajutorul metodei celor mai mici patrate care da si denumirea acestui model (OLS - Ordinary Least Squares)
\[ Y \mid X = x_i \sim N(\mu_i,\sigma^2) \]
Metoda este bazata pe determinarea valorilor coeficientilor de regresie care minimizeaza suma patratelor erorilor:
\[RSS = \sum_{i=1}^{n} (y_i - a - b x_i)^2 = min = \sum_{i=1}^{n} e_i^2 \]
prin minimizarea acestei functii se obtin valorile estimate ale coeficientilor de regresie:
panta de regresie sau parametrul b
\[\hat{b} = \frac{\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^{n}(x_i-\bar{x})^2}\]
ordonata la origine
\[\hat{a} = \bar{y} - \hat{b}\bar{x}\]
unde: \(\bar{y}\) este media variabilei răspuns, respectiv \(\bar{x}\) este media valorilor predictorului
Astfel obtinem valorile estimate sau linia de regresie estimata:
\[\hat{y}_i = \hat{a} + \hat{b}x_i\]
care aproximeaza legatura dintre variabila dependenta si variabilele predictor pentru care suma patratului erorilor este minima.
Modelul de regresie liniară multiplă descrie relația dintre variabila dependentă și un set de predictori.
Ecuatia modelului de regresie pentru observația \(i\):
\[ Y_i = \beta_0 + \beta_1 X_{i1} + \beta_2 X_{i2} + \dots + \beta_p X_{ip} + \varepsilon_i \]
unde:
Media erorilor urmeaza o lege normala de medie zero si varianta constanta \(\sigma^2\).
\[ \varepsilon_i \sim N(0,\sigma^2) \]
Estimatorul reprezinta regula statistica prin care sunt obtinuti coeficienti de regresie intr-o simulare, aplicata asupra unui esantion de volum n. Estimatia este valoarea numerica obtinuta intr-o simulare.
\[\hat{\beta}\ =\ {(X^TX)}^{-1}X^Ty\]
Formula prin care obtinem coeficienti modelului de regresie in fiecare simulare.
Fiecare punct al norului de puncte corespunde unei simulari si reprezinta perechea estimarii (\(\widehat{\beta_1},\ \widehat{\beta_2}\)) corespunzator unei singure simulari. In Fig. sunt prezentate variatia estimarilor celor doi coeficienti de regresie (distributiile estimatiilor coeficientilor de regresie) (\(\widehat{\beta_1},\ \widehat{\beta_2}\)) sau a erorilor de estimare (\(e_1,\ e_2\)) de la o simulare al alta. Se poate observa cat de mult variaza estimatiile estimatorilor fata de valoarea adevarata. Graficele pun in evidenta efectul multicolinearitatii asupra estimatiilor coeficientilor de regresie, dependenta dintre acestia.
Mai jos sunt prezentate valorile obtinute pentru coeficienti de corelatie, respectiv a covarianta pentru diferite valori ale coeficientului de corelatie intre predictori.
Observam ca intre estimatiile coeficientilor de regresie asociati predictorilor, respectiv intre erorile de estimare exista o leagatura inversa pentru valori pozitive ale coeficientului de regresie intre predictori.
| Nr.Crt. | r | cor_errors | cov_errors |
|---|---|---|---|
| 1 | 0 | -0.0567 | -0.00232 |
| 2 | 0.1 | -0.123 | -0.00508 |
| 3 | 0.2 | -0.222 | -0.00951 |
| 4 | 0.3 | -0.321 | -0.0145 |
| 5 | 0.4 | -0.419 | -0.0206 |
| 6 | 0.5 | -0.517 | -0.0286 |
| 7 | 0.6 | -0.615 | -0.0399 |
| 8 | 0.7 | -0.712 | -0.0581 |
| 9 | 0.8 | -0.808 | -0.0937 |
| 10 | 0.95 | -0.952 | -0.409 |
| 11 | 0.98 | -0.981 | -1.04 |
| 12 | 0.99 | -0.99 | -2.09 |
In Figura este prezentata, pentru diferite valori ale coeficientului de regresie intre predictori, dependenta dintre erorile de estimare.
Se poate observa ca intre eroile de estimare ale coeficientilor exista o legatura inversa.
cu scopul de a vedea daca intre erorile estimate ale coeficientilor de regresie exista o legatura semnificativa am testat coeficeintul de corelatie.
Formularea ipotezlor:
\(H_0\): \(cov(e_1, e_2) \neq 0\) sau \(cor(e_1, e_2) \neq 0\)
\(H_1\): \(cov(e_1, e_2) = 0\) sau \(cov(e_1, e_2) = 0\)
| Nr.Crt. | r | cor_test | p_value | hypothesis | decision |
|---|---|---|---|---|---|
| 1 | 0 | -0.0567 | 0.0731 | accept H0 | ns |
| 2 | 0.1 | -0.123 | 0.000101 | reject H0 | s |
| 3 | 0.2 | -0.222 | 1.22e-12 | reject H0 | s |
| 4 | 0.3 | -0.321 | 2.1e-25 | reject H0 | s |
| 5 | 0.4 | -0.419 | 6.78e-44 | reject H0 | s |
| 6 | 0.5 | -0.517 | 1.38e-69 | reject H0 | s |
| 7 | 0.6 | -0.615 | 4.41e-105 | reject H0 | s |
| 8 | 0.7 | -0.712 | 2.06e-155 | reject H0 | s |
| 9 | 0.8 | -0.808 | 0 | reject H0 | s |
| 10 | 0.95 | -0.952 | 0 | reject H0 | s |
| 11 | 0.98 | -0.981 | 0 | reject H0 | s |
| 12 | 0.99 | -0.99 | 0 | reject H0 | s |
Deoarece, datele sunt generate gaussian, iar estimatori sunt combinatii liniare ale variabilei dependente, necorelarea erorilor si independenta coincid: \[cov(e_1, e_2) = 0 \Longleftrightarrow e_1 \text{ si } e_2 \text{ sunt independente}\] Motiv pentru care putem testa coeficienti de corelatie pentru verificarea independentei.
Observam ca erorile de estimare a coeficientilor de regresie nu sunt independente.Pentru valori mici ale coeficientului de corelatie intre predictori valorile p-value sunt foarte mici si incep sa creasca pe masura ce gradul de multicolinearitate creste.
Observam ca corelatia este semnificativ diferita de zero, prin urmare erorile de estimare sunt dependente.
Pentru valori negative ale coeficietului de corelatie intre predictori observam ca legatura dintre estimatiile coeficientilor de regresie este directa.
Observam ca rezultatele obtinute sunt similare cu cele obtinute pentru valori pozitive ale coeficientului de corelatie intre predictori.
Valorile coeficientului de corelatie dintre predictori sunt pozitive.
| Nr.Crt. | r | cor_errors | cov_errors |
|---|---|---|---|
| 1 | -0.99 | 0.99 | 2.09 |
| 2 | -0.98 | 0.981 | 1.04 |
| 3 | -0.95 | 0.952 | 0.409 |
| 4 | -0.8 | 0.808 | 0.0937 |
| 5 | -0.7 | 0.712 | 0.0581 |
| 6 | -0.6 | 0.615 | 0.0399 |
| 7 | -0.5 | 0.517 | 0.0286 |
| 8 | -0.4 | 0.419 | 0.0206 |
| 9 | -0.3 | 0.321 | 0.0145 |
| 10 | -0.2 | 0.222 | 0.00951 |
| 11 | -0.1 | 0.123 | 0.00508 |
| 12 | 0 | -0.0567 | -0.00232 |
| Nr.Crt. | r | cor_test | p_value | hypothesis | decision |
|---|---|---|---|---|---|
| 1 | -0.99 | 0.99 | 0 | reject H0 | s |
| 2 | -0.98 | 0.981 | 0 | reject H0 | s |
| 3 | -0.95 | 0.952 | 0 | reject H0 | s |
| 4 | -0.8 | 0.808 | 0 | reject H0 | s |
| 5 | -0.7 | 0.712 | 2.06e-155 | reject H0 | s |
| 6 | -0.6 | 0.615 | 4.41e-105 | reject H0 | s |
| 7 | -0.5 | 0.517 | 1.38e-69 | reject H0 | s |
| 8 | -0.4 | 0.419 | 6.78e-44 | reject H0 | s |
| 9 | -0.3 | 0.321 | 2.1e-25 | reject H0 | s |
| 10 | -0.2 | 0.222 | 1.22e-12 | reject H0 | s |
| 11 | -0.1 | 0.123 | 0.000101 | reject H0 | s |
| 12 | 0 | -0.0567 | 0.0731 | accept H0 | ns |
https://ehsanx.github.io/EpiMethods/predictivefactors1.html#:~:text=Avoiding%20collinear%20variables%20can%20result%20in%20a,predicted%20from%20the%20others%20with%20substantial%20accuracy.
Masdeu Lluís, Recognising and Dealing with Multicollinearity, 2025, https://medium.com/@masdeu.lluis/recognising-and-dealing-with-multicollinearity-e3fa899f0bfc.
Clay Ford, Addressing Multicollinearity, 2025, https://library.virginia.edu/data/articles/addressing-multicollinearity.
D.A. Belsley, E. Kuh, R.E. Welsch, Regression diagnostics. Identifying influential data and sources of collinearity, WILEY INTERSCIENCE, A JOHN WILEY & SONS, INC., PUBLICATION.
Stephanie C. C. van der Lubbe, Jose M. Valderas, Evangelos Kontopantelis, The effect of collinearity and sample size on linear regression results: a simulation study, 2026, https://arxiv.org/pdf/2601.18072.
Salmerón, R., García, C. B., & García, J. (2018). Variance Inflation Factor and Condition Number in multiple linear regression. Journal of Statistical Computation and Simulation, 88(12), 2365–2384.
C. Davino, R. Romano, D. Vistocco, Handling multicollinearity in quantile regression through the use of principal component regression, METRON (2022) 80:153–174 https://doi.org/10.1007/s40300-022-00230-3.
D. E. Farrar, R. R. Glauber, Multicollinearity in regression analysis the problem revisited, 1964, Sloan School of Management Massachusetts Institute of Technology Cambridge 39, Massachusetts, https://dspace.mit.edu/bitstream/handle/1721.1/48530/multicollinearit00farr.pdf 18.03.2026.
Noora Shrestha, Detecting Multicollinearity in Regression Analysis, American Journal of Applied Mathematics and Statistics, 2020, Vol. 8, No. 2, 39-42, https://www.researchgate.net/publication/342413955_Detecting_Multicollinearity_in_Regression_Analysi.
https://rafalab.dfci.harvard.edu/dsbook/ggplot2.html accessed on 11.03.2026.
https://jrnold.github.io/r4ds-exercise-solutions/data-visualisation.html accessed on 11.03.2026.
https://www.appsilon.com/post/ggplot2-histograms accessed on 11.03.2026.
Number of predictors and multicollinearity: What are their effects on error and bias in regression? https://www.tandfonline.com/doi/full/10.1080/03610918.2017.1371750?scroll=top&needAccess=true