Modelul de regresie liniar simplu (Simple linear regression model)

Analyzed data set: wine quality

Incarcarea pachetelor necesare in sesiunea de lucru:

Obiectivul cercetarii

Obiectivul lucrarii este de a identifica si estima forma legaturii dintre variabilele pH si alcool. Setul de date utilizat este wine quality disponibil aici. De asemenea, vom estima indicatorii de corelație si vom testa parametri modelului generat cu ajutorul celor două variabile.

Descrierea setului de date

Setul de date analizat in cadrul articolului, wine quality, este disponibil pe platforma Machine Learning Repository, aici. Acesta este format din doua seturi de date (setul de date red_wines si white_wines), disponibile pentru analiza si cercetare pe site-ul celor de la UCI (University of California Irvine) Machine Learning Repository, unite intr-un singur set de date (wines_quality) si contine informatii cu privire la proprietatile fizico – chimice si senzoriale ale unor probe de vin rosu si alb portughez din regiunea Vinho Verde. Numarul de inregistrari este de 6497 observatii si 12 variabile numerice. Datele au fost colectate pe o perioada de 3 ani (din mai 2004 si pana in februarie 2007) folosind o metoda computerizata iLab. Dupa eliminarea duplicatelor, setul de date contine un numar de 5320 observatii.

Prezentarea variabilelor:

Prezentarea variabilelor disponibile in setul de date:

Analiza formei legaturii

Pentru a analiza forma legaturii dintre cele doua variabile analizate vom folosi corelograma.

Modelul de regresie liniar simplu

Ecuatia generala a MRLS

Desi, nu prea exista fenomene care sa fie explicate de o sigura variabila independenta, in cele ce urmeaza vom analiza forma legaturii dintre variabila pH si variabila aciditate volatila. Corelograma sugereaza existenta unei legaturi liniare, directe, intre cele doua variabile. Prin urmare, putem propune un model de regresie liniar simplu de forma:

\[ y = \beta_0 + \beta_1 x + \epsilon\]

unde y – este variabila dependentă, x – variabila independenta, \(\epsilon\) - este variabila reziduu sau eroare. Estimarea parametrilor MRLS se realizeaza cu ajutorul metodei celor mai mici pătrate ce presupune ca suma pătratelor erorilor sa fie minima. Cu ajutorul funcției lm() și summary() vom putea obține estimațiile parametrilor și vom putea scrie ecuația estimata a modelului de regresie.

Estimarea parametrilor MRLS
## 
## Call:
## lm(formula = pH ~ volatile_acidity, data = bd_sem1)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.52602 -0.10488 -0.00899  0.09868  0.69225 
## 
## Coefficients:
##                  Estimate Std. Error t value            Pr(>|t|)    
## (Intercept)      3.143742   0.004852  647.89 <0.0000000000000002 ***
## volatile_acidity 0.235149   0.012667   18.56 <0.0000000000000002 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.1554 on 5318 degrees of freedom
## Multiple R-squared:  0.06085,    Adjusted R-squared:  0.06068 
## F-statistic: 344.6 on 1 and 5318 DF,  p-value: < 0.00000000000000022
##      (Intercept) volatile_acidity 
##         3.143742         0.235149

In imaginea de mai sus observam ca obtinem o serie de informatii cu privire la modelul estimat, precum: estimatiile parametrilor, semnificatia statistica a acestora, raportul de determinatie si raportul de determinatie ajustat, semnificatia modelului estimat, informatii cu privire la variabila reziduala.

Ecuatia estimata a modelului de regresie este: \[ \text{pH} = 3.143742 + 0.235149 \cdot \text{volatile_acidity}\]

In model apar doi parametri de regresie \(\beta_0\) si \(\beta_1\). Coeficientul asociat constantei, \(b_0\), si indica valoarea medie a pH - ului ( este 3.143742), atunci cand variabila aciditate volatila este nula. In timp ce parametrul estimat, \(b_1\), panta de regresie, asociat variabilei aciditate volatila indica cu cate unitati creste, in medie, pH-ul (0.235149), la o modificare a aciditatii volatile cu 1 \(\text{g/dm}^3\).

Deoarece \(b_1\) \(> 0\) \(\Rightarrow\) legatura dintre cele doua variabile este de tip liniar pozitivă (ceea ce inseamna ca atunci cand variabila aciditate creste cu o unitate (1 \(\text{g/dm}^3\)), variabila pH creste, in medie, cu 0.235149). Deoarece, panta de regresie este subunitara (\(b_1\) \(< 1\)), viteza de variatie a variabilei dependente in raport cu variabila indepenenta nu creste la fel de repede.

Estimarea prin IC a parametrilor MRLS

Daca mai sus s-a realizat estimarea punctuala in cele ce urmeaza vom face estimarea parametrilor prin interval de incredere. Estimarea prin interval de incredere a parametrilor de regresie presupune cautarea unui interval in care se gaseste, cel mai probabil, valoarea adevarata a parametrului.

\[ \beta_i \in \left[ b_i \pm t_{\frac{\alpha}{2}, n-k} \cdot s_{\widehat{\beta_i}} \right] \]

Intervalul de incredere a parametrilor estimati determinati pe baza datelor din setul de date analizat folosind functia confint() este:

Prin urmare, cu o probabilitate de 95%, putem afirma ca valoarea parametrului \(\beta_0\) este acoperit de intervalul (3.134; 3.153), respectiv ne asumam un risc de 5% ca valoarea parametrului \(\beta_1\) sa nu fie acoperit de intervalul (0.210; 0.260).

Testarea parametrilor MRLS

Testarea parametrilor modelului de regresie presupune parcurgerea unor etape. Etapele testării sunt:

  1. Formularea ipotezelor: \[ H_0: \beta_0 = 0 \quad \text{și} \quad H_1: \beta_0 \neq 0 \] \[ H_0: \beta_1 = 0 \quad \text{și} \quad H_1: \beta_1 \neq 0 \]

  2. Alegerea pragului de semnificație (\(\alpha = 0.05\)) și a statisticii test și calcularea acestora: \[ t_{\text{calc}} = \frac{b_i}{s_{\widehat{\beta_i}}}, \quad i = \overline{0, 1} \]

  • Pentru estimatia \(b_0\): \[ t_{\text{calc}} = \frac{b_0}{s_{\widehat{\beta_0}}} = \frac{3.143742}{0.004852} = 647.89 \]

  • Pentru estimatia \(b_1\): \[ t_{\text{calc}} = \frac{b_1}{s_{\widehat{\beta_1}}} = \frac{0.235149}{0.012667} = 18.56 \]

Valoarea teoretică a testului \(t\): \[ t_{\frac{\alpha}{2}, n-k} = t_{\frac{0.05}{2}, 5320-2} = 1.96 \]

  1. Regula de decizie: \[ \text{Dacă } \left|t_{\text{calc}}\right| > t_{\frac{\alpha}{2}, n-k}, \quad \text{sig} < \alpha, \quad \text{se respinge ipoteza nulă } (H_0), \quad \text{cu un risc asumat de 5%}. \] \[ \text{Dacă } \left|t_{\text{calc}}\right| \leq t_{\frac{\alpha}{2}, n-k}, \quad \text{sig} \geq \alpha, \quad \text{se acceptă ipoteza nulă } (H_0), \quad \text{cu o probabilitate de 95%}. \]

  2. Decizia:

Pentru \(b_0\): \[ \left|t_{\text{calc}}\right| = 647.89 > t_{\frac{\alpha}{2}, n-k} = 1.96, \quad p\text{-value} = 0.0000000000000002 < \alpha = 0.05 \] \[ \Rightarrow \text{Se respinge ipoteza nulă } (H_0), \text{ cu o probabilitate de 95%}. \]

Pentru \(b_1\):

\[\left|t_{\text{calc}}\right| = 18.56 \> t\_{\frac{\alpha}{2}, n-k} = 1.96, \quad p\text{-value} = 0.0000000000000002 < \alpha = 0.05 \]

\[ \Rightarrow \text{Se respinge ipoteza nulă } (H_0), \text{ cu o probabilitate de 95%}.\]

In concluzie, putem afirma, cu o probabilitate de 95%, că parametrul \(\beta_0\), respectiv parametrul \(\beta_1\) sunt semnificativ diferiti de zero.

Testarea MRLS

Etapele testării modelului de regresie sunt:

  1. Formularea ipotezelor: \[ H_0: \beta_0, \beta_1, \beta_2 = 0 \] \[ H_1: \text{Cel puțin unul din parametrii variabilelor independente este diferit de zero (în cazul nostru } \beta_1 \neq 0 \text{ și/sau } \beta_2 \neq 0 \text{)}. \]

  2. Alegerea pragului de semnificație (\(\alpha = 0.05\)) și a statisticii test, precum și calcularea acestora:\[ F_{\text{calc}} = \frac{\text{ESS}}{\text{RSS}} \cdot \frac{(n-k)}{(k-1)} \]

  3. Regula de decizie:

  • Dacă \(F_{\text{calc}} > F_{\alpha, k-1, n-k}\), \(\text{sig} < \alpha\), se respinge ipoteza nulă (\(H_0\)), cu un risc de 5%.

  • Dacă \(F_{\text{calc}} \leq F_{\alpha, k-1, n-k}\), \(\text{sig} \geq \alpha\), se acceptă ipoteza nulă (\(H_0\)), cu o probabilitate de 95%.

  1. Decizia:

p-value = 0.00000000000000022 (asociat testului \(F_{\text{calc}}\) = 344.6) < \(\alpha\) = 0.05 se respinge ipoteza nulă (\(H_0\)), cu un risc asumat de 5%.

Se poate afirma, cu o probabilitate de 95%, că modelul de regresie este semnificativ statistic.

Raportul de corelație: În cazul modelului liniar simplu \({|r|}\) = \({R}\) = \({0.2468}\) ceea ce înseamnă ca între pH și aciditatea volatila exista o legatura de intensitate slaba.

Raportul de determinatie: \({R^2}\) = 0.06085– 6.085% din variatia variabilei dependente, pH-ul vinului, este explicata de variatia variabilei independente, aciditate volatila.

\[ R^2 = \frac{\text{ESS}}{\text{TSS}} = 1 - \frac{\text{RSS}}{\text{TSS}} \]

Raportul de determinatie ajustat: \(\bar{R^2}\) = 0.06068 – 6.068% din variatia pH-ului vinului este explicata de variatia aciditatii volatile.

\[ \bar{R^2} = 1 - \left(1 - R^2\right) \cdot \frac{(n-1)}{(n-k)} = 1 - \frac{\frac{\text{RSS}}{n-k}}{\frac{\text{TSS}}{n-1}} \]

\[ F_{\text{calc}} = \frac{\text{ESS}}{\text{RSS}} \cdot \frac{(n-k)}{(k-1)} = \text{sau} \ F_{\text{calc}} = \frac{R^2}{1 - R^2} \cdot \frac{(n-k)}{(k-1)} \]

\[ R = \sqrt{\frac{\text{ESS}}{\text{TSS}}} = \sqrt{1 - \frac{\text{RSS}}{\text{TSS}}} \]

Explanation of RSS, ESS, and TSS

Graphycal representation A
pHvolatile_acidity.fitted.resid.hat.sigma.cooksd.std.resid
3.510.7 3.310.202 0.00103 0.1550.0008681.3   
3.2 0.883.35-0.151 0.0021  0.1550.000988-0.97  
3.260.763.32-0.06250.00134 0.1550.000108-0.402 
3.160.283.21-0.04960.0002150.1551.1e-05 -0.319 
3.510.663.3 0.211 0.0008510.1550.0007861.36  
3.3 0.6 3.280.01520.0006230.1552.97e-060.0976
pHvolatile_acidity.fitted.resid.hat.sigma.cooksd.std.resid
3.060.743.32-0.2580.001230.1550.00169-1.66

Din graficul de mai sus se poate observa ca nu toate punctele sunt pozitionate exact pe linia de regresie. Diferentele dintre valorile observate si valorile estimate prin modelul de regresie sunt regasite in variabila reziduu sau eroare. In Figura de mai sus se poate observa clar erorile reziduale (segmentele de culoare rosie) care indica diferenta dintre valoare observata si valoarea estimata prin model.

Descriere

In analiza de regresie componentele variantei sunt:

  • Total Sum of Squares (TSS): varianta totala \[{TSS = \sum_{i=1}^{n} \left( y_i - \bar{y} \right)^2}\]
  • Explained Sum of Squares (ESS): varianta explicata de model \[ESS = \sum_{i=1}^{n} \left( \hat{y}_i - \bar{y} \right)^2\]
  • Residual Sum of Squares (RSS): varianta care ramne neexplicata \[RSS = \sum_{i=1}^{n} \left( y_i - \hat{y}_i \right)^2\]
Calcularea valorilor RSS, ESS si TSS

Pentru obtinerea valorilor ESS, RSS si TSS putem folosi functia aov() aplicata modelului de regresie liniar sau putem construi modelul de regresie ANOVA care permite si validarea modelului.

Aplicarea functiei aov() asupra modelului creat cu ajutorul functiei lm():

# model de regresie liniară
aov(model)
## Call:
##    aov(formula = model)
## 
## Terms:
##                 volatile_acidity Residuals
## Sum of Squares           8.32564 128.48696
## Deg. of Freedom                1      5318
## 
## Residual standard error: 0.1554373
## Estimated effects may be unbalanced

Crearea modelului de regresie folosind functia aov()

# testarea modelului MRLS
model_aov <- aov(pH ~ volatile_acidity, data = bd_sem1)
summary(model_aov)
##                    Df Sum Sq Mean Sq F value              Pr(>F)    
## volatile_acidity    1   8.33   8.326   344.6 <0.0000000000000002 ***
## Residuals        5318 128.49   0.024                                
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## TSS (Total Sum of Squares): 136.8126
## RSS (Residual Sum of Squares): 128.487
## ESS (Explained Sum of Squares): 8.325637
pHvolatile_acidity.fitted.resid.hat.sigma.cooksd.std.resid
3.510.7 3.310.202 0.00103 0.1550.0008681.3   
3.2 0.883.35-0.151 0.0021  0.1550.000988-0.97  
3.260.763.32-0.06250.00134 0.1550.000108-0.402 
3.160.283.21-0.04960.0002150.1551.1e-05 -0.319 
3.510.663.3 0.211 0.0008510.1550.0007861.36  
3.3 0.6 3.280.01520.0006230.1552.97e-060.0976
Graphycal representation B
pHvolatile_acidity.fitted.resid.hat.sigma.cooksd.std.resid
3.631.183.420.2080.004880.1550.00441.34
pHvolatile_acidity.fitted.resid.hat.sigma.cooksd.std.resid
3.631.183.420.2080.004880.1550.00441.34

In Figura de mai sus se poate observa clar erorile reziduale (segmentele de culoare rosie) care indica diferenta dintre valoare observata si valoarea estimata prin model, varianta reziduala (RSS), varianta explicata (ESS) si varianta totala (TSS).

Ipotezelor modelului de regresie

Verificarea ipotezelor modelului de regresie

Cele doua componente (componenta aleatoare si componenta determinista) ale modelului de regresie trebuie sa respecte o serie de ipoteze:

  1. Ipoteze cu privire la componenta deterministă:

    • variabila independenta, aciditate volatila, trebuie sa fie nestohastica;

    • variabila independenta, aciditate volatila, are o varianta finita

  2. Ipoteze cu privire la componenta aleatoare:

    • media erorilor trebuie sa fie egala cu zero \[ \text{M}(\varepsilon_i) = 0, \quad \forall i \]

    • ipoteza de homoscedasticitate: varianta erorilor este constanta \[ \text{V}(\varepsilon_i) = \sigma^2, \quad \forall i \]

    • ipoteza de normalitate a erorilor \[ \varepsilon_i \sim N(0, \sigma^2) \]

    • ipoteza de necorelare a erorilor: erorile nu se influențează reciproc \[ \text{cov}(\varepsilon_i, \varepsilon_j) = 0, \quad \forall i \neq j \]

    • ipoteza cu privire la lipsa corelației dintre variabila independentă și variabila reziduu \[ \text{cov}(\varepsilon_i, x_i) = 0, \quad \forall i \]

Verificarea ipotezelor pe cale vizuala (graficele de diagnosticare)

Diagramele de diagnosticare perimite verificare ipotezelor modelului de regresie, respectiv: verificarea ipotezei cu privire la liniaritatea dintre cele două variabile, verificarea ipotezei cu privire la normalitatea erorilor (diagrama Q-Q plot), verificarea ipotezei cu privire la homoscedasticitatea erorilor (diagrama scale-location), identificarea punctelor de influență (diagrama Residuals vs. Leverage).

Testarea indicatorilor de corelatie

Coeficientul de corelatie bivariat
Estimarea punctuala

Estimarea coeficientului de corelatie cu ajutorul functiei cor():

Estimarea coeficientului de corelatie si semnificatia acestuia se obtine cu functia rcorr():

##                  pH volatile_acidity
## pH               NA                0
## volatile_acidity  0               NA

Valoarea punctuala a coeficientului de corelatie bivariat este de 0.247, ceea ce indica faptul ca intre variabilele pH si aciditate volatila exista o legatura directa (atunci cand aciditatea volatila creste, creste si pH -ul vinului (Figura de mai sus))), de intensitate slaba.

Estimarea prin interval de incredere

Cu o probabilitate de 95%, putem afirma ca valoarea coeficientului de corelatie este acoperit de intervalul [0.221, 0.272].

Prin standardizarea variabilelor se obtine

lm.beta(model)
## 
## Call:
## lm(formula = pH ~ volatile_acidity, data = bd_sem1)
## 
## Standardized Coefficients::
##      (Intercept) volatile_acidity 
##               NA        0.2466867

Coeficientul de corelatie se poate calcula pe baza relatiei:

\[r = b_1 \cdot \frac{s_x}{s_y} = 0.2466867\] sau \[b_1 = r \cdot \frac{s_y}{s_x}\] unde: - \({r}\) este coeficientul de corelație Pearson - \({b_1}\) - panta liniei de regresie - \({s_x}\) - abaterea standard a variabilei independente - \({s_y}\) - abaterea standard a variabilei dependente

Testarea coeficientul de corelatie bivariat (Pearson)

Etapele testarii raportului de corelatie sunt:

  1. Formularea ipotezelor:

\[H_0: \rho = 0 \text{ valoarea coeficientului de corelatie nu este semnificativ statistic}\] \[H_0: \rho \neq 0 \text{ valoarea coeficientului de corelatie este semnificativ statistic}\]

  1. Alegerea pragului de semnificatie (\(\alpha\) = 0.05) si a statisticii test si calcularea acestora

\[\mathbf{t}_{\mathbf{calc}} = \frac{\mathbf{r}}{\sqrt{\frac{(1 - \mathbf{r}^2)}{(n - k)}}}\]

  1. Regula de decizie:

\[\text{Dacă } \left| t_{\text{calc}} \right| < t_{\frac{\alpha}{2}, (n-k)}, \, \text{sig} < \alpha, \, \text{se respinge ipoteza nulă } (H_0), \, \text{cu un risc de 5%}\]

\[\text{Dacă } \left| t_{\text{calc}} \right| \geq t_{\frac{\alpha}{2}, (n-k)}, \, \text{sig} \geq \alpha, \, \text{se acceptă ipoteza nulă } (H_0), \, \text{cu o probabilitate de 95%}\]

  1. Decizia:

p-value = 2.2 \({10^{-16}}\) < \(\alpha\) = 0.05 => se respinge ipoteza nula (\({H_0}\)), cu un risc asumat de 5%.

Estimarea coeficientului de corelatie punctuala si prin interval de incredere se poate obtine cu functia cor.test(). De asemenea, este testata si semnificatia acestuia:

## 
##  Pearson's product-moment correlation
## 
## data:  bd_sem1$pH and bd_sem1$volatile_acidity
## t = 18.563, df = 5318, p-value < 0.00000000000000022
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.2212809 0.2717578
## sample estimates:
##       cor 
## 0.2466867
Raportul de corelatie
Estimarea raportului de corelatie

Valoarea raportul de corelatie este:

# estimarea raportului de corelatie
R <- sqrt(summary(model)$r.squared)
cat("R (raportul de corelatie):", R, "\n")
## R (raportul de corelatie): 0.2466867

In cazul regresiei liniare simple observam ca valoarea raportului de corelatie este egal cu valoarea coeficientului de corelatie in valoare absoluta.

## 
## Call:
## lm(formula = pH ~ volatile_acidity, data = bd_sem1)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.52602 -0.10488 -0.00899  0.09868  0.69225 
## 
## Coefficients:
##                  Estimate Std. Error t value            Pr(>|t|)    
## (Intercept)      3.143742   0.004852  647.89 <0.0000000000000002 ***
## volatile_acidity 0.235149   0.012667   18.56 <0.0000000000000002 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.1554 on 5318 degrees of freedom
## Multiple R-squared:  0.06085,    Adjusted R-squared:  0.06068 
## F-statistic: 344.6 on 1 and 5318 DF,  p-value: < 0.00000000000000022
Testarea raportului de corelatie

Etapele testării raportului de corelatie sunt:

  1. Formularea ipotezelor: \[ H_0: \eta = 0 \] \[ H_1: \eta \neq 0. \]

  2. Alegerea pragului de semnificație (\(\alpha = 0.05\)) și a statisticii test, precum și calcularea acestora:\[ F_{\text{calc}} = \frac{\text{ESS}}{\text{RSS}} \cdot \frac{(n-k)}{(k-1)} = 344.6 \]

  3. Regula de decizie:

  • Dacă \(F_{\text{calc}} > F_{\alpha, k-1, n-k}\), \(\text{sig} < \alpha\), se respinge ipoteza nulă (\(H_0\)), cu un risc de 5%.

  • Dacă \(F_{\text{calc}} \leq F_{\alpha, k-1, n-k}\), \(\text{sig} \geq \alpha\), se acceptă ipoteza nulă (\(H_0\)), cu o probabilitate de 95%.

  1. Decizia:

p-value = 0.00000000000000022 (asociat testului \(F_{\text{calc}}\) = 344.6) < \(\alpha\) = 0.05 se respinge ipoteza nulă (\(H_0\)), cu un risc asumat de 5%.

Se poate afirma, cu o probabilitate de 95%, că valoarea raportului de corelatie este semnificativ statistic.

Raportul de determintatie
Estimarea raportului de determinatie

Estimarea raportului de determinatei ajustat este:

r <- summary(model)
r$r.squared
## [1] 0.06085432
## 
## Call:
## lm(formula = pH ~ volatile_acidity, data = bd_sem1)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.52602 -0.10488 -0.00899  0.09868  0.69225 
## 
## Coefficients:
##                  Estimate Std. Error t value            Pr(>|t|)    
## (Intercept)      3.143742   0.004852  647.89 <0.0000000000000002 ***
## volatile_acidity 0.235149   0.012667   18.56 <0.0000000000000002 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.1554 on 5318 degrees of freedom
## Multiple R-squared:  0.06085,    Adjusted R-squared:  0.06068 
## F-statistic: 344.6 on 1 and 5318 DF,  p-value: < 0.00000000000000022

Raportul de determinatie: \({R^2}\) = 0.0609– 6.085% din variatia variabilei dependente este explicata de variatia variabilei independente.

Testarea raportului de determinatie

Etapele testării raportului de determinatie sau coeficientului de determinatie sunt:

  1. Formularea ipotezelor: \[ H_0: \eta^2 = 0 \] \[ H_1: \eta^2 \neq 0. \]

  2. Alegerea pragului de semnificație (\(\alpha = 0.05\)) și a statisticii test, precum și calcularea acestora:\[ F_{\text{calc}} = \frac{\text{ESS}}{\text{RSS}} \cdot \frac{(n-k)}{(k-1)} = 344.6 \]

  3. Regula de decizie:

  • Dacă \(F_{\text{calc}} > F_{\alpha, k-1, n-k}\), \(\text{sig} < \alpha\), se respinge ipoteza nulă (\(H_0\)), cu un risc de 5%.

  • Dacă \(F_{\text{calc}} \leq F_{\alpha, k-1, n-k}\), \(\text{sig} \geq \alpha\), se acceptă ipoteza nulă (\(H_0\)), cu o probabilitate de 95%.

  1. Decizia:

p-value = 0.00000000000000022 (asociat testului \(F_{\text{calc}}\) = 344.6) < \(\alpha\) = 0.05 se respinge ipoteza nulă (\(H_0\)), cu un risc asumat de 5%.

Se poate afirma, cu o probabilitate de 95%, că valoarea raportului de determinatie este semnificativ statistic.

Raportul de determintatie ajustat
Estimarea raportul de determintatie ajustat

Valoarea raportului de determinatie ajustat este:

r <- summary(model)
r$adj.r.squared
## [1] 0.06067772
## 
## Call:
## lm(formula = pH ~ volatile_acidity, data = bd_sem1)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.52602 -0.10488 -0.00899  0.09868  0.69225 
## 
## Coefficients:
##                  Estimate Std. Error t value            Pr(>|t|)    
## (Intercept)      3.143742   0.004852  647.89 <0.0000000000000002 ***
## volatile_acidity 0.235149   0.012667   18.56 <0.0000000000000002 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.1554 on 5318 degrees of freedom
## Multiple R-squared:  0.06085,    Adjusted R-squared:  0.06068 
## F-statistic: 344.6 on 1 and 5318 DF,  p-value: < 0.00000000000000022
Crt.VariableR_valueR_squaredR_squared_adjF_valuep_valueSignificance
1volatile_acidity0.2470.06090.06073451.39e-74Semnificativ

References:

  1. Cortez, P., Cerdeira, A., Almeida, F., Matos, T., & Reis, J. (2009). Wine Quality [Dataset]. UCI Machine Learning Repository. https://doi.org/10.24432/C56S3T.
  2. D.B. Radosavljevic, S. Ilic, S.N. Pitulic, A data mining approach to wine quality prediction, 2019, International Scientific Conference UNITECHAt: Gabrovo, Bulgaria.
  3. M. Taboga, Linear regression with standardized variables, https://www.statlect.com/fundamentals-of-statistics/linear-regression-with-standardized-variables accesat la data de 24.01.2025.
  4. https://www.sthda.com/english/articles/39-regression-model-diagnostics/161-linear-regression-assumptions-and-diagnostics-in-r-essentials/ accesat la data de 24.01.2025.
  5. https://cran.r-project.org/web/packages/ggfortify/ggfortify.pdf, https://www.sthda.com/english/wiki/ggfortify-extension-to-ggplot2-to-handle-some-popular-packages-r-software-and-data-visualization accesat la data de 24.01.2025.
  6. https://riffomonas.org/code_club/2024-11-11-venn-symbol 24.01.2025.
  7. https://www.dummies.com/article/business-careers-money/business/accounting/calculation-analysis/test-the-estimated-regression-equation-using-the-coefficient-of-determination-r2-145936/