Incarcarea pachetelor necesare in sesiunea de lucru:
Obiectivul lucrarii este de a identifica si estima forma legaturii dintre variabilele pH si alcool. Setul de date utilizat este wine quality disponibil aici. De asemenea, vom estima indicatorii de corelație si vom testa parametri modelului generat cu ajutorul celor două variabile.
Setul de date analizat in cadrul articolului, wine quality, este disponibil pe platforma Machine Learning Repository, aici. Acesta este format din doua seturi de date (setul de date red_wines si white_wines), disponibile pentru analiza si cercetare pe site-ul celor de la UCI (University of California Irvine) Machine Learning Repository, unite intr-un singur set de date (wines_quality) si contine informatii cu privire la proprietatile fizico – chimice si senzoriale ale unor probe de vin rosu si alb portughez din regiunea Vinho Verde. Numarul de inregistrari este de 6497 observatii si 12 variabile numerice. Datele au fost colectate pe o perioada de 3 ani (din mai 2004 si pana in februarie 2007) folosind o metoda computerizata iLab. Dupa eliminarea duplicatelor, setul de date contine un numar de 5320 observatii.
Prezentarea variabilelor disponibile in setul de date:
Pentru a analiza forma legaturii dintre cele doua variabile analizate vom folosi corelograma.
Desi, nu prea exista fenomene care sa fie explicate de o sigura variabila independenta, in cele ce urmeaza vom analiza forma legaturii dintre variabila pH si variabila aciditate volatila. Corelograma sugereaza existenta unei legaturi liniare, directe, intre cele doua variabile. Prin urmare, putem propune un model de regresie liniar simplu de forma:
\[ y = \beta_0 + \beta_1 x + \epsilon\]
unde y – este variabila dependentă, x – variabila independenta, \(\epsilon\) - este variabila reziduu sau eroare. Estimarea parametrilor MRLS se realizeaza cu ajutorul metodei celor mai mici pătrate ce presupune ca suma pătratelor erorilor sa fie minima. Cu ajutorul funcției lm() și summary() vom putea obține estimațiile parametrilor și vom putea scrie ecuația estimata a modelului de regresie.
##
## Call:
## lm(formula = pH ~ volatile_acidity, data = bd_sem1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.52602 -0.10488 -0.00899 0.09868 0.69225
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.143742 0.004852 647.89 <0.0000000000000002 ***
## volatile_acidity 0.235149 0.012667 18.56 <0.0000000000000002 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.1554 on 5318 degrees of freedom
## Multiple R-squared: 0.06085, Adjusted R-squared: 0.06068
## F-statistic: 344.6 on 1 and 5318 DF, p-value: < 0.00000000000000022
## (Intercept) volatile_acidity
## 3.143742 0.235149
In imaginea de mai sus observam ca obtinem o serie de informatii cu privire la modelul estimat, precum: estimatiile parametrilor, semnificatia statistica a acestora, raportul de determinatie si raportul de determinatie ajustat, semnificatia modelului estimat, informatii cu privire la variabila reziduala.
Ecuatia estimata a modelului de regresie este: \[ \text{pH} = 3.143742 + 0.235149 \cdot \text{volatile_acidity}\]
In model apar doi parametri de regresie \(\beta_0\) si \(\beta_1\). Coeficientul asociat constantei, \(b_0\), si indica valoarea medie a pH - ului ( este 3.143742), atunci cand variabila aciditate volatila este nula. In timp ce parametrul estimat, \(b_1\), panta de regresie, asociat variabilei aciditate volatila indica cu cate unitati creste, in medie, pH-ul (0.235149), la o modificare a aciditatii volatile cu 1 \(\text{g/dm}^3\).
Deoarece \(b_1\) \(> 0\) \(\Rightarrow\) legatura dintre cele doua variabile este de tip liniar pozitivă (ceea ce inseamna ca atunci cand variabila aciditate creste cu o unitate (1 \(\text{g/dm}^3\)), variabila pH creste, in medie, cu 0.235149). Deoarece, panta de regresie este subunitara (\(b_1\) \(< 1\)), viteza de variatie a variabilei dependente in raport cu variabila indepenenta nu creste la fel de repede.
Daca mai sus s-a realizat estimarea punctuala in cele ce urmeaza vom face estimarea parametrilor prin interval de incredere. Estimarea prin interval de incredere a parametrilor de regresie presupune cautarea unui interval in care se gaseste, cel mai probabil, valoarea adevarata a parametrului.
\[ \beta_i \in \left[ b_i \pm t_{\frac{\alpha}{2}, n-k} \cdot s_{\widehat{\beta_i}} \right] \]
Intervalul de incredere a parametrilor estimati determinati pe baza datelor din setul de date analizat folosind functia confint() este:
Prin urmare, cu o probabilitate de 95%, putem afirma ca valoarea parametrului \(\beta_0\) este acoperit de intervalul (3.134; 3.153), respectiv ne asumam un risc de 5% ca valoarea parametrului \(\beta_1\) sa nu fie acoperit de intervalul (0.210; 0.260).
Testarea parametrilor modelului de regresie presupune parcurgerea unor etape. Etapele testării sunt:
Formularea ipotezelor: \[ H_0: \beta_0 = 0 \quad \text{și} \quad H_1: \beta_0 \neq 0 \] \[ H_0: \beta_1 = 0 \quad \text{și} \quad H_1: \beta_1 \neq 0 \]
Alegerea pragului de semnificație (\(\alpha = 0.05\)) și a statisticii test și calcularea acestora: \[ t_{\text{calc}} = \frac{b_i}{s_{\widehat{\beta_i}}}, \quad i = \overline{0, 1} \]
Pentru estimatia \(b_0\): \[ t_{\text{calc}} = \frac{b_0}{s_{\widehat{\beta_0}}} = \frac{3.143742}{0.004852} = 647.89 \]
Pentru estimatia \(b_1\): \[ t_{\text{calc}} = \frac{b_1}{s_{\widehat{\beta_1}}} = \frac{0.235149}{0.012667} = 18.56 \]
Valoarea teoretică a testului \(t\): \[ t_{\frac{\alpha}{2}, n-k} = t_{\frac{0.05}{2}, 5320-2} = 1.96 \]
Regula de decizie: \[ \text{Dacă } \left|t_{\text{calc}}\right| > t_{\frac{\alpha}{2}, n-k}, \quad \text{sig} < \alpha, \quad \text{se respinge ipoteza nulă } (H_0), \quad \text{cu un risc asumat de 5%}. \] \[ \text{Dacă } \left|t_{\text{calc}}\right| \leq t_{\frac{\alpha}{2}, n-k}, \quad \text{sig} \geq \alpha, \quad \text{se acceptă ipoteza nulă } (H_0), \quad \text{cu o probabilitate de 95%}. \]
Decizia:
Pentru \(b_0\): \[ \left|t_{\text{calc}}\right| = 647.89 > t_{\frac{\alpha}{2}, n-k} = 1.96, \quad p\text{-value} = 0.0000000000000002 < \alpha = 0.05 \] \[ \Rightarrow \text{Se respinge ipoteza nulă } (H_0), \text{ cu o probabilitate de 95%}. \]
Pentru \(b_1\):
\[\left|t_{\text{calc}}\right| = 18.56 \> t\_{\frac{\alpha}{2}, n-k} = 1.96, \quad p\text{-value} = 0.0000000000000002 < \alpha = 0.05 \]
\[ \Rightarrow \text{Se respinge ipoteza nulă } (H_0), \text{ cu o probabilitate de 95%}.\]
In concluzie, putem afirma, cu o probabilitate de 95%, că parametrul \(\beta_0\), respectiv parametrul \(\beta_1\) sunt semnificativ diferiti de zero.
Etapele testării modelului de regresie sunt:
Formularea ipotezelor: \[ H_0: \beta_0, \beta_1, \beta_2 = 0 \] \[ H_1: \text{Cel puțin unul din parametrii variabilelor independente este diferit de zero (în cazul nostru } \beta_1 \neq 0 \text{ și/sau } \beta_2 \neq 0 \text{)}. \]
Alegerea pragului de semnificație (\(\alpha = 0.05\)) și a statisticii test, precum și calcularea acestora:\[ F_{\text{calc}} = \frac{\text{ESS}}{\text{RSS}} \cdot \frac{(n-k)}{(k-1)} \]
Regula de decizie:
Dacă \(F_{\text{calc}} > F_{\alpha, k-1, n-k}\), \(\text{sig} < \alpha\), se respinge ipoteza nulă (\(H_0\)), cu un risc de 5%.
Dacă \(F_{\text{calc}} \leq F_{\alpha, k-1, n-k}\), \(\text{sig} \geq \alpha\), se acceptă ipoteza nulă (\(H_0\)), cu o probabilitate de 95%.
p-value = 0.00000000000000022 (asociat testului \(F_{\text{calc}}\) = 344.6) < \(\alpha\) = 0.05 se respinge ipoteza nulă (\(H_0\)), cu un risc asumat de 5%.
Se poate afirma, cu o probabilitate de 95%, că modelul de regresie este semnificativ statistic.
Raportul de corelație: În cazul modelului liniar simplu \({|r|}\) = \({R}\) = \({0.2468}\) ceea ce înseamnă ca între pH și aciditatea volatila exista o legatura de intensitate slaba.
Raportul de determinatie: \({R^2}\) = 0.06085– 6.085% din variatia variabilei dependente, pH-ul vinului, este explicata de variatia variabilei independente, aciditate volatila.
\[ R^2 = \frac{\text{ESS}}{\text{TSS}} = 1 - \frac{\text{RSS}}{\text{TSS}} \]
Raportul de determinatie ajustat: \(\bar{R^2}\) = 0.06068 – 6.068% din variatia pH-ului vinului este explicata de variatia aciditatii volatile.
\[ \bar{R^2} = 1 - \left(1 - R^2\right) \cdot \frac{(n-1)}{(n-k)} = 1 - \frac{\frac{\text{RSS}}{n-k}}{\frac{\text{TSS}}{n-1}} \]
\[ F_{\text{calc}} = \frac{\text{ESS}}{\text{RSS}} \cdot \frac{(n-k)}{(k-1)} = \text{sau} \ F_{\text{calc}} = \frac{R^2}{1 - R^2} \cdot \frac{(n-k)}{(k-1)} \]
\[ R = \sqrt{\frac{\text{ESS}}{\text{TSS}}} = \sqrt{1 - \frac{\text{RSS}}{\text{TSS}}} \]
pH | volatile_acidity | .fitted | .resid | .hat | .sigma | .cooksd | .std.resid |
---|---|---|---|---|---|---|---|
3.51 | 0.7 | 3.31 | 0.202 | 0.00103 | 0.155 | 0.000868 | 1.3 |
3.2 | 0.88 | 3.35 | -0.151 | 0.0021 | 0.155 | 0.000988 | -0.97 |
3.26 | 0.76 | 3.32 | -0.0625 | 0.00134 | 0.155 | 0.000108 | -0.402 |
3.16 | 0.28 | 3.21 | -0.0496 | 0.000215 | 0.155 | 1.1e-05 | -0.319 |
3.51 | 0.66 | 3.3 | 0.211 | 0.000851 | 0.155 | 0.000786 | 1.36 |
3.3 | 0.6 | 3.28 | 0.0152 | 0.000623 | 0.155 | 2.97e-06 | 0.0976 |
pH | volatile_acidity | .fitted | .resid | .hat | .sigma | .cooksd | .std.resid |
---|---|---|---|---|---|---|---|
3.06 | 0.74 | 3.32 | -0.258 | 0.00123 | 0.155 | 0.00169 | -1.66 |
Din graficul de mai sus se poate observa ca nu toate punctele sunt pozitionate exact pe linia de regresie. Diferentele dintre valorile observate si valorile estimate prin modelul de regresie sunt regasite in variabila reziduu sau eroare. In Figura de mai sus se poate observa clar erorile reziduale (segmentele de culoare rosie) care indica diferenta dintre valoare observata si valoarea estimata prin model.
In analiza de regresie componentele variantei sunt:
Pentru obtinerea valorilor ESS, RSS si TSS putem folosi functia aov() aplicata modelului de regresie liniar sau putem construi modelul de regresie ANOVA care permite si validarea modelului.
Aplicarea functiei aov() asupra modelului creat cu ajutorul functiei lm():
# model de regresie liniară
aov(model)
## Call:
## aov(formula = model)
##
## Terms:
## volatile_acidity Residuals
## Sum of Squares 8.32564 128.48696
## Deg. of Freedom 1 5318
##
## Residual standard error: 0.1554373
## Estimated effects may be unbalanced
Crearea modelului de regresie folosind functia aov()
# testarea modelului MRLS
model_aov <- aov(pH ~ volatile_acidity, data = bd_sem1)
summary(model_aov)
## Df Sum Sq Mean Sq F value Pr(>F)
## volatile_acidity 1 8.33 8.326 344.6 <0.0000000000000002 ***
## Residuals 5318 128.49 0.024
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## TSS (Total Sum of Squares): 136.8126
## RSS (Residual Sum of Squares): 128.487
## ESS (Explained Sum of Squares): 8.325637
pH | volatile_acidity | .fitted | .resid | .hat | .sigma | .cooksd | .std.resid |
---|---|---|---|---|---|---|---|
3.51 | 0.7 | 3.31 | 0.202 | 0.00103 | 0.155 | 0.000868 | 1.3 |
3.2 | 0.88 | 3.35 | -0.151 | 0.0021 | 0.155 | 0.000988 | -0.97 |
3.26 | 0.76 | 3.32 | -0.0625 | 0.00134 | 0.155 | 0.000108 | -0.402 |
3.16 | 0.28 | 3.21 | -0.0496 | 0.000215 | 0.155 | 1.1e-05 | -0.319 |
3.51 | 0.66 | 3.3 | 0.211 | 0.000851 | 0.155 | 0.000786 | 1.36 |
3.3 | 0.6 | 3.28 | 0.0152 | 0.000623 | 0.155 | 2.97e-06 | 0.0976 |
pH | volatile_acidity | .fitted | .resid | .hat | .sigma | .cooksd | .std.resid |
---|---|---|---|---|---|---|---|
3.63 | 1.18 | 3.42 | 0.208 | 0.00488 | 0.155 | 0.0044 | 1.34 |
pH | volatile_acidity | .fitted | .resid | .hat | .sigma | .cooksd | .std.resid |
---|---|---|---|---|---|---|---|
3.63 | 1.18 | 3.42 | 0.208 | 0.00488 | 0.155 | 0.0044 | 1.34 |
In Figura de mai sus se poate observa clar erorile reziduale (segmentele de culoare rosie) care indica diferenta dintre valoare observata si valoarea estimata prin model, varianta reziduala (RSS), varianta explicata (ESS) si varianta totala (TSS).
Cele doua componente (componenta aleatoare si componenta determinista) ale modelului de regresie trebuie sa respecte o serie de ipoteze:
Ipoteze cu privire la componenta deterministă:
variabila independenta, aciditate volatila, trebuie sa fie nestohastica;
variabila independenta, aciditate volatila, are o varianta finita
Ipoteze cu privire la componenta aleatoare:
media erorilor trebuie sa fie egala cu zero \[ \text{M}(\varepsilon_i) = 0, \quad \forall i \]
ipoteza de homoscedasticitate: varianta erorilor este constanta \[ \text{V}(\varepsilon_i) = \sigma^2, \quad \forall i \]
ipoteza de normalitate a erorilor \[ \varepsilon_i \sim N(0, \sigma^2) \]
ipoteza de necorelare a erorilor: erorile nu se influențează reciproc \[ \text{cov}(\varepsilon_i, \varepsilon_j) = 0, \quad \forall i \neq j \]
ipoteza cu privire la lipsa corelației dintre variabila independentă și variabila reziduu \[ \text{cov}(\varepsilon_i, x_i) = 0, \quad \forall i \]
Diagramele de diagnosticare perimite verificare ipotezelor modelului de regresie, respectiv: verificarea ipotezei cu privire la liniaritatea dintre cele două variabile, verificarea ipotezei cu privire la normalitatea erorilor (diagrama Q-Q plot), verificarea ipotezei cu privire la homoscedasticitatea erorilor (diagrama scale-location), identificarea punctelor de influență (diagrama Residuals vs. Leverage).
Estimarea coeficientului de corelatie cu ajutorul functiei cor():
Estimarea coeficientului de corelatie si semnificatia acestuia se obtine cu functia rcorr():
## pH volatile_acidity
## pH NA 0
## volatile_acidity 0 NA
Valoarea punctuala a coeficientului de corelatie bivariat este de 0.247, ceea ce indica faptul ca intre variabilele pH si aciditate volatila exista o legatura directa (atunci cand aciditatea volatila creste, creste si pH -ul vinului (Figura de mai sus))), de intensitate slaba.
Cu o probabilitate de 95%, putem afirma ca valoarea coeficientului de corelatie este acoperit de intervalul [0.221, 0.272].
Prin standardizarea variabilelor se obtine
lm.beta(model)
##
## Call:
## lm(formula = pH ~ volatile_acidity, data = bd_sem1)
##
## Standardized Coefficients::
## (Intercept) volatile_acidity
## NA 0.2466867
Coeficientul de corelatie se poate calcula pe baza relatiei:
\[r = b_1 \cdot \frac{s_x}{s_y} = 0.2466867\] sau \[b_1 = r \cdot \frac{s_y}{s_x}\] unde: - \({r}\) este coeficientul de corelație Pearson - \({b_1}\) - panta liniei de regresie - \({s_x}\) - abaterea standard a variabilei independente - \({s_y}\) - abaterea standard a variabilei dependente
Etapele testarii raportului de corelatie sunt:
\[H_0: \rho = 0 \text{ valoarea coeficientului de corelatie nu este semnificativ statistic}\] \[H_0: \rho \neq 0 \text{ valoarea coeficientului de corelatie este semnificativ statistic}\]
\[\mathbf{t}_{\mathbf{calc}} = \frac{\mathbf{r}}{\sqrt{\frac{(1 - \mathbf{r}^2)}{(n - k)}}}\]
\[\text{Dacă } \left| t_{\text{calc}} \right| < t_{\frac{\alpha}{2}, (n-k)}, \, \text{sig} < \alpha, \, \text{se respinge ipoteza nulă } (H_0), \, \text{cu un risc de 5%}\]
\[\text{Dacă } \left| t_{\text{calc}} \right| \geq t_{\frac{\alpha}{2}, (n-k)}, \, \text{sig} \geq \alpha, \, \text{se acceptă ipoteza nulă } (H_0), \, \text{cu o probabilitate de 95%}\]
p-value = 2.2 \({10^{-16}}\) < \(\alpha\) = 0.05 => se respinge ipoteza nula (\({H_0}\)), cu un risc asumat de 5%.
Estimarea coeficientului de corelatie punctuala si prin interval de incredere se poate obtine cu functia cor.test(). De asemenea, este testata si semnificatia acestuia:
##
## Pearson's product-moment correlation
##
## data: bd_sem1$pH and bd_sem1$volatile_acidity
## t = 18.563, df = 5318, p-value < 0.00000000000000022
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.2212809 0.2717578
## sample estimates:
## cor
## 0.2466867
Valoarea raportul de corelatie este:
# estimarea raportului de corelatie
R <- sqrt(summary(model)$r.squared)
cat("R (raportul de corelatie):", R, "\n")
## R (raportul de corelatie): 0.2466867
In cazul regresiei liniare simple observam ca valoarea raportului de corelatie este egal cu valoarea coeficientului de corelatie in valoare absoluta.
##
## Call:
## lm(formula = pH ~ volatile_acidity, data = bd_sem1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.52602 -0.10488 -0.00899 0.09868 0.69225
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.143742 0.004852 647.89 <0.0000000000000002 ***
## volatile_acidity 0.235149 0.012667 18.56 <0.0000000000000002 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.1554 on 5318 degrees of freedom
## Multiple R-squared: 0.06085, Adjusted R-squared: 0.06068
## F-statistic: 344.6 on 1 and 5318 DF, p-value: < 0.00000000000000022
Etapele testării raportului de corelatie sunt:
Formularea ipotezelor: \[ H_0: \eta = 0 \] \[ H_1: \eta \neq 0. \]
Alegerea pragului de semnificație (\(\alpha = 0.05\)) și a statisticii test, precum și calcularea acestora:\[ F_{\text{calc}} = \frac{\text{ESS}}{\text{RSS}} \cdot \frac{(n-k)}{(k-1)} = 344.6 \]
Regula de decizie:
Dacă \(F_{\text{calc}} > F_{\alpha, k-1, n-k}\), \(\text{sig} < \alpha\), se respinge ipoteza nulă (\(H_0\)), cu un risc de 5%.
Dacă \(F_{\text{calc}} \leq F_{\alpha, k-1, n-k}\), \(\text{sig} \geq \alpha\), se acceptă ipoteza nulă (\(H_0\)), cu o probabilitate de 95%.
p-value = 0.00000000000000022 (asociat testului \(F_{\text{calc}}\) = 344.6) < \(\alpha\) = 0.05 se respinge ipoteza nulă (\(H_0\)), cu un risc asumat de 5%.
Se poate afirma, cu o probabilitate de 95%, că valoarea raportului de corelatie este semnificativ statistic.
Estimarea raportului de determinatei ajustat este:
r <- summary(model)
r$r.squared
## [1] 0.06085432
##
## Call:
## lm(formula = pH ~ volatile_acidity, data = bd_sem1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.52602 -0.10488 -0.00899 0.09868 0.69225
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.143742 0.004852 647.89 <0.0000000000000002 ***
## volatile_acidity 0.235149 0.012667 18.56 <0.0000000000000002 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.1554 on 5318 degrees of freedom
## Multiple R-squared: 0.06085, Adjusted R-squared: 0.06068
## F-statistic: 344.6 on 1 and 5318 DF, p-value: < 0.00000000000000022
Raportul de determinatie: \({R^2}\) = 0.0609– 6.085% din variatia variabilei dependente este explicata de variatia variabilei independente.
Etapele testării raportului de determinatie sau coeficientului de determinatie sunt:
Formularea ipotezelor: \[ H_0: \eta^2 = 0 \] \[ H_1: \eta^2 \neq 0. \]
Alegerea pragului de semnificație (\(\alpha = 0.05\)) și a statisticii test, precum și calcularea acestora:\[ F_{\text{calc}} = \frac{\text{ESS}}{\text{RSS}} \cdot \frac{(n-k)}{(k-1)} = 344.6 \]
Regula de decizie:
Dacă \(F_{\text{calc}} > F_{\alpha, k-1, n-k}\), \(\text{sig} < \alpha\), se respinge ipoteza nulă (\(H_0\)), cu un risc de 5%.
Dacă \(F_{\text{calc}} \leq F_{\alpha, k-1, n-k}\), \(\text{sig} \geq \alpha\), se acceptă ipoteza nulă (\(H_0\)), cu o probabilitate de 95%.
p-value = 0.00000000000000022 (asociat testului \(F_{\text{calc}}\) = 344.6) < \(\alpha\) = 0.05 se respinge ipoteza nulă (\(H_0\)), cu un risc asumat de 5%.
Se poate afirma, cu o probabilitate de 95%, că valoarea raportului de determinatie este semnificativ statistic.
Valoarea raportului de determinatie ajustat este:
r <- summary(model)
r$adj.r.squared
## [1] 0.06067772
##
## Call:
## lm(formula = pH ~ volatile_acidity, data = bd_sem1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.52602 -0.10488 -0.00899 0.09868 0.69225
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.143742 0.004852 647.89 <0.0000000000000002 ***
## volatile_acidity 0.235149 0.012667 18.56 <0.0000000000000002 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.1554 on 5318 degrees of freedom
## Multiple R-squared: 0.06085, Adjusted R-squared: 0.06068
## F-statistic: 344.6 on 1 and 5318 DF, p-value: < 0.00000000000000022
Crt. | Variable | R_value | R_squared | R_squared_adj | F_value | p_value | Significance |
---|---|---|---|---|---|---|---|
1 | volatile_acidity | 0.247 | 0.0609 | 0.0607 | 345 | 1.39e-74 | Semnificativ |