Dalam model regresi linier dasar dalam Bahasa R, secara default, kategori referensi 1 digunakan untuk variabel faktor. Namun terkadang kita perlu mengatur secara manual level faktor referensi dalam model regresi linier. Untuk melakukannya, kami menggunakan fungsi relevel() dari Bahasa R. Fungsi relevel() digunakan untuk menyusun ulang level dari vektor faktor. Level dari vektor faktor diurutkan ulang sehingga level yang ditentukan oleh pengguna adalah yang pertama dan yang lainnya dipindahkan satu langkah ke bawah.

kita mencetak ringkasan (summary) dari model linear yang telah dibangun menggunakan fungsi summary(). Ringkasan ini memberikan informasi seperti koefisien regresi, statistik t-tes, nilai R-squared, dan lainnya. Hasil ringkasan model linear dicetak ke layar.

Dalam keseluruhan program, kita membuat data frame sample_data dengan variabel x dan y. Kemudian, kita membangun model linear menggunakan lm() dan menyimpannya dalam objek linear_model. Terakhir, kita mencetak ringkasan model linear menggunakan summary(). Hal ini membantu kita memahami model linear yang telah dibangun dan melihat hasil analisis statistik yang terkait.

# create sample data frame
x <- sample(1:7, 500, replace = TRUE)
y <- round(x + rnorm(500), 3)
x <- as.factor(x)
sample_data <- data.frame(x, y)

Pada bagian ini, kita membuat data frame dengan nama sample_data. Data frame ini terdiri dari dua variabel, yaitu x dan y. Variabel x diisi dengan sampel acak dari angka 1 hingga 7 dengan penggantian (replace = TRUE) sebanyak 500 kali. Variabel y dihasilkan dengan menambahkan angka acak yang diambil dari distribusi normal (rnorm) dengan mean 0 dan deviasi standar 1 ke variabel x. Variabel x kemudian dikonversi menjadi faktor menggunakan fungsi as.factor(). Data frame sample_data kemudian dibentuk dengan menggabungkan variabel x dan y.

# create linear model
linear_model <- lm( y~x, sample_data)

# print summary of linear model
summary(linear_model)
## 
## Call:
## lm(formula = y ~ x, data = sample_data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -2.2816 -0.7413 -0.0952  0.6988  3.3789 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   0.9792     0.1175   8.331 7.98e-16 ***
## x2            1.0044     0.1656   6.063 2.65e-09 ***
## x3            1.9439     0.1686  11.527  < 2e-16 ***
## x4            3.1419     0.1668  18.836  < 2e-16 ***
## x5            3.9926     0.1680  23.764  < 2e-16 ***
## x6            5.0147     0.1635  30.672  < 2e-16 ***
## x7            6.1239     0.1674  36.583  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.9973 on 493 degrees of freedom
## Multiple R-squared:  0.8092, Adjusted R-squared:  0.8068 
## F-statistic: 348.4 on 6 and 493 DF,  p-value: < 2.2e-16

Pada bagian ini, kita membangun model linear menggunakan fungsi lm() dengan argumen formula y ~ x, yang berarti kita ingin memodelkan variabel y sebagai respons terhadap variabel x. Model linear tersebut disimpan dalam objek linear_model.kita mencetak ringkasan (summary) dari model linear yang telah dibangun menggunakan fungsi summary(). Ringkasan ini memberikan informasi seperti koefisien regresi, statistik t-tes, nilai R-squared, dan lainnya. Hasil ringkasan model linear dicetak ke layar.

Dalam keseluruhan program, kita membuat data frame sample_data dengan variabel x dan y. Kemudian, kita membangun model linear menggunakan lm() dan menyimpannya dalam objek linear_model. Terakhir, kita mencetak ringkasan model linear menggunakan summary(). Hal ini membantu kita memahami model linear yang telah dibangun dan melihat hasil analisis statistik yang terkait.

Berikut adalah model regresi linier dasar dengan tingkat referensi faktor ditetapkan ke 4

# create sample data frame
x <- sample(1:7, 500, replace = TRUE)
y <- round(x + rnorm(500), 3)
x <- as.factor(x)
sample_data <- data.frame(x, y)

Pada bagian ini, kita membuat sebuah data frame bernama sample_data yang berisi dua variabel: x dan y. Variabel x diisi dengan 500 sampel acak dari angka 1 hingga 7 dengan penggantian (replace = TRUE). Variabel y dihasilkan dengan menambahkan angka acak yang diambil dari distribusi normal (rnorm) dengan mean 0 dan deviasi standar 1 ke nilai-nilai variabel x. Selanjutnya, variabel x diubah menjadi faktor menggunakan fungsi as.factor(). Terakhir, data frame sample_data dibentuk dengan menggabungkan variabel x dan y.

# create linear model
linear_model <- lm( y~x, sample_data)

Pada bagian ini, kita membangun model regresi linier menggunakan fungsi lm(). Argumen formula y ~ x menunjukkan bahwa kita ingin memodelkan variabel y sebagai variabel respons terhadap variabel x dalam data frame sample_data. Model regresi linier tersebut disimpan dalam objek linear_model.

# print summary of linear model
summary(linear_model)
## 
## Call:
## lm(formula = y ~ x, data = sample_data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2.89979 -0.62366 -0.00103  0.63306  2.82631 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   0.9870     0.1164   8.480 2.64e-16 ***
## x2            0.9995     0.1676   5.963 4.71e-09 ***
## x3            2.1657     0.1635  13.245  < 2e-16 ***
## x4            2.9526     0.1703  17.338  < 2e-16 ***
## x5            3.9173     0.1600  24.479  < 2e-16 ***
## x6            5.1188     0.1635  31.306  < 2e-16 ***
## x7            6.0858     0.1710  35.586  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.9945 on 493 degrees of freedom
## Multiple R-squared:  0.803,  Adjusted R-squared:  0.8006 
## F-statistic: 334.8 on 6 and 493 DF,  p-value: < 2.2e-16

Pada bagian ini, kita mencetak ringkasan (summary) dari model regresi linier yang telah dibangun menggunakan fungsi summary(). Ringkasan ini memberikan informasi statistik tentang model, termasuk koefisien regresi, nilai t-statistik, nilai p-value, dan nilai R-squared yang menggambarkan seberapa baik model ini cocok dengan data. Hasil ringkasan model regresi linier dicetak ke layar.

Dalam keseluruhan program ini kita membuat data frame sample_data dengan variabel x dan y yang menggambarkan sampel data. Selanjutnya, kita membangun model regresi linier menggunakan lm() dengan variabel y sebagai respons dan variabel x sebagai prediktor. Akhirnya, kita mencetak ringkasan model regresi linier untuk melihat hasil analisis statistik yang terkait dengan model ini.