data yg diambil

saya mengambil data pajak thn 2019 kabupaten tegal dari https://www.data.go.id/dataset/data-realisasi-penerimaan-pajak-daerah-kabupaten-tegal-bulan-april-juni-tahun-2019 dan saya ringkas hanya pada data yg akan dibandingkan saja sehingga hasilnya seperti ini

library("readxl")
## Warning: package 'readxl' was built under R version 4.0.3
DataPenerimaanPajak = read_xlsx("DATA PAJAK.xlsx")
penerimaan_pajak <- DataPenerimaanPajak
penerimaan_pajak
## # A tibble: 6 x 4
##   `PAJAK HOTEL` `PAJAK RESTORAN` `PAJAK HIBURAN` `PAJAK REKLAME`
##           <dbl>            <dbl>           <dbl>           <dbl>
## 1      36413990        300513471        48807650       214576278
## 2      30703500        215796694        28414050       154002515
## 3      77354550        290831370        31265180       227872183
## 4      33278700        582519464        39506725       123993530
## 5      54362754        495798064        71933555       151979923
## 6      24032534        350470641        17619402       106684788
## # A tibble: 6 x 4
##   `PAJAK HOTEL` `PAJAK RESTORAN` `PAJAK HIBURAN` `PAJAK REKLAME`
##           <dbl>            <dbl>           <dbl>           <dbl>
## 1      36413990        300513471        48807650       214576278
## 2      30703500        215796694        28414050       154002515
## 3      77354550        290831370        31265180       227872183
## 4      33278700        582519464        39506725       123993530
## 5      54362754        495798064        71933555       151979923
## 6      24032534        350470641        17619402       106684788

dpt kita lihat sepertinya mereka mempunyai rata rata yg berbeda karena kolom pajak.restoran punya 9 digit angka sedangkan pajak.hotel hanya dengan menggunakan level signifikan 0,5 kita buktikan apakah rata ratanya penerimaan pajak dari 4 jenis pajak itu sama. apabila sama maka hipotesis pertama (h0) kenaikan dan penurunaan setiap jenis pajak itu sama itu benar.apabila tidak sama(<0,5) maka hipotesis alternatif(h1) kenaikan dan penurunan pajak itu berbeda beda setiap jenis pajak itu benar. ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ ##mengubah data menjadi metrix mengubah data menjadi matrix bisa menggunakan fungsi as.matrix() yg akan membaca semua data numerik di dalam parameter nya apabila ada data yg bukan numerik maka fungsi as.matrix tdk dapat berjalan. fungsi t() utk membuat data yg dibaca per baris /horizontal sehingga jumlah datanya sama dengan kolom/ kelompok yaitu ada 24 yg akan dimasukan ke metode anova dan data matrix tsb akan disimpan di variable r pastikan hasilnya tidak ada tanda double quote/petik dua ("") agar terbaca sebagai numerik dan dapat dimasukan sebagai parameter pada metode aov nanti

weight <- c(t(as.matrix(penerimaan_pajak)))
weight
##  [1]  36413990 300513471  48807650 214576278  30703500 215796694  28414050
##  [8] 154002515  77354550 290831370  31265180 227872183  33278700 582519464
## [15]  39506725 123993530  54362754 495798064  71933555 151979923  24032534
## [22] 350470641  17619402 106684788
##  [1]  36413990 300513471  48807650 214576278  30703500 215796694  28414050
##  [8] 154002515  77354550 290831370  31265180 227872183  33278700 582519464
## [15]  39506725 123993530  54362754 495798064  71933555 151979923  24032534
## [22] 350470641  17619402 106684788

menentukan treat level dan row

dapat dilihat bahwa ada 4 treatment level(dilihat dari kolom) yaitu PAJAK.HOTEL = penerimaan pajak hotel daerah seperti hotel k PAJAK.RESTORAN = penerimaan pajak hotel daerah PAJAK.HIBURAN = penerimaan pajak hotel daerah PAJAK.REKLAME = penerimaan pajak hotel daerah yg akan disimpan di variable f dan jumlahnya disimpan di variable k dan ada 6 baris data yg merupakan data bulan januari sampai juni yg akan disimpan di variable n dan akan kita ubah seperti metrix sg fungsi gl() jadi fungsi gl memengulang f sampai sampai 6 kali.sehingga isinya sama dengan data yg telah kita ubah jadi matrix yaitu ada 24 (4*6) dan akan dimasukan ke dalam tm sebagai kelompok dan r sebagai bobot sehingga bisa ditetukan bobot setiap kelompok

Y <- c( "PAJAK HOTEL","PAJAK RESTORAN","PAJAK HIBURAN","PAJAK REKLAME")
Yn <- 4 #treatment levels
en <- 6 #data tiap treatment dari bulan januari - juni
group <- gl(Yn, 5,en*Yn, factor(Y))
group
##  [1] PAJAK HOTEL    PAJAK HOTEL    PAJAK HOTEL    PAJAK HOTEL    PAJAK HOTEL   
##  [6] PAJAK RESTORAN PAJAK RESTORAN PAJAK RESTORAN PAJAK RESTORAN PAJAK RESTORAN
## [11] PAJAK HIBURAN  PAJAK HIBURAN  PAJAK HIBURAN  PAJAK HIBURAN  PAJAK HIBURAN 
## [16] PAJAK REKLAME  PAJAK REKLAME  PAJAK REKLAME  PAJAK REKLAME  PAJAK REKLAME 
## [21] PAJAK HOTEL    PAJAK HOTEL    PAJAK HOTEL    PAJAK HOTEL   
## Levels: PAJAK HOTEL PAJAK RESTORAN PAJAK HIBURAN PAJAK REKLAME
##  [1] PAJAK HOTEL    PAJAK HOTEL    PAJAK HOTEL    PAJAK HOTEL    PAJAK HOTEL   
##  [6] PAJAK RESTORAN PAJAK RESTORAN PAJAK RESTORAN PAJAK RESTORAN PAJAK RESTORAN
## [11] PAJAK HIBURAN  PAJAK HIBURAN  PAJAK HIBURAN  PAJAK HIBURAN  PAJAK HIBURAN 
## [16] PAJAK REKLAME  PAJAK REKLAME  PAJAK REKLAME  PAJAK REKLAME  PAJAK REKLAME 
## [21] PAJAK HOTEL    PAJAK HOTEL    PAJAK HOTEL    PAJAK HOTEL   
## Levels: PAJAK HOTEL PAJAK RESTORAN PAJAK HIBURAN PAJAK REKLAME

##Anova metode perbandingan data dalam statitstika ada banyak salah satunya metode anova hampir sama penggunaannya dengan uji t namun yg membedakan uji t hanya dapat membandingkan dua kelompok sedangkan anova bisa tiga lebih oleh karena itu saya menggunakan anova. sekarang kita sudah tau r dan rm nya kita tinggal memasukannya dalam parameter fungsi aov() sebenarnya ada banyak cara penggunan anova dan hasilnya mungkin berbeda contoh fungsi anova() berbeda dengan fungsi aov di fungsi anova harus menggunakan formula seperti lm.D9 / lm.D90 sehingga kita pelu membuat lm biasa terlebih dahulu kemudian masukan ke formula lm tsb. *note lm = linear model fungsi anova() ini lebih ke kelompok yg besar diatas 1000 bahkan sampai jutaan berikut contoh beragam penggunaan metode anova di r

summary(aov(weight~group))
##             Df    Sum Sq   Mean Sq F value Pr(>F)
## group        3 1.474e+16 4.914e+15   0.183  0.907
## Residuals   20 5.372e+17 2.686e+16
summary.aov(lm(weight~group))
##             Df    Sum Sq   Mean Sq F value Pr(>F)
## group        3 1.474e+16 4.914e+15   0.183  0.907
## Residuals   20 5.372e+17 2.686e+16
anova(lm(weight~group))
## Analysis of Variance Table
## 
## Response: weight
##           Df     Sum Sq    Mean Sq F value Pr(>F)
## group      3 1.4741e+16 4.9136e+15  0.1829 0.9067
## Residuals 20 5.3723e+17 2.6861e+16
anova(lm.D9<-lm(weight~group))
## Analysis of Variance Table
## 
## Response: weight
##           Df     Sum Sq    Mean Sq F value Pr(>F)
## group      3 1.4741e+16 4.9136e+15  0.1829 0.9067
## Residuals 20 5.3723e+17 2.6861e+16
anova(lm.D90<-lm(weight~group-1))
## Analysis of Variance Table
## 
## Response: weight
##           Df     Sum Sq    Mean Sq F value   Pr(>F)   
## group      4 5.8785e+17 1.4696e+17  5.4712 0.003836 **
## Residuals 20 5.3723e+17 2.6861e+16                    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
summary(anova(lm.D9<-lm(weight~group)))
##        Df            Sum Sq             Mean Sq             F value      
##  Min.   : 3.00   Min.   :1.474e+16   Min.   :4.914e+15   Min.   :0.1829  
##  1st Qu.: 7.25   1st Qu.:1.454e+17   1st Qu.:1.040e+16   1st Qu.:0.1829  
##  Median :11.50   Median :2.760e+17   Median :1.589e+16   Median :0.1829  
##  Mean   :11.50   Mean   :2.760e+17   Mean   :1.589e+16   Mean   :0.1829  
##  3rd Qu.:15.75   3rd Qu.:4.066e+17   3rd Qu.:2.137e+16   3rd Qu.:0.1829  
##  Max.   :20.00   Max.   :5.372e+17   Max.   :2.686e+16   Max.   :0.1829  
##                                                          NA's   :1       
##      Pr(>F)      
##  Min.   :0.9067  
##  1st Qu.:0.9067  
##  Median :0.9067  
##  Mean   :0.9067  
##  3rd Qu.:0.9067  
##  Max.   :0.9067  
##  NA's   :1
summary(anova(lm.D90<-lm(weight~group-1)))
##        Df         Sum Sq             Mean Sq             F value     
##  Min.   : 4   Min.   :5.372e+17   Min.   :2.686e+16   Min.   :5.471  
##  1st Qu.: 8   1st Qu.:5.499e+17   1st Qu.:5.689e+16   1st Qu.:5.471  
##  Median :12   Median :5.625e+17   Median :8.691e+16   Median :5.471  
##  Mean   :12   Mean   :5.625e+17   Mean   :8.691e+16   Mean   :5.471  
##  3rd Qu.:16   3rd Qu.:5.752e+17   3rd Qu.:1.169e+17   3rd Qu.:5.471  
##  Max.   :20   Max.   :5.879e+17   Max.   :1.470e+17   Max.   :5.471  
##                                                       NA's   :1      
##      Pr(>F)        
##  Min.   :0.003836  
##  1st Qu.:0.003836  
##  Median :0.003836  
##  Mean   :0.003836  
##  3rd Qu.:0.003836  
##  Max.   :0.003836  
##  NA's   :1

saya pilih fungsi aov() saja, karena saya ingin mengikuti modul yg diberikan dosen

hasil_perbandingan = aov(weight~group)
hasil_perbandingan
## Call:
##    aov(formula = weight ~ group)
## 
## Terms:
##                        group    Residuals
## Sum of Squares  1.474072e+16 5.372259e+17
## Deg. of Freedom            3           20
## 
## Residual standard error: 163894154
## Estimated effects may be unbalanced
summary(hasil_perbandingan)
##             Df    Sum Sq   Mean Sq F value Pr(>F)
## group        3 1.474e+16 4.914e+15   0.183  0.907
## Residuals   20 5.372e+17 2.686e+16
## Call:
##    aov(formula = weight ~ group)
## 
## Terms:
##                        group    Residuals
## Sum of Squares  1.474072e+16 5.372259e+17
## Deg. of Freedom            3           20
## 
## Residual standard error: 163894154
## Estimated effects may be unbalanced
##             Df    Sum Sq   Mean Sq F value Pr(>F)
## group        3 1.474e+16 4.914e+15   0.183  0.907
## Residuals   20 5.372e+17 2.686e+16

##kesimpulan dapat dilihat bahwa p-value (0,907) lebih besar dari level signikan (0,5) maka hipotesis0 diterima (data setara), sehingga rata-rata penerimaan pajak dari 4 jenis pajak itu sama. apa rata rata yg dimaksud ini? akan lebih apabila lihat visualisasi dibawah

##visualisasi

library(ggplot2)
DATA.PAJAK.for.boxplot = read_xlsx("DATA PAJAK for boxplot.xlsx")
ggplot(DATA.PAJAK.for.boxplot, aes(x=as.factor(jenispajak), y=(penerimaanpajak))) +
geom_boxplot()

*note e+08 = 0 nya ada 8(ratus juta) tapi ada juga yg dibawah 100 jt sih. dapat dilihat bahwa sebaran data hampir setara dan posisi mean/rata-rata hampir sama yaitu berada di bawah dekat quartil bawah. nah itulah rerata yg dimaksud sama ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ ##tambahan dapat dilihat penerimaan pajak restoran&reklame lebih tinggi daripada pajak hotel dan hiburan yg berarti di daerah kabupaten tegal pajak restoran dan reklame lebih besae daripada pajak hiburan dan mungkin juga dipengaruhi oleh bertambahnya usaha restoran di desa dg konsep pemandangan sawah sedangkan hotel/homestay di kabupaten tegal sedikit dan lebih banyak di kost kan daripada dibuat hotel. dan kita tahu sendiri bisnis hiburan seperti karaoke, hiburan malam dibatasi agar tidak terjadi penyimpangan masyarakat. semuanya dapat dibuktikan dg data ini