📌Insight

Dalam upaya memahami perbedaan profitabilitas antar wilayah, analisis ini bertujuan untuk mengevaluasi pola keuntungan pada Coffe Chain di empat wilayah negara bagian Amerika Serikat pada bulan Maret tahun 2012. Analisis ini menggunakan pendekataN One-Way ANOVA yang difokuskan untuk menguji apakah terdapat perbedaan yang signifikan dalam rata-rata keuntungan antar wilayah. Melalui analisis ini, diharapkan dapat diidentifikasi wilayah dengan kinerja keuntungan yang tinggi hingga rendah. Informasi ini penting untuk memberikan gambaran lebih jelas mengenai wilayah yang telah terkontribusi optimal terhadap profitabilitas, serta wilayah yang masih memerlukan perhatian lebih lanjut.

Analisis Data

# Packages yang digunakan
library(readxl)
library(knitr)
library(dplyr)
library(ggpubr)
library(car)

Deskripsi Data

Data yang digunakan dalam analisis ini merupakan data keuntungan (profit) dalam Coffe Chain pada bulan Maret tahun 2012 di empat negara bagian (state) Amerika Serikat, yakni Louisiana, New Mexico, Oklahoma, dan Texas. Negara bagian (State) disini sebagai variabel kategori dengan jumlah data tiap kategorinya sebayak 7 observasi, sehingga terdapat total 28 data dalam satu variabel numerik utama yaitu Profit.

# Impor Data dari Excel
dataa <- read_excel("D://Dataa.xlsx")
dataa
## # A tibble: 28 × 2
##    State      Profit
##    <chr>       <dbl>
##  1 Louisiana       1
##  2 Louisiana      63
##  3 Louisiana      38
##  4 Louisiana      34
##  5 Louisiana      39
##  6 Louisiana      47
##  7 Louisiana      29
##  8 New Mexico     -3
##  9 New Mexico     -7
## 10 New Mexico     11
## # ℹ 18 more rows
Louisiana New Mexico Oklahoma Texas
1 -3 74 54
63 -7 15 91
38 11 68 84
34 10 13 31
39 5 17 35
47 -33 27 70
29 26 29 166

Statistik Deskriptif

Statistik deskriptif merupakan metode statistik yang berkaitan dengan pengumpulan dan penyajian suatu data sehingga memberikan informasi yang berguna sebagai gambaran umum sebelum melakukan analisis. Beberapa ukuran yang sering digunakan dalam statistik deskriptif antara lain ukuran pemusatan, seperti mean, median, dan standar deviasi. Statistik deskriptif menjadi langkah awal yang penting dalam proses analisis untuk memberikan pemahaman awal terhadap karakteristik data sebelum dilakukan uji statistik lebih lanjut.

# Menampilkan Statistik Deskriptif dari Data
group_by(dataa, State) %>%
get_summary_stats(Profit,type="common")
## # A tibble: 4 × 11
##   State      variable     n   min   max median   iqr  mean    sd    se    ci
##   <chr>      <fct>    <dbl> <dbl> <dbl>  <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 Louisiana  Profit       7     1    63     38  11.5 35.9   18.9  7.14  17.5
## 2 New Mexico Profit       7   -33    26      5  15.5  1.29  18.5  7.00  17.1
## 3 Oklahoma   Profit       7    13    74     27  32.5 34.7   25.6  9.66  23.6
## 4 Texas      Profit       7    31   166     70  43   75.9   45.9 17.3   42.4

Statistik deskriptif di atas menyajikan variabel Profit pada empat negara bagian. Rata-rata profit tertinggi tercatat di Texas sebesar 75.857 dan sebaran data yang juga relatif tinggi (SD = 45.853). Sebaliknya, rata-rata profit yang terendah di New Mexico sebesar 1.286 dan bahkan terdapat nilai negatif yang mengindikasikan adanya kerugian. Data ini menunjukkan adanya indikasi awal perbedaan profitabilitas antar wilayah. Selanjutnya, untuk menguji signifikansi perbedaan tersebut, digunakan uji One-Way ANOVA.

# Menampilkan Visulisasi Boxplot
ggplot(dataa, aes(x = State, y = Profit, fill = State)) +
  geom_boxplot() +
  scale_fill_manual(values = c(
    "Louisiana" = "#8AA5DC",
    "New Mexico" = "#FFA7D3",
    "Oklahoma" = "#B8D8D8",
    "Texas" = "#D3C4E1"
  )) +
  theme_minimal() +
  ylab("Profit") +
  xlab("State")

Visualisasi Boxplot ditampilkan untuk menunjukkan distribusi keuntungan (profit) tiap wilayah (state) secara visual. Dari output Boxplot di atas, terlihat bahwa Texas memiliki profit median tertinggi dengan sebaran data yang luas, menandakan adanya profit yang relatif tinggi di wilayah tersebut. Sementara itu, New Mexico menunjukkan median profit yang paling rendah, bahkan terdapat beberapa toko yang mengalami kerugian (nilai di bawah nol). Selain itu, terdapat Louisiana dan Oklahoma berada di rentang tengah.

Beberapa outlier terlihat muncul di masing-masing wilayah, seperti satu nilai yang sangat tinggi di Texas serta nilai yang sangat rendah di New Mexico. Keberadaan outlier ini perlu diperhatikan karena dapat memengaruhi hasil ANOVA secara keseluruhan. Oleh karena itu, diperlukan analisis lanjutan seperti uji Cook’s Distance untuk mengidentifikasi apakah outlier tersebut merupakan observasi yang berpengaruh besar terhadap model. Analisis ini akan dijabarkan pada bagian Uji Asumsi.

One-Way ANOVA

Uji ANOVA (Analysis Of Variance) merupakan metode statistik yang dipergunakan dengan tujuan untuk menganalisis perbandingan rata-rata dari tiga atau lebih kelompok data yang independen. Tujuan utama dari uji ANOVA adalah menemukan perbedaan signifikan yang muncul antara rata-rata kelompok. Dikatakan sebagai One-Way ANOVA (analisis variansi satu arah) karena penelitian digunakan untuk menganalisis data yang dikategorisasikan ke dalam satu faktor / kriteria saja. Dalam analisis ini, data dikategorikan berdasarkan satu faktor yaitu State.

Hipotesis yang akan diuji berbentuk:

\(H_0:\mu_1=\mu_2=...=\mu_k\)

\(H_1:\mu_i\neq\mu_j\) , untuk paling sedikit sebuah \(i, j\)

Model matematik One-Way ANOVA:

\[Y_{ij}=\mu+\tau_i+\epsilon_{ij}\] dengan

\(\mu\) : mean keseluruhan

\(\tau_i\) : efek perlakuan ke-\(i\)

\(\epsilon_{ij}\) : sesatan yang diasumsikan berdistribusi normal, independen dengan mean nol dan variansi sama

\(i=1, 2, ..., k\)

\(j=1, 2, ..., n\)

Langkah yang pertama, kita perlu membangun model ANOVA terlebih dahulu:

# Membangun Model ANOVA
model = aov(Profit~State, data=dataa)
model
## Call:
##    aov(formula = Profit ~ State, data = dataa)
## 
## Terms:
##                    State Residuals
## Sum of Squares  19543.29  20730.57
## Deg. of Freedom        3        24
## 
## Residual standard error: 29.39003
## Estimated effects may be unbalanced

Selanjutnya, dilakukan pengujian One-Way ANOVA dengan langkah-langkah perhitungan sebagai berikut:

Sebelumnya dideskripsikan:

\(\mu_1\) untuk wilayah Louisiana
\(\mu_2\) untuk wilayah New Mexico
\(\mu_3\) untuk wilayah Oklahoma
\(\mu_4\) untuk wilayah Texas

(1.) Hipotesis

\(H_0:\mu_1=\mu_2=\mu_3=\mu_4\)

(rata-rata keuntungan (profit) sama dari keempat wilayah (state))

\(H_1:\mu_i\neq\mu_j\)

(paling tidak terdapat dua wilayah (state) yang menghasilkan rata-rata keuntungan (profit) yang berbeda)

(2.) Tingkat Signifikansi

\(\alpha=0.05\)

(3.) Daerah Kritis

\(H_0\) ditolak jika \(p-value<\alpha=0.05\)

(4.) Statistik Uji

# Pengujian One-Way ANOVA
summary(model)
##             Df Sum Sq Mean Sq F value  Pr(>F)   
## State        3  19543    6514   7.542 0.00101 **
## Residuals   24  20731     864                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(5.) Kesimpulan

Dari Output di atas, dapat dilihat bahwa nilai \(p-value = 0.00101 < 0.05\) , maka \(H_0\) ditolak yang berarti bahwa paling tidak terdapat dua wilayah (state) yang menghasilkan rata-rata profit yang berbeda.

Untuk mengetahui mana wilayah yang menghasilkan profit yang berbeda, dilakukan uji lanjutan untuk pembandingan ganda.

Uji Lanjutan Tukey HSD

Metode Tukey merupakan salah satu metode dalam uji lanjutan pembandingan ganda yang digunakan ketika banyak observasi sama untuk masing-masing perlakuan. Uji Tukey sering disebut uji beda nyata jujur atau HSD (Honestly Significant Difference).

Pengujian Tukey HSD dilakuan dengan langkah-langkah perhitungan sebagai berikut:

(1.) Hipotesis

\(H_0:\mu_1=\mu_2\) vs \(H_1:\mu_1\neq\mu_2\)

\(H_0:\mu_1=\mu_3\) vs \(H_1:\mu_1\neq\mu_3\)

\(H_0:\mu_1=\mu_4\) vs \(H_1:\mu_1\neq\mu_4\)

\(H_0:\mu_2=\mu_3\) vs \(H_1:\mu_2\neq\mu_3\)

\(H_0:\mu_2=\mu_4\) vs \(H_1:\mu_2\neq\mu_4\)

\(H_0:\mu_3=\mu_4\) vs \(H_1:\mu_3\neq\mu_4\)

(2.) Tingkat Signifikansi

\(\alpha=0.05\)

(3.) Daerah Kritis

\(H_0\) ditolak jika \(p-value < \alpha=0.05\)

(4.) Statistik Uji

# Pengujian Tukey HSD
TukeyHSD(model)
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = Profit ~ State, data = dataa)
## 
## $State
##                            diff        lwr        upr     p adj
## New Mexico-Louisiana -34.571429 -77.908156   8.765298 0.1517414
## Oklahoma-Louisiana    -1.142857 -44.479584  42.193870 0.9998578
## Texas-Louisiana       40.000000  -3.336727  83.336727 0.0778221
## Oklahoma-New Mexico   33.428571  -9.908156  76.765298 0.1730000
## Texas-New Mexico      74.571429  31.234702 117.908156 0.0004319
## Texas-Oklahoma        41.142857  -2.193870  84.479584 0.0670454
# Plot Tukey HSD
plot(TukeyHSD(model))

(5.) Kesimpulan

Dari Output di atas, dapat diambil kesimpulan sebagai berikut:

  1. Louisiana-New Mexico tidak memiliki perbedaan rata-rata yang signifikan dengan (nilai p = 0.1517), kemudian karena interval kepercayaan untuk perbedaan rata-rata pada plot mencakup 0, yang menunjukkan bahwa tidak ada perbedaan signifikan antara kedua wilayah ini.
  2. Louisiana-Oklahoma tidak memiliki perbedaan rata-rata yang signifikan dengan (nilai p = 0.99986), kemudian karena interval kepercayaan untuk perbedaan rata-rata pada plot mencakup 0, yang menunjukkan bahwa tidak ada perbedaan signifikan antara kedua wilayah ini.
  3. Louisiana-Texas tidak memiliki perbedaan rata-rata yang signifikan dengan (nilai p = 0.0778), kemudian karena interval kepercayaan untuk perbedaan rata-rata pada plot mencakup 0, yang menunjukkan bahwa tidak ada perbedaan signifikan antara kedua wilayah ini.
  4. New Mexico-Oklahoma tidak memiliki perbedaan rata-rata yang signifikan dengan (nilai p = 0.1730), kemudian karena interval kepercayaan untuk perbedaan rata-rata pada plot mencakup 0, yang menunjukkan bahwa tidak ada perbedaan signifikan antara kedua wilayah ini.
  5. New-Mexico-Texas memiliki perbedaan rata-rata yang signifikan dengan (nilai p = 0.0004), kemudian karena interval kepercayaan untuk perbedaan rata-rata pada plot tidak mencakup 0, yang menunjukkan bahwa terdapat perbedaan signifikan antara kedua wilayah ini.
  6. Oklahoma-Texas tidak memiliki perbedaan rata-rata yang signifikan dengan (nilai p = 0.0670), kemudian karena interval kepercayaan untuk perbedaan rata-rata pada plot mencakup 0, yang menunjukkan bahwa tidak ada perbedaan signifikan antara kedua wilayah ini.

Uji Asumsi

Plot

# Diagnostic Plot Model ANOVA
plot(model)

(a.) Uji Normalitas Residual

Uji Normalitas Residual merupakan suatu prosedur statistik untuk menguji residual suatu data atau sampel berasal dari populasi apakah terdistribusi normal atau mendekati normal. Uji normalitas residual juga bisa dilihat dari output Q-Q Residuals Plot.

Hipotesis:

\(H_0\) : Residual berdistribusi normal

\(H_1\) : Residual tidak berdistribusi normal

Tingkat Signifikansi:

\(\alpha=0.05\)

Statistik Uji:

# Uji Normalitas
shapiro.test(model$residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  model$residuals
## W = 0.9272, p-value = 0.05241

Kesimpulan:

Karena nilai \(p-value = 0.05241 > 0.05\), maka \(H_0\) tidak ditolak yang berarti bahwa residual berdistribusi normal (memenuhi asumsi normalitas).

(b.) Uji Homogenitas Varians

Uji Homogenitas Varians yaitu metode statistik yang memiliki tujuan menguji apakah varians antara dua kelompok data atau lebih adalah homogen atau sama. Tujuan utama dari uji homogenitas adalah untuk menentukan apakah kelompok-kelompok tersebut memiliki variabilitas yang serupa atau berbeda secara signifikan. Uji homogenitas juga bisa dilihat dari output Residual vs Fitted Plot atau Scale-Location Plot.

Hipotesis:

\(H_0\) : Tidak ada perbedaan varians antar kelompok

\(H_1\) : Terdapat perbedaan varians antara setidaknya dua kelompok

Tingkat Signifikansi:

\(\alpha=0.05\)

Statistik Uji:

# Uji Homogenitas
leveneTest(Profit ~ factor(State), data = dataa)
## Levene's Test for Homogeneity of Variance (center = median)
##       Df F value Pr(>F)
## group  3  1.3514 0.2814
##       24

Kesimpulan:

Karena nilai \(p-value = 0.2814 > 0.05\), maka \(H_0\) tidak ditolak yang berarti bahwa tidak ada perbedaan varians antar kelompok (memenuhi asumsi homogenitas).

(c.) Uji Independensi

Uji independensi merupakan sebuah asumsi yang harus dipenuhi pada analisis ANOVA. Asumsi ini menyatakan bahwa nilai variabel dependen untuk satu pengamatan harus independen dari nilai pengamatan lainnya.

Pada penelitian ini, asumsi independensi antar observasi dianggap terpenuhi karena data keuntungan (profit) diperoleh dari cabang toko yang berbeda secara acak di masing masing wilayah (state), tanpa pengukuran berulang atau hubungan hierarkis.

(c.) Plot Constant Laverage (Residual vs Laverage)

Karena pada analisis statistik deskriptif sebelumnya terlihat adanya outlier dari visualisasi boxplot, maka dilakukan diagnostik visual untuk mendeteksi outlier yang berpengaruh besar terhadap model. Kita bisa melihat plot constant Laverege: Residuals vs Factor Levels, dimana pada plot terlihat bahwa observasi 28 agak menyimpang tetapi tidak sangat ekstrem dan garis merah masih cenderung mendatar, sehingga dapat diartikan bahwa tidak ada pengamatan yang secara drastis memengaruhi model.

Hasil dan Pembahasan

Berdasarkan analisis statistik deskriptif, terdapat adanya perbedaan rata-rata keuntungan (profit) antar wilayah (state). Perbedaan ini mendasari pentingnya uji statistik lebih lanjut apakah perbedaan tersebut signifikan secara statistik. Diketahui bahwa wilayah Texas memiliki rata-rata profit tertinggi, sementara New Mexico menunjukkan rata-rata profit terendah.

Pada uji asumsi klasik, semua asumsi terpenuhi baik normalitas, homogenitas, maupun independensi, maka dapat melanjutkan analisis dan hasil pada uji ANOVA.

Hasil uji One-Way ANOVA menunjukkan bahwa rata-rata keuntungan (profit) dari keempat wilayah (state) tidak sama. Dengan kata lain, paling tidak terdapat dua wilayah (state) yang menghasilkan rata-rata profit yang berbeda. Oleh karena itu, untuk mengetahui wilayah mana yang berbeda secara signifikan, dilakukan uji lanjutan pembandingan berganda Tukey HSD.

Pada Uji Tukey HSD, didapatkan kesimpulan bahwa perbedaan signifikan rata-rata keuntungan (profit) terjadi antara wilayah New Mexico dan Texas. Hal ini menunjukkan adanya ketimpangan performa antar wilayah. Wilayah Texas dapat dijadikan contoh praktik terbaik dalam pengelolaan keuntungan (profit), sedangkan New Mexico masih memerlukan evaluasi dan strategi peningkatan profitabilitas.

Kesimpulan

Berdasarkan hasil analisis mengenai profitabilitas di empat wilayah operasional Coffe Chain, diketahui ada perbedaan yang signifikan dalam rata-rata keuntungan (profit) di antara wilayah tersebut. Hasil dari uji One-Way ANOVA mengonfirmasi bahwa keuntungan rata-rata tidak sama, yang menunjukkan beberapa wilayah menghasilkan keuntungan yang lebih tinggi secara signifikan dibandingkan yang lain. Uji lanjutan Tukey HSD mengindikasikan bahwa perbedaan paling signifkan muncul antara wilayah New Mexico dan Texas, dengan Texas memperlihatkan rata-rata keuntungan (profit) tertinggi, sementara New Mexico berada di urutan terendah.

Temuan ini menunjukkan bahwa manajemen perusahaan perlu memberikan perhatian khusus kepada wilayah yang berkinerja buruk, khususnya New Mexico, dalam hal strategi pemasaran, operasional, dan faktor eksternal lainnya. Sebaliknya, keberhasilan Texas dapat dijadikan sebagai contoh dalam merumuskan strategi untuk meningkatkan profit di wilayah lainnya. Secara keseluruhan, analisis ini menekankan pentingnya pendekatan berbasis data dalam menilai dan meningkatkan kinerja bisnis di berbagai wilayah, untuk mencapai profitabilitas yang lebih seimbang dan berkelanjutan.