library(ggplot2)
library(odbc)
library(DBI)
s2 = dbConnect(odbc(),
               Driver = "MySQL ODBC 8.0 ANSI Driver",
               Server = "127.0.0.1",
               UID = "root",
               PWD = "banun",
               Port = 3306,
               database = "coffee chain")
data <- dbGetQuery(s2, "select  Sales, profit from facttable")
#INSIGHT
#Analisis dilakukan untuk mengetahui hubungan antara Sales dan Profit pada Coffee Chain Dataset.
#Eksplorasi
str(data)
## 'data.frame':    4248 obs. of  2 variables:
##  $ Sales : int  219 190 234 100 134 180 341 150 140 130 ...
##  $ profit: int  94 68 101 30 54 53 99 0 33 17 ...
summary(data)
##      Sales         profit      
##  Min.   : 17   Min.   :-638.0  
##  1st Qu.:100   1st Qu.:  17.0  
##  Median :138   Median :  40.0  
##  Mean   :193   Mean   :  61.1  
##  3rd Qu.:230   3rd Qu.:  92.0  
##  Max.   :912   Max.   : 778.0
data$Sales <- as.numeric(as.character(data$Sales))
data$profit <- as.numeric(as.character(data$profit))

data <- na.omit(data)
hist(data$Sales, main = "Histogram Sales", col = "skyblue")

hist(data$profit, main = "Histogram Profit", col = "lightgreen")

#Visualisasi
ggplot(data, aes(x = Sales, y = profit)) +
  geom_point(color = "blue") +
  ggtitle("Hubungan Sales dan Profit") +
  xlab("Sales") +
  ylab("Profit")

#Uji Korelasi
cor_test <- cor.test(data$Sales, data$profit)
cor_test
## 
##  Pearson's product-moment correlation
## 
## data:  data$Sales and data$profit
## t = 86.084, df = 4246, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.7861073 0.8080289
## sample estimates:
##       cor 
## 0.7973309
#Regresi Linear
model <- lm(profit ~ Sales, data = data)
summary(model)
## 
## Call:
## lm(formula = profit ~ Sales, data = data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -606.28   -9.15   11.77   28.31  466.85 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -42.456004   1.527850  -27.79   <2e-16 ***
## Sales         0.536582   0.006233   86.08   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 61.39 on 4246 degrees of freedom
## Multiple R-squared:  0.6357, Adjusted R-squared:  0.6357 
## F-statistic:  7410 on 1 and 4246 DF,  p-value: < 2.2e-16
#Interpretasi Visualisasi
#Berdasarkan scatter plot antara Sales dan Profit, terlihat bahwa titik-titik data membentuk pola yang cenderung meningkat dari kiri bawah ke kanan atas. Hal ini menunjukkan adanya hubungan positif antara kedua variabel. Namun, terdapat beberapa titik dengan nilai profit negatif pada sales yang rendah, yang mengindikasikan bahwa pada kondisi penjualan kecil, perusahaan masih berpotensi mengalami kerugian. Secara keseluruhan, pola yang terbentuk cukup jelas sehingga dapat disimpulkan bahwa semakin tinggi nilai Sales, maka Profit cenderung meningkat.

#Interpretasi Uji Korelasi
#Hasil uji korelasi Pearson menunjukkan nilai koefisien korelasi sebesar 0.7973309, yang berarti terdapat hubungan positif dan kuat antara Sales dan Profit. Nilai p-value yang sangat kecil (p-value < 2.2e-16) menunjukkan bahwa hubungan tersebut signifikan secara statistik, sehingga dapat disimpulkan bahwa terdapat hubungan nyata antara kedua variabel. Selain itu, interval kepercayaan 95% berada pada rentang 0.7861073 hingga 0.8080289, yang seluruhnya bernilai positif. Hal ini semakin memperkuat bahwa hubungan antara Sales dan Profit adalah positif dan konsisten. Dengan demikian, dapat disimpulkan bahwa peningkatan Sales cenderung diikuti oleh peningkatan Profit.

#Interpretasi Regresi Linear
#Berdasarkan hasil analisis regresi linear, diperoleh persamaan model sebagai berikut: Profit = -42.456 + 0.5366 × Sales. Interpretasi dari model tersebut adalah: Nilai intercept sebesar -42.456 menunjukkan bahwa ketika Sales bernilai 0, maka Profit diperkirakan bernilai negatif, yaitu sekitar -42.456. Hal ini mengindikasikan adanya biaya tetap atau kerugian dasar ketika tidak ada penjualan. Koefisien Sales sebesar 0.5366 menunjukkan bahwa setiap peningkatan 1 unit Sales akan meningkatkan Profit sebesar 0.5366 unit. Hal ini menunjukkan pengaruh positif dari Sales terhadap Profit. Nilai p-value untuk variabel Sales yang sangat kecil (< 2e-16) menunjukkan bahwa pengaruh Sales terhadap Profit signifikan secara statistik. Nilai R-squared sebesar 0.6357 menunjukkan bahwa sekitar 63.57% variasi dalam Profit dapat dijelaskan oleh Sales, sedangkan sisanya dijelaskan oleh faktor lain yang tidak dimasukkan dalam model. Nilai F-statistic yang besar dengan p-value < 2.2e-16 menunjukkan bahwa model regresi secara keseluruhan signifikan dan layak digunakan. Secara keseluruhan, model regresi menunjukkan bahwa Sales merupakan faktor penting yang mempengaruhi Profit.
#Kesimpulan
#Semakin tinggi nilai Sales, maka Profit juga cenderung meningkat.