어떤 공장에서 동일한 기계들의 정비기록에 관한 표본자료를 취하였다. 이는 기계의 사용연도와 정비기록간에 어떤 관계가 있는가를 밝혀 내기 위한 것이로 그 자료는 다음과 같다(표본크기 n = 14)
mage = c(3,1,5,8,1,4,2,6,9,3,5,7,2,6)
mcost= c(39,24,115,105,50,86,67,90,140,112,70,186,43,126)
dataF= data.frame(mage,mcost)
1) 이 데이터의 산점도를 그려라.
dataF.lm = lm(mcost~mage, data=dataF)
plot(dataF,pch=19)
abline(h=100,v=5, lty=5)
abline(coef = coef(dataF.lm), lty=5)
abline(coef = dataF.lm$coefficients+1, col="RED", lty=1)
2) 최소제곱법에 의한 회귀직선을 적합시키라
dataF.lm = lm(mcost~mage, data=dataF)
plot(dataF$mage,dataF$mcost, xlab="기계사용기간",ylab="유지비용",pch=18)
title("기계사용연수에 따른 유지비용")
abline(dataF.lm, lty=1, col="RED")
3) 추정치의 표준오차 Sy.x 를 구하라
추정값의 표준오차:
Residual standard error: 29.11 가 추정값의
표준오차임
summary(dataF.lm)##
## Call:
## lm(formula = mcost ~ mage, data = dataF)
##
## Residuals:
## Min 1Q Median 3Q Max
## -33.204 -20.383 -4.748 13.957 61.433
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 29.107 15.969 1.823 0.093341 .
## mage 13.637 3.149 4.330 0.000978 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 29.11 on 12 degrees of freedom
## Multiple R-squared: 0.6098, Adjusted R-squared: 0.5773
## F-statistic: 18.75 on 1 and 12 DF, p-value: 0.0009779
4) 결정계수와 상관계수를 구하라
결정계수는 0~1 사이에서
상관계수가 높을수록 1에 가까움, 단점은 음, 양을 알수없음
상관계수는
두 변수 간의 선형관계를 재는 측도
단순회귀분석에서 상관계수 r :
결정계수: 0.6098
상관계수는 회귀선의 기울기가
양,음인지 확인후 반영
sqrt(0.6098)## [1] 0.7808969
5) 분산분석표를 작성하고 회귀직선의 유의 여부를 검정하라(a=0.05)
회귀방정식 유의 여부는 분산분석표의 F-검정으로 처리
F = 18.753
이고, p-값: 0.0009779 로 매우 낮으므로 유의함
anova(dataF.lm)## Analysis of Variance Table
##
## Response: mcost
## Df Sum Sq Mean Sq F value Pr(>F)
## mage 1 15887 15887.2 18.753 0.0009779 ***
## Residuals 12 10166 847.2
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
6) 사용연도가 4년인 기계의 평균정비비용은 어느 정도인가를
추정하라
추정식 : mcost = 29.107 + 13.637 x mage
대입결과:
mcost_result = 29.107+(13.637*4)
print(mcost_result)## [1] 83.655
7) 잔차 를 구하여 잔차의 합이 영임을 확인하라
names(dataF.lm$residuals)## [1] "1" "2" "3" "4" "5" "6" "7" "8" "9" "10" "11" "12" "13" "14"
plot(mage,dataF.lm$residuals, pch=19)sum(dataF.lm$residuals)## [1] 0
8) 잔차들의 Xi 에 대한 가중합 를 구하라
가중잔차의 합:
sum(mage,dataF.lm$residuals)## [1] 62
9) 잔차들의 Yi에 대한 가중합 를 구하라
sum(mcost,dataF.lm$residuals)## [1] 1253
10) 두 변수 x, y 를 표준화된 변수로 고친 후 회귀직선을
적합시키고, 그 회귀계수가 두 변수 x, y 간의 상관계수와 같음을 밝혀라.
1번 문제에 대하여 B1, B0, 뮤yx(x=8)의 90% 신뢰구간을 구하라. 또한
다음의 가설검정을 a=0.01 에서 실시하라
B1의 신뢰계수100(1-a)% 신뢰구간 :
절편 B0의 신뢰구간 :
pred.frame = data.frame(X=seq(1.3, 9.5, 0.6))
pc = predict(dataF.lm, int="c", newdata = pred.frame)
pp = predict(dataF.lm, int="p", newdata = pred.frame)
pred.X = pred.frame$X
pred.X## [1] 1.3 1.9 2.5 3.1 3.7 4.3 4.9 5.5 6.1 6.7 7.3 7.9 8.5 9.1
plot(mage,mcost, ylim=range(mcost,pp))
matlines(pred.X, pc, lty=c(1,2,2), col="BLUE")
matlines(pred.X, pp, lty=c(1,3,3), col="RED")summary(dataF.lm)##
## Call:
## lm(formula = mcost ~ mage, data = dataF)
##
## Residuals:
## Min 1Q Median 3Q Max
## -33.204 -20.383 -4.748 13.957 61.433
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 29.107 15.969 1.823 0.093341 .
## mage 13.637 3.149 4.330 0.000978 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 29.11 on 12 degrees of freedom
## Multiple R-squared: 0.6098, Adjusted R-squared: 0.5773
## F-statistic: 18.75 on 1 and 12 DF, p-value: 0.0009779
#qt(0.99,14-2)mage p-값이 0.000978 로 0.01 보다 낮음