Преподаватель
Иванов Иван Никифорович
Студент
Сидоров Иван Иванович, 2 курс, 5 группа, ПМ
Вариант № 1
Загрузка данных из текстового файла в переменную - таблицу данных
qc=read.table("QC.txt")
Размерность таблицы данных
## [1] 100 9
Первые три записи из таблицы
## v1 v2 v3 v4 v5 v6 v7 v8 v9
## 1 55.48 50.75 9.13 2 2 3 1 4 31.18
## 2 60.70 54.70 9.11 2 3 2 1 4 31.88
## 3 65.12 57.66 11.53 5 1 2 1 4 30.96
Таблица после переименования переменных
## c1 c2 c3 kit nbug vendor maker bug c4
## 1 55.48 50.75 9.13 2 2 3 1 4 31.18
## 2 60.70 54.70 9.11 2 3 2 1 4 31.88
## 3 65.12 57.66 11.53 5 1 2 1 4 30.96
Комплексная статистика по переменной vendor
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.00 1.00 2.00 2.18 3.00 5.00
Комплексная статистика по переменной vendor после ее преобразования в переменную-фактор
## 1 2 3 4 5
## 43 26 11 10 10
Число изделий, у которых число некритических дефектов (nbug) больше 3
## [1] 14
Наблюдение, для которого количество некритических дефектов равно максимальному
## c1 c2 c3 kit nbug vendor maker bug c4
## 93 59.59 53.14 9.12 5 7 4 2 4 37.35
Присоединение таблицы данных к списку текущих переменных и загрузка дополнительной библиотеки
attach(qc)
library("e1071")
Выборочные среднее и медиана для переменной с1 в указанном порядке
## [1] 60.74
## [1] 60.97
Выборочные квартили Q1,Q2,Q3 , а также интерквартильный размах для переменной c1
## 25% 50% 75%
## 59.43 60.97 62.28
## 75%
## 2.855
Комплексная статистика по переменной c1
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 55.1 59.4 61.0 60.7 62.3 65.7
Дисперсия для переменной с1 и переменной, которая представляет собой линейную комбинацию первой
## [1] 5.449
## [1] 21.8
Вывод: вторая дисперсия больше в 4 раза.
Гистограмма для переменной с1
Асимметрия эксцесс переменной c1 в указанном порядке
## [1] -0.3448
## [1] -0.2856
Вывод: распределение переменной c1 скошено вправо и имеет более тяжелые хвосты, чем у нормального распределения.
Проверка распределения переменной c1 на нормальность с помощью статистического теста Лиллиефорса
library(nortest)
lillie.test(c1)
##
## Lilliefors (Kolmogorov-Smirnov) normality test
##
## data: c1
## D = 0.0609, p-value = 0.4807
Вывод: гипотеза о нормальном распределении не отклоняется на уровне значимости 0.05.
Перекодировка переменной kit в переменную с двумя значениями (1 и 2)
kit=ifelse(qc$kit<3,1,2)
Ранговый коэффициент корреляции Спирмена для переменных kit и maker
## [1] 0.0993
Таблица сопряженности для переменных kit и maker
## maker
## kit 1 2
## 1 29 22
## 2 23 26
Вывод: согласно ранговому коэффициенту корреляции и таблице сопряженности согласованность между переменными практически отсутствует.
Тест на равенство нулю коэффициента корреляции для переменных с1,с3
##
## Pearson's product-moment correlation
##
## data: c1 and c3
## t = 7.111, df = 98, p-value = 1.891e-10
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.4371 0.6997
## sample estimates:
## cor
## 0.5834
Вывод: гипотеза о равенстве нулю коэффициента корреляции между переменными отклоняется на уровне значимости 0.05.
Корреляционная матрица для числовых характеристик с1-c4
## c1 c2 c3 c4
## c1 1.00000 0.875068 0.583419 -0.010034
## c2 0.87507 1.000000 0.539350 0.003348
## c3 0.58342 0.539350 1.000000 -0.009796
## c4 -0.01003 0.003348 -0.009796 1.000000
Матрица корреляции в удобном представлении
## c1 c2 c3 c4
## c1 1
## c2 + 1
## c3 . . 1
## c4 1
## attr(,"legend")
## [1] 0 ' ' 0.3 '.' 0.6 ',' 0.8 '+' 0.9 '*' 0.95 'B' 1
Вывод: наибольший коэффициент корреляции между переменными c1 и с2.
Построение регрессионной модели по переменным c1 (зависимая - отклик) и с2 (независимая - фактор) и вывод общей статистики по результатам оценивания.
##
## Call:
## lm(formula = c1 ~ c2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.247 -0.627 0.026 0.688 2.717
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.2638 3.3810 0.08 0.94
## c2 1.1055 0.0618 17.90 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.14 on 98 degrees of freedom
## Multiple R-squared: 0.766, Adjusted R-squared: 0.763
## F-statistic: 320 on 1 and 98 DF, p-value: <2e-16
Вывод: значим (на уровне 0.05) только коэффициент при независимой переменной c2. Статистика R-квадрат принимает значение 0.7657.
Диаграмма рассеяния с линией регрессии для переменных c1 и c2
Коэффициенты модели
## (Intercept) c2
## 0.2638 1.1055
График “Квантиль-квантиль” для остатков модели
Вывод: большинство точек располагаются вблизи прямой линии, поэтому распределение остатков близко к нормальному.
Тест Колмогорова-Смирнова на нормальность остатков
m=mean(res); s=sd(res)
ks.test(res,pnorm,mean=m,sd=s)
##
## One-sample Kolmogorov-Smirnov test
##
## data: res
## D = 0.0497, p-value = 0.9659
## alternative hypothesis: two-sided
Вывод: критерий не отклоняет гипотезу о нормальном распределении на уровне значимости 0.05.
Частоты значений для переменной maker
## maker
## 1 2
## 52 48
Двухвыборочный t-критерий по переменной c4 c разбиением на подвыборки по переменной maker
##
## Welch Two Sample t-test
##
## data: c4 by maker
## t = -8.539, df = 94.45, p-value = 2.26e-13
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -2.739 -1.705
## sample estimates:
## mean in group 1 mean in group 2
## 32.01 34.23
Вывод: гипотеза о равенстве средних в двух подвыборках отклоняется на уровне значимости 0.05 для переменной c4(средние значения характеристики c4 у двух производителей статистически различимы).
“Ящики с усами” для переменной с4 в разрезе по номеру производителя (maker)
График ядерной оценки плотности распределения для переменной c4
Вывод: из графика видно, что выборка описывается моделью, которая представляет собой смесь двух распределений.
Диаграмма рассеяния переменных с2 и с4, для которых коэффициент корреляции принимает наиболее близкое к нулю значение
Первые строки матрицы из переменных c2 и с4
## c2 c4
## [1,] 50.75 31.18
## [2,] 54.70 31.88
## [3,] 57.66 30.96
Применение кластерного анализа и вывод частот наблюдений в каждом оцененном классе
## cl
## 1 2
## 39 61
График с классовой принадлежностью наблюдений
Работа с данными закончена
detach(qc)