Лабораторный практикум ВКИАД c R

Преподаватель

Иванов Иван Никифорович

Студент

Сидоров Иван Иванович, 2 курс, 5 группа, ПМ

Вариант № 1

Задание 1. Управление данными в R

Загрузка данных из текстового файла в переменную - таблицу данных

qc=read.table("QC.txt")

Размерность таблицы данных

## [1] 100   9

Первые три записи из таблицы

##      v1    v2    v3 v4 v5 v6 v7 v8    v9
## 1 55.48 50.75  9.13  2  2  3  1  4 31.18
## 2 60.70 54.70  9.11  2  3  2  1  4 31.88
## 3 65.12 57.66 11.53  5  1  2  1  4 30.96

Таблица после переименования переменных

##      c1    c2    c3 kit nbug vendor maker bug    c4
## 1 55.48 50.75  9.13   2    2      3     1   4 31.18
## 2 60.70 54.70  9.11   2    3      2     1   4 31.88
## 3 65.12 57.66 11.53   5    1      2     1   4 30.96

Комплексная статистика по переменной vendor

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1.00    1.00    2.00    2.18    3.00    5.00

Комплексная статистика по переменной vendor после ее преобразования в переменную-фактор

##  1  2  3  4  5 
## 43 26 11 10 10

Число изделий, у которых число некритических дефектов (nbug) больше 3

## [1] 14

Наблюдение, для которого количество некритических дефектов равно максимальному

##       c1    c2   c3 kit nbug vendor maker bug    c4
## 93 59.59 53.14 9.12   5    7      4     2   4 37.35

Задание 2. Описательная статистика и графический анализ

Присоединение таблицы данных к списку текущих переменных и загрузка дополнительной библиотеки

attach(qc)
library("e1071")

Выборочные среднее и медиана для переменной с1 в указанном порядке

## [1] 60.74
## [1] 60.97

Выборочные квартили Q1,Q2,Q3 , а также интерквартильный размах для переменной c1

##   25%   50%   75% 
## 59.43 60.97 62.28
##   75% 
## 2.855

Комплексная статистика по переменной c1

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    55.1    59.4    61.0    60.7    62.3    65.7

Дисперсия для переменной с1 и переменной, которая представляет собой линейную комбинацию первой

## [1] 5.449
## [1] 21.8

Вывод: вторая дисперсия больше в 4 раза.

Гистограмма для переменной с1
plot of chunk unnamed-chunk-13

Асимметрия эксцесс переменной c1 в указанном порядке

## [1] -0.3448
## [1] -0.2856

Вывод: распределение переменной c1 скошено вправо и имеет более тяжелые хвосты, чем у нормального распределения.

Проверка распределения переменной c1 на нормальность с помощью статистического теста Лиллиефорса

library(nortest)
lillie.test(c1)
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  c1
## D = 0.0609, p-value = 0.4807

Вывод: гипотеза о нормальном распределении не отклоняется на уровне значимости 0.05.

Задание 3. Анализ статистических зависимостей

Перекодировка переменной kit в переменную с двумя значениями (1 и 2)

kit=ifelse(qc$kit<3,1,2)

Ранговый коэффициент корреляции Спирмена для переменных kit и maker

## [1] 0.0993

Таблица сопряженности для переменных kit и maker

##    maker
## kit  1  2
##   1 29 22
##   2 23 26

Вывод: согласно ранговому коэффициенту корреляции и таблице сопряженности согласованность между переменными практически отсутствует.

Тест на равенство нулю коэффициента корреляции для переменных с1,с3

## 
##  Pearson's product-moment correlation
## 
## data:  c1 and c3
## t = 7.111, df = 98, p-value = 1.891e-10
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.4371 0.6997
## sample estimates:
##    cor 
## 0.5834

Вывод: гипотеза о равенстве нулю коэффициента корреляции между переменными отклоняется на уровне значимости 0.05.

Корреляционная матрица для числовых характеристик с1-c4

##          c1       c2        c3        c4
## c1  1.00000 0.875068  0.583419 -0.010034
## c2  0.87507 1.000000  0.539350  0.003348
## c3  0.58342 0.539350  1.000000 -0.009796
## c4 -0.01003 0.003348 -0.009796  1.000000

Матрица корреляции в удобном представлении

##    c1 c2 c3 c4
## c1 1          
## c2 +  1       
## c3 .  .  1    
## c4          1 
## attr(,"legend")
## [1] 0 ' ' 0.3 '.' 0.6 ',' 0.8 '+' 0.9 '*' 0.95 'B' 1

Вывод: наибольший коэффициент корреляции между переменными c1 и с2.

Построение регрессионной модели по переменным c1 (зависимая - отклик) и с2 (независимая - фактор) и вывод общей статистики по результатам оценивания.

## 
## Call:
## lm(formula = c1 ~ c2)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -3.247 -0.627  0.026  0.688  2.717 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   0.2638     3.3810    0.08     0.94    
## c2            1.1055     0.0618   17.90   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.14 on 98 degrees of freedom
## Multiple R-squared:  0.766,  Adjusted R-squared:  0.763 
## F-statistic:  320 on 1 and 98 DF,  p-value: <2e-16

Вывод: значим (на уровне 0.05) только коэффициент при независимой переменной c2. Статистика R-квадрат принимает значение 0.7657.

Диаграмма рассеяния с линией регрессии для переменных c1 и c2 plot of chunk unnamed-chunk-23

Коэффициенты модели

## (Intercept)          c2 
##      0.2638      1.1055

График “Квантиль-квантиль” для остатков модели
plot of chunk unnamed-chunk-25

Вывод: большинство точек располагаются вблизи прямой линии, поэтому распределение остатков близко к нормальному.

Тест Колмогорова-Смирнова на нормальность остатков

m=mean(res); s=sd(res)
ks.test(res,pnorm,mean=m,sd=s)
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  res
## D = 0.0497, p-value = 0.9659
## alternative hypothesis: two-sided

Вывод: критерий не отклоняет гипотезу о нормальном распределении на уровне значимости 0.05.

Задание 4. Анализ неоднородных данных

Частоты значений для переменной maker

## maker
##  1  2 
## 52 48

Двухвыборочный t-критерий по переменной c4 c разбиением на подвыборки по переменной maker

## 
##  Welch Two Sample t-test
## 
## data:  c4 by maker
## t = -8.539, df = 94.45, p-value = 2.26e-13
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -2.739 -1.705
## sample estimates:
## mean in group 1 mean in group 2 
##           32.01           34.23

Вывод: гипотеза о равенстве средних в двух подвыборках отклоняется на уровне значимости 0.05 для переменной c4(средние значения характеристики c4 у двух производителей статистически различимы).

“Ящики с усами” для переменной с4 в разрезе по номеру производителя (maker) plot of chunk unnamed-chunk-29

График ядерной оценки плотности распределения для переменной c4 plot of chunk unnamed-chunk-30

Вывод: из графика видно, что выборка описывается моделью, которая представляет собой смесь двух распределений.

Задание 5. Классификация неоднородных данных

Диаграмма рассеяния переменных с2 и с4, для которых коэффициент корреляции принимает наиболее близкое к нулю значение plot of chunk unnamed-chunk-31

Первые строки матрицы из переменных c2 и с4

##         c2    c4
## [1,] 50.75 31.18
## [2,] 54.70 31.88
## [3,] 57.66 30.96

Применение кластерного анализа и вывод частот наблюдений в каждом оцененном классе

## cl
##  1  2 
## 39 61

График с классовой принадлежностью наблюдений
plot of chunk unnamed-chunk-34

Работа с данными закончена

detach(qc)