knitr::opts_chunk$set(dev = 'png', warning = FALSE)
# выбор формата для графиков и отключение жалоб на русские шрифты на графиках
options(digits = 4) # Количество значащих цифр при выводе
suppressMessages(library(readr))
suppressMessages(library(tidyverse))
suppressMessages(library(ggplot2))
suppressMessages(library(readxl))
В файле markers.txt содержатся исходные данные о результатах проверки работ абитуриентов двумя экзаменаторами. В первом столбце содержится номер абитуриента, во 2-м и 3-м - соответственно, балл за работу, поставленный экзаменаторами А и Б. Наихудшим результатом является 0, а наилучшим - 4.
Требуется с помощью разведочного анализа сравнить оценки, выставленные двумя экзаменаторами. С использованием подходящего t-критерия проверьте гипотезу о том, что требования экзаменаторов являются сходными и, в среднем, их оценки не отличаются.
markers <- read_tsv("markers.txt", col_names = c("student", "ex1", "ex2"))
## Parsed with column specification:
## cols(
## student = col_integer(),
## ex1 = col_integer(),
## ex2 = col_integer()
## )
markers$diff <- markers$ex1 - markers$ex2
t.test(markers$diff)
##
## One Sample t-test
##
## data: markers$diff
## t = -2.7, df = 28, p-value = 0.01
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## -0.7274 -0.1002
## sample estimates:
## mean of x
## -0.4138
# Разница значительно отличается от нуля.
В файле orders.xlsx содержатся данные о деталях заказов крупной торговой компании. Сгруппируйте данные по полям Market и Order ID, чтобы получить данные по заказам.
Проверьте гитопезу о том, что средняя прибыль от заказа на европейском рынке (EU) не отличается от средней прибыли заказа на рынке США (US).
orders <- read_xlsx("orders.xlsx")
order_sums <- orders %>% group_by(Market, `Order ID`) %>%
summarise(order_sum = sum(Profit))
meanus <- order_sums %>%
filter(Market == "US") %>%
summarise(mean(order_sums$order_sum))
meaneu <- order_sums %>%
filter(Market == "EU") %>%
summarise(mean(order_sums$order_sum))
x <- order_sums %>% filter(Market == "US" | Market == "EU") %>% select(-`Order ID`)
t.test(order_sum ~ Market, x)
##
## Welch Two Sample t-test
##
## data: order_sum by Market
## t = 3.7, df = 9500, p-value = 2e-04
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## 11.22 36.77
## sample estimates:
## mean in group EU mean in group US
## 81.17 57.18
# Коэффициент значимости мал, следовательно средняя прибыль от заказа на европейском рынке (EU) отличается от средней прибыли заказа на рынке США (US)
Проверьте гипотезу о том, что сроки доставки заказа при доставке первого класса отличаются от сроков доставки второго класса.
order_class <- orders %>% group_by(`Ship Mode`, `Order ID`) %>%
summarise(order_sum = sum(`Order Date` - `Ship Date`))
meanFirst <- order_class %>%
filter(`Ship Mode` == "First Class") %>%
summarise(mean(order_class$order_sum))
meanSecond <- order_class %>%
filter(`Ship Mode` == "Second Class") %>%
summarise(mean(order_class$order_sum))
y <- order_class %>% filter(`Ship Mode` == "First Class" | `Ship Mode` == "Second Class") %>% select(-`Order ID`)
t.test(order_sum ~ `Ship Mode`, y)
##
## Welch Two Sample t-test
##
## data: order_sum by Ship Mode
## t = 24 days, df = 8800, p-value <2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## 2.035 days 2.405 days
## sample estimates:
## Time differences in days
## mean in group First Class mean in group Second Class
## -4.285 -6.505
# Коэффициент значимости мал, следовательно сроки доставки заказа при доставке первого класса значительно отличаются от сроков доставки второго класса