p)— title: “HW AB-1” author: “Vke” date: ‘2022-04-16’ output: html_document —

Задача 1

Для маркетингового исследования случайным образом необходимо отобрать N людей. Этим людям далее демонстрируется кофе марки Nescafe в упаковке с новым дизайном: вместо классической этикетки в коричнево-золотых тонах – новогодняя этикетка в красно-зеленых тонах. После этого фиксируется, сколько людей захотели купить этот кофе, а точнее, доля таких людей. Рассчитайте необходимый объем выборки для тестовой группы, если известно, что • выбран 95%-ный уровень доверия; • погрешность не должна превышать 3%; • нет определенных ожиданий относительно доли людей, которые захотят кофе с измененным дизайном этикетки (считается, что человек с равной вероятностью выберет кофе или не выберет). Для вычислений можно использовать базовые средства R или Python, но в таком случае необходимо привести код в тексте с решением.

p <- 0.5
z <- 1.96
error <- 0.03

z**2 * p * (1-p) /(error**2)
## [1] 1067.111

Задача 2

Решите задачу 1, учитывая, что теперь ожидаемая доля людей, которые захотят купить кофе с измененным дизайном этикетки, известна и равна 0.67 (группа аналитиков нашла старый отчет с результатами аналогичного эксперимента). Какой из необходимых объемов выборки больше: в случае, когда мы считаем, что шансы выбрать и не выбрать кофе одинаковы или в случае, когда ожидаемая доля выбравших кофе нам известна и равна 0.67? Сделайте вывод о связи между ожидаемой долей и необходимым объемом выборки при прочих равных условиях (тот же уровень доверия).

p <- 0.67

z**2 * p * (1-p) /(error**2)
## [1] 943.7531

#Вывод:
Если шансы выбрать или не выбрать кофе одинаковы (50%), то необходимый объем выборки будет максимальным. Это связано с тем, что произведение p и (1-p) будет максимальным при p=0.5.

##Задача 3

В файле experiment.csv сохранены результаты эксперимента, описанного в задаче 1. Данные представляют собой последовательности из 0 и 1, где 1 соответствуют людям, которые захотели выбрать кофе с измененным дизайном этикетки, а 0 - людям, которые не захотели. Описание данных: test: результаты по тестовой группе (людям предлагали кофе с новым дизайном этикетки); control: контрольная группа (людям предлагали кофе со старым дизайном этикетки). 1. Загрузите в R данные из файла experiment.csv с помощью функции read.csv(). 2. Постройте в R 90%-ный доверительный интервал для доли людей, которые захотели купить кофе, в тестовой группе. Проинтерпретируйте полученный доверительный интервал. В решении приведите используемый код, границы доверительного интервала и текст с интерпретацией. 3. Постройте в R 90%-ный доверительный интервал для доли людей, которые захотели купить кофе, в контрольной группе. Проинтерпретируйте полученный доверительный интервал. В решении приведите используемый код, границы доверительного интервала и текст с интерпретацией. 1 4. Сравните полученные доверительные интервалы для тестовой и контрольной группы. Можно ли на основании полученных результатов сделать определенный вывод о том, что новый дизайн этикетки лучше (привлекает больше потенциальных покупателей)? Приведите ваши выводы и объяснения. 5. Выполните пункты 1-3 в Python. Изменились ли ваши выводы относительно полезности нового дизайна этикетки? Приведите код, результаты и текст с выводами.

library(DescTools)
setwd("C:/Users/Vladimir.Kem/Desktop/Skill/HW_R")
exper <- read.csv("experiment.csv")

t <- length(exper[,"test"])
o <- sum(exper[,"test"])
BinomCI(o, t, conf.level = 0.9)
##        est    lwr.ci    upr.ci
## [1,] 0.577 0.5511289 0.6024556

Нижняя граница 90%-ного доверительного интервала в тестовой группе - 55, верхний - 60. Это значит что процент людей, выбравших кофе, будет при любой выборке лежать в диапазоне от 55% до 60%.

exper <- read.csv("experiment.csv")

t <- length(exper[,"control"])
o <- sum(exper[,"control"])
BinomCI(o, t, conf.level = 0.9)
##        est    lwr.ci    upr.ci
## [1,] 0.464 0.4381921 0.4900022

Нижняя граница 90%-ного доверительного интервала в контрольной группе - 43.8 , верхний - 49. Это значит что процент людей, выбравших кофе, будет при любой выборке лежать в диапазоне от 43.8% до 49%.

#Вывод:

на основании полоченных данных можно сделать вывод, что новый дизайн этикетки лучше, так как можно с 95%-ой уверенностью сказать, что количество людей выбравших кофе с новым дизайном больше 50%, а со старым - меньше 50%


import numpy as np
import pandas as pd
import scipy.stats as st

data = pd.read_csv("experiment.csv")
n1 = data.test.size
n2 = data.control.size
p1 = data.test.sum()/n1
p2 = data.control.sum()/n2
se1 = np.sqrt(p1 * (1 - p1) / n1)
se2 = np.sqrt(p2 * (1 - p2) / n2)


st.norm.interval(0.95, loc=p1, scale=se1)
## (0.5463799298526989, 0.607620070147301)
st.norm.interval(0.95, loc=p2, scale=se2)
## (0.4330906781934331, 0.49490932180656694)

#После вычислений в Python, вывод не изменился