Алла Тамбовцева
20 сентября 2018 г
Часть 1
Поставьте библиотеку randomNames. Обратитесь к ней через library()
.
Создайте вектор из 100 испанских имен:
set.seed(1234) # чтобы у всех получались одинаковые результаты
names <- randomNames(100, which.names = "first", ethnicity = 4)
ages <- sample(16:75, 100, replace = TRUE) # replace = TRUE - с повторяющимися значениями
А также вектор polit – политические взгляды респондентов:
views <- c("right", "left", "moderate", "indifferent")
polit <- sample(views, 100, replace = TRUE)
Создайте из полученных трех векторов базу данных (воспользуйтесь функцией as.data.frame()
).
id
с номерами респондентов.polit_views
. Сколько у полученного фактора уровней? Добавьте в базу данных столбец polit_views
.Часть 2
Загрузите файл с базой данных Firms.csv. Почитать про базу можно здесь. Посмотрите на базу данных.
Сколько в базе данных наблюдений? Сколько переменных? Какие это переменные?
Сколько в базе данных полностью заполненных строк (наблюдений)? Выведите (если такие есть) наблюдения, содержащие пропущенные значения на экран.
Отфильтруйте наблюдения в базе согласно следующим критериям:
фирмы с активами от 10000 до 20000 (включительно)
фирмы, число управляющих позиций, совместных с другими фирмами, которых не превышает 30
фирмы транспортного сектора (TRN) под руководством управляющих из Канады (CAN)
Создате переменную «натуральный логарифм активов» (log_assets
) и добавьте ее в базу.
Постройте график, который может проиллюстрировать, какие паттерны пропущенных наблюдений можно зафиксировать в базе данных.
Удалите пропущенные значения из базы данных.
Сохраните измененную базу данных в формате dta (файл “Firms.dta”)