Семинар 2. Работа с таблицами.

Часть 1

Поставьте библиотеку randomNames. Обратитесь к ней через library().
Создайте вектор из 100 испанских имен:

set.seed(1234) # чтобы у всех получались одинаковые результаты
names <- randomNames(100, which.names = "first", ethnicity = 4)

Будем считать, что эти 100 имен – имена опрошенных респондентов. Создайте вектор со значениями возраста респондентов:

ages <- sample(16:75, 100, replace = TRUE) # replace = TRUE - с повторяющимися значениями

А также вектор polit – политические взгляды респондентов:

views <- c("right", "left", "moderate", "indifferent")
polit <- sample(views, 100, replace = TRUE)

Создайте из полученных трёх векторов датафрейм.

Создайте столбец id с номерами респондентов.
Определите, сколько среди респондентов людей в возрасте от 25 до 30 лет (включительно). Определите, какую долю респондентов в нашей сымпровизированной выборке составляют люди в возрасте от 25 до 30 лет. Выразите эту долю в процентах, округлите ее до 1 знака после запятой.
Создайте «факторный» вектор политических взглядов polit_views. Сколько у полученного фактора уровней? Добавьте в датафрейм столбец polit_views.

Часть 2

Загрузите файл Firms.csv. Почитать про базу можно здесь. Посмотрите на таблицу.
Сколько в датафрейме наблюдений? Сколько переменных? Какие это переменные?
Сколько в датафрейме полностью заполненных строк (наблюдений)? Выведите (если такие есть) наблюдения, содержащие пропущенные значения на экран.
Отфильтруйте наблюдения в таблице согласно следующим критериям:
- фирмы с активами от 10000 до 20000 (включительно);
- фирмы, число управляющих позиций, совместных с другими фирмами, которых не превышает 30;
- фирмы транспортного сектора (TRN) под руководством управляющих из Канады (CAN);
Создате переменную «натуральный логарифм активов» (log_assets) и добавьте её в датафрейм.
Постройте график, который может проиллюстрировать, какие паттерны пропущенных наблюдений можно зафиксировать в таблице.
Удалите пропущенные значения из базы данных.
Сохраните измененную базу данных в формате Stata (файл “Firms.dta”)

Семинар 2. Работа с таблицами.

Алла Тамбовцева

Часть 1

Часть 2