Семинар 2. Базы данных.

Алла Тамбовцева

20 сентября 2018 г

Часть 1

  1. Поставьте библиотеку randomNames. Обратитесь к ней через library().

  2. Создайте вектор из 100 испанских имен:

set.seed(1234) # чтобы у всех получались одинаковые результаты
names <- randomNames(100, which.names = "first", ethnicity = 4) 
  1. Будем считать, что эти 100 имен – имена опрошенных респондентов. Создайте вектор со значениями возраста респондентов:
ages <- sample(16:75, 100, replace = TRUE) # replace = TRUE - с повторяющимися значениями

А также вектор polit – политические взгляды респондентов:

views <- c("right", "left", "moderate", "indifferent")
polit <- sample(views, 100, replace = TRUE)

Создайте из полученных трех векторов базу данных (воспользуйтесь функцией as.data.frame()).

Часть 2

  1. Загрузите файл с базой данных Firms.csv. Почитать про базу можно здесь. Посмотрите на базу данных.

  2. Сколько в базе данных наблюдений? Сколько переменных? Какие это переменные?

  3. Сколько в базе данных полностью заполненных строк (наблюдений)? Выведите (если такие есть) наблюдения, содержащие пропущенные значения на экран.

  4. Отфильтруйте наблюдения в базе согласно следующим критериям:

  1. Создате переменную «натуральный логарифм активов» (log_assets) и добавьте ее в базу.

  2. Постройте график, который может проиллюстрировать, какие паттерны пропущенных наблюдений можно зафиксировать в базе данных.

  3. Удалите пропущенные значения из базы данных.

  4. Сохраните измененную базу данных в формате dta (файл “Firms.dta”)