library(tidyverse)
library(stargazer)

Q8.1

「2. 行のソート: arrange()」を参考にして、次の問題にこたえなさい
分析には衆議院選挙データセット ( hr96_21.csv ) を使うこと
表示する変数は次の 6 つに限ること
(1) year
(2) pref
(3) kun
(4) seito
(5) j_name
(6) vote
(7) voteshare

Q1:

  • 2021年総選挙の立候補者の中で、獲得した票数の多い順に並べ、トップ10人の候補者名を挙げなさい
hr <- read_csv("data/hr96-21.csv")
library(DT)
hr_a <- hr |> 
  select(year, pref, kun, seito, j_name, vote)
hr_2021a <-hr_a |>
  filter(year == 2021) |>
  arrange(desc(vote)) |>
  head(10)
datatable(hr_2021a)

Q2:

  • 2021年総選挙の立候補者の中で、獲得した得票率の大きい順に並べ、トップ10人の候補者名を挙げなさい
hr_b <- hr |> 
  select(year, pref, kun, seito, j_name, voteshare)
hr_2021b <-hr_b |>
  filter(year == 2021) |>
  arrange(desc(voteshare)) |>
  head(10)
datatable(hr_2021b)

Q8.2

「7.3 separate()」を参考にして、次の問題にこたえなさい
データ COVID19_Worldwide.csv を使う

変数名 詳細
ID ID
Country 国名
Date 年月日
Confirmed_Day COVID-19 新規感染者数(人)/ 一日あたり
Confirmed_Total COVID-19 累積感染者数(人)総合
Death_Day COVID-19 新規死亡者数(人) 一日あたり
Death_Total COVID-19 累積死亡者数(人)総合
Test_Day COVID-19 新規検査数(人) 一日あたり
Test_Total COVID-19 累積検査数(人)総合

  • 2020年 (1月22日〜7月10日)の国別「累積検査数」を x 軸、「累積感染者数」を y 軸に設定した散布図を描きなさい

Q1:

  • 2020年 (1月22日〜7月10日)の国別「累積検査数」を x 軸、「累積感染者数」を y 軸に設定した散布図を描きなさい
    ・外れ値があれば、外れ値を除外した散布図を示しなさい
covid_df <- read_csv("data/COVID19_Worldwide.csv",
                     guess_max = 10000)
df_a <- covid_df |>
  select(Country, Date, Confirmed_Total, Test_Total)
DT::datatable(df_a)
library(stargazer)
df_a <- df_a |>
  separate(col = "Date",
           into = c("Year", "Month", "Day"),
           sep = "/")
test_country <- df_a |>
  group_by(Country, Year) |>
  summarise(Test = sum(Test_Total, na.rm = TRUE),
            Infected = sum(Confirmed_Total))
DT::datatable(test_country)
plot_1 <- test_country |>
  ggplot(aes(Infected, Test)) +
  geom_point() +
  stat_smooth(method = lm) +
  ggrepel::geom_text_repel(aes(label = Country),
                           size = 3,) +
  labs(x = "Covid19累積感染者数", y = "累積検査数") 
plot_1

plot_2 <- test_country |>
  filter(Country != "United States") |>
  ggplot(aes(Infected, Test)) +
  geom_point() +
  stat_smooth(method = lm) +
  ggrepel::geom_text_repel(aes(label = Country),
                           size = 3,) +
  labs(x = "Covid19累積感染者数", y = "累積検査数") 
plot_2