ECON465_quiz1

Author

Ayberk_KOCAKIR

library(tidyverse)

── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
✔ dplyr     1.2.0     ✔ readr     2.2.0
✔ forcats   1.0.0     ✔ stringr   1.5.1
✔ ggplot2   3.5.2     ✔ tibble    3.2.1
✔ lubridate 1.9.4     ✔ tidyr     1.3.1
✔ purrr     1.2.1     
── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
✖ dplyr::filter() masks stats::filter()
✖ dplyr::lag()    masks stats::lag()
ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors

library(readxl)
library(dplyr)

researchers <- read_excel("data/incites Researchers.xlsx")

New names:
• `` -> `...19`
• `` -> `...20`
• `` -> `...21`
• `` -> `...22`
• `` -> `...23`
• `` -> `...24`
• `` -> `...25`
• `` -> `...26`
• `` -> `...27`
• `` -> `...28`
• `` -> `...29`
• `` -> `...30`
• `` -> `...31`

glimpse(researchers)

Rows: 820
Columns: 31
$ percent <dbl> 100.00, 20.00, 100.00, 77.78, 91.67, 100.00, 100.00, 100.00, 1…
$ wos     <dbl> 1, 5, 3, 9, 12, 1, 1, 1, 2, 3, 1, 2, 2, 3, 1, 10, 1, 1, 3, 2, …
$ cnci    <dbl> 6.034700, 13.880000, 3.238100, 12.380133, 5.783275, 4.037300, …
$ rank    <dbl> 1, 2, 3, 4, 5, 6, 7, 7, 9, 10, 11, 12, 13, 14, 15, 16, 17, 17,…
$ cites   <dbl> 1, 1, 10, 381, 2293, 1, 1, 1, 15, 56, 8, 2, 12, 5, 5, 35, 8, 8…
$ aff1    <chr> "Bogazici University", "Izmir Ekonomi Universitesi", "Izmir Ek…
$ aff2    <chr> "Izmir Ekonomi Universitesi", "Izmir Univ Econ", "AstraZeneca"…
$ aff3    <chr> "Anadolu University", "University of Southern Denmark", "Bogaz…
$ aff4    <chr> "University of Sheffield", NA, "Solar Biyoteknol Ltd SolarBiot…
$ aff5    <chr> "Gulhane Training & Research Hospital", NA, "Dokuz Eylul Unive…
$ aff6    <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, "Kilis…
$ aff7    <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, "Inst …
$ aff8    <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA…
$ aff9    <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA…
$ aff10   <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA…
$ id      <chr> "EPD-7110-2022", "PHK-4697-2026", "AHD-9641-2022", "HTR-4086-2…
$ impact  <dbl> 56.045800, 33.080000, 20.084800, 12.858500, 11.324900, 9.74170…
$ ORCID   <chr> NA, NA, "0000-0002-8150-546X", "0000-0002-0276-4886", "0000-00…
$ ...19   <lgl> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA…
$ ...20   <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA…
$ ...21   <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA…
$ ...22   <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA…
$ ...23   <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA…
$ ...24   <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA…
$ ...25   <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA…
$ ...26   <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA…
$ ...27   <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA…
$ ...28   <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA…
$ ...29   <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA…
$ ...30   <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA…
$ ...31   <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA…

ieu_researchers <- researchers |>
  select(aff1, impact) |>
  filter(aff1 == "Izmir Ekonomi Universitesi")

ggplot(ieu_researchers, aes(x = impact)) +
  geom_histogram(binwidth = 0.5, color = "black", fill = "steelblue") +
  labs(
    title = "Histogram of Researcher Impact",
    subtitle = "First affiliation: Izmir Ekonomi Universitesi",
    x = "Impact",
    y = "Number of Researchers"
  ) +
  theme_minimal()

ggplot(data = ieu_researchers, aes(x = "", y = impact + 1, fill = "")) +
  geom_boxplot() +
  scale_y_log10() +
  labs(
    title = "Distribution of Researcher Impact (Log Scale)",
    x = "",
    y = "Log10(Impact + 1)"
  ) +
  theme_minimal()

impact_by_uni <- researchers |>
  group_by(aff1) |>
  summarize(
    mean_impact = mean(impact, na.rm = TRUE),
    median_impact = median(impact, na.rm = TRUE),
    n_researchers = n(),
    .groups = "drop"
  ) |>
  arrange(desc(mean_impact))

impact_by_uni

# A tibble: 124 × 4
   aff1                                mean_impact median_impact n_researchers
   <chr>                                     <dbl>         <dbl>         <int>
 1 Bogazici University                       28.4          28.4              2
 2 Akdeniz University                         9.02          9.02             1
 3 German Int Univ                            5.82          5.82             2
 4 Ghent University                           2.68          2.68             1
 5 University of Padua                        2.43          2.43             2
 6 Marmara University                         2.40          2.40             1
 7 Tampere University                         1.92          1.92             1
 8 University of Iceland                      1.66          1.66             1
 9 Royal College of Surgeons - Ireland        1.54          1.54             1
10 University of Ljubljana                    1.50          1.50             1
# ℹ 114 more rows

ieu_researchers |>
  summarize(
    mean_impact = mean(impact, na.rm = TRUE),
    median_impact = median(impact, na.rm = TRUE),
    sd_impact = sd(impact, na.rm = TRUE),
    min_impact = min(impact, na.rm = TRUE),
    max_impact = max(impact, na.rm = TRUE)
  )

# A tibble: 1 × 5
  mean_impact median_impact sd_impact min_impact max_impact
        <dbl>         <dbl>     <dbl>      <dbl>      <dbl>
1       0.689         0.241      1.87          0       33.1

The distribution of impact is strongly right-skewed. Most researchers have relatively low impact values, while a small number of researchers have very high impact scores. The mean is higher than the median, showing that extreme observations pull the average upward. The boxplot indicates several outliers on the upper end, and the overall spread is wide. This suggests that impact is concentrated among a relatively small group of highly influential researchers.