ECON465_quiz

Author

Ali_Yigit_Ozdemir

#Data loading ve filtering
df <- read_excel("data/Incites Researchers.xlsx")

New names:
• `` -> `...19`
• `` -> `...20`
• `` -> `...21`
• `` -> `...22`
• `` -> `...23`
• `` -> `...24`
• `` -> `...25`
• `` -> `...26`
• `` -> `...27`
• `` -> `...28`
• `` -> `...29`
• `` -> `...30`
• `` -> `...31`

glimpse(df)

Rows: 820
Columns: 31
$ percent <dbl> 100.00, 20.00, 100.00, 77.78, 91.67, 100.00, 100.00, 100.00, 1…
$ wos     <dbl> 1, 5, 3, 9, 12, 1, 1, 1, 2, 3, 1, 2, 2, 3, 1, 10, 1, 1, 3, 2, …
$ cnci    <dbl> 6.034700, 13.880000, 3.238100, 12.380133, 5.783275, 4.037300, …
$ rank    <dbl> 1, 2, 3, 4, 5, 6, 7, 7, 9, 10, 11, 12, 13, 14, 15, 16, 17, 17,…
$ cites   <dbl> 1, 1, 10, 381, 2293, 1, 1, 1, 15, 56, 8, 2, 12, 5, 5, 35, 8, 8…
$ aff1    <chr> "Bogazici University", "Izmir Ekonomi Universitesi", "Izmir Ek…
$ aff2    <chr> "Izmir Ekonomi Universitesi", "Izmir Univ Econ", "AstraZeneca"…
$ aff3    <chr> "Anadolu University", "University of Southern Denmark", "Bogaz…
$ aff4    <chr> "University of Sheffield", NA, "Solar Biyoteknol Ltd SolarBiot…
$ aff5    <chr> "Gulhane Training & Research Hospital", NA, "Dokuz Eylul Unive…
$ aff6    <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, "Kilis…
$ aff7    <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, "Inst …
$ aff8    <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA…
$ aff9    <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA…
$ aff10   <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA…
$ id      <chr> "EPD-7110-2022", "PHK-4697-2026", "AHD-9641-2022", "HTR-4086-2…
$ impact  <dbl> 56.045800, 33.080000, 20.084800, 12.858500, 11.324900, 9.74170…
$ ORCID   <chr> NA, NA, "0000-0002-8150-546X", "0000-0002-0276-4886", "0000-00…
$ ...19   <lgl> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA…
$ ...20   <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA…
$ ...21   <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA…
$ ...22   <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA…
$ ...23   <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA…
$ ...24   <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA…
$ ...25   <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA…
$ ...26   <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA…
$ ...27   <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA…
$ ...28   <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA…
$ ...29   <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA…
$ ...30   <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA…
$ ...31   <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA…

df_ieu <- df |>
  filter(aff1 == "Izmir Ekonomi Universitesi")

nrow(df_ieu)

[1] 630

glimpse(df_ieu)

Rows: 630
Columns: 31
$ percent <dbl> 20.00, 100.00, 77.78, 100.00, 100.00, 100.00, 100.00, 100.00, …
$ wos     <dbl> 5, 3, 9, 1, 1, 2, 3, 1, 2, 2, 10, 1, 3, 2, 1, 1, 1, 1, 1, 1, 1…
$ cnci    <dbl> 13.880000, 3.238100, 12.380133, 4.037300, 9.173900, 5.658100, …
$ rank    <dbl> 2, 3, 4, 6, 7, 9, 10, 11, 12, 13, 16, 17, 19, 20, 22, 22, 22, …
$ cites   <dbl> 1, 10, 381, 1, 1, 15, 56, 8, 2, 12, 35, 8, 300, 4, 2, 2, 2, 2,…
$ aff1    <chr> "Izmir Ekonomi Universitesi", "Izmir Ekonomi Universitesi", "I…
$ aff2    <chr> "Izmir Univ Econ", "AstraZeneca", NA, NA, "Medical Park Hospit…
$ aff3    <chr> "University of Southern Denmark", "Bogazici University", NA, N…
$ aff4    <chr> NA, "Solar Biyoteknol Ltd SolarBiotec", NA, NA, NA, "Izmir Uni…
$ aff5    <chr> NA, "Dokuz Eylul University", NA, NA, NA, NA, NA, NA, NA, NA, …
$ aff6    <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA…
$ aff7    <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA…
$ aff8    <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA…
$ aff9    <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA…
$ aff10   <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA…
$ id      <chr> "PHK-4697-2026", "AHD-9641-2022", "HTR-4086-2023", "GXV-2511-2…
$ impact  <dbl> 33.080000, 20.084800, 12.858500, 9.741700, 9.018800, 8.269050,…
$ ORCID   <chr> NA, "0000-0002-8150-546X", "0000-0002-0276-4886", "0000-0003-2…
$ ...19   <lgl> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA…
$ ...20   <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA…
$ ...21   <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA…
$ ...22   <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA…
$ ...23   <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA…
$ ...24   <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA…
$ ...25   <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA…
$ ...26   <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA…
$ ...27   <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA…
$ ...28   <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA…
$ ...29   <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA…
$ ...30   <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA…
$ ...31   <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA…

#Histogram
ggplot(df_ieu, aes(x = impact)) +
  geom_histogram(binwidth = 1, fill = "steelblue", color = "black") +
  labs(
    title = "Distribution of Research Impact",
    x = "Impact",
    y = "Count"
  ) +
  theme_minimal()

#Log Scale
ggplot(df_ieu, aes(y = impact)) +
  geom_boxplot(fill = "orange") +
  scale_y_log10() +
  labs(title = "Boxplot of Research Impact (Log Scale)", y = "Impact") +
  theme_minimal()

Warning in scale_y_log10(): log-10 transformation introduced infinite values.

Warning: Removed 199 rows containing non-finite outside the scale range
(`stat_boxplot()`).

#Numeric Summary 
df_ieu |>
  summarize(
    mean_impact = mean(impact, na.rm = TRUE),
    median_impact = median(impact, na.rm = TRUE),
    sd_impact = sd(impact, na.rm = TRUE),
    min_impact = min(impact, na.rm = TRUE),
    max_impact = max(impact, na.rm = TRUE)
  )

# A tibble: 1 × 5
  mean_impact median_impact sd_impact min_impact max_impact
        <dbl>         <dbl>     <dbl>      <dbl>      <dbl>
1       0.689         0.241      1.87          0       33.1

The distribution of impact is strongly right-skewed. Most researchers have low to moderate impact values, while a small number of researchers have very high impact values. This means the center of the distribution is relatively low, and the spread is wide because of a long right tail. The log scale also suggests the presence of upper outliers, which indicates that a few researchers stand out with much higher impact than the rest. Overall, research impact is not equally distributed across researchers, and a small number of highly influential researchers raise the average.

AI Use Log

Tool Used	Prompt Given	How You Verified or Modified the Output
ChatGPT	Asked for R code to filter the first affiliation, create a histogram and boxplot, and write a short interpretation	I checked the column names in my dataset, verified that `aff1` and `impact` were correct, and used the output from my own filtered data