Avoimen tieteen käytännöt tutkimustyössä

Open Knowledge Roadshow 2013
Turussa, 10. lokakuuta 2013

github.com/
muuankarski/
avointiede2013

  • Miten julkaisen avoimesti?
  • Miten avaan tutkimusdatani?
  • Miksi siirtyisin käyttämään avoimia ohjelmistoja tutkimusaineistojen analysointiin?
  • Mitä iloa on avoimuudesta tieteessä?
  • Mitä yksittäinen tutkija voi tehdä ja missä koko tieteen teon rakenteiden tulisi muuttua?

Sisältö

  1. Avoin tiede ja avoimen tieteen koulukunnat
  2. Toistettavuus avoimen tieteen käytäntönä
  3. Demo: dynaamiset julkaisut avoimilla menetelmillä

1. Avoin tiede ja
avoin tieteellinen tieto

Avoin tiede

  • Avoin tiede (open science) on kattotermi liikkeelle, joka pyrkii edistämään avoimia toimintamalleja tieteellisessä tutkimuksessa.
  • Keskeinen tavoite on tutkimustulosten, tutkimusdatan ja tutkimuksessa käytettyjen menetelmien julkaiseminen avoimella lisenssillä siten, että ne ovat vapaasti kaikkien halukkaiden tarkasteltavissa sekä käytettävissä.

Lähde: Wikipedia: Avoin tiede

Avoin tiede sisältää käytäntöjä, kuten

  • tutkimusjulkaisujen avoimen saatavuuden (open access) edistäminen,
  • tutkimusaineistojen avoin julkaiseminen (open data),
  • avoimen lähdekoodin (open source) ja avoimien standardien hyödyntäminen, sekä
  • tutkimusprosessin julkinen dokumentointi niin kutsutun avoimen muistikirjan menetelmällä (open notebook science)

Lähde: Wikipedia: Avoin tiede

Avoinen tieteen päähyödyt

Resurssien jakamisen myötä tapahtuva:

  • tieteen kehityksen nopeutuminen,
  • tutkimuskäytäntöjen läpinäkyvyyden lisääntymisestä johtuva laadun ja tutkimuksen toistettavuuden parantuminen, sekä
  • tutkimustulosten paremman saavutettavuuden myötä lisääntyvä yhteiskunnallinen vaikuttavuus
  • Tutkimusaineistojen vapaa jakaminen saattaa myös lisätä viittauksia tehtyyn tutkimustyöhön

Lähde: Wikipedia: Avoin tiede

  • Avoimesti dokumentoitu tutkimus löytyy googlesta jo varhaisessa vaiheessa, mikä voi poikia uusia yhteistyökuvioita

Avoimen tieteen koulukunnat

Koulukunta Keskeinen näkemys Mukana olevat tahot Keskeinen tavoite Työkalut ja metodi
Yhteiskunnallinen koulukunta (public) Tieteen tulee olla paremmin suuren yleisön saavutettavissa Tutkijat & kansalaiset Tehdä tiede saavutettavaksi kansalaisille Kansalaistiede, tiedeviestintä, tiedebloggaus
Demokratian koulukunta (democratic) Pääsy tietoon ei ole kaikille yhtäläinen Tutkijat, poliitikot, kansalaiset Tiedon avaaminen ilmaiseksi kaikille Open access, tekijänoikeudet, avoin data, avoin koodi
Pragmaattinen koulukunta (pragmatic) Yhteistyö lisäisi tieteellisen tiedon tuottaminen tehokkuutta Tutkijat Tiedon tuottamisen prosessien avaaminen kollektiivinen älykkyys, verkostovaikutus, avoin data, avoin koodi
Infrastruktuurin koulukunta (infrastructure) Tehokas tutkimus on riippuvainen saatavilla olevista työkaluista ja sovelluksista Tutkijat & alustojen tuottajat Luoda avoimia alustoja, työkaluja ja palveluita tutkijoille Yhteistyön alustat ja työkalut
Vaikuttavuuden mittaamisen koulukunta (measurement) Tieteellisten julkaisujen vaikuttavuuden mittaaminen vaatii vaihtoehtosia tapoja Tutkijat & poliitikot Kehittää vaihtoehtoisia mittaustapoja tieteellisen vaikuttavuuden mittaamiseen artikkelitasoinen metriikka, vertaisarviointi, vittaaminen, vaikuttavuuskerroin

Lähde: Fecher & Friesike. (2013) Open Science: One Term, Five Schools of Thought.

Ongelmia

  • edellyttää murrosta tieteentekemisen tavoissa ja kulttuurissa
  • aikaa vievää, kuten suunnitelu, projektinhallinta, lisensointi
  • kannustimien puute
  • OA lehdet heikosti arvostettuja
  • yksityisyys

Lähde: github.com/openscienceASAP/openscience-presentations

Lisää ongelmia (eri tieteenalat)

  • “tekniset hyödyt” realisoituvat laskennallisissa tieteissä
  • luonnontieteiden mahdollisuudet ovat ihmistieteiden uhkia
    • Datat on arkaluonteisia
    • julkaisussa kirjojen ja perinteisten lehtien asema on kova
    • kaikessa avaamisessa nähdään varkauden riski
  • monissa ihmistieteissä ei ole laskennallista “argumentaatiota”, vaan teksti puhuu puolestaan
    • kirjojen asema vahva
    • huoli laadukkaasta editoinnista
  • ihmistieteissä usein tutkijat yksin vs. tutkimusryhmät luonnontieteissä -> riskien ottamista kartetaan
  • tieteelliset seurat ja open access

Esimerkki: Science lehti 4.10.2013

2. Toistettavuus avoimen tieteen käytäntönä

Gradun työvirta vuodelta 2008

Toistettava tutkimus/analyysi

(reproducible research/analysis)

  • tarkoitetaan tehokasta tapaa hallita data-analyysi kokonaisuutena aina raakadatasta julkaisuvalmiiksi taulukoiksi ja kuvioiksi asti
  • ensisijaisesti kyse analyysin arvioitavuudesta ja luotettavuudesta
  • lisäksi toistettava data-analyysi on suoraviivaisempi, helpommin hallittava sekä ennen kaikkean jaettava

Lähde: Workshop: Oikopolkua datasta julkaisuun 2/2013

Toistettava tutkimus

  • Analyysikoodin+datan jakaminen tiedeyhteisölle on tärkeä ja konkreettinen osa tieteellisen osaamisen ja tiedon kumuloitumista, ja merkittävä mahdollisuus juuri laskennallisten (sosiaali)tieteiden kehittymiselle
  • Kun analyysissä käytetetään avoimen lähdekoodin ohjelmistoja on analyysi toistettavissa myös riippumatta tutkijan taloudellisista resursseista tai rajoittavista kaupallisten ohjelmien lisensseistä

Lähde: Workshop: Oikopolkua datasta julkaisuun 2/2013

Kuinka monta it-sovellusta olet ottanut käyttöön viimeisen viiden vuoden aikana

  1. jotka palvelevat byrokratiaa?
  2. jotka palvelevat tutkimuksen tekemistä?

Kuka valitsee ne analyyttiset menetelmät, joita käytämme/saamme käyttää?

Oma ohjelmistoympäristö

  • Kaikki ohjelmat vapaan ja avoimen lähdekoodin ohjelmia
  • tekstit, esitykset, webbisivut tekstimuodossa

Käytän

  • linux käyttöjärjestelmä
  • markdown merkintäkieltä kirjoittamiseen (millä tahansa tekstieditorilla)
  • R-kieltä data-analyysiin, tilastolliseen analyysiin ja tilastografiikkaan
  • pandoc-dokumentinkääntäjää lähdekooditekstin kääntämiseen eri formaatteihin (.docx,.pdf,.ppt,.html,.epub,..)
  • .git-versionhallintaa versionhallintaan

Toistettava analyysi R-ympäristössä

Toistettava analyysi R-ympäristössä

Toistettava analyysi R-ympäristössä

Toistettava analyysi R-ympäristössä

Toistettava analyysi R-ympäristössä

Toistettava analyysi R-ympäristössä

Toistettava analyysi R-ympäristössä

Toistettava analyysi R-ympäristössä

Toistettava analyysi R-ympäristössä

Toistettava analyysi R-ympäristössä

Toistettava analyysi R-ympäristössä

Toistettava analyysi R-ympäristössä

Toistettava analyysi R-ympäristössä

  • kaikkien julkaisujen lähdekoodi tekstimuodossa
  • erityyppiset julkaisut (slaidit,raportit,artikkelit) käännetään samasta koodipohjasta
  • kaikki analyysin vaiheet ohjelmoitu ja dokumentoitu

3. Demo: dynaamiset julkaisut avoimilla menetelmillä

Ladataan data Google Drivesta

library(RCurl)
# myCsv <- getURL("https://docs.google.com/spreadsheet/pub?key=0AqQZEZLGjzKAdHlaelpHU2VDR3V1blNfeExma19keFE&output=csv")
# dat <- read.csv(textConnection(myCsv), na.strings = "")
# save(dat, file="dat.RData")
load("dat.RData")

Käsitellään hieman

# uudet muuttujanimet
names(dat) <- c("aika","tieteenala",
        "empiriaPainot","teoriaPainot",
        "laadulPainot","dataAvointa",
        "yksinTyo","OaYleinen",
        "AtMahdollisuus","kunta")
#df <- dat[-1:-11,]
df <- dat
# aikaleimasta päivämäärä
library(stringr)
df$aika <- as.character(df$aika)
df$pvm <- str_trim(str_sub(df$aika, 1, 10))
df$pvm <- as.Date(df$pvm, format="%d.%m.%Y")

Data vastaukset 1-5 ja muuttujat 7-11

df[1:5,7:11]

Vastausten kertyminen

library(ggplot2)
ggplot(df, aes(x=pvm)) + 
  geom_bar()

Tieteenala

library(ggplot2)
ggplot(df, aes(x=tieteenala)) + 
  geom_bar()

Vastaukset kysymyksiin

Vastaajien synnyinpaikka

Tekstiasiakirjat perustuen samaan koodipohjaan

library(knitr)
knit("dokkari.Rmd")
system("pandoc dokkari.md -o dokkari.pdf")
system("pandoc dokkari.md -o dokkari.odt")
system("pandoc -s dokkari.md -o dokkari.html")

Yhteenveto demosta

Demossa käytettiin osin avointa dataa ja avoimia menetelmiä

avoin data

  • kuntien paikkatieto googlesta (geocoding-funktiolla)
  • Suomen paikkatietoaineisto GADM-tietokannasta
  • tutkimusdata googlen lomakkeesta (ei-avoin)

avoimet menetelmät

Yhteenveto demosta

  • Avoimet analyysiohjelmistot vahvoja toistettavien/dynaamisten tutkimusraporttien (paperit,esitysgrafiikka,tms.) teossa
  • dynaamisuuden edut: kun data tai analyysikoodi muuttuu, niin julkaisu on aina ajan tasalla

Linkkejä

Kysymyksiä &
kommentteja