Hier sind einige Funktionen dokumentiert, die zum Bezug und zur Aufbereitung der Daten aus der deutschsprachigen Wikipia (http://de.wikipedia.org) dienen. Die Funktionen sind nicht als ein eigenständiges R Paket zu verstehen.

Disclaimer:

Wir können nicht garantieren, dass die Funktionen immer funktionieren werden, vor allem, da sich die MediaWiki API und die R Pakete zum Datenbezug weiterentwickeln können.

Die Funktionen sind nicht für einen völlig generalisierten Einsatz entwickelt worden. Viele Teile der Funktionen lösen Probleme, auf die wir in unserem Forschungsprojekt zu Gesundheitsinformationen auf der Wikipedia gestoßen sind. Es gibt keine Garantie, dass diese Lösungen sich 1 zu 1 auf andere Probleme übertragen lassen.

Wer auf einer Suche nach einem aktiv entwickelten R Paket zum Zugriff auf das MediaWiki API ist, sollte einen Blick auf das Paket WikipediR werfen. Es ist für einen ersten Einstieg gut geeignet, bietet unserer Meinung jedoch (noch) zu wenige Individualisierungsoptionen für ein tiefergehendes Forschungsprojekt. Dies hat uns zur Entwicklung eigener Funktionen motiviert.

library(WikipediR)
citation("WikipediR")
## 
## To cite package 'WikipediR' in publications use:
## 
##   Oliver Keyes (2014). WikipediR: A MediaWiki API wrapper. R
##   package version 1.0.0.
##   http://CRAN.R-project.org/package=WikipediR
## 
## A BibTeX entry for LaTeX users is
## 
##   @Manual{,
##     title = {WikipediR: A MediaWiki API wrapper},
##     author = {Oliver Keyes},
##     year = {2014},
##     note = {R package version 1.0.0},
##     url = {http://CRAN.R-project.org/package=WikipediR},
##   }
## 
## ATTENTION: This citation information has been auto-generated from
## the package DESCRIPTION file and may need manual editing, see
## 'help("citation")'.

Die im Folgenden dokumentierten Funktionen sind als ein Ausgangspunkt für alle zu verstehen, die eine computergestütze Analyse der Wikipedia durchführen wollen. Sie sollten dabei helfen, einen schnellen Einstieg in den Aufruf der MediaWiki API und die Aufbereitung der erhobenen Daten zu finden.

Wichtige Resourcen

Ausführliche Dokumentationen der MediaWiki API findet sich hier (https://www.wikidata.org/w/api.php) und hier (https://www.mediawiki.org/wiki/API:Main_page).

Verwendete Pakete und Versionen

Wir verwenden R in der Version 3.1.0. Es kommen die folgenden Pakete zum Einsatz:

library(RCurl); citation("RCurl") # Zugriff auf APIs und andere Webdienste
## 
## To cite package 'RCurl' in publications use:
## 
##   Duncan Temple Lang (2014). RCurl: General network (HTTP/FTP/...)
##   client interface for R. R package version 1.95-4.3.
##   http://CRAN.R-project.org/package=RCurl
## 
## A BibTeX entry for LaTeX users is
## 
##   @Manual{,
##     title = {RCurl: General network (HTTP/FTP/...) client interface for R},
##     author = {Duncan Temple Lang},
##     year = {2014},
##     note = {R package version 1.95-4.3},
##     url = {http://CRAN.R-project.org/package=RCurl},
##   }
## 
## ATTENTION: This citation information has been auto-generated from
## the package DESCRIPTION file and may need manual editing, see
## 'help("citation")'.
library(httr); citation("httr") # Zugriff auf APIs und andere Webdienste
## 
## To cite package 'httr' in publications use:
## 
##   Hadley Wickham (2014). httr: Tools for working with URLs and
##   HTTP. R package version 0.3.
##   http://CRAN.R-project.org/package=httr
## 
## A BibTeX entry for LaTeX users is
## 
##   @Manual{,
##     title = {httr: Tools for working with URLs and HTTP},
##     author = {Hadley Wickham},
##     year = {2014},
##     note = {R package version 0.3},
##     url = {http://CRAN.R-project.org/package=httr},
##   }
## 
## ATTENTION: This citation information has been auto-generated from
## the package DESCRIPTION file and may need manual editing, see
## 'help("citation")'.
library(jsonlite); citation("jsonlite") # Umwandlung von json-Objekten in R kompatible Datenformate
## 
## To cite package 'jsonlite' in publications use:
## 
##   Jeroen Ooms, Duncan Temple Lang and Jonathan Wallace (2014).
##   jsonlite: A smarter JSON encoder/decoder for R. R package
##   version 0.9.9. http://CRAN.R-project.org/package=jsonlite
## 
## A BibTeX entry for LaTeX users is
## 
##   @Manual{,
##     title = {jsonlite: A smarter JSON encoder/decoder for R},
##     author = {Jeroen Ooms and Duncan Temple Lang and Jonathan Wallace},
##     year = {2014},
##     note = {R package version 0.9.9},
##     url = {http://CRAN.R-project.org/package=jsonlite},
##   }
## 
## ATTENTION: This citation information has been auto-generated from
## the package DESCRIPTION file and may need manual editing, see
## 'help("citation")'.
library(stringi); citation("stringi") # Manipulation von Strings
## 
## To cite package 'stringi' in publications use:
## 
##   Marek Gagolewski, Bartek Tartanus; IBM, other contributors;
##   Unicode and Inc. (2014). stringi: Character string processing
##   facilities. R package version 0.2-5.
##   http://CRAN.R-project.org/package=stringi
## 
## A BibTeX entry for LaTeX users is
## 
##   @Manual{,
##     title = {stringi: Character string processing facilities},
##     author = {Marek Gagolewski and Bartek Tartanus; IBM and other contributors; Unicode and {Inc.}},
##     year = {2014},
##     note = {R package version 0.2-5},
##     url = {http://CRAN.R-project.org/package=stringi},
##   }
## 
## ATTENTION: This citation information has been auto-generated from
## the package DESCRIPTION file and may need manual editing, see
## 'help("citation")'.

Überblick über die verwendeten Pakete und Versionen

sessionInfo()
## R version 3.1.0 (2014-04-10)
## Platform: x86_64-apple-darwin13.1.0 (64-bit)
## 
## locale:
## [1] de_DE.UTF-8/de_DE.UTF-8/de_DE.UTF-8/C/de_DE.UTF-8/de_DE.UTF-8
## 
## attached base packages:
## [1] stats     graphics  grDevices utils     datasets  methods   base     
## 
## other attached packages:
## [1] stringi_0.2-5   RCurl_1.95-4.3  bitops_1.0-6    WikipediR_1.0.0
## [5] jsonlite_0.9.9  httr_0.3       
## 
## loaded via a namespace (and not attached):
## [1] digest_0.6.4     evaluate_0.5.5   formatR_0.10     htmltools_0.2.6 
## [5] knitr_1.6        rmarkdown_0.2.61 stringr_0.6.2    tools_3.1.0     
## [9] yaml_2.1.13