Für die folgenden Befehle wird das Paket tidyverse
benötigt, das eine Sammlung wichtiger Pakete für die Datenanalyse in R
enthält – darunter auch dplyr und ggplot2.
# Installation (nur beim ersten Mal nötig)
install.packages("tidyverse")
# Laden des Pakets
library(tidyverse)
CSV-Dateien aus Excel verwenden oft Semikolon (;) statt Komma. Nutze dann:
read.csv2("datei.csv")
# oder `
read_delim("datei.csv", delim = ";") Standardmäßig erwartet read_csv()
aus dem readr-Paket ein Komma als Trennzeichen.
Falls Umlaute oder Sonderzeichen fehlerhaft dargestellt werden,
kann ein locale()-Parameter helfen:
read_csv("datei.csv", locale = locale(encoding = "UTF-8"))R erkennt standardmäßig NA, aber manchmal stehen in
Dateien andere Marker wie "-", "." oder
"n/a".
Diese kannst du mit na = im Einlesebefehl
angeben:
read_csv("daten.csv", na = c("-", ".", "n/a"))Nutze getwd() um dein aktuelles Arbeitsverzeichnis
zu prüfen und setwd() um es anzupassen.
Oder verwende den absoluten Pfad zur Datei:
read_csv("C:/Users/Name/Dokumente/datei.csv")Viele Datensätze enthalten zusätzliche Zeilen (z. B.
Quellenangaben oder Leerzeilen). Mit skip = kannst du diese
überspringen.
read_csv("daten.csv", skip = 3)| Funktion | Zweck | Beispiel |
|---|---|---|
filter() |
Zeilen nach Bedingungen filtern | filter(data, score > 500) |
select() |
Bestimmte Spalten auswählen | select(data, country, score) |
rename() |
Spalten umbenennen | rename(data, new_name = old_name) |
| Funktion | Zweck | Beispiel |
|---|---|---|
arrange() |
Sortieren (aufsteigend) | arrange(data, score) |
arrange(desc()) |
Sortieren (absteigend) | arrange(data, desc(score)) |
| Funktion | Zweck | Beispiel |
|---|---|---|
mutate() |
Neue Variablen berechnen | mutate(data, score_z = (score - mean(score))/sd(score)) |
| Funktion | Zweck | Beispiel |
|---|---|---|
group_by() |
Daten gruppieren | group_by(data, country) |
summarise() |
Zusammenfassung (z. B. Mittelwert) | summarise(data, mean_score = mean(score)) |
| Funktion | Zweck | Beispiel |
|---|---|---|
inner_join() |
Nur gemeinsame Zeilen (Schnittmenge) | inner_join(df1, df2, by = "country") |
left_join() |
Alle aus df1, passende aus df2 |
left_join(df1, df2, by = "country") |
anti_join() |
Zeilen aus df1, die nicht in
df2 enthalten |
anti_join(df1, df2, by = "country") |
| Funktion | Zweck | Beispiel |
|---|---|---|
na.omit() |
Zeilen mit fehlenden Werten löschen | na.omit(data) |