Für die folgenden Befehle wird das Paket tidyverse
benötigt, das eine Sammlung wichtiger Pakete für die Datenanalyse in R
enthält – darunter auch dplyr
und ggplot2
.
# Installation (nur beim ersten Mal nötig)
install.packages("tidyverse")
# Laden des Pakets
library(tidyverse)
CSV-Dateien aus Excel verwenden oft Semikolon (;) statt Komma. Nutze dann:
read.csv2("datei.csv")
# oder `
read_delim("datei.csv", delim = ";")
Standardmäßig erwartet read_csv()
aus dem readr
-Paket ein Komma als Trennzeichen.
Falls Umlaute oder Sonderzeichen fehlerhaft dargestellt werden,
kann ein locale()
-Parameter helfen:
read_csv("datei.csv", locale = locale(encoding = "UTF-8"))
R erkennt standardmäßig NA
, aber manchmal stehen in
Dateien andere Marker wie "-"
, "."
oder
"n/a"
.
Diese kannst du mit na =
im Einlesebefehl
angeben:
read_csv("daten.csv", na = c("-", ".", "n/a"))
Nutze getwd()
um dein aktuelles Arbeitsverzeichnis
zu prüfen und setwd()
um es anzupassen.
Oder verwende den absoluten Pfad zur Datei:
read_csv("C:/Users/Name/Dokumente/datei.csv")
Viele Datensätze enthalten zusätzliche Zeilen (z. B.
Quellenangaben oder Leerzeilen). Mit skip =
kannst du diese
überspringen.
read_csv("daten.csv", skip = 3)
Funktion | Zweck | Beispiel |
---|---|---|
filter() |
Zeilen nach Bedingungen filtern | filter(data, score > 500) |
select() |
Bestimmte Spalten auswählen | select(data, country, score) |
rename() |
Spalten umbenennen | rename(data, new_name = old_name) |
Funktion | Zweck | Beispiel |
---|---|---|
arrange() |
Sortieren (aufsteigend) | arrange(data, score) |
arrange(desc()) |
Sortieren (absteigend) | arrange(data, desc(score)) |
Funktion | Zweck | Beispiel |
---|---|---|
mutate() |
Neue Variablen berechnen | mutate(data, score_z = (score - mean(score))/sd(score)) |
Funktion | Zweck | Beispiel |
---|---|---|
group_by() |
Daten gruppieren | group_by(data, country) |
summarise() |
Zusammenfassung (z. B. Mittelwert) | summarise(data, mean_score = mean(score)) |
Funktion | Zweck | Beispiel |
---|---|---|
inner_join() |
Nur gemeinsame Zeilen (Schnittmenge) | inner_join(df1, df2, by = "country") |
left_join() |
Alle aus df1 , passende aus df2 |
left_join(df1, df2, by = "country") |
anti_join() |
Zeilen aus df1 , die nicht in
df2 enthalten |
anti_join(df1, df2, by = "country") |
Funktion | Zweck | Beispiel |
---|---|---|
na.omit() |
Zeilen mit fehlenden Werten löschen | na.omit(data) |