Vorbereitung

Für die folgenden Befehle wird das Paket tidyverse benötigt, das eine Sammlung wichtiger Pakete für die Datenanalyse in R enthält – darunter auch dplyr und ggplot2.

# Installation (nur beim ersten Mal nötig)
install.packages("tidyverse")

# Laden des Pakets
library(tidyverse)

Hinweise zum Daten einlesen

Trennzeichen erkennen und anpassen

Zeichencodierung prüfen

Fehlende Werte erkennen

Pfade und Arbeitsverzeichnis

Kopfzeilen und übersprungene Zeilen


dplyr: Wichtige Befehle im Überblick

Daten filtern und auswählen

Funktion Zweck Beispiel
filter() Zeilen nach Bedingungen filtern filter(data, score > 500)
select() Bestimmte Spalten auswählen select(data, country, score)
rename() Spalten umbenennen rename(data, new_name = old_name)

Daten sortieren

Funktion Zweck Beispiel
arrange() Sortieren (aufsteigend) arrange(data, score)
arrange(desc()) Sortieren (absteigend) arrange(data, desc(score))

Neue Spalten berechnen

Funktion Zweck Beispiel
mutate() Neue Variablen berechnen mutate(data, score_z = (score - mean(score))/sd(score))

Gruppieren und zusammenfassen

Funktion Zweck Beispiel
group_by() Daten gruppieren group_by(data, country)
summarise() Zusammenfassung (z. B. Mittelwert) summarise(data, mean_score = mean(score))

Datensätze zusammenführen (Joins)

Funktion Zweck Beispiel
inner_join() Nur gemeinsame Zeilen (Schnittmenge) inner_join(df1, df2, by = "country")
left_join() Alle aus df1, passende aus df2 left_join(df1, df2, by = "country")
anti_join() Zeilen aus df1, die nicht in df2 enthalten anti_join(df1, df2, by = "country")

Fehlende Werte entfernen

Funktion Zweck Beispiel
na.omit() Zeilen mit fehlenden Werten löschen na.omit(data)