Hinweise & nützliche Befehle aus tidyverse

Vorbereitung

Für die folgenden Befehle wird das Paket tidyverse benötigt, das eine Sammlung wichtiger Pakete für die Datenanalyse in R enthält – darunter auch dplyr und ggplot2.

# Installation (nur beim ersten Mal nötig)
install.packages("tidyverse")

# Laden des Pakets
library(tidyverse)

Hinweise zum Daten einlesen

Trennzeichen erkennen und anpassen

CSV-Dateien aus Excel verwenden oft Semikolon (;) statt Komma. Nutze dann:

read.csv2("datei.csv")

# oder `

read_delim("datei.csv", delim = ";")

Standardmäßig erwartet read_csv() aus dem readr-Paket ein Komma als Trennzeichen.

Zeichencodierung prüfen

Falls Umlaute oder Sonderzeichen fehlerhaft dargestellt werden, kann ein locale()-Parameter helfen:
```
read_csv("datei.csv", locale = locale(encoding = "UTF-8"))
```

Fehlende Werte erkennen

R erkennt standardmäßig NA, aber manchmal stehen in Dateien andere Marker wie "-", "." oder "n/a".
Diese kannst du mit na = im Einlesebefehl angeben:
```
read_csv("daten.csv", na = c("-", ".", "n/a"))
```

Pfade und Arbeitsverzeichnis

Nutze getwd() um dein aktuelles Arbeitsverzeichnis zu prüfen und setwd() um es anzupassen.

Oder verwende den absoluten Pfad zur Datei:

read_csv("C:/Users/Name/Dokumente/datei.csv")

Kopfzeilen und übersprungene Zeilen

Viele Datensätze enthalten zusätzliche Zeilen (z. B. Quellenangaben oder Leerzeilen). Mit skip = kannst du diese überspringen.
```
read_csv("daten.csv", skip = 3)
```

dplyr: Wichtige Befehle im Überblick

Daten filtern und auswählen

Funktion	Zweck	Beispiel
`filter()`	Zeilen nach Bedingungen filtern	`filter(data, score > 500)`
`select()`	Bestimmte Spalten auswählen	`select(data, country, score)`
`rename()`	Spalten umbenennen	`rename(data, new_name = old_name)`

Daten sortieren

Funktion	Zweck	Beispiel
`arrange()`	Sortieren (aufsteigend)	`arrange(data, score)`
`arrange(desc())`	Sortieren (absteigend)	`arrange(data, desc(score))`

Neue Spalten berechnen

Funktion	Zweck	Beispiel
`mutate()`	Neue Variablen berechnen	`mutate(data, score_z = (score - mean(score))/sd(score))`

Gruppieren und zusammenfassen

Funktion	Zweck	Beispiel
`group_by()`	Daten gruppieren	`group_by(data, country)`
`summarise()`	Zusammenfassung (z. B. Mittelwert)	`summarise(data, mean_score = mean(score))`

Datensätze zusammenführen (Joins)

Funktion	Zweck	Beispiel
`inner_join()`	Nur gemeinsame Zeilen (Schnittmenge)	`inner_join(df1, df2, by = "country")`
`left_join()`	Alle aus `df1`, passende aus `df2`	`left_join(df1, df2, by = "country")`
`anti_join()`	Zeilen aus `df1`, die nicht in `df2` enthalten	`anti_join(df1, df2, by = "country")`

Fehlende Werte entfernen

Funktion	Zweck	Beispiel
`na.omit()`	Zeilen mit fehlenden Werten löschen	`na.omit(data)`