Quality Control for Data Files from Instruments

Types of errors in data files obtained from instruments measuring atmospheric variables

When working with data files from instruments measuring atmospheric variables, several types of errors are commonly encountered.

1. Instrumental Errors

Sensor Drift: Gradual deviation in sensor response over time, leading to inaccurate readings.

Calibration Errors: Incorrect or infrequent calibration can cause systematic bias.
Response Time Lag: Delay in sensor response to rapid concentration changes.

Detection Limit Issues: Readings below the instrument’s detection limit may be reported as zero or flagged.

2. Data Recording and Transmission Errors

Missing Data: Gaps due to power loss, maintenance, or communication failures.

Duplicated Records: Same timestamp or measurement recorded multiple times.

Timestamp Errors: Incorrect, missing, or non-uniform timestamps (e.g., due to daylight saving time changes).
Corrupted Files: Partial or unreadable data files due to transmission/storage errors.

3. Environmental and Sampling Errors

Interference: Cross-sensitivity to other aerosols, gases, or environmental conditions (humidity, temperature).
Sample Line Losses: Particles lost in tubing before reaching the sensor.
Site Contamination: Local sources (construction, vehicles) causing spikes unrelated to regional air quality.

4. Data Processing and Human Errors

Manual Entry Errors: Mistakes during manual data transcription or entry.
Unit Inconsistencies: Mixing up units (e.g., μg/m³ vs mg/m³).
Improper Data Cleaning: Overzealous removal of “outliers” that are actually valid extreme events.

5. Outlier and Anomaly Issues

Spikes/Dropouts: Sudden, non-physical changes due to electrical glitches or short-term interference.

Flatlines: Extended periods of identical readings (sensor stuck or malfunctioning).

Summary Table

Error Type	Example	Impact
Instrumental	Sensor drift, calibration error	Systematic bias
Recording/Transmission	Missing data, timestamp errors	Data gaps, misalignment
Environmental	Humidity interference, contamination	False highs/lows
Processing/Human	Entry errors, unit mix-ups	Misinterpretation, wrong stats
Outliers/Anomalies	Spikes, flatlines	Skewed mean/variance

Detecting common data errors in atmospheric datasets using R.

1. Missing Data

Detection:
- Use is.na() to find missing values. - Use summary() or skimr::skim() for overview.

Code:

```r
# Basic count of missing values per column
colSums(is.na(data))

# Visualize missingness
library(naniar)
vis_miss(data)
```

2. Duplicated Records

Detection:
- Use duplicated() to find repeated rows or timestamps.

Code:

```r
# Find duplicated rows
sum(duplicated(data))

# Find duplicated timestamps (assuming 'timestamp' column)
sum(duplicated(data$timestamp))
```

3. Timestamp Errors

Detection:
- Check for non-sequential or irregular time intervals. - Use dplyr and lubridate for time operations.

Code:

```r
library(dplyr)
library(lubridate)

# Convert to POSIXct if needed
data$timestamp <- ymd_hms(data$timestamp)

# Check time differences
data <- data %>% arrange(timestamp)
diffs <- diff(data$timestamp)
table(diffs)
```

4. Outliers and Spikes

Detection:
- Use boxplots, z-scores, or the tsoutliers package for time series.

Code:

```r
# Visualize with boxplot
boxplot(data$PM10, main="PM10 Boxplot")

# Identify values beyond 3 standard deviations
outliers <- abs(scale(data$PM10)) > 3
which(outliers)

# For time series outlier detection
library(tsoutliers)
ts_data <- ts(data$PM10, frequency = 24) # e.g., hourly data
outlier_results <- tso(ts_data)
outlier_results$outliers
```

5. Flatlines (Sensor Stuck)

Detection:
- Detect long sequences of identical values.

Code:

```r
# Run-length encoding to find flatlines
rle_PM10 <- rle(data$PM10)
flatlines <- which(rle_PM10$lengths > 10) # e.g., more than 10 identical readings

# Get the start positions of flatlines
flatline_positions <- cumsum(rle_PM10$lengths)[flatlines]
```

6. Unit Inconsistencies

Detection:
- Check for impossible values (e.g., PM10 > 1000 μg/m³). - Use summary statistics.

Code:

```r
summary(data$PM10)
# Set a threshold for plausible values
impossible <- which(data$PM10 > 1000 | data$PM10 < 0)
data[impossible, ]
```

Recommended R Packages

naniar: Visualize missing data.
dplyr: Data manipulation.
lubridate: Date/time handling.
tsoutliers: Time series outlier detection.
skimr: Quick data summaries.

Summary Table

Error Type	Detection Tool/Function	Example Package
Missing Data	`is.na()`, `vis_miss()`	naniar
Duplicates	`duplicated()`	base
Timestamp Errors	`diff()`, `lubridate`	lubridate
Outliers/Spikes	`boxplot()`, `tsoutliers`	tsoutliers
Flatlines	`rle()`	base
Unit Issues	`summary()`, logical checks	base

R code snippets for repairing common data errors in atmospheric datasets.

1. Missing Data

Common Fixes: - Impute using mean/median, linear interpolation, or remove rows.

Code:

```r
# Remove rows with missing PM10
clean_data <- data[!is.na(data$PM10), ]

# Impute with median
data$PM10[is.na(data$PM10)] <- median(data$PM10, na.rm = TRUE)

# Linear interpolation
library(zoo)
data$PM10 <- na.approx(data$PM10, na.rm = FALSE)
```

2. Duplicated Records

Common Fix: - Remove duplicate rows or duplicate timestamps.

Code:

```r
# Remove exact duplicate rows
data <- data[!duplicated(data), ]

# Remove duplicate timestamps, keeping the first occurrence
data <- data[!duplicated(data$timestamp), ]
```

3. Timestamp Errors

Common Fixes: - Standardize timestamp format, fill missing timestamps, or interpolate missing time points.

Code:

```r
library(lubridate)
library(dplyr)

# Standardize timestamp
data$timestamp <- ymd_hms(data$timestamp)

# Create complete time sequence (e.g., hourly)
full_times <- data.frame(timestamp = seq(min(data$timestamp), max(data$timestamp), by = "hour"))

# Merge and fill missing times with NA
data <- full_join(full_times, data, by = "timestamp")
```

4. Outliers and Spikes

Common Fixes: - Replace outliers with NA, or impute using nearby values.

Code:

```r
# Identify outliers (e.g., >3 SD from mean)
z <- scale(data$PM10)
data$PM10[abs(z) > 3] <- NA

# Interpolate after removing outliers
library(zoo)
data$PM10 <- na.approx(data$PM10, na.rm = FALSE)
```

5. Flatlines (Sensor Stuck)

Common Fix: - Replace long identical runs with NA, then interpolate.

Code:

```r
rle_PM10 <- rle(data$PM10)
# Identify flatlines longer than 10 readings
flat_idx <- inverse.rle(list(lengths = ifelse(rle_PM10$lengths > 10, rle_PM10$lengths, 0),
                             values = rep(TRUE, length(rle_PM10$lengths))))
data$PM10[flat_idx] <- NA

# Interpolate
data$PM10 <- na.approx(data$PM10, na.rm = FALSE)
```

6. Unit Inconsistencies

Common Fix: - Convert units or set implausible values to NA.

Code:

```r
# Set implausible values (e.g., PM10 > 1000) to NA
data$PM10[data$PM10 > 1000 | data$PM10 < 0] <- NA
```

Summary Table

Error Type	Repair Strategy	Key Function(s)
Missing Data	Remove, impute, interpolate	`na.approx()`, `median()`
Duplicates	Remove duplicates	`duplicated()`
Timestamp Errors	Standardize, fill, merge	`ymd_hms()`, `full_join()`
Outliers/Spikes	Set to NA, interpolate	`scale()`, `na.approx()`
Flatlines	Set to NA, interpolate	`rle()`, `na.approx()`
Unit Issues	Convert, set to NA	Logical indexing

Tip:
Always visualize before and after cleaning (e.g., with plot() or ggplot2) to verify repairs.

References on Environmental Data Errors

Textbooks & Standards:
- World Health Organization (WHO). (2006). Air Quality Guidelines: Global Update 2005. Particulate Matter, Ozone, Nitrogen Dioxide and Sulfur Dioxide. Link
Articles:
- Holstius, D. M., et al. (2014). Field calibrations of low-cost aerosol sensors at a regulatory monitoring site in California. Atmospheric Measurement Techniques, 7, 1121–1131. Link

R Packages and Data Cleaning References

R Package Documentation & Tutorials:
- naniar: Tierney, N., Cook, D., McBain, M., & Fay, C. (2023). naniar: Data Structures, Summaries, and Visualisations for Missing Data. CRAN
- zoo: Zeileis, A., & Grothendieck, G. (2005). zoo: S3 Infrastructure for Regular and Irregular Time Series. Journal of Statistical Software, 14(6), 1–27. CRAN
- lubridate: Grolemund, G., & Wickham, H. (2011). Dates and Times Made Easy with lubridate. Journal of Statistical Software, 40(3), 1–25. CRAN
- tsoutliers: López-de-Lacalle, J. (2019). tsoutliers: Detection of Outliers in Time Series. CRAN
- skimr: McNamara, A., et al. (2023). skimr: Compact and Flexible Summaries of Data. CRAN
- dplyr: Wickham, H., François, R., Henry, L., & Müller, K. (2023). dplyr: A Grammar of Data Manipulation. CRAN
Data Cleaning in R:
- Wickham, H., & Grolemund, G. (2017). R for Data Science. O’Reilly. Online Book
- Peng, R. D. (2016). R Programming for Data Science. Online Book

Practical Guides and Case Studies

Handling Outliers and Missing Data:
- Hyndman, R. J., & Athanasopoulos, G. (2021). Forecasting: Principles and Practice (Section on time series outliers and missing values). Online Book

Summary Table

Topic	Reference/Resource
Environmental Data QC	WHO
R Data Cleaning	Wickham & Grolemund (R4DS), Peng, Van der Loo & de Jonge
R Packages	naniar, zoo, lubridate, tsoutliers, dplyr, skimr (CRAN documentation)
Air Quality Sensors	Holstius et al., Spinelle et al.
Outlier/Missing Data	Hyndman & Athanasopoulos, Van der Loo & de Jonge

Quality Control for Data Files from Instruments

D. S. Fernández del Viso

2025-07-15

Types of errors in data files obtained from instruments measuring atmospheric variables

1. Instrumental Errors

2. Data Recording and Transmission Errors

3. Environmental and Sampling Errors

4. Data Processing and Human Errors

5. Outlier and Anomaly Issues

Summary Table

Detecting common data errors in atmospheric datasets using R.

1. Missing Data

2. Duplicated Records

3. Timestamp Errors

4. Outliers and Spikes

5. Flatlines (Sensor Stuck)

6. Unit Inconsistencies

Recommended R Packages

Summary Table

R code snippets for repairing common data errors in atmospheric datasets.

1. Missing Data

2. Duplicated Records

3. Timestamp Errors

4. Outliers and Spikes

5. Flatlines (Sensor Stuck)

6. Unit Inconsistencies

Summary Table

References on Environmental Data Errors

R Packages and Data Cleaning References

Practical Guides and Case Studies

Summary Table