Optimización del código
Una de las optimizaciones relativamente fáciles y disponibles siempre, es utilizar una versión actualizada de R. En general, R es muy conservador, por lo que el actualizar la versión no daña el código existente. Sin embargo, una nueva versión proporcionará a menudo aumentos de velocidad para funciones clave.
# Print the R version details using version
version
_
platform x86_64-apple-darwin15.6.0
arch x86_64
os darwin15.6.0
system x86_64, darwin15.6.0
status
major 3
minor 5.1
year 2018
month 07
day 02
svn rev 74947
language R
version.string R version 3.5.1 (2018-07-02)
nickname Feather Spray
# Assign the variable major to the major component
major <- version$major
major
[1] "3"
# Assign the variable minor to the minor component
minor <- version$minor
minor
[1] "5.1"
Tiempos de ejecución
Una de las tareas más comunes que realizamos es leer datos de archivos CSV. Sin embargo, para archivos CSV grandes, esto puede ser una tarea lenta. Un buen truco es leer los datos y guardarlos como un archivo binario R (rds) usando saveRDS(). Para leer en el archivo rds, usamos readRDS().
# How long does it take to read movies from CSV?
system.time(read.csv("movies.csv"))
user system elapsed
0.549 0.015 0.564
# How long does it take to read movies from RDS?
system.time(readRDS("movies.rds"))
user system elapsed
0.080 0.002 0.082
Usar system.time () es conveniente, pero tiene sus desventajas cuando se comparan llamadas de múltiples funciones. El paquete microbenchmark resuelve este problema con la función microbenchmark().
# Load the microbenchmark package
library(microbenchmark)
# Compare the two functions
compare <- microbenchmark(read.csv("movies.csv"),
readRDS("movies.rds"),
times = 10)
# Print compare
compare
Unit: milliseconds
Depende de la maquina …
Para muchos problemas, el tiempo es la parte cara. Si tener una computadora más rápida lo hace más productivo, puede ser rentable comprar uno. Sin embargo, antes de gastar nuevos juguetes para usted, su jefe/compañero puede querer ver algunos números para justificar el gasto. Medir el rendimiento de su computadora se llama evaluación comparativa, y puede hacerlo con el paquete benchmarkme.
# Load the benchmarkme package
library(benchmarkme)
# Assign the variable ram to the amount of RAM on this machine
ram <- get_ram()
ram
4.29 GB
# Assign the variable cpu to the cpu specs
cpu <- get_cpu()
cpu
$vendor_id
[1] "GenuineIntel"
$model_name
[1] "Intel(R) Core(TM) i5-3210M CPU @ 2.50GHz"
$no_of_cores
[1] 4
El paquete benchmarkme le permite ejecutar un conjunto de puntos de referencia estandarizados y comparar sus resultados con otros usuarios. Un conjunto de pruebas de puntos de referencia es la velocidad de lectura y escritura.
# Load the package
library(benchmarkme)
See https://jumpingrivers.shinyapps.io/benchmarkme/ for a Shiny
interface to the benchmark data.
# Run the io benchmark
res <- benchmark_io(runs = 1, size = 5)
# IO benchmarks (2 tests) for size 5 MB:
Reading a csv with 625000 values: 0.912 (sec).
Writing a csv with 625000 values: 0.886 (sec).
# Plot the results
# plot(res)
Asignación de memoria
Si usted está programando en R, tenga en cuenta lo siguiente:
En R, la asignación de memoria ocurre automáticamente
R asigna memoria en RAM para almacenar variables
Minimice la asignación de variables para la velocidad
Considere el ejemplo1:
Welcome to R club!
- The first rule of R club never, ever grow a vector (Nunca incremente un vector)
Importancia de vectorizar tu código
Llamar a una función R finalmente lleva al código C o FORTRAN
Este código está muy optimizado
La meta es: Acceda al código subyacente de C o FORTRAN lo más rápido posible; cuantas menos funciones se llaman mejor.
El siguiente fragmento de código está escrito como el código tradicional C o Fortran. En lugar de usar la versión vectorizada de la multiplicación, usa un ciclo for.
x <- rnorm(10)
x2 <- numeric(length(x))
for(i in 1:10)
x2[i] <- x[i] * x[i]
La idea es evitar el uso extensivo de los ciclos for, debido a que R implementa la vectorización.
x <- rnorm(10)
x2 <- numeric(length(x))
x2_imp <- x^2
x2_imp
[1] 0.02951567 0.15724065 0.17687795 3.12364545 0.09472666 0.24533842
[7] 0.09361045 0.12474215 0.35690963 1.18789281
Una operación común en estadística es calcular la suma de los logaritmos de las probabilidades. El siguiente código calcula el log-sum (la suma de los logaritmos).
# Initial code
n <- 100
total <- 0
x <- runif(n)
for(i in 1:n)
total <- total + log(x[i])
total
[1] -108.7323
# Rewrite in a single line. Store the result in log_sum
log_sum <- sum(log(x))
log_sum
[1] -108.7323
Welcome to R club!
- La segunda regla del club R: use una solución vectorizada siempre que sea posible.
Matrices y Data Frame
Data Frame
Estructura de datos clave en R
Copiado en otros lenguajes
- Python: pandas data frame
Welcome to R club!
- La tercera regla del club R: use una matriz cuando sea apropiado.
Code profiling
profiling le ayuda a localizar los cuellos de botella en su código. Este apartado le enseña a visualizar los cuellos de botella utilizando el paquete profis.
La idea general es:
Ejecuta el código
Cada pocos milisegundos, registre lo que se está ejecutando actualmente
Rprof() viene con R y hace exactamente esto, Difícil de usar
Use profvis en su lugar
Pararrel Programing
CPU: cerebros de la computadora
La velocidad se estabilizó lentamente
_ Las CPU se estaban calentando demasiado
Multi-core CPUs
Pero R solo usa 1 núcleo :(
No todos los análisis pueden hacer uso de múltiples núcleos
Muchos algoritmos estadísticos solo pueden usar un solo núcleo
get_cpu()
$vendor_id
[1] "GenuineIntel"
$model_name
[1] "Intel(R) Core(TM) i5-3210M CPU @ 2.50GHz"
$no_of_cores
[1] 4
