Mundo R

Atajos del teclado

  • CTRL + L: limpiar la consola.
  • CTRL + Enter: ejecutar código.
  • CTRL + Shift + M: operador de tubería (%>%)
  • CTRL + Shift + K: compilar documentos RMardkown.
  • CTRL + Alt + i: insetar chunk o fragmento de R en documento RMarkdown.
  • CTRL + s: guardar de forma rápida.
  • CTRL + Shift + Enter: ejecución del script completo.

Tipos de datos en R

  • Numéricos: todo dato en la escala de los reales - numeric.
  • Enteros: toda información cuantitativa sin decimales - integer.
  • Lógicos: datos dicotómicos con dos posibles resultados (TRUE o FALSE) - logical.
  • Caracteres: datos tipo texto (sin jerarquia) - character.
    • Factores: datos tipo texto (con jerarquia). De gran utilidad para manejar variables categóricas o cualitativas - factor.
  • Complejos: datos numéricos con inclusión del número imaginario (i) - complex.

Objetos estructurados

  • Vector: los vectores tiene la característica de almacenar información de un sólo tipo (por ejemplo, sólo puedo tener numéricos o caracteres, pero no ambos) - c() o vector().
  • Matriz: las matrices son arreglos de dos o más dimensiones con la misma característica de los vectores, sólo permiten almacenar información de un sólo tipo - matrix().
  • Listas: las listas permiten almacenar información de cualquier tipo; son altamente flexibles para procesos iterativos - list().
  • Dataframe: similar a una hoja de cálculo en excel. Constituye la materia prima (bases de datos) para cualquier proceso de Ciencia de Datos.
  • Factores: se definen como vectores de caracteres con estructura jerárquica (niveles) - factor().

Funciones auxiliares generales 1

  • str(): devuelve la estructura interna de un objeto cualquiera.
  • class(): devuelve la clase atómica de un objeto, es decir, el tipo de dato.
  • levels(): devuelve los niveles de un factor.
  • names(): observar o editar los nombres de un objeto.
  • rownames(): observar o editar los nombres de las filas de una matriz o una base de datos (dataframe).
  • colnames():observar o editar los nombres de las columnas de una matriz o una base de datos (dataframe).

Funciones auxiliares generales 2

  • length(): devuelve la longitud de un objeto. La longitud de un vector es el número de datos del mismo, sin embargo, la longitud en un dataframe o una matriz es el número de columnas o variables.
  • dim(): devuelve las dimensiones de una matriz o un dataframe.
  • nrow(): devuelve el número de filas de un objeto.
  • ncol(): devuelve el número de columnas de un objeto.

Funciones auxiliares numéricas 1

  • summary(): resumen numérico general. Es una función genérica.
  • mean(): devuelve la media. Si hay valores NAs se debe agregar el argumento na.rm = TRUE - mean(x, na.rm = TRUE).
  • median(): devuelve la mediana. Si hay valores NAs se debe agregar el argumento na.rm = TRUE - median(x, na.rm = TRUE).
  • min(): devuelve el valor mínimo. Si hay valores NAs se debe agregar el argumento na.rm = TRUE - min(x, na.rm = TRUE).
  • max(): devuelve el valor máximo. Si hay valores NAs se debe agregar el argumento na.rm = TRUE - max(x, na.rm = TRUE).
  • sd(): devuelve la desviación estándar. Si hay valores NAs se debe agregar el argumento na.rm = TRUE - sd(x, na.rm = TRUE).

Funciones auxiliares numéricas 2

  • var(): devuelve la varianza. Si hay valores NAs se debe agregar el argumento na.rm = TRUE - var(x, na.rm = TRUE).
  • IQR(): devuelve el rango intercuartílico. Si hay valores NAs se debe agregar el argumento na.rm = TRUE - IQR(x, na.rm = TRUE).
  • range(): devuelve el rango de un objeto numérico. Si hay valores NAs se debe agregar el argumento na.rm = TRUE - range(x, na.rm = TRUE).
  • quantile(): devuelve cuartiles, deciles o percentiles. La función requiere del valor de probabilidad para las medidas de posición (probs = 0.25). Si hay valores NAs se debe agregar el argumento na.rm = TRUE - quantile(x, probs = 0.25, na.rm = TRUE).

Funciones para importar datos

  • read.csv()
  • read.csv2(): Puntos y comas, decimal ,
  • read.table(): Formato txt, decimal .
  • ** datos en formato xls ** install.packages(read.xls) y utilizar la funcion read_xls o read_xlsx
  • load(): Importar informacón R.data

Funciones para exportar datos

  • write.csv()
  • write.csv2(): Formato separado por punto y coma, decimal , _ write.table()
  • datos en formato office install.packages(c(writexl, writeXLS)) utilizar las funciones writexl ó writeXLS
  • save() nota: save permite diferentes niveles de compresión con el argumento compress.level

tidyverse

Introducción

tidyverse no es una biblioteca es un grupo de bibliotecas More information in w3school for css

Caracteristicas:

  • Cada fila es una información, individuo o resgistro
  • Cada columna es una variable
  • Cada celda es un dato

´dplyr´

  • filter(): filtrar filas
  • slice(): seleccionar filas con base en la indexación
  • arrange(): Ordenar filas (por defecto el orden es ascendente)
  • select(): seleccionar columnas por nombre
  • rename(): Editar nombres de las variabres
  • mutate(): editar o crear nuevas variables en función de las existentes
  • group_by(): Agrupar por caractersticas
  • summarise(): Resúmenes numéricos

tidyr

  • Permite convseriónes de formatos, es de utilidad para pasr de formatos largos a anchos o viceversa

  • gather(): De formato ancho a largo
  • spread(): De formato largo a ancho

  • Característica principal: Cualquiera de las dos funciónes debe contener una key y un valvue

  • Las funciónes separate() y unite()son de utilidad para separar y unir

ggplot 2

Sintaxis principal

  • 1 capa: ggplot(data0 datos, mapping= aes(x, y))

  • 2 capa: geom_...

  • 3 capa: labs() <- nombres de ejes