Un objeto, dentro del contexto de computación y programación, es un elemento dentro de la memoria en uso con el cual se puede interactuar mediante herramientas como R.
2. Variables
Así como en matemáticas, las variables son representaciones algebraicas que tienen la capacidad de guardar un valor. Vale señalar que el uso de variables, es el primer (y muy importante) paso para la generalización de un programa computacional.
2.1 Variables numéricas decimales
n1 = 4
n2 <- -8.65
Notemos, que para asignar un valor a una variable se puede usar de forma indistinta un simbolo = o una “flecha” <-.
Para imprimir el valor de una variable se pueden optar por las siguientes opciones:
n1
[1] 4
- Impresión mediante función (recomendada)
print(n2)
[1] -8.65
2.2 Variables numéricas enteras
e1 = 4L
print(e1)
[1] 4
Notemos que para especificar que la variable es de tipo entero debemos incorporar una letra L después del número.
Para conocer y verificar la clase o tipo de variable podemos realizar lo siguiente:
class(n1)
[1] "numeric"
class(e1)
[1] "integer"
La clase numeric de R es equivalente a lo que nosotros hemos referido como decimal.
En este punto, verifiquemos el área de objetos y notemos que todas las variables que estamos creando se están guardando allí.
2.3 Variables de texto
t1 = "Hola"
t2 <- "Mi nombre es juan"
Imprimamos ahora estas variables:
print(t1)
[1] "Hola"
print(t2)
[1] "Mi nombre es juan"
Y verifiquemos su clase:
class(t1)
[1] "character"
class(t2)
[1] "character"
2.4 Variables de tipo factor
En este punto es conveniente distinguir los factores en dos grandes grupos:
- Los factores binarios (o buleanos) que solamente pueden tomar valores en un rango de 2 elementos.
- Los demás factores que pueden tomar valores en un rango de más de 2 elementos.
2.4.1 Factores buleanos
b1 = TRUE
b2 <- FALSE
Veamos la clase de estas variables:
class(b1)
[1] "logical"
class(b2)
[1] "logical"
Notemos que cuando un factor es de tipo VERDADERO/FALSO se le suele llamar factor lógico.
Intentemos ahora esta forma de generar factores buleanos:
b3 <- factor(1, levels = 1:2)
Imprimamos el factor:
print(b3)
[1] 1
Levels: 1 2
Lo que acabamos de hacer es decirle a R que nuestra variable b3 es un factor que tiene un valor de 1, y que el posible rango del factor es 1 o 2. Revise la asignación de b3 y confirme este enunciado.
Verifiquemos ahora la clase de esta variable
class(b3)
[1] "factor"
2.4.2 Otros factores
colores_semaforo = factor("amarillo", levels = c("verde", "amarillo", "rojo"))
Revise esta asignación de variable e intente comprenderla, si le cuesta no se preocupe, es normal pues aún no hemos visto todos los objetos básicos que posee R.
Imprimamos y veamos la clase de esta variable
print(colores_semaforo)
[1] amarillo
Levels: verde amarillo rojo
class(colores_semaforo)
[1] "factor"
2.5 Operaciones binarias con variables
Al igual que con números es posible ejecutar operaciones matemáticas con variables, siempre y cuando estas tengan sentido.
(n1 + n2)*e1
[1] -18.6
n1**2
[1] 16
Por ejemplo, mire que esta operación va a generar un error puesto que carece de sentido
t1 + 5
Error in t1 + 5 : non-numeric argument to binary operator
Conociendo ya lo que son las variables lógicas (VERDADERO/FALSO), podemos también ver las operaciones matemáticas lógicas:
b1 & b2
[1] FALSE
b1 | b2
[1] TRUE
!b1
[1] FALSE
Así como las operaciones de contraste lógico, como las siguientes:
n1 > 3
[1] TRUE
n2 <= 0
[1] TRUE
e1 == 3
[1] FALSE
n1 < n2
[1] FALSE
(n2 > 2) & (n2 < 4)
[1] FALSE
Nótemos que el uso del == no es una asignación sino un constraste lógico. En esto debemos tener mucho cuidado cuando programemos cosas más complejas.
3. Vectores
Los vectores son conjuntos de uno o más valores del mismo tipo o clase. En R constituyen el elemento fundamental de otros objetos como las matrices, o los data frames.
3.1 Construcción estándar
Los vectores se pueden construir de varias formas, pero la siguiente es la más común:
v1 <- c(2,4,6,8,10,12)
v2 <- c("j","u","a","n")
v3 <- c(TRUE,FALSE,TRUE)
Imprimamos estos objetos y veamos su clase:
print(v1)
[1] 2 4 6 8 10 12
class(v1)
[1] "numeric"
print(v2)
[1] "j" "u" "a" "n"
class(v2)
[1] "character"
print(v3)
[1] TRUE FALSE TRUE
class(v3)
[1] "logical"
Es importante observar que los vectores, si bien poseen varios elementos, mantienen la clase de cada uno de ellos.
3.3 Operaciones binarias con vectores
Se pueden ejecutar tanto operaciones matemáticas como lógicas en vectores, de forma equivalente a lo hecho en variables.
2*v1 - v4
[1] 3 6 9 12 15 18
v5/2
[1] 0.5 1.5 2.5 3.5 4.5
v4 > 3
[1] FALSE FALSE FALSE TRUE TRUE TRUE
v6 == "b"
[1] FALSE FALSE FALSE FALSE FALSE
Adicional a esto, se pueden incluir como operaciones binarias con vectores a las siguientes estadísticas básicas:
- Tamaño o norma del vector:
length(v1)
[1] 6
- Media, mediana, mínimo y máximo del vector (sólo para vectores numéricos):
mean(v4)
[1] 3.5
median(v4)
[1] 3.5
min(v4)
[1] 1
max(v4)
[1] 6
- Desviación estándar, varianza, y rango IQR del vector (sólo para vectores numéricos):
var(v1)
[1] 14
sd(v1)
[1] 3.741657
IQR(v1)
[1] 5
- Suma de todos los elementos del vector (sólo para vectores numéricos):
sum(v5)
[1] 25
- Correlación entre dos vectores (sólo para vectores numéricos):
cor(v1,v4)
[1] 1
- Concatenación de vectores:
paste(v6, collapse = ",")
[1] "a,a,a,a,a"
paste(v2, collapse = "")
[1] "juan"
3.4 Indexacion de vectores
En muchas ocasiones es importante ubicar elementos específicos de un vector. En este sentido y en términos generales, diremos indexar un vector para el proceso de identificar un elemento en concreto del mismo.
v1[1]
[1] 2
v2[4]
[1] "n"
v5[3]
[1] 5
Adicionalmente, es posible indexar vectores utilizando operaciones binarias lógicas y estadísticas que ya hemos visto, así por ejemplo:
v1[length(v1)]
[1] 12
v2[v2 == "u"]
[1] "u"
v4[v4 > 3]
[1] 4 5 6
También es posible indexar, usando otro vector para obtener más de un elemento:
v5[c(1,4)]
[1] 1 7
O indexar para obtener un vector SIN un elemento en específico utilizando el signo “-”:
v2[-3]
[1] "j" "u" "n"
Cómo veremos más adelante, la indexación es una característica importante también en matrices y en data frames. Lo anterior debido a que, como se indicó, el vector es su elemento constitutivo principal.
4. Matrices
Una matriz es un ordenamiento vectorial de elementos en n filas y m columnas. Una característica importante de las matrices, radica en que dentro de ellas solamente pueden existir elementos de una misma clase.
4.1 Construcción estándar
Para empezar, definamos un vector con 16 de elementos numéricos.
v7 <- c(5,7,4,0,1,-6,-1,2,0,8,1,9,0,-5,-9,1)
Ahora, construyamos una matriz cuadrada:
n <- sqrt(length(v7))
m <- n
m1 <- matrix(data = v7,
nrow = n,
ncol = m)
Para definir una matriz, nótese que se deben establecer 3 parametros: unos datos que corresponden a un vector, un número de columnas, y un número de filas.
Imprimamos la matriz para verla en detalle
print(m1)
[,1] [,2] [,3] [,4]
[1,] 5 1 0 0
[2,] 7 -6 8 -5
[3,] 4 -1 1 -9
[4,] 0 2 9 1
Es importante señalar que la matriz va llenándose por columnas.
Construyamos ahora una matriz a partir del mismo vector, pero en esta ocasión no la hagamos cuadrada.
m2 <- matrix(data = v7,
nrow = 8,
ncol = 2)
print(m2)
[,1] [,2]
[1,] 5 0
[2,] 7 8
[3,] 4 1
[4,] 0 9
[5,] 1 0
[6,] -6 -5
[7,] -1 -9
[8,] 2 1
Verifiquemos la clase de estos objetos creados:
class(m1)
[1] "matrix" "array"
class(m2)
[1] "matrix" "array"
4.3 Operaciones binarias con matrices
Igual que en vectores, es posible ejecutar operaciones matemáticas, lógicas y estadísticas. Sin embargo se debe ser cuidadoso por un lado para diferenciar entre operaciones matemáticas propias del álgebra lineal, y aquellas del manejo de datos; y por otro, en revisar siempre las dimensiones (filas y columnas) de modo que no se generen errores.
- Operaciones matemáticas (manejo de datos)
-5.2*m1 + m5
[,1] [,2] [,3] [,4]
[1,] -21.0 -0.2 5.0 5.0
[2,] -31.4 36.2 -36.6 31.0
[3,] -15.8 10.2 -0.2 51.8
[4,] 5.0 -5.4 -41.8 -0.2
Si se multiplican matrices de diferentes dimensiones se genera error:
m1 * m2
Error in m1 * m2 : non-conformable arrays
- Operaciones matemáticas (álgebra lineal)
Se pueden generar multiplicaciones bajo este contexto siempre que el número de columnas de la primera matriz sea igual al número de filas de la segunda.
m6 <- cbind(c(3,2,1),c(4,0,1),c(5,4,6))
m7 <- rbind(c(5,5),c(1,4),c(0,-1))
m6 %*% m7
[,1] [,2]
[1,] 19 26
[2,] 10 6
[3,] 6 3
Adicionalmente, podemos calcular las transpuestas, inversas, determinantes y valores y vectores propios de matrices cuadradas.
t(m6)
[,1] [,2] [,3]
[1,] 3 2 1
[2,] 4 0 1
[3,] 5 4 6
solve(m6)
[,1] [,2] [,3]
[1,] 0.11764706 0.55882353 -0.47058824
[2,] 0.23529412 -0.38235294 0.05882353
[3,] -0.05882353 -0.02941176 0.23529412
det(m6)
[1] -34
eigen(m6)
eigen() decomposition
$values
[1] 8.398959 2.334835 -1.733793
$vectors
[,1] [,2] [,3]
[1,] -0.7643881 -0.9168930 0.63419426
[2,] -0.4164422 -0.2431649 -0.77296551
[3,] -0.4922262 0.3165090 0.01794349
Se puede obtener el valor medio de las columnas y las filas
colMeans(m1)
[1] 4.00 -1.00 4.50 -3.25
rowMeans(m1)
[1] 1.50 1.00 -1.25 3.00
Así también podemos calcular las dimensiones
print(m4)
[,1] [,2] [,3]
v8 "a" "b" "c"
v9 "d" "e" "f"
dim(m4)
[1] 2 3
ncol(m4)
[1] 3
nrow(m4)
[1] 2
4.4 Indexación de matrices
De forma similar a un vector, se puede indexar una matriz con la particularidad que debemos especificar ya no solamente una posición, sino dos (filas y columnas).
m3[3,2]
v9
"f"
Si queremos indexar toda una fila, se lo puede hacer de la siguiente forma:
m1[2,]
[1] 7 -6 8 -5
Y para columnas, la sintaxis es similar:
m2[,2]
[1] 0 8 1 9 0 -5 -9 1
Al igual que en lo visto en vectores, es posible aplicar operaciones binarias, para indexar una matriz.
m6[1,ncol(m6)]
[1] 5
5. Data Frames
Los data frames o tablas de datos, se pueden entender como un arreglo de elementos similar a la matrices, pero con la principal diferencia que cada columna puede tener una clase diferente.
En las áreas de inteligencia de negocios y de analítica, los data frames son el objeto más importante y frecuente con el cual se trabaja.
5.1 Construcción estándar
df1 <- data.frame(num = c(1,2,3),
txt = c("a","b","c"),
int = rep(4L,3),
boo = c(TRUE,TRUE,FALSE))
Imprimamos el data frame para visualizarlo
print(df1)
Los data frames pueden ser visualizados además de la siguiente forma, en consideración a que generalmente contienen muchos datos, y su visualización en la consola puede ser limitada o dificultosa.
View(df1)
Para evidenciar esto, tomemos un data frame integrado en R que se llama iris
print(iris)
View(iris)
Verifiquemos la clase de estos objetos:
class(df1)
[1] "data.frame"
5.3 Oparaciones binarias con data frames
Las siguientes son las principales operaciones que se pueden ejecutar con data frames.
summary(df1)
num txt int boo
Min. :1.0 Length:3 Min. :4 Mode :logical
1st Qu.:1.5 Class :character 1st Qu.:4 FALSE:1
Median :2.0 Mode :character Median :4 TRUE :2
Mean :2.0 Mean :4
3rd Qu.:2.5 3rd Qu.:4
Max. :3.0 Max. :4
str(df1)
'data.frame': 3 obs. of 4 variables:
$ num: num 1 2 3
$ txt: chr "a" "b" "c"
$ int: int 4 4 4
$ boo: logi TRUE TRUE FALSE
- Dimensiones (igual que una matriz)
dim(df1)
[1] 3 4
ncol(df1)
[1] 4
nrow(df1)
[1] 3
names(df1)
[1] "num" "txt" "int" "boo"
5.4 Indexación de data frames
Un data frame puede indexarse de la misma forma que una matriz.
df2[10,3]
[1] -15
Sin embargo, al momento de ejecutar análisis de datos esta forma de indexar no suele ser muy eficiente. Por lo que también es posible indexar especificando nombres de columnas:
iris$Sepal.Length[123]
[1] 7.7
O también de esta forma:
df1[3,"txt"]
[1] "c"
Cuando empecemos a utilizar el paquete tidyverse vamos a profundizar mas en la construcción y manipulación de data frames y sus objetos hermanos: los tibbles.
