Conceptualmente, los factores son variables en R que toman un número limitado de valores diferentes; A menudo se hace referencia a estas variables como variables categóricas. Uno de los usos más importantes de los factores es el modelado estadístico; Dado que las variables categóricas entran en modelos estadísticos de manera diferente a las variables continuas, el almacenamiento de datos como factores asegura que las funciones de modelado tratarán dichos datos correctamente.
Los factores representan una forma muy eficiente de almacenar valores de caracteres, porque cada valor de carácter único se almacena solo una vez, y los datos en sí se almacenan como un vector de enteros. Debido a esto, read.table convertirá automáticamente las variables de caracteres en factores a menos que se especifique el argumento as.is =.
En los conjuntos de datos podemos encontrar dos tipos de variables:
Variables Categoricas; Es un valor limitado, retringido a un numero especificos de clasificaciones, como genero, ocupacion, etc.
Variables Continuas; Estas pueden tomar valores con decimales, como las ganancias , precios o porcentajes e mercado.
Los factores en R se almacenan como un vector de valores enteros con un conjunto correspondiente de valores de caracteres para usar cuando se muestra el factor. La función factor se usa para crear un factor.
Con el siguiente codigo transformaremos un dato CHARACTER en FACTOR.
vector_genero <- c("Hombre", "Mujer", "Mujer", "Hombre", "Mujer", "Hombre")
class(vector_genero)
## [1] "character"
Las variables categoricas se pueden dividor en:
Creando un vector de colores
color_vector <- c('azul', 'rojo', 'verde', 'rosado', 'negro', 'amarillo')
color_vector
## [1] "azul" "rojo" "verde" "rosado" "negro" "amarillo"
Convirtiendo en factor
factor_color <- factor(color_vector)
factor_color
## [1] azul rojo verde rosado negro amarillo
## Levels: amarillo azul negro rojo rosado verde
Creando un vector categorico
day_vector <- c('evening', 'morning', 'afternoon', 'midday', 'midnight', 'evening')
Convert day_vector en factor
factor_day <- factor(day_vector, order = TRUE, levels =c('morning', 'midday', 'afternoon', 'evening', 'midnight'))
factor_day
## [1] evening morning afternoon midday midnight evening
## Levels: morning < midday < afternoon < evening < midnight
Variables Continuas
Las variables de clase continua son el valor predeterminado en R. Se almacenan como numéricos o enteros. Podemos verlo desde el conjunto de datos a continuación. mtcars es un conjunto de datos incorporado. Recopila información sobre diferentes tipos de automóviles. Podemos importarlo usando mtcars y verificar la clase de mpg variable, milla por galón. Devuelve un valor numérico, que indica una variable continua.
dataset <- mtcars
class(dataset$mpg)
## [1] "numeric"