Transformación y estandarización de variables

La transformación y estandarización de variables son técnicas comunes utilizadas en el análisis de datos para mejorar la interpretación de los datos y garantizar que las variables sean comparables entre sí.

Transformación de variables

La transformación de variables es una técnica utilizada en estadística y análisis de datos para modificar una variable con el objetivo de cumplir con ciertos supuestos o mejorar la interpretación de los datos. Esta transformación implica aplicar una función matemática a los valores de la variable original para obtener una nueva variable.

La transformación de variables implica aplicar una función matemática a los valores de una variable con el objetivo de modificar su distribución o relación con otras variables. Algunas transformaciones comunes incluyen la transformación logarítmica, la transformación exponencial y la transformación de raíz cuadrada. Estas transformaciones se utilizan principalmente cuando los datos presentan asimetría o heterocedasticidad. Por ejemplo, si se tiene una variable con una distribución sesgada hacia la derecha, se puede aplicar una transformación logarítmica para reducir la asimetría y hacer que los datos se aproximen más a una distribución normal (gráfica o distribución se asemeja a la campana de Gauss).

Existen diferentes tipos de transformaciones de variables que se utilizan según las características de los datos y los objetivos del análisis. Algunas de las transformaciones más comunes son:

  • Transformación de Box-Cox: Es una transformación paramétrica que puede utilizarse para corregir diferentes tipos de asimetría. La transformación de Box-Cox permite encontrar el valor óptimo del parámetro lambda (λ) que maximiza la simetría de los datos.

Cargar el conjunto de datos

# Conjunto de datos 
telco <- read.csv("https://raw.githubusercontent.com/VictorGuevaraP/Estadistica-R/master/Caso_telefon%C3%ADa.csv", sep = ";", encoding = "latin1", stringsAsFactors = T)

# Mostrar las primeras filas del conjunto de datos
head(telco)
##   Código    Género  Sucursal Reclamos Llamadas Edad Minutos Monto Tiempo
## 1 CLIPE1 Masculino Suc. Este        5        7   27    33.0  90.7   16.9
## 2 CLIPE2  Femenino Suc. Este        2        4   28    31.7  95.7    1.5
## 3 CLIPE3 Masculino Suc. Este        5        7   28    39.9 114.5    4.0
## 4 CLIPE4 Masculino Suc. Este        3        5   21    39.3 106.0   14.5
## 5 CLIPE5  Femenino Suc. Este        2        3   29    37.8  99.0    2.7
## 6 CLIPE6 Masculino Suc. Este        3        4   26    43.7  90.2   11.5
##     Opinión
## 1   Regular
## 2     Bueno
## 3    Pésimo
## 4 Muy Bueno
## 5    Pésimo
## 6     Bueno

Aplicar Transformaciones

Vamos a aplicar las transformaciones a las variables cuantitativas que no se transformaron en clase.

Variable: Monto

Transformación de Raíz Cuadrada

monto_sqrt <- sqrt(telco$Monto)
hist(monto_sqrt, main="Raíz Cuadrada de Monto")

Transformación Exponencial

monto_exp <- exp(telco$Monto)
hist(monto_exp, main="Exponencial de Monto")

Variable: Minutos

Transformación de Raíz Cuadrada

minutos_sqrt <- sqrt(telco$Minutos)
hist(minutos_sqrt, main="Raíz Cuadrada de Minutos")

Transformación Exponencial

minutos_exp <- exp(telco$Minutos)
hist(minutos_exp, main="Exponencial de Minutos")

Transformación Logarítmica

minutos_ln <- log(telco$Minutos)
hist(minutos_ln, main="Logarítmica de Minutos")

Comparacion de transformaciones - Monto

monto_sqrt <- sqrt(telco$Monto)
monto_exp <- exp(telco$Monto)
monto_ln <- log(telco$Monto)

par(mfrow=c(2,2))
hist(telco$Monto, main="Original")
hist(monto_sqrt, main="Raíz Cuadrada")
hist(monto_exp, main="Exponencial")
hist(monto_ln, main="Logarítmica")

par(mfrow=c(1,1))

Comparacion de transformaciones - Minutos

minutos_sqrt <- sqrt(telco$Minutos)
minutos_exp <- exp(telco$Minutos)
minutos_ln <- log(telco$Minutos)

par(mfrow=c(2,2))
hist(telco$Minutos, main="Original")
hist(minutos_sqrt, main="Raíz Cuadrada")
hist(minutos_exp, main="Exponencial")
hist(minutos_ln, main="Logarítmica")

par(mfrow=c(1,1))

Interpretación de Transformaciones

Las transformaciones aplicadas a las variables cuantitativas buscan mejorar la simetría de los datos, es decir, hacer que la distribución de estos se asemeje a una forma de campana o a una distribución más normal. Este objetivo se basa en la idea de que muchas técnicas estadísticas asumen que los datos siguen una distribución normal.

  • Raíz Cuadrada: La transformación de raíz cuadrada se utiliza para reducir la dispersión y asimetría de los datos. En muchos casos, esta transformación puede acercar la distribución de los datos a una forma más simétrica.

  • Exponencial: La transformación exponencial se aplica cuando los datos tienen una distribución sesgada hacia la izquierda. Esta transformación puede ayudar a corregir la asimetría y hacer que los datos se aproximen más a una distribución simétrica.

  • Logarítmica: La transformación logarítmica es útil cuando los datos presentan una distribución sesgada hacia la derecha. Al aplicar el logaritmo, se reduce la asimetría y se facilita la interpretación de los datos.

Estas transformaciones no solo mejoran la simetría, sino que también pueden tener beneficios adicionales, como facilitar la interpretación de los resultados y hacer que los datos sean más apropiados para ciertos análisis estadísticos.

Es importante señalar que la elección de la transformación adecuada depende de la naturaleza de los datos y los objetivos del análisis. La visualización de las distribuciones transformadas mediante histogramas proporciona una herramienta valiosa para evaluar la efectividad de las transformaciones en la mejora de la simetría.

Mejora de Visualización con Gráficos de Densidad

La visualización de la distribución de las variables transformadas puede mejorarse aún más mediante el uso de gráficos de densidad. Estos gráficos proporcionan una representación suave de la distribución de los datos, lo que facilita la identificación de patrones y la comparación entre diferentes transformaciones.

A continuación se presenta la visualización de la densidad para las variables Monto y Minutos después de aplicar diversas transformaciones:

Variable: Monto

par(mfrow=c(3,2))
plot(density(telco$Monto), main = "Distribución de Monto original")
plot(density(monto_sqrt), main = "Distribución de Monto transformado - Raíz Cuadrada")
plot(density(monto_exp), main = "Distribución de Monto transformado - Exponencial")
plot(density(monto_ln), main = "Distribución de Monto transformado - Logarítmica")
par(mfrow=c(1,1))

Variable: Minutos

par(mfrow=c(3,2))
plot(density(telco$Minutos), main = "Distribución de Minutos original")
plot(density(minutos_sqrt), main = "Distribución de Minutos transformado - Raíz Cuadrada")
plot(density(minutos_exp), main = "Distribución de Minutos transformado - Exponencial")
plot(density(minutos_ln), main = "Distribución de Minutos transformado - Logarítmica")
par(mfrow=c(1,1))

Estos gráficos de densidad proporcionan una visión más suave de la distribución de los datos transformados, lo que facilita la evaluación de la simetría y la comparación entre diferentes transformaciones.

Análisis General de Variables y Correlación

Se puede realizar un analisis general de las variables originales y verificar su comportamiento, a partirde alli se puede aplicar la transformacion mas adecuado segun objetivo.

Grafica general

library(PerformanceAnalytics)
chart.Correlation(cor(telco[,4:9]), histogram = TRUE)

Este código genera un gráfico de correlación para las variables cuantitativas en tu conjunto de datos telco. Este gráfico proporciona información visual sobre la fuerza y la dirección de las relaciones lineales entre estas variables.

Conclusiones

El análisis de las variables cuantitativas del conjunto de datos de telecomunicaciones ha proporcionado insights valiosos sobre la distribución y relación entre las variables, así como la aplicación de diversas transformaciones para mejorar la interpretación de los datos.

A continuación, se presentan las conclusiones más destacadas:

Transformaciones Aplicadas

Monto y Minutos

  • Raíz Cuadrada
  • Exponencial
  • Logarítmica

Comparación de Transformaciones

Se llevaron a cabo comparaciones visuales mediante histogramas y gráficos de densidad para evaluar la efectividad de cada transformación en la mejora de la simetría de las variables “Monto” y “Minutos”.

Análisis General y Correlación

Se realizó un análisis general de las variables originales y su comportamiento mediante la visualización de la matriz de correlación.

La correlación es crucial para comprender cómo las variables están interrelacionadas, lo que influye en las decisiones sobre transformaciones y futuros análisis estadísticos.

Mejoras en la Visualización

La representación de las distribuciones transformadas a través de gráficos de densidad proporciona una visión más suave y detallada, facilitando la evaluación de la simetría y la comparación entre transformaciones.

Recomendaciones y Consideraciones

La elección de la transformación adecuada depende de la naturaleza específica de los datos y los objetivos analíticos.

Es importante considerar la interpretación práctica de las transformaciones, ya que no solo mejoran la simetría sino que también afectan la adecuación de los datos para ciertos análisis estadísticos.