Comparación Empírica de Métodos de Estandarización Multivariada

knitr::opts_chunk$set(
  echo = FALSE,
  warning = FALSE,
  message = FALSE
)

library(faux)

## Warning: package 'faux' was built under R version 4.4.3

## 
## ************
## Welcome to faux. For support and examples visit:
## https://scienceverse.github.io/faux/
## - Get and set global package options with: faux_options()
## ************

library(dplyr)

## Warning: package 'dplyr' was built under R version 4.4.3

## 
## Adjuntando el paquete: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

library(ggplot2)

## Warning: package 'ggplot2' was built under R version 4.4.3

library(DT)

## Warning: package 'DT' was built under R version 4.4.3

1 Resumen

La estandarización constituye un procedimiento fundamental en análisis multivariado, particularmente en métodos basados en distancias. En este trabajo se implementan y comparan empíricamente nueve métodos de estandarización descritos en (Jajuga & Walesiak, 2000) “Standardisation of Data Set under Different Measurement Scales”, evaluando su impacto sobre media, varianza, rango y estructura correlacional.

Se demuestra empíricamente que todas las transformaciones lineales aplicadas separadamente por variable preservan los coeficientes de correlación.

2 Introducción

En análisis multivariado, las diferencias de escala pueden distorsionar medidas de distancia y, en consecuencia, afectar técnicas como clustering o escalamiento multidimensional.

El trabajo de Krzysztof Jajuga y Marek Walesiak clasifica y analiza distintas fórmulas de estandarización dependiendo de la escala de medición.

El objetivo de este estudio es:

-Generar datos del diámetro ecuatorial y del diámetro longitudinal de duraznos con una semilla fija ( un número de cc de los autores).

-Implementar los nueve métodos descritos.

-Comparar sus propiedades empíricas.

-Verificar la invariancia de la correlación.

-Documentar el proceso mediante una aplicación Shiny interactiva.

3 Generación de datos

##         DE       DL
## 1 4.144199 4.514639
## 2 3.884084 4.558352
## 3 4.060687 4.545750
## 4 3.935013 4.499261
## 5 3.525382 4.599089
## 6 4.633118 5.004171

Parámetros:

n = 120

μ = (4, 4.5)

σ = (0.4, 0.5)

r = 0.7

4 Transformaciones aplicadas

-Z-score

-Media/Rango

-Mínimo/Rango

-División por desviación estándar

-División por rango

-División por máximo

-División por media

-División por suma

-División por norma euclidiana

4.1 Tabla resumen

5 Discusión

Los resultados muestran que:

-Todas las transformaciones preservan la correlación de Pearson.

-La correlación de Spearman permanece invariante.

-Las diferencias observadas corresponden únicamente a cambios de escala y localización.

-Los métodos basados en rango fijan el rango en 1.

-Z-score unifica varianza en 1 y media en 0.

Esto confirma empíricamente la propiedad teórica de invariancia bajo transformaciones lineales separadas por variable.

6 Aplicación Shiny Desarrollada

Se desarrolló una aplicación interactiva que permite:

-Generar los datos con semilla fija.

-Seleccionar cualquiera de los nueve métodos.

-Visualizar datos transformados.

-Consultar tabla comparativa.

-Observar gráficos dinámicos.

6.1 Uso

-Ejecutar app.R.

-Presionar “Generar datos”.

-Seleccionar método.

-Analizar tabla y gráficos.

La aplicación permite evidenciar en tiempo real los resultados teóricos discutidos en este documento.

7 Conclusiones

-La elección del método afecta escala pero no estructura correlacional.

-La herramienta desarrollada facilita reproducibilidad y análisis didáctico.

8 Referencias

-Jajuga, K., Walesiak, M. (2000). Standardisation of Data Set under Different Measurement Scales. In: Decker, R., Gaul, W. (eds) Classification and Information Processing at the Turn of the Millennium. Studies in Classification, Data Analysis, and Knowledge Organization. Springer, Berlin, Heidelberg. https://doi.org/10.1007/978-3-642-57280-7_11