## Warning: package 'faux' was built under R version 4.4.3
##
## ************
## Welcome to faux. For support and examples visit:
## https://scienceverse.github.io/faux/
## - Get and set global package options with: faux_options()
## ************
## Warning: package 'dplyr' was built under R version 4.4.3
##
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
## Warning: package 'ggplot2' was built under R version 4.4.3
## Warning: package 'DT' was built under R version 4.4.3
La estandarización constituye un procedimiento fundamental en análisis multivariado, particularmente en métodos basados en distancias. En este trabajo se implementan y comparan empíricamente nueve métodos de estandarización descritos en (Jajuga & Walesiak, 2000) “Standardisation of Data Set under Different Measurement Scales”, evaluando su impacto sobre media, varianza, rango y estructura correlacional.
Se demuestra empíricamente que todas las transformaciones lineales aplicadas separadamente por variable preservan los coeficientes de correlación.
En análisis multivariado, las diferencias de escala pueden distorsionar medidas de distancia y, en consecuencia, afectar técnicas como clustering o escalamiento multidimensional.
El trabajo de Krzysztof Jajuga y Marek Walesiak clasifica y analiza distintas fórmulas de estandarización dependiendo de la escala de medición.
El objetivo de este estudio es:
-Generar datos del diámetro ecuatorial y del diámetro longitudinal de duraznos con una semilla fija ( un número de cc de los autores).
-Implementar los nueve métodos descritos.
-Comparar sus propiedades empíricas.
-Verificar la invariancia de la correlación.
-Documentar el proceso mediante una aplicación Shiny interactiva.
## DE DL
## 1 4.144199 4.514639
## 2 3.884084 4.558352
## 3 4.060687 4.545750
## 4 3.935013 4.499261
## 5 3.525382 4.599089
## 6 4.633118 5.004171
Parámetros:
n = 120
μ = (4, 4.5)
σ = (0.4, 0.5)
r = 0.7
-Z-score
-Media/Rango
-Mínimo/Rango
-División por desviación estándar
-División por rango
-División por máximo
-División por media
-División por suma
-División por norma euclidiana
Los resultados muestran que:
-Todas las transformaciones preservan la correlación de Pearson.
-La correlación de Spearman permanece invariante.
-Las diferencias observadas corresponden únicamente a cambios de escala y localización.
-Los métodos basados en rango fijan el rango en 1.
-Z-score unifica varianza en 1 y media en 0.
Esto confirma empíricamente la propiedad teórica de invariancia bajo transformaciones lineales separadas por variable.
Se desarrolló una aplicación interactiva que permite:
-Generar los datos con semilla fija.
-Seleccionar cualquiera de los nueve métodos.
-Visualizar datos transformados.
-Consultar tabla comparativa.
-Observar gráficos dinámicos.
-Ejecutar app.R.
-Presionar “Generar datos”.
-Seleccionar método.
-Analizar tabla y gráficos.
La aplicación permite evidenciar en tiempo real los resultados teóricos discutidos en este documento.
-La elección del método afecta escala pero no estructura correlacional.
-La herramienta desarrollada facilita reproducibilidad y análisis didáctico.
-Jajuga, K., Walesiak, M. (2000). Standardisation of Data Set under Different Measurement Scales. In: Decker, R., Gaul, W. (eds) Classification and Information Processing at the Turn of the Millennium. Studies in Classification, Data Analysis, and Knowledge Organization. Springer, Berlin, Heidelberg. https://doi.org/10.1007/978-3-642-57280-7_11