07/03/24
Abstract
En Rpubs:: toc se pueden ver otros documentos de posible interés.
La obra célebre de T. Bayes (1702-1761;59), publicada en 1763, se destaca como la primera en emplear la teoría de la probabilidad como un instrumento para el razonamiento inductivo, es decir, para argumentar desde lo particular hacia lo general, o de la muestra a la población. Esta obra fue publicada de manera póstuma, y las opiniones de Bayes sobre ella permanecen desconocidas, ya que no vivió lo suficiente para expresarlas. Se sabe que dudó en publicarla debido a su insatisfacción con el postulado necesario para el famoso teorema de Bayes. A pesar de que algunos rechazan este postulado, muchos reconocen la genialidad de Bayes en el análisis de los problemas que abordó, ya que siempre proponía soluciones ingeniosas.
Mientras que Bayes destacó por su agudeza lógica, P. Laplace (1749-1827;78) sobresalió por su maestría en la técnica analítica. Aunque admitió el principio de probabilidad inversa, fuertemente criticado en los fundamentos de sus investigaciones, también introdujo el principio de que la distribución de una cantidad compuesta por partes independientes muestra características específicas (media, varianza y otras medidas) que son simplemente sumas de las características de las distribuciones individuales de las partes. Aunque T. Thiele (1838-1910;72) descubrió independientemente esto en 1889, los métodos de Laplace eran matemáticamente más poderosos y tuvieron una influencia significativa en el desarrollo del tema en Francia e Inglaterra. Un resultado directo del estudio de Laplace sobre la distribución del resultado de causas independientes fue el reconocimiento de la ley normal de error, a menudo atribuida con justicia a su contemporáneo C. Gauss (1777-1855;78).
Gauss, por otro lado, abordó la problemática de la estimación estadística desde un enfoque empírico al plantear la cuestión no solo en términos de probabilidades, sino también en términos de otros parámetros cuantitativos. Intentó aplicar el método de máxima verosimilitud, aunque trató de derivar y justificar este método utilizando el principio de la probabilidad inversa. Sin embargo, este enfoque fue objeto de críticas desde el principio debido a su falta de conexión real con la probabilidad inversa. Además, Gauss perfeccionó el ajuste sistemático de las fórmulas de regresión, tanto simple como múltiple, mediante el método de los mínimos cuadrados. Este método, en casos apropiados, se considera un ejemplo específico del método de máxima verosimilitud.
En 1872, el geodosista alemán F. Helmert (1843-1917;74) publicó un notable libro sobre mínimos cuadrados (cuya segunda edición se publicó en 1907), que se convirtió en un texto estándar en su época. La chi-cuadrada, una distribución importante en las pruebas modernas de significancia, fue descubierta por Helmert como una distribución de la varianza muestral para una distribución normal. A pesar de sus contribuciones, Helmert y sus trabajos, escritos en alemán, incluyendo el suyo propio, permanecieron desconocidos en inglés. La distribución chi-cuadrada fue redescubierta más tarde por K. Pearson (1857-1936;79) en 1900, siendo considerada su gran contribución a los métodos estadísticos.
Francis Galton (1822-1911) introdujo el método inicial para evaluar la relación estadística entre dos variables mediante la recta de regresión y la correlación en su obra “Natural Inheritance” (1889), a los 67 años. Fue pionero en la aplicación de técnicas estadísticas para examinar las disparidades entre individuos y la herencia de las capacidades intelectuales. Estas contribuciones surgieron de sus investigaciones sobre la transmisión de rasgos hereditarios, motivadas por su interés en poner a prueba empíricamente la teoría de la evolución de las especies de su primo Charles Darwin (1859). Además, innovó al incorporar el uso de cuestionarios y encuestas como herramientas para recopilar información sobre comunidades humanas, elementos esenciales para sus investigaciones genealógicas, biográficas y antropométricas.
La aplicación del concepto de correlación en las ciencias sociales fue llevada a cabo por el economista y estadístico británico Francis Edgeworth (1845-1926), centrado en el estudio de la normal multivariante y la matriz de correlación. El matemático, estadístico y pensador socialista británico Karl Pearson (1857-1936; 79), creador del famoso contraste chi-cuadrado, desarrolló el estimador del coeficiente de correlación en muestras y estudió el hecho de que si dos grupos de personas (con medidas físicas conocidas) pertenecen a la misma raza.
El inicio del estudio de las distribuciones exactas de muestras en estadística se remonta a los trabajos de W. Gosset (1876-1937). En 1905, se puso en contacto con K. Pearson y se unió al Galton Eugenics Laboratory en la University College durante el periodo 1906-07. Durante esta colaboración, Gosset investigó la convergencia asintótica de la distribución de Poisson a la binomial y las distribuciones muestrales de la media, desviación estándar y coeficiente de correlación. Posteriormente, publicó tres trabajos significativos basados en sus investigaciones en el laboratorio de Pearson. Es crucial destacar que Gosset siempre utilizó el seudónimo de “Student”, lo que explica por qué su nombre es menos conocido a pesar de sus contribuciones importantes a la estadística.
En 1908, Gosset publicó su trabajo “The Probable Error of a Mean” (ver [99]), donde derivó la distribución t de Student y, por ende, la prueba t. Esto resultó fundamental para analizar muestras pequeñas en el control de calidad en la fabricación de cervezas. Gosset descubrió la forma de la distribución t mediante una combinación de enfoques empíricos y matemáticos junto con la aplicación inicial del método de Monte Carlo.
Es igualmente relevante mencionar los trabajos de R. Fisher (1890-1962). En 1919, se convirtió en el estadístico de la Estación Experimental de Rothamsted, donde llevó a cabo investigaciones estadísticas relacionadas con experimentos de cultivos de plantas. Su libro “Statistical Methods for Research Workers” (1925) fue una obra influyente impresa durante más de 50 años. Sus experimentos en genética dominante se plasmaron en “The Genetical Theory of Natural Selection” (1930), donde exploró la relación entre genes de diferentes características y desarrolló métodos de análisis multivariante. Uno de sus logros más destacados fue el desarrollo del concepto de análisis de la varianza (ANOVA) y el descubrimiento de la distribución F de Fisher. Se afirma que la distribución F se debe al matem´atico y estadístico estadounidense George W. Snedecor (1881-1974;93) y que la bautizó F en honor a R. A. Fischer.
Harold Hotelling (1885-1973), un joven matemático y economista estadounidense, interesado en la Estadística, viajó en 1929 a la estación de investigación agrícola de Rothamsted en el Reino Unido para colaborar con R. A. Fisher (1890-1962), un destacado científico y estadístico. Hotelling se intrigó por la comparación de tratamientos agrícolas basada en múltiples variables, encontrando similitudes con el problema planteado por Pearson.
El contraste de Hotelling (1931) permitió comparar si dos muestras multivariantes provenían de la misma población. A su regreso a la Universidad de Columbia, Truman Kelley, profesor de pedagogía en Harvard, consultó a Hotelling sobre encontrar factores explicativos para los resultados de pruebas de inteligencia. Hotelling (1933) desarrolló los componentes principales, indicadores óptimos para resumir un amplio conjunto de variables, dando origen al análisis factorial.
El problema de obtener el mejor resumen de variables ya había sido abordado por Karl Pearson en 1921, buscando el plano de mejor ajuste para observaciones astronómicas. Posteriormente, Hotelling generalizó la idea de componentes principales introduciendo el análisis de correlaciones canónicas, capaz de resumir dos conjuntos de variables simultáneamente.
El desafío de identificar factores que expliquen los datos fue planteado inicialmente por Charles Spearman (1863-1945). Al observar que los niños que obtuvieron altas puntuaciones en una prueba de habilidad mental también destacaron en otras, sugirió la existencia de un factor general de inteligencia, conocido como el factor g (Spearman, 1904). L. Thurstone (1887-1955) extendió este modelo a múltiples factores y contribuyó significativamente al análisis factorial con su texto de 1947.
Hasta la década de 1960, el análisis factorial era considerado una técnica psicométrica con poca base estadística. Sin embargo, los trabajos de Lawley y Maxwell (1971) formalizaron la estimación y contraste del modelo factorial bajo la hipótesis de normalidad, transformando al análisis factorial en una herramienta más robusta. Desde entonces, sus aplicaciones se han expandido a diversas disciplinas sociales. La generalización del modelo factorial, que involucra dos conjuntos de variables, dando cuenta de cómo un conjunto explica la variación en el otro, es conocida como el modelo LISREL, y ha sido exhaustivamente estudiada por Joreskov (1973), entre otros.
La primera solución al problema de clasificación fue propuesta por Fisher en 1933. Fisher desarrolló un método general basado en el análisis de la varianza para abordar un problema de discriminación de cráneos en antropología. Su objetivo era clasificar un cráneo encontrado en una excavación arqueológica como perteneciente o no a un homínido. Fisher propuso encontrar una variable indicadora, una combinación lineal de las medidas originales del cráneo, que lograra la máxima separación entre las dos poblaciones en consideración. En 1937, durante una visita a la India invitado por P. C. Mahalanobis (19***), quien había desarrollado la medida de distancia que lleva su nombre, Fisher identificó la relación entre esta medida y sus resultados en análisis discriminante. Ambos colaboraron para unificar estas ideas y vincularlas con los hallazgos de Hotelling sobre el contraste de medias en poblaciones multivariantes. Más tarde, un estudiante de Mahalanobis, C. R. Rao, amplió el análisis de Fisher para clasificar elementos en más de dos poblaciones.
Las concepciones previas se desarrollan originalmente para variables cuantitativas pero se aplican posteriormente a variables cualitativas o atributos. Karl Pearson había introducido el estadístico que lleva su nombre para examinar la independencia en una tabla de contingencia, y en 1940, Fisher aplicó sus ideas de análisis discriminante a estas tablas. Simultáneamente, en psicometría, Guttman presentó un procedimiento para asignar valores numéricos (construir escalas) a variables cualitativas, que está estrechamente relacionado con el método de Fisher. Debido a que Fisher trabajaba en Biometría y Guttman en psicometría, la conexión entre sus ideas tardó más de dos décadas en establecerse. En Ecología, Hill (1973) introdujo un método para cuantificar variables cualitativas, que está muy vinculado a enfoques anteriores.
En la década de 1960, en Francia, un grupo de estadísticos y lingüistas estudiaron tablas de asociación entre textos literarios, y J. P. Benzecri inventó el análisis de correspondencias con un enfoque geométrico que generaliza y unifica muchos de los resultados anteriores. Benzecri visitó la Universidad de Princeton y los laboratorios Bell, donde Carroll y Shepard estaban desarrollando métodos de escalado multidimensional para analizar datos cualitativos, iniciados en el campo de la psicometría por Torgeson (1958). Al regresar a Francia, Benzecri fundó en 1965 el Departamento de Estadística de la Universidad de París y publicó en 1972 sus métodos de análisis de datos cualitativos mediante análisis de correspondencias.
La llegada de los ordenadores transforma radicalmente los métodos de análisis multivariante, experimentando un crecimiento significativo desde la década de 1970. En el campo descriptivo, los ordenadores permiten la aplicación de métodos de clasificación de observaciones (análisis de conglomerados o análisis cluster), basados cada vez más en un uso extensivo de la capacidad computacional. MacQueen (1967) introdujo el algoritmo de k-medias. El primer ajuste de una distribución mezclada fue realizado por el método de los momentos por K. Pearson, y el primer algoritmo de estimación multivariante es atribuido a Wolfe (1970). Por otro lado, en el campo de la inferencia, los ordenadores facilitan la estimación de modelos sofisticados de mezclas de distribuciones para clasificación, tanto desde el punto de vista clásico, mediante nuevos algoritmos de estimación de variables ausentes, como el algoritmo EM de Dempster, Laird y Rubin (1977), como desde el punto de vista bayesiano, con los modernos métodos de simulación de cadenas de Markov o métodos MC2 (Markov Chain Monte Carlo).
Hoy en día se han desarrollado muchas técnicas estad´ısticas que se aplican en diferentes campos del conocimiento, lo que hace de la Estadística una ciencia muy importante en el desarrollo de la vida. En los últimos años, los métodos multivariantes están experimentando una transformación en dos direcciones. En primer lugar, las grandes cantidades de datos disponibles en algunas aplicaciones están dando lugar al desarrollo de métodos de aproximación local, que no requieren hipótesis generales sobre el conjunto de observaciones. Este enfoque permite la construcción de indicadores no lineales que resumen la información por segmentos en lugar de intentar una aproximación general. En el análisis de grupos, este enfoque local también está obteniendo ventajas apreciables. En segundo lugar, se prescinde de las hipótesis sobre las distribuciones de los datos y se cuantifica la incertidumbre mediante métodos de computación intensiva. Se espera que las crecientes capacidades de cálculo proporcionadas por los ordenadores actuales amplíen el campo de aplicación de estos métodos a problemas más complejos y generales.
La investigación científica se configura como un proceso de aprendizaje que se lleva a cabo de manera iterativa.
Los objetivos vinculados con la descripción de un fenómeno físico o social necesitan ser claramente definidos y sometidos a prueba mediante la adquisición y evaluación de datos.
A su vez, el análisis de los datos comúnmente indica ajustes en la explicación del fenómeno, con la adición o eliminación de variables.
Dada la complejidad de la mayoría de los fenómenos, es imperativo que el investigador recopile información sobre diversas variables.
El análisis de datos multivariados ofrece al investigador herramientas para examinar estos tipos de datos:
Métodos para la reducción de datos. Buscan obtener representaciones simplificadas de la información, manteniendo la mayor cantidad posible de datos.
Métodos de ordenamiento y agrupación. Buscan la formación de conjuntos de objetos o variables con similitudes. Alternativamente, se busca establecer reglas para clasificar objetos en grupos definidos.
Métodos para explorar relaciones de dependencia entre variables son utilizados, ya que las relaciones entre variables son comúnmente de interés.
Métodos de predicción. Se centran en predecir los valores de una o más variables basándose en las relaciones previamente establecidas entre variables.
Construcción y pruebas de hipótesis, los cuales tienen como objetivo validar suposiciones o reforzar convicciones previas.
Se refieren a métodos con un enfoque principalmente descriptivo que facilitan una comprensión más profunda de la realidad medida a través de estas variables. Algunos de ellos son los siguientes:
Análisis de componentes principales: Este análisis parte de variables originales métricas con el objetivo de generar nuevas variables no correlacionadas que capturen toda la variabilidad de las variables originales.
Análisis factorial: Este método busca generar, a partir de las variables métricas (casos) del problema, un número reducido de variables métricas no correlacionadas (generalmente) que expresen la misma información, o al menos una alta proporción de la información expresada por las variables (casos) originales.
Análisis de correspondencia: Similar al análisis anterior, tiene como objetivo descubrir y describir dimensiones fundamentales de un fenómeno, pero trabaja específicamente con variables categóricas.
Análisis de clúster: Comprende diversas metodologías en las cuales, al tener un conjunto de variables, se generan subconjuntos, ya sea de casos o de variables, con el objetivo de lograr la mayor homogeneidad interna y la mayor diferencia posible con respecto a los demás subconjuntos.
Son métodos utilizados para distinguir variables, donde se acepta que una o varias variables independientes puedan influir en los valores de una o varias variables dependientes. Dentro de los métodos de dependencia, se explorarán los siguientes:
Análisis de regresión: Este modelo se caracteriza por tener una variable dependiente (explicada) de naturaleza métrica y una o más variables independientes (explicativas) también métricas. Se abordará específicamente el caso en el cual la variable dependiente se representa como una combinación lineal de las variables independientes.
Análisis Discriminante: En este modelo, la característica distintiva es una variable dependiente (explicada) de naturaleza no métrica, acompañada de una o más variables independientes (explicativas) métricas. La variable dependiente se expresa como una combinación lineal de las variables independientes.
Pendiente
Consultar el documento RPubs :: Análisis multivariado (bibliografía).
If you found any ERRORS or have SUGGESTIONS, please report them to my email. Thanks.