Motivación

En la práctica se suelen realizar multiples mediciones de un fenomeno a fin de captar las posibles relaciones entre variables y con el fenomeno de interés. La exploración del conjunto de datos es el primer paso a realizar con un conjunto de datos consiste en explorar y describir las variables que lo componen.

1. Resumir

Resumir el conjunto de variables en una pocas nuevas variables, construidas como transformaciones de las originales, con la mínima pérdida de información. Por ejemplo, el crecimiento de los precios en una economÌa se resume en un Ìndice de precios. IDH, IPM, PIB. IMC. - si son pocas podemos representarlas gráficamente y comparar distintos conjuntos de datos o instantes en el tiempo; - simplifican el análisis al permitir trabajar con un número menor de variables; - si las variables indicadoras pueden interpretarse, podemos mejorar nuestro conocimiento de la realidad estudiada

Dentro de los métodos se encuentran:

  • Análisis de Componentes Principales (ACP)
  • Análisis Factorial de Correlaciones (AFC)
  • Análisis Factorial de Correspondencias (ACS)
  • Análisis Factorial de Correspondencias (ACM)
  • Análisis de Correspondencias difuso (ACD)
  • Escalamiento multidimensional

http://setosa.io/ev/principal-component-analysis/

2. Agrupar

Encontrar agrupaciones en los datos si existen. Al enfrentarse a una gran base de datos no es posible analizar conjuntamente variables ni individuos y se dificulta la tarea de encontrar patrones que delimiten segmentos en la población de acuerdo a su similitud, para ello es de gran utilidad la estadistica exploratoria multivariada.

Dentro de los métodos se encuentran:

Análisis Cluster Métodos de Segmentación

https://educlust.dbvis.de/#

3. Clasificar

Clasificar nuevas observaciones en grupos definidos. Relacionado con el anterior aparece cuando los grupos están bien definidos a priori y queremos clasificar nuevas observaciones. Por ejemplo, queremos clasificar a clientes de acuerdo a su perfil de créditos como fiables o no, personas como enfermas o no,…

https://dandelion.eu/semantic-text/text-classification-demo/?text=Reuters+photographer+Simon+Dawson+captures+African+Christian+communities+in+London.&exec=true

Dentro de los métodos se encuentran: - Redes neuronales Artificiales - Arboles de decisión - Random forest - Suport vector Machines

Para alcanzar estos objetivos es importante entender la estructura de dependencia entre las variables, ya que las relaciones entre las variables son las que permiten resumirlas en variables indicadoras, encontrar grupos no aparentes por las variables individuales o clasificar en casos complejos.

4. Relacionar

Relacionar dos conjuntos de variables.

Analizar la interdependencia entre variables - Análisis canónico

Explicar las relaciones de dependencia entre variables:

  • Análisis de Regresión
  • Análisis Discriminante
  • Modelos de Regresión Logística

Definiciones

La estadística descriptiva permite una representación viva y asimilable de las informaciones estadísticas resumiéndolas y esquematizándolas. La estadística descriptiva multidimensional es la generalización natural puesto que sus informaciones conciernen a varias variables o dimensiones. (Lebart 1995)

la rama de la estadística que estudia las relaciones entre conjuntos de variables dependientes y los individuos para los cuales se han medido dichas variables (Kendall, 1975, pág. 1)

Estadistica Multivariada e investigación en salud

La importancia de lo diferente

Los investigadores de ciencias médicas y de la salud necesitan con frecuencia aplicar métodos, estadísticos para fundamentar científicam ente los resultados de su trabajo. En muchas ocasiones, es aconsejable ir más allá de los procedimientos univariantes y bivariantes más elementales, y analizar conjuntamente las relaciones e interacciones entre múltiples medidas.

  • ¿Cómo se caracterizan los distintos países occidentales desarrollados en cuanto a su situación sanitaria y su nivel de salud?
  • ¿Cómo se puede obtener una medida de necesidad de servicios sanitarios a nivel municipal?
  • ¿De qué forma se puede agrupar a los pacientes que ingresan en un hospital para que los grupos sean homogéneos en cuanto a los recursos que consumen?
  • ¿Qué criterios pueden ayudar a diagnosticar si una obstrucción de vías biliares está provocada por un tumor maligno o es de naturaleza benigna?

Las preguntas anteriores tienen en común que su respuesta debe basarse en el análisis conjunto de muchas variables.

Individuos y variables

Individuos

Debemos entender la palabra individuos en sentido amplio. Los \(n\) objetos o individuos pueden ser personas o familias (por ejemplo, si trabajamos con datos recogidos a través de una encuesta de salud realizada a \(n\) personas). Sin embargo, el concepto de individuo u objeto es más amplio. Pueden ser zonas geográficas (municipios, regiones, países); objetos (marcas comerciales en un estudio de marketing farmacéutico, programas electorales, enfermedades,…); organizaciones (hospitales, centros de salud,…), entre otros.

Por otra parte, estos \(n\) objetos o individuos cuyos datos analizamos pueden constituir todo el colectivo o población de interés, o bien pueden ser una muestra representativa de dicha población. Si se trata de una muestra aleatoria, el análisis multivariante permite realizar inferencia, es decir, hacer afirmaciones sobre las características del todo (población) tras analizar la parte (muestra)

Generalmente, los datos son estáticos o transversales, en el sentido de que son mediciones realizadas en un momento o periodo dado de tiempo. Sin embargo, el Análisis Multivariante se puede aplicar también para analizar la evolución temporal del fenómeno en estudio. En este caso, los \(n\) individuos son \(n\) momentos de tiempo. A veces, se emplean métodos multivariantes para comparar una determinada situación en dos momentos de tiempo (antes y después de la im plementación de una política o programa de salud, por ejemplo).

Variables

Hasta ahora hemos llamado genéricamente «variables» a los datos que tenemos sobre nuestros \(n\) individuos, expresados numéricamente. Sin embargo, la información intrínseca de esos datos depende de su escala de medida. Las \(p\) variables pueden venir medidas a escala nominal, ordinal, intervalo o ratio. Las dos primeras se emplean para datos de tipo cualitativo, mientras que las dos últimas son adecuadas para datos cuantitativos.

Escala de medición (I)

En la práctica, la elección de un método estadístico depende en gran parte de la naturaleza de las observaciones que vayamos a realizar.

A continuación se muestran ordenados de menor a mayor los distintos tipos de variables, comezando por el que permite menor cantidad de tipos de análisis.

Cualitativa Nominal:

Un ejemplo de una variable ordinal es el sexo y Enfermedad (Dicotomimas, binarias), el tipo de sangre de una persona. En este tipo de variables cada invididuo toma una y solo una categoría (excluyentes) dentro de unas opciones previamente conocidas. Dichas categorías no tienen un orden y en consecuencia no tiene sentido calcular medias, medianas… etc. Los estadísticos habituales serán agregaciones contando la frecuenca de ocurrenca en cada categoría las proporciones de datos en cada una de ellas.

Sirven para clasificar

Ejemplo: Tipo de Sangre

Cualitativa Ordinal:

Cada valor representa la ordenación o el ranking, por ejemplo las preferencias de cierto producto, 1 significaría el primero, 2 significaría el segundo … etc. Con estos datos es posible determinar cual es el primero, pero no cuántas veces pues las distancias entre las posiciones no tienen sentido (la distancia entre el primero y el segundo no es uno).

A pesar de encontrarse frecuentemente codificados como numeros no pueden ser operados como tales. Sirven para jerarquizar

Ejemplo: - Nunca fumador,Exfumador, Fumador activo - Escala del dolor

Cuantitativa

variables cuantitativas cuando los números utilizados para codificarlas realmente equivalen a los datos.

Discretas

Empleadas para contar, por ejemplo el número de hijos, intervenciones previas, cigarrillos al día. Emplea los numeros enteros.

Sirven para contar

Continuas

Variables que pueden tomar cualquier valor dentro de un rango predefinido para la variable. Edad, talla, presión arterial, azúcar en sangre. Emplea los numeros racionales.

Sirven para medir

Cualitativas (Categoricas)
  • Nominales A, B, C
  • Ordinales I, II, III, IV
Cualitativas (numéricas)
  • Discretas 1, 5, 7, 100
  • Continuas 56,32, 98.21, 9, 11.986444

Análisis de Variables Individualmente

A continuación hay una lista de algunos métodos habituales para el análisis estadístico de una sola variable. Los métodos han sido dispuestos de acuerdo con la escala de medición de la variable.

Clasificación de técnicas estadísticas.

Escala Nominal Escala Ordinal Escala Intervalo Escala Razón
Métodos de presentación de los datos tabulación y presentación de graficos ✓ ✓ ✓ ✓
Medias La Moda ✓ ✓ ✓ ✓
La Mediana ✓ ✓ ✓
Media Aritmética ✓ ✓
Desviación de Cuartil ✓ ✓ ✓
Medidas de dispersión El Rango ✓ ✓ ✓
Desviación Estándar ✓ ✓

Principio de representación geométrica

Las dos grandes familias de métodos