En la práctica se suelen realizar multiples mediciones de un fenomeno a fin de captar las posibles relaciones entre variables y con el fenomeno de interés. La exploración del conjunto de datos es el primer paso a realizar con un conjunto de datos consiste en explorar y describir las variables que lo componen.
Resumir el conjunto de variables en una pocas nuevas variables, construidas como transformaciones de las originales, con la mÃnima pérdida de información. Por ejemplo, el crecimiento de los precios en una economÃŒa se resume en un ÃŒndice de precios. IDH, IPM, PIB. IMC. - si son pocas podemos representarlas gráficamente y comparar distintos conjuntos de datos o instantes en el tiempo; - simplifican el análisis al permitir trabajar con un número menor de variables; - si las variables indicadoras pueden interpretarse, podemos mejorar nuestro conocimiento de la realidad estudiada
Dentro de los métodos se encuentran:
Encontrar agrupaciones en los datos si existen. Al enfrentarse a una gran base de datos no es posible analizar conjuntamente variables ni individuos y se dificulta la tarea de encontrar patrones que delimiten segmentos en la población de acuerdo a su similitud, para ello es de gran utilidad la estadistica exploratoria multivariada.
Dentro de los métodos se encuentran:
Análisis Cluster Métodos de Segmentación
Clasificar nuevas observaciones en grupos definidos. Relacionado con el anterior aparece cuando los grupos están bien definidos a priori y queremos clasificar nuevas observaciones. Por ejemplo, queremos clasificar a clientes de acuerdo a su perfil de créditos como fiables o no, personas como enfermas o no,…
Dentro de los métodos se encuentran: - Redes neuronales Artificiales - Arboles de decisión - Random forest - Suport vector Machines
Para alcanzar estos objetivos es importante entender la estructura de dependencia entre las variables, ya que las relaciones entre las variables son las que permiten resumirlas en variables indicadoras, encontrar grupos no aparentes por las variables individuales o clasificar en casos complejos.
Relacionar dos conjuntos de variables.
Analizar la interdependencia entre variables - Análisis canónico
Explicar las relaciones de dependencia entre variables:
La estadÃstica descriptiva permite una representación viva y asimilable de las informaciones estadÃsticas resumiéndolas y esquematizándolas. La estadÃstica descriptiva multidimensional es la generalización natural puesto que sus informaciones conciernen a varias variables o dimensiones. (Lebart 1995)
la rama de la estadÃstica que estudia las relaciones entre conjuntos de variables dependientes y los individuos para los cuales se han medido dichas variables (Kendall, 1975, pág. 1)
Los investigadores de ciencias médicas y de la salud necesitan con frecuencia aplicar métodos, estadÃsticos para fundamentar cientÃficam ente los resultados de su trabajo. En muchas ocasiones, es aconsejable ir más allá de los procedimientos univariantes y bivariantes más elementales, y analizar conjuntamente las relaciones e interacciones entre múltiples medidas.
Las preguntas anteriores tienen en común que su respuesta debe basarse en el análisis conjunto de muchas variables.
Debemos entender la palabra individuos en sentido amplio. Los \(n\) objetos o individuos pueden ser personas o familias (por ejemplo, si trabajamos con datos recogidos a través de una encuesta de salud realizada a \(n\) personas). Sin embargo, el concepto de individuo u objeto es más amplio. Pueden ser zonas geográficas (municipios, regiones, paÃses); objetos (marcas comerciales en un estudio de marketing farmacéutico, programas electorales, enfermedades,…); organizaciones (hospitales, centros de salud,…), entre otros.
Por otra parte, estos \(n\) objetos o individuos cuyos datos analizamos pueden constituir todo el colectivo o población de interés, o bien pueden ser una muestra representativa de dicha población. Si se trata de una muestra aleatoria, el análisis multivariante permite realizar inferencia, es decir, hacer afirmaciones sobre las caracterÃsticas del todo (población) tras analizar la parte (muestra)
Generalmente, los datos son estáticos o transversales, en el sentido de que son mediciones realizadas en un momento o periodo dado de tiempo. Sin embargo, el Análisis Multivariante se puede aplicar también para analizar la evolución temporal del fenómeno en estudio. En este caso, los \(n\) individuos son \(n\) momentos de tiempo. A veces, se emplean métodos multivariantes para comparar una determinada situación en dos momentos de tiempo (antes y después de la im plementación de una polÃtica o programa de salud, por ejemplo).
Hasta ahora hemos llamado genéricamente «variables» a los datos que tenemos sobre nuestros \(n\) individuos, expresados numéricamente. Sin embargo, la información intrÃnseca de esos datos depende de su escala de medida. Las \(p\) variables pueden venir medidas a escala nominal, ordinal, intervalo o ratio. Las dos primeras se emplean para datos de tipo cualitativo, mientras que las dos últimas son adecuadas para datos cuantitativos.
En la práctica, la elección de un método estadÃstico depende en gran parte de la naturaleza de las observaciones que vayamos a realizar.
A continuación se muestran ordenados de menor a mayor los distintos tipos de variables, comezando por el que permite menor cantidad de tipos de análisis.
Un ejemplo de una variable ordinal es el sexo y Enfermedad (Dicotomimas, binarias), el tipo de sangre de una persona. En este tipo de variables cada invididuo toma una y solo una categorÃa (excluyentes) dentro de unas opciones previamente conocidas. Dichas categorÃas no tienen un orden y en consecuencia no tiene sentido calcular medias, medianas… etc. Los estadÃsticos habituales serán agregaciones contando la frecuenca de ocurrenca en cada categorÃa las proporciones de datos en cada una de ellas.
Sirven para clasificar
Ejemplo: Tipo de Sangre
Cada valor representa la ordenación o el ranking, por ejemplo las preferencias de cierto producto, 1 significarÃa el primero, 2 significarÃa el segundo … etc. Con estos datos es posible determinar cual es el primero, pero no cuántas veces pues las distancias entre las posiciones no tienen sentido (la distancia entre el primero y el segundo no es uno).
A pesar de encontrarse frecuentemente codificados como numeros no pueden ser operados como tales. Sirven para jerarquizar
Ejemplo: - Nunca fumador,Exfumador, Fumador activo - Escala del dolor
variables cuantitativas cuando los números utilizados para codificarlas realmente equivalen a los datos.
Empleadas para contar, por ejemplo el número de hijos, intervenciones previas, cigarrillos al dÃa. Emplea los numeros enteros.
Sirven para contar
Variables que pueden tomar cualquier valor dentro de un rango predefinido para la variable. Edad, talla, presión arterial, azúcar en sangre. Emplea los numeros racionales.
Sirven para medir
A continuación hay una lista de algunos métodos habituales para el análisis estadÃstico de una sola variable. Los métodos han sido dispuestos de acuerdo con la escala de medición de la variable.
| Escala Nominal | Escala Ordinal | Escala Intervalo | Escala Razón | ||
|---|---|---|---|---|---|
| Métodos de presentación de los datos | tabulación y presentación de graficos | ✓ | ✓ | ✓ | ✓ |
| Medias | La Moda | ✓ | ✓ | ✓ | ✓ |
| La Mediana | ✓ | ✓ | ✓ | ||
| Media Aritmética | ✓ | ✓ | |||
| Desviación de Cuartil | ✓ | ✓ | ✓ | ||
| Medidas de dispersión | El Rango | ✓ | ✓ | ✓ | |
| Desviación Estándar | ✓ | ✓ |