Análisis Exploratorio de Datos

Unidad III - Entendimiento de Datos

Enver G. Tarazona Vargas
peetaraz@upc.edu.pe

Estrategias de Análisis y Preparación de Datos
Universidad Peruana de Ciencias Aplicadas

¿Qué aprenderás?

  1. Definir que es el Entendimiento de Datos y por qué es importante.
  2. Diferenciar distintos tipos de datos.
  3. Definir variables y clasificarlas
  4. Realizar un análisis exploratorio de datos con R.

Introducción

¿Qué es el Entendimiento de Datos?

  • Proceso inicial en todo proyecto de análisis de datos.

  • Comprender la naturaleza y características de los datos.

  • Tiene como objetivo:

    • Identificar patrones, tendencias y relaciones en los datos.
    • Establecer una base sólida para la toma de decisiones.
  • Tareas principales:

    • Recolección de datos
    • Exploración de datos (organización, visualización y resumen)
    • Verificación de la calidad en los datos

Entendimiento de Datos: Importancia

  • Información precisa y completa es esencial para una estrategia efectiva.

  • Mejora la calidad de las decisiones al conocer la realidad de los datos.

  • Identificación temprana de problemas potenciales.

  • Evita retrabajo al abordar problemas desde el principio.

  • Uso eficiente de recursos al enfocarse en aspectos relevantes.

  • Contribuye a modelos más precisos y soluciones efectivas.

Tipos de Datos

Tipos de Datos

Ejemplo: Datos tabulares (registro)

Ejemplo: Matrices de Datos

Ejemplo: Datos de Documentos

Ejemplo: Datos de Transacciones

Ejemplo: Datos de Grafos

Datos Tabulares

Estructura

Variable

Es el resultado de una medición o una característica en los elementos de la población. Una variable suele ser denotada por una letra, por ejemplo: \(X\), \(Y\) o \(Z\).

Son ejemplos de variable:

Se denominará como dato al valor que toma una variable en un elemento de la población. Un conjunto de \(n\) datos de una variable \(x\) se suele denotar como \(x_1 ,x_2 ,...,x_n\).

Tipos de Variables

Las variables se pueden clasificar en:

  • Variables cualitativas: Si toma como valores categorías que representan alguna clasificación en la población. Si bien estas puedan representarse por números, estos no admiten operaciones aritméticas. Las variables cualitativas se denominan:

    • Nominales: si no existe orden entre las categorías.

    • Ordinales: si existe orden entre las categorías.

Tipos de Variables

  • Variables cuantitativas: Si toma valores numéricos con los que se pueden realizar operaciones aritméticas. Se dividen en

    • Discretas: son aquellas variables que toman un número enumerable finito o infinito de valores. Usualmente se consideran números enteros.

    • Continuas: son aquellas variables que pueden asumir cualquier valor dentro de un intervalo de valores, por lo que toman un número no numerable de valores.

Variables en Análisis de Datos

  • Desde un enfoque de análisis de datos, una variable es cualquier función que asigna números a los elementos de una población.
  • Tales números miden alguna característica de los elementos de la población (incluso si la variable fuese cualitativa).
  • Es por ello que cobra importancia el concepto de escala de medición, como una regla (función) que asigna números a las mediciones realizadas en las unidades estadísticas.
  • Los números asignados por las escalas deben informar lo más precisamente posible acerca de las características de cada unidad observada.

Principales Escalas de Medición

Exploración

Análisis Exploratorio de Datos

  • Estadísticos descriptivos
    • Tablas de frecuencias
    • Cálculo de medidas estadísticas
    • Explorar relaciones (correlaciones, tablas de contingencia, etc.)
  • Visualización
    • Distribuciones de frecuencia
    • Gráficos de barras agrupadas o componentes (a partir de las tablas de contingencia)
    • Otros tipos de visualización (Pareto, series temporales, etc.)

Tablas de Frecuencias

  • Es una herramienta que permite ordenar los datos de manera que se presentan numéricamente las características de la distribución de un conjunto de datos o muestra.

  • La estructura básica tiene las siguientes columnas:

    • \(f_j\) : frecuencia ó número de veces que ocurre la categoría \(j\).
    • \(fr_j\) : frecuencia relativa o proporción para la categoría \(j\), calculada como \(fr_j = \frac{f_j}{n}\), siendo \(n\) el número total de datos.
    • \(p_j\) : porcentaje de la categoría \(j\), dada por: \(p_j = 100 \times fr_j\).
  • Las distribuciones de frecuencias pueden completarse indicando los valores perdidos, y los porcentajes acumulados (porcentaje de lo que se va acumulando en cada categoría, desde la más baja hasta la más alta).

Visualización de Distribuciones

  • Las herramientas gráficas brindan la posibilidad de investigar de manera visual las características de los datos para ayudar a entenderlos.

  • Las exploración de los datos pueden claramente identificar errores en los datos y particularidades sobre la forma en que fueron recolectados.

  • Es muy importante que, se examine visualmente la distribución de los valores de cada una de las variables de nuestra base de datos.

  • R es uno de los programas estadísticos con mayor capacidad para realizar gráficas.

Medidas estadísticas descriptivas

  • Tendencia Central
    • Media (aritmética simple, ponderada, geométrica, armónica, recortada, …)
    • Mediana
    • Moda
  • Posición (cuantiles)
    • Percentiles
    • Deciles
    • Cuartiles

Medidas estadísticas descriptivas

  • Variabilidad
    • Absoluta
      • Rango
      • Rango intercuartílico
      • Varianza y desviación estándar
    • Relativa
      • Coeficiente de variabilidad
  • Forma o asimetría
  • Concentración o curtosis

Asociación entre variables cualitativas

  • Cada individuo de la población en estudio se puede clasificar según dos variables categóricas \(A\) y \(B\). Suponga que la primera variable permite clasificar a cada observación en una de \(a\) categorías y que la segunda variable permite clasificar a cada observación en una de \(b\) categorías.

  • Tomadas \(n\) mediciones simultáneas de estas variables en un conjunto de individuos, resultará conveniente construir una tabla de distribución de frecuencias bidimensional (tabla de doble entrada) que permita organizar los datos.

  • A esta tabla que muestra ambas variables y las frecuencias observadas en cada una de las a×b categorías resultantes se le conoce como tabla de contingencia \(a \times b\) y esquemáticamente la podremos representar como sigue.

Asociación entre variables cuantitativas

  • La asociación bivariada puede ser representada en un diagrama de dispersión (‘scatterplot’). En ellos, cada individuo se representa por un punto cuyas coordenadas son los valores de las variables.

  • Principales medidas de asociación lineal

    • Covarianza
    • Correlación (Pearson, Spearman, …)

Ejemplo en R: Marketing Directo

El archivo MarketingDirecto.csv contiene datos de un vendedor de marketing directo el cuál vende sus productos sólo a través de correos electrónicos personalizados. El vendedor envía catálogos a los clientes con las características de los productos, y estos ordenan directamente de los catálogos.

El responsable de marketing ha desarrollado registros de clientes para aprender qué hace que algunos clientes gasten más que otros. El conjunto de datos incluye \(n = 1000\) clientes y las siguientes variables:

  • Edad: Grupo etario del cliente (Adulta/Media/Joven).

  • Genero: Género del cliente (Masculino/Femenino).

  • Vivienda: Si el cliente es dueño de su casa (Propia/Alquilada)

  • Ecivil: Estado civil (Soltero/Casado).

  • `Ubicacion: Ubicación de un negocio que vende productos similares en términos de distancia (Lejos/Cerca).

  • Salario: Sueldo anual de los clientes (en dólares)

  • Hijos: Número de hijos (0-3).

  • `Historial: Historial del volumen de compra anterior (Bajo/Medio/Alto/NA). NA significa que este cliente aún no ha adquirido ningún producto.

  • Catalogos: Número de catálogos enviados.

  • Monto: Gasto en dólares

  1. Presente una tabla de distribución de frecuencias para la edad del cliente. Construya una gráfica adecuada.

  2. Presente una tabla de contingencia para la distribución de la edad del cliente y el historial del volumen de compra anterior.

  3. Presente la distribución condicional del historial del volumen de compra anterior por grupo de edades del cliente. Construya una gráfica adecuada. ¿Es posible afirmar que existe asociación entre ambas variables?

  4. Presente una tabla de distribución de frecuencias para el número de hijos. Construya una gráfica adecuada.

  1. Presente la tabla de distribución de frecuencias (por defecto) para el gasto y las gráficas respectivas para las frecuencias acumuladas y sin acumular. Interprete sus resultados.

  2. Realice un análisis descriptivo completo para el gasto (tendencia, variabilidad y asimetría).

  3. Realice una análisis descriptivo comparativo completo para el gasto por estado civil.

  4. Construya un diagrama de cajas para el gasto por estado civil del cliente. Realice un análisis comparativo.