Unidad III - Entendimiento de Datos
Estrategias de Análisis y Preparación de Datos
Universidad Peruana de Ciencias Aplicadas
Proceso inicial en todo proyecto de análisis de datos.
Comprender la naturaleza y características de los datos.
Tiene como objetivo:
Tareas principales:
Información precisa y completa es esencial para una estrategia efectiva.
Mejora la calidad de las decisiones al conocer la realidad de los datos.
Identificación temprana de problemas potenciales.
Evita retrabajo al abordar problemas desde el principio.
Uso eficiente de recursos al enfocarse en aspectos relevantes.
Contribuye a modelos más precisos y soluciones efectivas.
Es el resultado de una medición o una característica en los elementos de la población. Una variable suele ser denotada por una letra, por ejemplo: \(X\), \(Y\) o \(Z\).
Son ejemplos de variable:
Se denominará como dato al valor que toma una variable en un elemento de la población. Un conjunto de \(n\) datos de una variable \(x\) se suele denotar como \(x_1 ,x_2 ,...,x_n\).
Las variables se pueden clasificar en:
Variables cualitativas: Si toma como valores categorías que representan alguna clasificación en la población. Si bien estas puedan representarse por números, estos no admiten operaciones aritméticas. Las variables cualitativas se denominan:
Nominales: si no existe orden entre las categorías.
Ordinales: si existe orden entre las categorías.
Variables cuantitativas: Si toma valores numéricos con los que se pueden realizar operaciones aritméticas. Se dividen en
Discretas: son aquellas variables que toman un número enumerable finito o infinito de valores. Usualmente se consideran números enteros.
Continuas: son aquellas variables que pueden asumir cualquier valor dentro de un intervalo de valores, por lo que toman un número no numerable de valores.
Es una herramienta que permite ordenar los datos de manera que se presentan numéricamente las características de la distribución de un conjunto de datos o muestra.
La estructura básica tiene las siguientes columnas:
Las distribuciones de frecuencias pueden completarse indicando los valores perdidos, y los porcentajes acumulados (porcentaje de lo que se va acumulando en cada categoría, desde la más baja hasta la más alta).
Las herramientas gráficas brindan la posibilidad de investigar de manera visual las características de los datos para ayudar a entenderlos.
Las exploración de los datos pueden claramente identificar errores en los datos y particularidades sobre la forma en que fueron recolectados.
Es muy importante que, se examine visualmente la distribución de los valores de cada una de las variables de nuestra base de datos.
R es uno de los programas estadísticos con mayor capacidad para realizar gráficas.
Cada individuo de la población en estudio se puede clasificar según dos variables categóricas \(A\) y \(B\). Suponga que la primera variable permite clasificar a cada observación en una de \(a\) categorías y que la segunda variable permite clasificar a cada observación en una de \(b\) categorías.
Tomadas \(n\) mediciones simultáneas de estas variables en un conjunto de individuos, resultará conveniente construir una tabla de distribución de frecuencias bidimensional (tabla de doble entrada) que permita organizar los datos.
A esta tabla que muestra ambas variables y las frecuencias observadas en cada una de las a×b categorías resultantes se le conoce como tabla de contingencia \(a \times b\) y esquemáticamente la podremos representar como sigue.
La asociación bivariada puede ser representada en un diagrama de dispersión (‘scatterplot’). En ellos, cada individuo se representa por un punto cuyas coordenadas son los valores de las variables.
Principales medidas de asociación lineal
El archivo MarketingDirecto.csv contiene datos de un vendedor de marketing directo el cuál vende sus productos sólo a través de correos electrónicos personalizados. El vendedor envía catálogos a los clientes con las características de los productos, y estos ordenan directamente de los catálogos.
El responsable de marketing ha desarrollado registros de clientes para aprender qué hace que algunos clientes gasten más que otros. El conjunto de datos incluye \(n = 1000\) clientes y las siguientes variables:
Edad: Grupo etario del cliente (Adulta/Media/Joven).
Genero: Género del cliente (Masculino/Femenino).
Vivienda: Si el cliente es dueño de su casa (Propia/Alquilada)
Ecivil: Estado civil (Soltero/Casado).
`Ubicacion: Ubicación de un negocio que vende productos similares en términos de distancia (Lejos/Cerca).
Salario: Sueldo anual de los clientes (en dólares)
Hijos: Número de hijos (0-3).
`Historial: Historial del volumen de compra anterior (Bajo/Medio/Alto/NA). NA significa que este cliente aún no ha adquirido ningún producto.
Catalogos: Número de catálogos enviados.
Monto: Gasto en dólares
Presente una tabla de distribución de frecuencias para la edad del cliente. Construya una gráfica adecuada.
Presente una tabla de contingencia para la distribución de la edad del cliente y el historial del volumen de compra anterior.
Presente la distribución condicional del historial del volumen de compra anterior por grupo de edades del cliente. Construya una gráfica adecuada. ¿Es posible afirmar que existe asociación entre ambas variables?
Presente una tabla de distribución de frecuencias para el número de hijos. Construya una gráfica adecuada.
Presente la tabla de distribución de frecuencias (por defecto) para el gasto y las gráficas respectivas para las frecuencias acumuladas y sin acumular. Interprete sus resultados.
Realice un análisis descriptivo completo para el gasto (tendencia, variabilidad y asimetría).
Realice una análisis descriptivo comparativo completo para el gasto por estado civil.
Construya un diagrama de cajas para el gasto por estado civil del cliente. Realice un análisis comparativo.