¿Qué aprenderás?

  • Definir la naturaleza y el alcance de los datos secundarios, y distinguir los datos secundarios de los datos primarios.

  • Entender las ventajas y desventajas de trabajar con datos secundarios.

  • Reconocer el impacto de los datos masivos (Big Data) en el almacenamiento y análisis de datos secundarios.

  • Conocer las distintas alternativas y herramientas para almacenar datos secundarios en la nube.

Datos Primarios vs. Secundarios

Datos Primarios:

  • Son generados por el investigador con la finalidad de abordar un problema de investigación específico.

  • Puede ser caro y demanda mucho tiempo.

Datos Secundarios:

  • Ya fueron recolectados para otro propósito del que tenemos en mente.

  • Son obtenidos “rápidamente” y a menor (o sin) costo.

Es muy poco probable que un problema de investigación de mercados sea completamente único.

Datos Primarios vs. Secundarios

Comparación entre datos primarios y secundarios
Datos Primarios Datos Secundarios
Propósito de la recolección Para el problema de investigación Para otros problemas
Proceso de recolección Muy complejo Rápido y fácil
Costo de recolección Alto Relativamente bajo
Tiempo de recolección Largo Corto

Ventajas de Datos Secundarios

  • Aclarar o redefinir el problema durante un proceso de investigación exploratorio.

  • Proporcionar una solución al problema de investigación.

  • Suministrar alternativas metodológicas de investigación de datos primarios (p. ej. usar una escala de medición).

  • Alertar al investigador sobre problemas potenciales o dificultades (p. ej. cambiar una entrevista telefónica por un cuestionario digital).

  • Proporcionar la información básica necesaria y generar credibilidad para la investigación.

  • Proporcionar el marco muestral (p. ej. para hacer un estudio de satisfacción sobre soporte técnico)

Regla general

El examen de los datos secundarios disponibles es un prerrequisito para la recolección de datos primarios. Se comienza con los datos secundarios y se sigue con los datos primarios únicamente cuando se agotan las fuentes de datos secundarios o si éstos producen resultados marginales.

Desventajas de Datos Secundarios

Criterios para evaluar datos secundarios
Criterio Problemas Comentarios
Especificaciónes/Metodología

Métodología de recolección de datos.

Tasa de respuesta

Calidad de los datos

Técnica de muestreo

Tamaño de la muestra

Diseño del cuestionario

Trabajo de campo

Análisis de datos

Los datos deben ser válidos, fiables y generalizables para el problema de estudio.
Error/Exactitud Examinar errores en: enfoque, diseño de investigacion, muestreo, recolección de datos, análisis, reportes. Evaluar la exactitud comparando datos de distintas fuentes.

Desventajas de Datos Secundarios

Criterios para evaluar datos secundarios (Continuación)
Criterio Problemas Comentarios
Actualidad

Lapso de tiempo entre la recolección y publicación

Frecuencia de actualización

Datos de censos son actualizados periódicamente por organismos de gobierno y otras instituciones.
Objetivo ¿Para qué fueron recolectados los datos? El objetivo determinará la relevancia de los datos.
Naturaleza

Definición de las variables principales

Unidades de medida

Categorías usadas

Relaciones evaluadas

Reconfigurar los datos para incrementar su utilidad, de ser posible.
Confianza Experiencia, credibilidad y reputación de la fuente Los datos deben ser obtenidos directamente de la fuente original .

Clasificación de Datos Secundarios

flowchart TD
A[Datos Secundarios] -->B[Internos]
A[Datos Secundarios] -->C[Externos]
    B --> D[Base de Datos \n de Clientes]
    B --> E[Data Warehouse \n y Minería de Datos]
    B --> F[CRM y \n Marketing de \n Base de Datos]
    B --> G[Social Media] 
    C --> G
    C --> H[Negocios/\n No Gubernamentales]
    C --> I[Gobierno]
    C --> J[Servicios \n Sindicados]

Bases de Datos de Clientes

  • El primer paso para crear una base de datos (transaccional) de clientes es trasferir los datos brutos de ventas obtenidos a partir de facturas y reportes a la computadora.

  • La información de los clientes es obtenida a partir de otras fuentes como programas de fidelidad.

  • Esta información es complementada con información demográfica y psicográfica de los mismos clientes, disponible en empresas sindicadas.

  • La psicografía se refiere a los perfiles psicológicos cuantificados de los individuos.

Data Warehouse y Minería de Datos

  • Un data warehouse (almacén de datos) es una base de datos centralizada que consolida los datos de toda la empresa de una variedad de sistemas operativos.

  • La minería de datos está involucrada con el uso de herramientas computacionales y técnicas de análisis sofisticadas para analizar grandes bases de datos y descubrir patrones.

  • Los patrones descubiertos pueden ser de mucha utilidad para focalizar los esfuerzos de las técnicas de marketing (p. ej. que los esposos tiendan a comprar seguros de vida inmediatamente después del nacimiento de su primer hijo).

CRM y Marketing de Bases de Datos

  • CRM (customer relationship management ) es un sistema de decisión que es usado para administrar las interacciones entre la organización y los clientes.

  • La bases de datos de los clientes y la minería de datos son los fundamentos de todo sistema CRM.

  • El marketing de base de datos incluye el uso de computadoras para obtener y hacer un seguimiento de los perfiles de los clientes y los detalles de compra.

Social Media

  • No confundir social media (medios sociales) con social networks (redes sociales).

  • Social Media: incluye redes sociales, blogs, foros, marcadores, geolocalización, etc.

  • Redes sociales: son parte de los medios sociales (Facebook, Twitter, Linkedin, etc.)

  • Es una fuente rica de datos secundarios internos y externos.

  • Brindan información de la percepción y preferencias del consumidor (verdadera voz).

Social Media

  • Los medios son relevantes para la investigación de mercados en el sentido de que se puede llegar a audiencias de todo el mundo en un entorno multimedia controlado y en tiempo real.

  • Como los sitios Web generalmente dividen y separan a los usuarios según sus datos demográficos y grupos de interés, la recopilación de datos internos y externos se ha vuelto muy fácil.

  • Las empresas pueden aprovechar al cliente potencial en función del sentimiento que se expresa en línea.

Datos Masivos Secundarios

  • Datos masivos secundarios de interés para muchas empresas en la actualidad incluyen:

    • Datos estructurados tradicionales de inventarios, pedidos e información de clientes.
    • Datos no estructurados de la Web, sitios de redes sociales y dispositivos inteligentes.
  • Han surgido nuevos enfoques para almacenar y analizar datos que dependen menos del esquema y la calidad de los datos.

Datos Masivos Secundarios

  • Datos crudos (sin procesar) con metadatos extendidos se agregan en un data lake y los programas de aprendizaje automático e inteligencia artificial (IA) buscan patrones repetibles mediante el uso de algoritmos complejos.

  • La precisión en Big Data puede conducir a una toma de decisiones más segura, y mejores decisiones pueden resultar en una mayor eficiencia operativa, reducción de costos y reducción de riesgos.

Visa y Big Data

  • Visa no emite tarjetas de crédito ni extiende créditos; ofrece el procesamiento de transacciones nacionales e internacionales y la gestión de riesgos.

  • Para cada transacción, los bancos, los comerciantes y los consumidores deben confiar en que la transacción es legítima y segura.

  • La tecnología usada por Visa para evitar fraudes era tan restrictiva que los consumidores reportaban continuos y frustrantes rechazos en sus pagos cuando salían de vacaciones y viajes de negocios.

Visa y Big Data

  • Visa uso modelos analíticos de datos masivos para analizar más de 500 variables distintas en tiempo real.

  • Este enfoque ayudó a reducir fraudes sin agobiar con rechazos innecesarios de pago, ahorrando cerca de 2000 millones de dólares en pagos fraudulentos.

  • Visa no solo fue auspiciador de los Juegos Olímpicos de Rio 2016, sino que implementó un anillo de pago sin contacto para los atletas que posteriormente fue puesto a disposición del público en general.

Behavioral Targeting

  • Behavioral Targeting (segmentación por comportamiento) es una estrategia de marketing que utiliza datos del comportamiento en línea para personalizar la publicidad y contenido a los intereses y preferencias del usuario.

  • Se recopilan datos sobre actividades pasadas del usuario, como sitios web visitados, páginas vistas, clics y compras, para comprender mejor sus intereses.

  • Los datos se analizan y los usuarios se dividen en grupos basados en comportamientos similares, creando segmentos de audiencia.

Behavioral Targeting

  • Las empresas pueden ofrecer contenido y anuncios personalizados que se ajusten a los intereses y preferencias de cada segmento de audiencia.

  • Mejora la efectividad de las campañas de marketing al llegar a usuarios más propensos a estar interesados en los productos o servicios.

  • Es esencial respetar la privacidad de los usuarios y cumplir con las regulaciones para proteger sus datos.

  • El comportamiento del consumidor en línea cambia, lo que requiere que las estrategias se adapten y evolucionen.

Ejemplo e-commerce




Para abrir un e-commerce se ha desarrollado la aplicación que va a interactuar con los usuarios.




¿Cómo hacer que la aplicación esté disponible para el público?

Escalamiento Vertical

El e-commerce ha logrado crecer bastante y dada una alta demanda se cae.


Escalar servidor

Esto es alquilar un servidor mejor, con más RAM y CPU.

Esto se conoce como escalamiento vertical.

Escalamiento Horizontal




Para configurar esta red probablemente se necesita un equipo especialista para que realice esta tarea.

El Problema de los Grandes Datos


A medida que más usuarios usen la aplicación, son más datos los que se van a generar y no van a caber en un solo computador, por lo que se usará un sistema de datos distribuidos.




Un sistema de datos distribuido es una tarea muy compleja, ya que implica sincronizar lecturas y escrituras entre varios computadores.

Pipeline de Datos

Problema: Recomendar productos a clientes

Para preparar este modelo se necesita:


Montar un Data Lake, un Data Warehouse, un entorno de entrenamiento y uno de producción para los modelos.

Armar toda esta infraestructura desde cero es una tarea compleja, que se escapa bastante de nuestro objetivo, que es hacer un sistema recomendador.

Beneficios de la Nube



Levantar una aplicación

Clúster con base de datos

Guarda una cantidad ilimitada de archivos

Armar un pipeline de datos

Levantar una aplicación

En un entorno de producción haciendo pocos clicks. Escala automáticamente ante un aumento de la demanda.

Clúster con base de datos

Se monta en minutos, escala automáticamente y no hay configuración del sistema distribuido.

Guarda una cantidad ilimitada de archivos

A los que es posible acceder desde la aplicación.

Armar un pipeline de datos

Sin la necesidad de configurar un servidor (Data Lake, Data Warehouse), entornos de desarrollo y producción de algoritmos de aprendizaje automático.




No se debe configurar nada y tampoco existe preocupación porque los servicios escalen (server less).

Características

Al trabajar con entornos en la nube :


Todos los servicios son configurados automáticamente por los proveedores: Google Cloud Platform o Amazon Web Services.

Estos servicios están configurados automáticamente para decidir de forma inteligente cuando necesitan escalar.

Un servicio en la nube puede replicarse para satisfacer la necesidad de más recursos.

Proveedores de Servicios en la Nube


Principales Servicios en la Nube


Sistemas de Bases de Datos

SQL on-demmand, permiten montar rápidamente un clúster de una base de datos transaccional que posibilita escalar para un gran número de usuarios y una gran cantidad de datos almacenados.

Data Warehouse

Sistemas de bases de datos columnares que usan algoritmos distribuidos. Su construcción permite almacenar mucha información a bajo costo, suelen ser usadas para hacer analítica y no son usadas para ser la base de datos transaccional de una aplicación.




¿Por qué es complicado hacer análisis de datos sobre la misma base de datos de la aplicación?

Aumenta considerablemente la carga computacional :


Las consultas de análisis de datos consumen muchos recursos.


Además, puede ralentizar las operaciones del negocio.

¿Cómo se piensa este sistema?


Base de Datos Transaccional

Entre este tipo de bases de datos destaca PLSQL, MySQL o SQL Server :

Está pensado para mantener las transacciones de una organización (operación de una aplicación).

También, para recibir varias operaciones de lectura y escritura, pero donde cada operación es liviana.

Ejemplo e-commerce


Consultar los datos de una compra que tenga un identificador determinado.

Insertar un nuevo cliente o una nueva compra.

Modificar el valor de un producto.

Revisar las compras que ha hecho un usuario en particular.

Referencias

McDaniel Jr, C., & Gates, R. (2020). Marketing research. John Wiley & Sons.
Naresh, K. M. (2009). Marketing research: an applied orientation. Global ed. Upper Saddle River, NJ: Pearson Education.