12 de agosto de 2020

¿Qué es Data Science?

Campo interdisiplinario que se encarga de extraer conocimiento de datos y generar análisis sobre estos

  • Matemáticas

  • Estadística

  • Ciencias de computación

¿Qué es Data Science?

“The ability to take data - to be able to understand it, to process it, to extract value from, to visualize it, to communicate it - that’s going to be a hugely important skill in the next decades”

Hal Varian, Economista Jefe de Google y Académico de UC Berkeley (2009)

¿Qué es Data Science?

¿Qué es Big Data?

Datos que contienen una mayor Variedad y que se presentan en Volúmenes crecientes y a una Velocidad superior (Gartnet,2001):

  • Volumen: Muchos!

  • Variedad: Datos estructurados - no estructurados

  • Velocidad: Tiempo real

¿Qué es Big Data?

  • Valor

  • Veracidad

Pero… ¿más datos = más conocimiento?

“Creer que la información está por el mero hecho de que los datos existen es un serio error de principiante. Un punto crucial en la revolución de big data es que la falta de sistematización es la regla más que la explicación”

Walter Sosa, Economista Profesor en la UNLP y la UdeSA (2019)

Pero… ¿más datos = más conocimiento?

¿Qué es y de dónde vienen los datos?

Cumulus media (2017): En un minuto de internet…

  • 3.5 millones de búsquedas en google

  • 900.000 personas se conectan a Facebook

  • Se reproducen 4.1 millones de horas de videos en Youtube

  • Se envían 450.000 tweets

  • Se reproducen 70.000 horas de contenido en Netflix

  • Se suben 46.200 fotos en instagram

¿Qué es y de dónde vienen los datos?

Los datos pueden ser un tuit, una posición en el GPS, el rut…

Los datos pueden estar en:

  • Encuestas
  • Facebook
  • Tarjeta de Crédito
  • Acumular puntos en un supermercado

¿Por qué estudiar Data Science?

¿Por qué estudiar Data Science?

¿Por qué estudiar Data Science?

¿Por qué estudiar Data Science?

En este curso…

  • Repasaremos los tópicos principales de los que se ocupa DS desde un enfoque “Práctico”

  • Utilizaremos el software de estadístico R como una herramienta para desarrollar nuestros fines. El software nunca es el fin en si mismo!!

  • Las clases se enfocarán en la resolución de problemas para el análisis económico y aplicaciones para los negocios

Objetivos del curso

  • Desarrollar la capacidad de conceptualización abstracta de estructura de datos y cómo estas se enlazan con metodologías para responder preguntas básicas que sirvan de apoyo a la toma de decisiones

  • Entender y aplicar la generación de información desde datos ‘crudos’

  • Aprender a trabajar datos de manera ordenada y sistemática con el fin de lograr generar proyectos que sean reproductibles

  • Brindar a estudiantes una introducción al lenguaje estadístico R

Estructura del curso

  1. Introducción a la programación en R y Manejo de Datos

  2. Visualización de Datos

  3. El dilema actual de un buen Científico de Datos

1. Introducción a la programación en R y Manejo de Datos

  • Se entregan las primeras indicaciones y el contexto de este “mar de datos” que nos proponemos nadar

  • Se entregarán las herramientas básicas de programación en R para abordar los objetivos del curso:

    • Introducción a paquetes y/o funciones para el análisis de datos
    • Análisis y manipulación de los diferentes tipos de objetos en R
    • Entender el nexo entre el manejo de base de datos y la solución de problemas de negocios y/o toma de decisiones

2. Visualización de Datos

  • Veremos como a través de los datos podemos:

    • Caracterizar clientes
    • Segmentar demandas
    • Identificar sujetos de política pública
    • Etc.
  • Realizar análisis en términos exploratorios de forma visual para generar contexto, detectar problemas y posteriormente realizar alguna hipótesis de interés

  • Generar visualizaciones potentes que nos permitan captar la atención y mostrar dinámicas interesantes

3. Obsesivo de los Datos vs. Teórico conservador

  • Técnicas y herramientas de DS y su utilidad en la economía y en los negocios

  • Pequeñísima introducción a ML:
    • Aprendizaje Supervisado
      • New is always better? Regresión lineal
      • Validación cruzada
    • Aprendizaje no Supervisado
      • Análisis de Cluster
      • Árboles de decisión

Una mirada del curso

Bibliografía

  • Teoría:

    • Big Data (BDWS) – Walter Sosa. Editorial Siglo Veintiuno. (Disponible en Biblioteca)
    • Storytelling with Data: A Data Visualization Guide for Business Professionals – Cole Nussbaumer
  • Programación:

Evaluaciones

Evaluación Ponderación
Control 1 15%
Control 2 10%
Control 3 15%
Entrega de Productos 20%
Proyecto Final – Primera Entrega 10%
Proyecto Final – Informe y Presentación 30%

¡Bienvenidos y Bienvenidas!