Bienvenidos al curso

Este ramo consiste en la comprensión y manipulación de datos, tanto en la utilización de visualización como en herramientas de análisis, para poder rescatar la mayor cantidad de información de valor.

Libros

  • Libro Big Data de Walter Sosa:

Este libro -uno de los libros guías del curso- es fácil, rápido y entretenido de leer. Explica con anécdotas divertidas lo que es la ciencia de datos. Les sirve para entender el fondo más allá de la programación que vemos en clases. De esta forma, se vuelve más fácil aplicarlo, y sobretodo, lograr un buen análisis en su trabajo final. Está disponible en la biblioteca online de la UAI. Si les cuesta encontrarlo, pregunten por el chat de la página de la biblioteca

  • Libro online: R para Ciencia de Datos:

Este libro online es una guía para aprender R. A diferencia de nuestro curso, utiliza como base la sintaxis del paquete dplyr, y nosotros aprendimos a usar el paquete data.table. No importa cual sintaxis usen, a veces es bueno probar más de una para decidir que es lo que más les acomoda. Los capítulos de visualizaciones de este libro también son muy buenos y siempre se los recomiendo. La gracia que tiene al ser un R book es que todos los códigos están listos para copiar y pegar en R, además de que usan bases de datos internas de R para los ejemplos. Por esto, es muy fácil de replicar para practicar. Está disponible aquí

  • Otros libros:
  • También existen las Cheatsheets, que son resúmenes en 1 o 2 páginas de paquetes y funciones importantes.

data.table

  • Introduction to data.table de CRAN
  • DT: An R interface to the DataTables library de R Studio Github
  • Video: An Introduction to The data.table Package de Data Camp
  • Video: R data.table in 5 minutes de Do More With R
  • Video: 6 R data.table symbols and operators you should know de Do More With R
  • Cap 7 Bookdown Cap 7

Ggplot2

Leaflet

Modelo de regresión lineal

Árboles de decisión

Análisis de Clusters

  • Clustering y heatmaps: aprendizaje no supervisado, de Joaquín Amat Rodrigo
  • K-Means vs. DBSCAN Clustering - For Beginners de Ekta Sharma en towardsdatascience.com
  • Finding Optimal Number of Clusters de Sunny Anand en R-bloggers.com
  • Data distributions where Kmeans clustering fails: Can DBSCAN be a solution? de Fisseha Berhane
  • DBSCAN de Jurgen Soto
  • DBSCAN: density-based clustering for discovering clusters in large datasets with noise - Unsupervised Machine Learning de STDHA
  • K-means clustering and DBSCAN Algorithm implementation in R de 1000projects.org

Series de Tiempo

Preguntas para dudas específicas

Stackoverflow es un foro donde puedes hacer preguntas específicas y otros podrían responderte, o donde puedes buscar dudas y revisar pregutas que otro ya hizo. El mejor consejo es buscar siempre con palabras claves y en inglés.

Bases de datos

Martín Sielfeld, creó un archivo publicado en su Rpubs donde podrán encontrar multiples fuentes de datos de nuestro país y el mundo que les servirán tanto para el proyecto del curso como para futuros proyectos. Pueden encontrarlo aquí.