En nuestra vida cotidiana, estamos constantemente rodeados de datos. El texto que estás leyendo ahora son datos. La lista de números de teléfono de sus amigos en su teléfono inteligente son datos, así como la hora actual que se muestra en su reloj. Como seres humanos, operamos naturalmente con datos contando el dinero que tenemos o escribiendo cartas a nuestros amigos.
Sin embargo, los datos se volvieron mucho más críticos con la creación de computadoras. La función principal de las computadoras es realizar cálculos, pero necesitan datos para operar. Por lo tanto, necesitamos entender cómo las computadoras almacenan y procesan los datos.
Con la aparición de Internet, el papel de las computadoras como dispositivos de manejo de datos aumentó. Si lo piensas, ahora usamos computadoras cada vez más para el procesamiento de datos y la comunicación, en lugar de cálculos reales. Cuando escribimos un correo electrónico a un amigo o buscamos alguna información en Internet, esencialmente estamos creando, almacenando, transmitiendo y manipulando datos.
¿Puedes recordar la última vez que usaste computadoras para calcular algo?
En Wikipedia, la ciencia de datos se define como un campo científico que utiliza métodos científicos para extraer conocimientos y perspectivas de datos estructurados y no estructurados, y aplicar conocimientos y conocimientos procesables a partir de datos en una amplia gama de dominios de aplicación.
Esta definición destaca los siguientes aspectos importantes de la ciencia de datos:
Otro aspecto importante de la ciencia de datos es que estudia cómo se pueden recopilar, almacenar y operar los datos usando computadoras. Si bien las estadísticas nos brindan fundamentos matemáticos, la ciencia de datos aplica conceptos matemáticos para extraer información de los datos.
Una de las formas (atribuida a Jim Gray) de observar la ciencia de datos es considerarla como un paradigma separado de la ciencia: * Empirico, en el que nos basamos principalmente en observaciones y resultados de experimentos * Teórico, donde surgen nuevos conceptos a partir del conocimiento científico existente * Computacional, donde descubrimos nuevos principios basados en algunos experimentos computacionales * Data-Driven, basado en el descubrimiento de relaciones y patrones en los datos
Dado que los datos son omnipresentes, la ciencia de datos en sí también es un campo amplio que toca muchas otras disciplinas.
Como ya hemos mencionado, los datos están en todas partes. ¡Solo tenemos que capturarlo de la manera correcta! Es útil distinguir entre datos estructurados y no estructurados. El primero generalmente se representa en una forma bien estructurada, a menudo como una tabla o un número de tablas, mientras que el segundo es solo una colección de archivos. A veces también podemos hablar de datos semiestructurados, que tienen algún tipo de estructura que puede variar mucho.
| Structured | Semi-structured | Unstructured |
|---|---|---|
| List of people with their phone numbers | Wikipedia pages with links | Text of Encyclopedia Britannica |
| Temperature in all rooms of a building at every minute for the last 20 years | Collection of scientific papers in JSON format with authors, data of publication, and abstract | File share with corporate documents |
| Data for age and gender of all people entering the building | Internet pages | Raw video feed from surveillance camera |
Hay muchas fuentes posibles de datos, ¡y será imposible enumerarlas todas! Sin embargo, mencionemos algunos de los lugares típicos donde puede obtener datos:
Al conocer diferentes fuentes posibles de datos, puede intentar pensar en diferentes escenarios donde se pueden aplicar técnicas de ciencia de datos para conocer mejor la situación y mejorar los procesos comerciales.
En Data Science, nos centramos en los siguientes pasos del viaje de datos:
Por supuesto, dependiendo de los datos reales, es posible que falten algunos pasos (por ejemplo, cuando ya tenemos los datos en la base de datos o cuando no necesitamos capacitación en modelos), o algunos pasos pueden repetirse varias veces (como el procesamiento de datos).
En la última década, muchas empresas comenzaron a comprender la importancia de los datos al tomar decisiones comerciales. Para aplicar los principios de la ciencia de datos a la gestión de un negocio, primero se necesitan recopilar algunos datos, es decir, traducir los procesos de negocio a forma digital. Esto se conoce como digitalización. ALa aplicación de técnicas de ciencia de datos a estos datos para guiar las decisiones puede conducir a aumentos significativos en la productividad (o incluso al pivote empresarial), llamado transformación digital.
Consideremos un ejemplo. Supongamos que tenemos un curso de ciencia de datos (como este) que impartimos en línea a los estudiantes, y queremos usar la ciencia de datos para mejorarlo. ¿Cómo podemos hacerlo?
Podemos empezar preguntándonos “¿Qué se puede digitalizar?” La forma más sencilla sería medir el tiempo que tarda cada alumno en completar cada módulo, y medir los conocimientos obtenidos dando una prueba de opción múltiple al final de cada módulo. Al promediar el tiempo de finalización en todos los estudiantes, podemos averiguar qué módulos causan las mayores dificultades para los estudiantes y trabajar para simplificarlos.
Puede argumentar que este enfoque no es ideal, porque los módulos pueden ser de diferentes longitudes. Probablemente sea más justo dividir el tiempo por la longitud del módulo (en número de caracteres) y comparar esos valores en su lugar.
Cuando comenzamos a analizar los resultados de las pruebas de opción múltiple, podemos tratar de determinar qué conceptos tienen dificultades para entender los estudiantes, y usar esa información para mejorar el contenido. Para hacer eso, necesitamos diseñar pruebas de tal manera que cada pregunta se asigne a un determinado concepto o trozo de conocimiento.
Si queremos complicarnos aún más, podemos trazar el tiempo empleado para cada módulo en función de la categoría de edad de los estudiantes. Podríamos descubrir que para algunas categorías de edad se necesita un tiempo inapropiadamente largo para completar el módulo, o que los estudiantes abandonan antes de completarlo. Esto puede ayudarnos a proporcionar recomendaciones de edad para el módulo y minimizar la insatisfacción de las personas por las expectativas erróneas.
En este desafío, trataremos de encontrar conceptos relevantes para el campo de la Ciencia de Datos mirando textos. Tomaremos un artículo de Wikipedia sobre Ciencia de Datos, descargaremos y procesaremos el texto, y luego construiremos una nube de palabras como esta:
Visite notebook.ipynb
para leer el código. También puede ejecutar el código y ver cómo realiza
todas las transformaciones de datos en tiempo real.
Si no sabe cómo ejecutar código en un Jupyter Notebook, eche un vistazo a este artículo.
Esta lección ha sido escrita con ♥️ por Dmitry Soshnikov y [E Edison Achalma Mendoza] (https://github.com/achalmed)