Prof.Davi Rocha
05/09/2020
Vamos perguntar ao google
Se perguntarmos ao google, o que é data science veremos uma enorme quantidade de informações confusas.
Mas Data Science é realmente simples
É um conjunto de metodologias para captar milhares de formatos de dados que estão disponíveis hoje e usá-los para tirar conclusões significativas
Os dados estão sendo coletados ao nosso redor e tem vários sabores: clique, e-mail, furto de cartão d crédito ou um tweet…
…são dados que podem ser usados para descrever melhor o presente ou prever melhor o futuro.
como nosso consumo de energia
Isso pode ser realizado com painéis ou alertas, simplificando os processos de geração de relatórios demorados.
como compras fraudulentas
Se tivermos dados sobre o que aconteceu anteriormente, podemos aumentar a eficiência, detectando automaticamente um novo evento inesperado ou anormal.
causas dos eventos e comportamentos observados, por exemplo, sua atividade no Spotify ou Netflix
No lugar de determinar correlações entre um pequeno número de eventos, os dados junto as técnicas de ciências de dados nos ajudam a entender sistemas complexos com muitas causas possíveis.
como prever se o cliente é bom ou mau pagador
Podemos usar novas técnicas para levar em consideração várias causas e prever possíveis resultados. Além disso, podemos avaliar matematicamente a probabilidade de nossa previsão para entender nosso nível de incerteza.
Já sabemos o que é Data Science, agora a pergunta é por que é tão popular?
A resposta é óbvia: estamos coletando mais dados do que nunca.
Suponha que você visite uma concessionária de carros e preencha algumas informações.
Todos esses dados são inseridos automaticamente num computador e combinado com os dados de centenas de concessionárias em um grande banco de dados.
Depois que tivermos esses dados é fácil usar o endereço de e-mail que você forneceu quando comprou o carro para amarrar os dados de compra do carro com os dados das mídias sociais ou da navegação da web.
Assim teremos uma imagem bem completa de todos que compraram um carro no último ano: idade, gostos, amigos e familiares.
Esses dados adicionais podem ser usados para prever qual o preço que você pode pagar pelos seu carro, qual outras compras você provavelmente fará ou qual a melhor forma de vender seu seguro para esse carro novo.
Os dados estão em toda parte e são informações incrivelmente valiosas para empresas, organizações e governos.
Então, como começamos a usar dados?
Em ciência de dados, geralmente temos quatro etapas para qualquer projeto.
Primeiro, coletamos dados de várias fontes, como pesquisas web, resultados de trafégos, postagens de mídia social com tags geográficas e transações financeiras.
Uma vez coletados, armazenamos esses dados de forma segura e acessível.
Neste ponto, os dados estão em sua forma bruta, portanto, o próximo passo é preparar os dados. Isso inclui “limpar os dados”, por exemplo, encontrar dados ausentes ou valores duplicados e também converter os dados em um formato mais organizado.
Em seguida exploramos e visualizamos os dados já limpos e organizados. Isso pode envolver a criação de painéis para rastrear como os dados mudam ao longo do tempo ou realizar comparações entre dois conjuntos de dados.
Finalmente realizamos experimentos e previsões sobre os dados.
Por exemplo, isso poderia envolver a construção de um sistema que prevê mudanças de temperatura ou realizar um teste para descobrir qual página da web adquire mais clientes.
Agora você sabe porque ciência de dados é importante e as quatro primeiras etapas do fluxo de trabalho da ciência de dados