Conceitos de Ciência de Dados
DE/UFPB – PPGMDS/UFPB
Inteligência Artificial;
Aprendizado de Máquina;
Deep Learning (Aprendizado Profundo);
Ciência de Dados.
Pense na pessoa mais inteligente que você conhece. Quais as características que levam você a descrevê-la dessa forma?
A inteligência humana abrange um largo espectro de modalidades, compreendendo diversas habilidades, como, por exemplo:
Em outras palavras, seja como gênios da matemática, física ou computação, seja como vendedores carismáticos ou super-atletas, devemos utilizar habilidades cognitivas como memória de trabalho, atenção sustentada, categorização e reconhecimento de padrões sermos capazes de entender e ter sucesso no mundo todos os dias.
Gemini é um modelo de IA desenvolvido pela Google que é capaz de entender e gerar texto, imagens e áudio, além de responder perguntas, criar histórias e até mesmo compor músicas.
Embora os computadores superem os humanos em tarefas computacionais em larga escala, sua especialização é estreita, e as máquinas são superadas pela inteligência humana em diversas outras áreas.
O termo Inteligência Artificial (IA) tem sido usado, erroneamente, para descrever quase qualquer tipo de análise ou tarefa automatizada e executada por máquinas.
Especialistas na área de IA preferem usar o termo Inteligência Artificial Geral (AIG - Artificial General Intelligence) ou IA Forte para se referir a máquinas com inteligência no nível humano ou superior, capazes de abstrair conceitos a partir de experiências limitadas e trasferir conhecimento entre domínios.
Inteligência Artificial Geral: é quando uma máquina realmente entende o que está acontecendo. Podem existir emoções e criatividade. Na maior parte, é o que vemos em filmes de ficção científica.
IA Fraca: é quando uma máquina realiza a correspondência entre padrões, está relacionada a tarefas específicas e suas capacidades não são facilmente transferíveis para outros sistemas.
O fato é que a inteligência artificial se encontra nas fases iniciais da IA Fraca. Alcançar o ponto de IA Forte pode ainda levar décadas e alguns pesquisadores acreditam que isso pode nem chegar a acontecer.
Então, se em mais de oito décadas de pesquisa e desenvolvimento desde o primeiro modelo de IA nós “só” atingimos o nível 1, o que fizemos durante todo esse tempo?
Na realidade, os modelos mais poderosos desenvolvidos até agora não são capazes de “aprender”, mas são extremamente eficazes em encontrar padrões.
Aprendizado de Máquina (AM) ou Machine Learning (ML) é uma subárea da Inteligência Artificial que estuda modelos e algoritmos de aprendizado a partir de dados.
Os modelos ou algoritmos são determinados pelo tipo de dado que se tem disponível e pelo tipo de tarefa a ser executada.
Esses modelos são automatizados de modo a melhorarem o processo de aprendizagem com base em suas experiências, sem a necessidade de serem reprogramados (Isto é, sem qualquer assistência humana).
O produto dos modelos ou algoritmos são coeficientes, pesos ou regras e o processo de aprendizagem se dá pela atualização dessas características a partir de novas experiências, que são descritas por novos dados.
Originalmente, os métodos de AM eram de cunho estritamente computacional. Contudo, a partir do final da década de 90, esses métodos passaram a ter muitas inserseções com a estatística. Atulamente, métodos de AM têm sido incorporados por estatísticos em suas análises e experimentos.
Métodos de aprendizado de máquina dão aos computadores a habilidade de aprenderem a partir de dados sem que tenham explicitamente programados para isso e têm sido empregados na resolução de tarefas nas mais diferentes áreas;
Métodos de Aprendizado Profundo (Deep Learning) usam uma estrutura complexa de algoritmos inspirados pelo cérebro humano;
Isso permite o processamento de dados não-estruturados tais como imagens, documentos, textos, etc. Para isso, deep learning se baseia na estrutura de redes neurais de múltiplas camadas em que quanto mais camadas escondidas, mais profunda é a rede neural;
Diferentes arquiteturas de redes neurais profundas têm sido desenvolvidas para lidar com problemas de visão computacional, processamento de linguagem natural, reconhecimento de fala e áudio, bioinformática e etc.;
As arquiteturas diferem, dentre outros aspectos, na definição de camadas de extração de características e de preprocessamento.
Cientista de Dados foi descrita como a “profissão mais sexy do século 21” pela Harvard Business Review em 2022.
De fato, o termo Ciência de Dados está em evidência na mídia, redes sociais, livros, jornais, conferências, dentre outros lugares.
Mas, o que é Ciência de Dados?
É uma ciência em que um conjunto de princípios fundamentais norteia a extração de conhecimento a partir de dados, transformando-os por meio de métodos matemáticos, estatísticos e computacionais em insights, decisões e produtos valiosos.
A jornada se inicia pela história da estatística;
Há indícios de que por volta de 3000 A.C. já se realizavam censos na Babilônia, China e Egito, com o intuito de cobrar impostos;
De fato, a palavra censo deriva de censere, que, em latim, significa taxar;
Mais a frente na história, em 1085, na Inglaterra, Guilherme, “O conquistador”, ordenou que se realizasse um levantamento estatístico que serviria como base para o cálculo de impostos. Esse estudo deu origem às tábuas de mortalidade elaboradas por John Graunt;
_ Dando um salto para décadas mais próximas da atualidade, é difícil dizer com precisão quando surgiu o termo Ciência de Dados, mas, é provável que tenha sido relacionado para designar uma profissão relacionada ao conceito de grandes conjuntos de dados (Big Data);
Conhecida pelo termo em inglês Health Data Science, é a ciência de gerar soluções baseadas em dados por meio da compreensão de problemas reais da área de saúde, empregando o pensamento crítico e a análise para obter conhecimento a partir dos dados;
Essa área nasce da união entre conhecimentos de ciência da computação, estatística e da própria área da saúde. Assim, possibilita que os analistas de dados tenham insights para os cuidados e tratamentos médicos aplicados aos pacientes, mas também sobre gestão;
Ciência de Dados pode ser empregada na análise de imagens médicas, em genética e genômica, descoberta de drogas, assistência virtual a pacientes, medicina preventiva, etc.
Ciência de Dados em Saúde - Prof. Marcelo Ferreira