Ricardo Alves de Olinda


http://lattes.cnpq.br/7767223263366578

Universidade Estadual da Paraíba

http://departamentos.uepb.edu.br/estatistica/corpo-docente/



## CURSO SUPERIOR DE TECNOLOGIA EM CIÊNCIA DE DADOS

##INTRODUÇÃO À CIÊNCIA DE DADOS

##FUNDAÇÃO DE APOIO À PESQUISA DO ESTADO DA PARAÍBA - FAPESQ

##UNIVERSIDADE ESTADUAL DA PARAÍBA - UEPB

## Limite do Visível: Programa do Governo do Estado e UEPB



## Use R! https://www.r-project.org/
Use R!



Use Python!

Livro Texto

Capítulo 2. AMARAL, Fernando. Introdução à ciência de dados: mineração de dados e big data. Alta Books Editora, 2016.


### 2.1- Produção

Quando pensamos em produzir dados, provavelmente a primeira lembrança é a de um teclado de um computador pessoal. E de fato, este é um dispositivo de entrada importante. Porém, na “pré-história” da infomrática, dados eram entrados através de interruptores e computadores e posteriormente através de cartões perfurados, que continham dados para sistemas como folhas de pagamento ou ainda e programação de um computador.



Um Pouco de História

A história das grandes invenções começam geralmente com o aprimoramento de algo já existente. Este é o caso dos cartões perfurados. Há duas possíveis histórias para sua criação. A primeira, Ada Augusta Byron King, a Condessa de Lovelace, escreveu um programa para ser utilizado na máquina analítica de Charles Babbage. Essa máquina é considerada o ponto de partida dos computadores eletrônicos.

A outra possível história começa em 1804 especificamente, com Joseph-Marie Jacquard, um francês que inventou o Tear Mecânico. Ainda novo, foi dada uma tarefa a Jacquard, a de alimentar os teares com novelos e linhas coloridas para formar os desenhos nos tecidos que estavam sendo fiados. Uma tarefa puramente manual e chata, pois ele tinha que ficar trocando os fios e as linhas a cada passagem da lançadeira. Jacquard percebeu que as mudanças seguiam uma certa lógica e inventou um processo de cartões perfurados que definiam padrões nas lançadeiras e assim o trabalho do tecelão seria trocado para algo automático. De consenso geral, o criador foi Jacquard.




O teclado do tipo QWERTY se tornou o padrão de fato na entrada de dados. Mesmo com propostas de teclados mais ergonômicos, que prometiam mover menos os dedos, como a proposta de Dvorak e Dealey na década de 30, conhecido com modelo Dvorack, não conseguiram destronar o QMERTY, talvez porque seu layout tenha sido herdado das teclas de máquinas de escrever.




Na família de dispositivos que estão conectados a um computador, temos ainda mouses, escaner, telas touch screen, leitores de códigos de barra, identificadores por radiofrequência, mesas digitalizadoras, entre outros. Temos ainda dispositivos que não operam necessariamente conectados a um computador, nesta linha se enquadram câmeras de vídeo, máquinas fotográficas e dispositivos médicos portáteis.

Entre os dispositivos mais modernos, temos as telas sensíveis ao toque e sensores de movimento. Muito embora as telas sensívies so toque já existissem desde a década de 1950, foram popularizadas neste século através de telefones celular e tablets.

Outros Meios de Entrada de Dados

Existem ainda formas de entrada de dados menos tradicionais. O projeto SETI! busca vida extraterrestre captando sinais de rádio do espaço e distribuído para computadores ao redor do mundo para processamento. É um dos maiores casos de computação distribuída do mundo: diferente de um projeto de computação distribuída normal, o SETI utiliza processamento de computadores de voluntários. Qualquer um pode baixar um pequeno software que vai utilizar o tempo de CPU ocioso do computador para processar fragmentos de dados de radiofrequência vindo do espaço. Neste caso, a entrada de dados se dá através de radiotelescópios, antenas gigantes que captam as ondas de rádio para posterior análise.

Computação Distribuída

Existem outros grandes projetos de computação distribuída que funcionam com “doações” de tempo de CPU, como Climate Prediction!, que busca construir modelos de previsão meteorológica e Rosetta@!, que atua na busca de cura para doenças.


### 2.2- Produção por Processamento e Análise

A produção de dados não se dá apenas pela entrada por algum dispositivo. O processamento de dados para análise ou para execução de procedimentos operacionais, fechar a folha de pagamento, por exemplo, também produzem volumes significativos de dados. A criação de modelos estatísticos ou de aprendizado de máquina são outras formas de produção por análise.


### 2.3- Produção por Transformação

Transformar dados é alterar sua estrutura para torná-lo adequado a um processo específico, normalmente um processo de análise ou mesmo construção de data warehouse: o fato é que a transformação de dados não é uma mera cópia com pequenas adequações. Embora a transformação possa manter a essência dos dados de origem em alguns casos, normalmente ocorrem transformações estruturais significativas nos dados, inclusive aumentando o seu volume.


### 2.4- Sensores por Toda Parte

Quando o assunto é sensor, uma seção à parte deve ser dedicada aos smartphones. O prefixo smart neste tipo de celular se deve principalmente à presença de sensores. Telefones celulares têm sensores desde que foram inventados, porém, os smartphones têm uma série deles. Dessa forma, ele pode executar atividades de vários dispositivos em um só. Um smartphone, além de um telefone, pode ser também uma bússula, GPS, rádio, TV, câmera fotográfica, filmadora e videogame. Vamos ver uma lista de alguns tipos de sensores que encontramos em um smartphone:

Existem ainda aqueles voltados à comunicação; Bluetooth, Wifi, Widi, NFC, entre outros.

Como é possível um smartphone possuir tantas funcionalidades? São os mesmos elementos que estudamos no capítulo anterior, quando abordamos o Big Data: os sensores estão menores, mais rápidos, melhores e acima de tudo, mais baratos. A tendência é que o número de sensores em celulares e outros tipos de dispositivos aumente cada vez mais.

APIs para Smartphones

Os principais sistemas operacionais para smartphones contêm interfaces de programação conhecidas como API e Kits de desenvolvimento, que desenvolvedores podem utilizar para ler dados de seus sensores.

GPS

Um GPS, acrônimo para Global Positioning System ou Sistema de Posicionamento Global, funciona conectando a dois ou mais dos 24 satélites mantidos pela Força Aérea dos Estados Unidos (USAF). A conexão é unidirecional. O GPS recebe dados, mas não transmite qualquer informação. Porém, o que pouca gente sabe é como ele funciona. O Satélite tem um relógio interno de altíssima precisão que emite um sinal para o aparelho de GPS, e pelo tempo de chegada do sinal, é possível saber a localização do aparelho através de uma triangulação com, no mínimo, três satélites.

Sensores não apenas coletam dados, eles podem acionar atuadores, que são elementos que executam movimentos. Além dos wearable devices dos quais falamos brevimente em seção anterior, casas e escritórios autômatos estarão repletos de sensores e atuadores conectados. Assim é possível, por exemplo, fechar cortinas, apagar as luzes, irrigar o jardim com comandos no smartphone ou em um horário programado.


### 2.5- Ciência e Produção de Dados

Big Data é lembrado principalmente pelo grande volume de dados. Não são apenas sistemas informatizados processando transações de negócio, temos sensores por toda parte: smartphones, wearable devices, veículos conectados, casas inteligentes e muito mais. Porém, toda informação gerada deve ser persistida para uso futuro.

Como armazenar tanta informação??

Algumas bases de dados

Open Gov. Data1!

Open Gov. Data2!

Open Gov. Data3!