Ricardo Alves de Olinda


http://lattes.cnpq.br/7767223263366578

Universidade Estadual da Paraíba

http://departamentos.uepb.edu.br/estatistica/corpo-docente/



## Programa de Pós-graduação em Biociências e Saúde (PPGBIOS)

##INTRODUÇÃO À CIÊNCIA DE DADOS

##UNIVERSIDADE ESTADUAL DA PARAÍBA - UEPB



Introdução



    No mundo atual é enorme o volume de informação gerado a todo momento e o profissional de estatística precisa ser capaz de trabalhar com todos os tipos de dados, estruturados ou não.


    No entanto, em um projeto de pesquisa acadêmica para uma dissertação de mestrado ou tese de doutorado, muitas vezes as informações são coletadas por meio de questionários impressos ou prontuários eletrônico e nesses casos, o ideal é que os dados sejam bem estruturados e organizados para otimizar o processo de análise estatística.



    Para ilustrar a forma como os dados devem ser organizados, criamos um exemplo de questionário com diferentes tipos de perguntas, apresentamos os erros mais comuns e um passo a passo para facilitar a compreensão.


Erros comuns na organização dos dados para análise estatística

    Em alguns casos, as pessoas acabam realizando um esforço enorme, com a melhor das intenções, mas todo tempo despendido na organização dos dados acaba não sendo aproveitado no momento da análise estatística.


Os três erros mais comuns são:


1. Diferentes planilhas para cada unidade amostral

    Em uma pasta do Excel (arquivo), evite colocar as informações de cada unidade amostral em uma planilha (aba) diferente.

2 – Organizar os dados já consolidados

    Além do enorme trabalho de separar os questionários para cada resposta de cada pergunta para fazer a contagem, organizar os dados já consolidados faz com que se perca informações que podem ser importantes para a análise estatística.

3 – Definição de variáveis por estilo de formatação

    Evite discriminar as categorias usando diferentes estilos de formatação, por exemplo as cores das células no Excel. Prefira sempre a criação de variáveis para fazer essa diferenciação.

Passo-a-passo para formatar a base de dados para análise estatística

    A seguir estão listados os principais aspectos que se de ter em conta ao organizar seus dados em Excel para a análise estatística. Vale ressaltar que não existe uma forma única de preparar uma base de dados para análise, mas esse passo-a-passo poderá facilitar a importação e utilização dos dados nos principais softwares estatísticos.

    Caso não seja possível utilizar apenas uma base de dados, procure manter uma variável chave que permita vincular as informações das diferentes bases de dados.

    A variável indicadora “ID” deve ser colocada na primeira coluna da planilha e tem como objetivo discriminar as unidades amostrais. Se tiver digitando os dados de um formulário impresso, escreva no questionário físico o número do ID correspondente na base de dados para facilitar futuras consultas ou verificações.

    Preencha o nome de cada questão na primeira linha das colunas seguintes. O importante aqui é a criação de uma variável para cada pergunta do questionário. No nosso exemplo, todas informações sobre o estado civil dos entrevistados serão preenchidas na coluna “E” da planilha.

A dúvida que surge neste ponto é: “Como colocar em apenas uma coluna as respostas para questões de múltipla escolha?”

    Uma opção é a de estratificar a questão de maneira com que cada opção de resposta tenha uma coluna específica. Na pergunta sobre a utilização da internet do questionário de exemplo, o respondente poderia selecionar mais de uma resposta. Para cada uma delas, nomearemos uma coluna na planilha de maneira que facilite sua identificação como pertencente à uma questão de múltipla escolha:

    Chegou o momento de começar a digitar as respostas de cada formulário na planilha. Cada questionário receberá um número único de identificação, que será preenchido na coluna da variável ID, e sugere-se que esse número seja marcado no questionário impresso para futuras verificações.

    Em seguida basta ir preenchendo as células com as respostas selecionadas pelos participantes da pesquisa, conforme a figura abaixo. Observe que preencher as respostas das opções de uma questão de múltipla escolha, pode-se colocar “Sim” para o caso da opção ter sido selecionada e “Não” caso contrário.

    Nesse ponto, os dados já estão suficientemente estruturados para serem importados nos principais softwares de análise estatística. No entanto, alguns erros podem ter sido cometidos e poderá ser necessário corrigi-los no ambiente de análise. O próximo passo ajuda a evitar alguns destes erros.

    Durante o processo de digitação, podem ocorrer alguns erros que precisarão ser corrigidos antes da análise. Ao preencher o estado civil dos respondentes, por exemplo, pode-se acabar digitando “solteiro” para um indivíduo e “solteira” para outro, criando duas categorias diferentes que se referem ao mesmo tipo de estado civil.

    Para evitar esse tipo de erro, sugere-se que as variáveis sejam codificadas. Para a questão sobre estado civil, por exemplo, pode-se utilizar a codificação:

    Em geral, para questões com opções de resposta “Sim” ou “Não” se utiliza a codificação “1” para “Sim” e “0” para “Não”.

    Você também pode alterar os nomes das variáveis, o que poderá facilitar o trabalho dependendo do software estatístico que será utilizado na análise. No nosso exemplo, fizemos as alterações renomeando as variáveis para “Q1”, “Q2”, “Q3”, etc, e para aquelas variáveis que surgiram de uma questão de múltipla escolha, para “Q6_01″, ¨Q6_02”, etc, onde Q6 representa a pergunta e os dois números finais a opção de resposta (Exemplo: “Util_Estudar” para “Q6_01”).

    Neste ponto é extremamente indicado que seja utilizada uma outra aba no arquivo para que se registre toda a codificação realizada, para que não exista o risco de se perder alguma informação por faltar a correspondência correta entre o código da base de dados e a resposta dos formulários impressos.

Com os dados nessa estrutura, eles já estão prontos para serem utilizados facilmente em qualquer ambiente ou software de análise estatística

Dados Não Estruturados e Semiestruturados

Os modelos tradicionais de análise de dados são adequados para tratar dados estruturados, que são aqueles que possuem uma estrutura rígida, normalmente organizados em linhas e colunas. São exemplos de dados estruturados planilhas eletrônicas e tabelas em banco de dados. Dados não estruturados não possuem quaisquer tipo de estrutura definida.

Dados estruturados

Como já citamos e como o nome já diz, os estruturados têm estruturas rígidas, ou seja, antes mesmo da presença dos dados ali, aquele ambiente já foi pensado para eles. Com isso, os estruturados não aceitam dados com estruturas diferentes feitas previamente.

Como assim?

Se você criar uma tabela no Excel para ser exclusivamente textual, ela não aceitará números.

Tipos de dados estruturados

Existem diversos tipos de deles na internet. Alguns deles são:

  1. Planilhas eletrônicas como as do Excel;

  2. Os próprios bancos de dados;

  3. Arquivos CSV;

  4. Arquivos XML;

  5. Arquivos JSON.

Dados não estruturados

Podemos dizer que os não estruturados são adolescentes. Além de serem dados modernos, são digitais, imprevisíveis, mesclados, estão em constante criação e movimento.

Ao contrário dos dados estruturados, os não estruturados não possuem estruturas rígidas e bem definidas.

Inclusive, você sabia que eles compreendem cerca de 80% dos dados do mundo? Pois é!

Esse fato ocorre porque os não estruturados estão presentes nas tecnologias que mais usamos no dia a dia: YouTube, WhatsApp e até mesmo nas fotos que tiramos!

Tipos de dados não estruturados

Você já viu que, diferentemente dos dados estruturados, os não estruturados estão na palma das nossas mãos (literalmente), não é?

Para te deixar ainda mais por dentro dessa característica de dados, veja onde mais eles estão presentes:

  1. Apresentações em slides;

  2. Documentos em Word ou Google DOCs;

  3. Vídeos do YouTube;

  4. Vídeos do TikTok;

  5. Imagens no Instagram;

  6. Mensagens de texto;

  7. Gravações telefônicas;

E muito mais!

Eles tomam conta da Era Digital!

E os dados semiestruturados?

Não dá para falarmos de dados e não conversarmos sobre os semiestruturados.

Como o nome já remete, eles são uma mistura das duas características de dados já aprofundadas ao redor deste artigo. Eles até possuem algumas características definidas, o que nos remete aos dados estruturados, mas não são rígidos.

Por que os dados são importantes?

Dados são importantíssimos e você já sabe disso. Eles mantêm as nossas empresas funcionando e crescendo, o que é vantajoso para a economia, tanto brasileira quanto mundial.

A importância dos dados se dá pela necessidade de ter insights relevantes para obter resultados satisfatórios, planejar ações e até mesmo fazer previsões futuras de mercado.

Áreas como o Marketing, por exemplo, usam muito os dados para basear as suas ações. Assim, eles conseguem atingir mais pessoas e, essas pessoas, estão bem alinhadas com o propósito do produto e/ou serviço que eles estão promovendo.

Como utilizar os dados estruturados e não estruturados?

É simples: profissionais de Data Science usam das análises para gerar insights. Assim, eles conseguem compreender praticamente todas as ações de uma empresa, seja ela voltada para negócios com o consumidor, ou com empresas.

Na prática, sabe todos os anúncios que chegam no seu celular enquanto você navega pela internet e parecem ter sido criados especialmente para você? Essa ação é resultado da coleta e análise de dados.


### 3.12- Além do Armazenamento

Como coletar esses dados?

Quando falamos em coletar dados, os estruturados já saem em vantagem: é muito mais fácil coletá-los e analisá-los, visto que eles têm a estrutura rígida.

Não funciona assim quando falamos da maioria dos dados presentes na Era Digital: com os dados não estruturados, é necessário planejamento para isso.

Primeiro, deve-se mapear qual demanda a sua empresa necessita: saber preços de concorrentes, pesquisar tendências no Instagram ou qualquer outro tipo de dado não estruturado.

Algumas empresas já implementaram ou estão no caminho da implementação de softwares, plataformas e ferramentas para coletar esses dados não estruturados e organizá-los de maneira estruturada, seja em relatórios, planilhas ou dashboards. É aqui que as tecnologias de Data Analytics se fazem presente!

Onde ficam esses dados ficam armazenados?

Enquanto os estruturados são armazenados em Data Warehouses, em sistemas de gerenciamento de banco de dados relacional (RDBMSes, Relational Database Management Systems), os não estruturados são armazenados nos Data Lakes e em bancos de dados NoSQL.

Como analisar os esses tipos de dados? Ter acesso aos dados e não saber analisá-los é uma grande perda de oportunidade.

Analisar dados estruturados é mais simples (o que não quer dizer que é fácil), já que eles têm a estrutura rígida. Assim, é possível, enxergando de forma analítica, reconhecer o comportamento nos números, relacioná-los e compreender os seus significados.

Já a análise dos dados não estruturados é mais complicada, visto que são informações de difícil processamento. É importante que você os colete e os estruture para, assim, conseguir analisá-los.

Com as novas tecnologias de Big Data e Data Science, essa ação tem se tornado mais fácil!

Já deu para perceber que o futuro é saber falar a língua dos dados, não é?



Explore conjuntos de dados abertos e gratuitos

Saúde Geral e Pública:

Base de dados de Saúde do Brasil