Especialização em Estatística Computacional Aplicada - UFMG
Análise Exploratória de Dados - Professora Jussiane Gonçalves
Introdução
Trabalho final da disciplina Análise Exploratória de Dados da Especialização em Estatística Computacional Aplicada (1º Semestre/2023). O objetivo é fazer uma análise de um conjunto de dados para colocar em prática os conhecimentos adquiridos durante as aulas.
Microdados
Foram escolhidos para a realização deste trabalho microdados disponibilizados pela Agência Nacional de Telecomunicações (Anatel). Os dados estão relacionados ao acesso de banda larga e podem ser encontrados no Portal Brasileiro de Dados Abertos. Abaixo, informações gerais sobre os microdados retiradas do próprio portal.1
Acessos - Banda Larga Fixa: base de dados associada aos acessos em serviço das prestadoras do Serviço de Comunicação Multimídia - SCM (banda larga fixa);
Acessos - Velocidade Contratada da Banda Larga Fixa: indicador para o acompanhamento da meta do PPA 2016-2019 que trata do aumento da velocidade média da banda larga fixa prestada por meio do Serviço de Comunicação Multimídia - SCM;
Consumidor - Reclamações: quantidade de registros de reclamações, denúncias, pedidos de informação e sugestões em relação às operadoras e à Anatel.
Para a criação do indicador de densidade de acessos para as Unidades Federativas do Brasil, foram utilizadas as estimativas de população divulgadas pelo Instituto Brasileiro de Geografia e Estatística (IBGE)2
E finalmente, para uma comparação do Brasil com seus vizinhos da América do Sul, foi utilizada a série histórica mundial do indicador Fixed broadband subscriptions (per 100 people)3, divulgada pelo Banco Mundial.
Definições
Abaixo, três definições relevantes para a compreensão dos dados demonstrados ao decorrer da análise.
SCM - Serviço de Comunicação Multimídia (banda larga fixa).
-
Acessos - Conjunto de recursos tecnológicos por meio dos quais é possível realizar uma comunicação com a rede de suporte ao serviço da prestadora. Deve ser considerado 1 (um) acesso para cada contratação em cada logradouro, de sorte que múltiplas contratações do mesmo cliente no mesmo logradouro contarão diferenciadamente (“n” acessos).
Internet: acessos utilizados para comunicação com a rede mundial;
-
Não internet
Linha dedicada: acessos utilizados apenas para comunicações de dados entre dois pontos de suporte ao cliente;
M2M: acessos utilizados de máquinas e equipamentos não interativos e Internet of Things (IOT);
Outros: acessos que não se enquadrem nas definições anteriores.
Densidade - Número de acessos por grupo de 100 habitantes.
Observações
Pacotes utilizados
Para importação, transformação, cálculo e visualização dos resultados, foi utilizada a linguagem R (v. 4.2.3) e os pacotes tidyverse (v. 2.0.0), VIM (v. 6.2.2), geobr (v. 1.7.0) e treemapify (v. 2.5.5).
Tidyverse: coleção de pacotes que oferecem funções para uso em projetos de análise de dados;
VIM: pacote para visualização de valores nulos e imputados;
geobr: pacote para download de dados geoespaciais do IBGE;
treemapify: pacote para gerar treemaps.
Transformações
Antes da análise, algumas transformações nos microdados foram necessárias. Dentre estas:
Renomeação de variáveis;
Conversão de tipos;
Inclusão da variável regiao, para análise agregada por grandes regiões;
Recodificação de variáveis categóricas (exemplo: variável com o assunto da reclamação dos consumidores possuía variações do mesmo assunto).
Análise
Visão geral dos dados
O arquivo possui 39.049.597 observações de 18 variáveis.
O arquivo possui 5.789.372 observações de 11 variáveis.
O arquivo possui 15.952.407 observações de 15 variáveis.
O arquivo possui 16.492 observações de 3 variáveis.
Análise descritiva
Variável acessos
Variável velocidade
Variável acessos
Variável velocidade_contratada_mbps
Chama atenção o número elevado de valores NA presentes na variável acessos, com um total de 11.578.742 observações. A causa desses nulos é desconhecida. O gráfico abaixo mostra a frequência anual com que eles aparecem.
Tabela de contingência
As tabelas a seguir fazem um cruzamento das variáveis empresa (grande porte) e velo_faixarecod. Esta última variável foi recodificada pois há faixas que estão incluídas em outras nos microdados original. Por exemplo, a faixa 0Kbps a 64Kbps está contida em 0Kbps a 512Kbps.
Foram selecionadas apenas as empresas de grande porte. As empresas consideradas de grande porte são Claro, Oi, Sky/AT&T, TIM e Vivo. Em 2023, juntas, estas empresas são responsáveis por 49,4% dos acessos a rede no Brasil.
velo_faixarecod
empresa 0Kbps a 512Kbps 512kbps a 2Mbps 2Mbps a 34Mbps > 34Mbps
CLARO 133681 80707 215446 217813
OI 168877 457705 471935 192571
SKY/AT&T 0 1381 5574 171
TIM 874 3089 5482 13022
VIVO 8053 60031 197900 120972
velo_faixarecod
empresa 0Kbps a 512Kbps 512kbps a 2Mbps 2Mbps a 34Mbps > 34Mbps
CLARO 5.68 3.43 9.15 9.25
OI 7.17 19.43 20.04 8.18
SKY/AT&T 0.00 0.06 0.24 0.01
TIM 0.04 0.13 0.23 0.55
VIVO 0.34 2.55 8.40 5.14
velo_faixarecod
empresa 0Kbps a 512Kbps 512kbps a 2Mbps 2Mbps a 34Mbps > 34Mbps
CLARO 20.64 12.46 33.27 33.63
OI 13.08 35.45 36.55 14.92
SKY/AT&T 0.00 19.38 78.22 2.40
TIM 3.89 13.75 24.40 57.96
VIVO 2.08 15.51 51.14 31.26
velo_faixarecod
empresa 0Kbps a 512Kbps 512kbps a 2Mbps 2Mbps a 34Mbps > 34Mbps
CLARO 42.92 13.39 24.04 40.00
OI 54.22 75.92 52.65 35.36
SKY/AT&T 0.00 0.23 0.62 0.03
TIM 0.28 0.51 0.61 2.39
VIVO 2.59 9.96 22.08 22.22
Análise gráfica
Acesso internet
Velocidade internet
A queda brusca entre 2018 e 2019 nas regiões Centro-Oeste e Sudeste é dada pela alta frequência de valores 0. O glossário disponibilizado pela Anatel não faz nem menção ao comportamento e nem o que valor 0 possa significar nesse contexto.
Reclamações
Objetivos de Desenvolvimento Sustentável (ODS)
Os Objetivos de Desenvolvimento Sustentável são um apelo global à ação para acabar com a pobreza, proteger o meio ambiente e o clima e garantir que as pessoas, em todos os lugares, possam desfrutar de paz e de prosperidade. Estes são os objetivos para os quais as Nações Unidas estão contribuindo a fim de que possamos atingir a Agenda 2030 no Brasil.4
17.6 Melhorar a cooperação Norte-Sul, Sul-Sul e triangular regional e internacional e o acesso à ciência, tecnologia e inovação, e aumentar o compartilhamento de conhecimentos em termos mutuamente acordados, inclusive por meio de uma melhor coordenação entre os mecanismos existentes, particularmente no nível das Nações Unidas, e por meio de um mecanismo de facilitação de tecnologia global.5
Footnotes
AGÊNCIA NACIONAL DE TELECOMUNICAÇÕES. Dados abertos da ANATEL [recurso eletrônico]. Brasília, DF: Dados.gov.br, [s.d.]. Disponível em: https://dados.gov.br/dados/organizacoes/visualizar/agencia-nacional-de-telecomunicacoes. Acesso em: 31 mar. 2023.↩︎
INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA. Estimativas de População [recurso eletrônico]. Rio de Janeiro: IBGE, 2021. Disponível em: https://www.ibge.gov.br/estatisticas/sociais/populacao/9103-estimativas-de-populacao.html. Acesso em: 31 mar. 2023.↩︎
BANCO MUNDIAL. Acesso à internet de banda larga (% da população) [recurso eletrônico]. Washington, DC: Banco Mundial, 2021. Disponível em: https://data.worldbank.org/indicator/IT.NET.BBND.P2. Acesso em: 31 mar. 2023.↩︎
ORGANIZAÇÃO DAS NAÇÕES UNIDAS. Brasil. Objetivos de Desenvolvimento Sustentável [recurso eletrônico]. Brasília, DF: ONU Brasil, [s.d.]. Disponível em: https://brasil.un.org/pt-br/sdgs. Acesso em: 31 mar. 2023.↩︎
ORGANIZAÇÃO DAS NAÇÕES UNIDAS. Brasil. Objetivos de Desenvolvimento Sustentável [recurso eletrônico]. Brasília, DF: ONU Brasil, [2021]. Disponível em: https://brasil.un.org/pt-br/sdgs/17. Acesso em: 31 mar. 2023.↩︎