knitr::opts_chunk$set(echo = TRUE)
options(digits=4)

0 Folha de Rosto

                                 UNIVERSIDADE FEDERAL FLUMINENSE   
                                       ESCOLA DE ENGENHARIA   
                          PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA CIVIL
                            
                          
                          
                          
                          
                          
                          
                          
                                    Trabalho de Estatística
                                    
                                    
                                    
                                    
                                    
                              
                         ANÁLISE DO CONSUMO DE CIMENTO NO BRASIL EM 2019   
                              
                              
                              
                              
                              
                              
                              
                              
                                
                                
                                
                                
                                
                                  Aluno: Hugo Saulo Morgado Ribeiro   
                            Disciplina: Estatística aplicada à engenharia   
                                        Docente: Steven Ross   
                                      Matrícula: M015.220.006    
                                           
                                           
                                             Niterói   
                                           
                                              2021
                                          

1. Introdução

O Brasil, como os demais países em desenvolvimento, tem uma grande carência de infraestrutura em diversas áreas, além da grande desigualdade social e da significativa discrepância na taxa de desenvolvimento dos estados e regiões.Apesar dos altos e baixos da economia, o impacto da construção civil tanto no PIB, como na geração de empregos é muito grande, sendo esse setor um dos principais motores da economia.Segundo o Sienge, em 2019 a construção civil representava 6,7 milhões de postos de trabalho. Isso era o equivalente a 7,3% de todos os empregos no Brasil,ou seja, cada 14 pessoas empregadas, uma trabalha na construção civil.

Semelhante a geração de empregos, o impacto do nosso setor na economia representou em 2017, segundo o FIBRA, 6,2% do PIB. Isso equivale a cerca de R$ 322 bilhões e coloca a construção civil entre os seis principais motores da economia, juntamente com agricultura, energia, mineração e outros.

O mercado do cimento no Brasil é atualmente composto por 24 grupos cimenteiros, nacionais e estrangeiros, com 100 plantas que produziam clinquer e/ou cimento normalmente até o ano de 2014, quando, no ano seguinte, começou a grande crise do setor e muitas fábricas começaram a fechar unidades de moagem e mesmo plantas integradas. Até o final de 2018 foram fechadas 20 fábricas de cimento, sendo 12 integradas e oito moagens. Das 13 plantas que rodavam e produziam cimento no Estado de São Paulo, seis tiveram as atividades interrompidas (SIENGE, 2020).

O cimento vêm sendo utilizado há bastante tempo em diversas obras de infraestrutura em todo o mundo. O Brasil, por ser um país continental,utiliza em grande escala esse insumo, que é de enorme importância para o país e para o desenvolvimento nacional. A construção civil é de grande relevância para a economia, sendo, atualmente, um dos principais setores geradores de empregos diretos e indiretos na população ativa, impactando diretamente no desenvolvimento nacional.

A Câmara Brasileira da Indústria da Construção (CBIC) foi fundada em 1957, no Estado do Rio de Janeiro, com o objetivo de tratar das questões ligadas à Indústria da Construção e ao Mercado Imobiliário, além de ser a representante institucional do setor no Brasil e no exterior.A CBIC representa institucionalmente o setor e promove a integração da cadeia produtiva da construção em âmbito nacional, contribuindo para o desenvolvimento econômico e social do país.

A entidade também representa internacionalmente a indústria da construção. Integra a Federação Interamericana da Indústria da Construção (FIIC), entidade que representa a construção em toda a América Latina, e da qual assumiu a liderança de comissão técnica criada em 2016 para discutir e articular ações destinadas a fomentar a inserção de um maior número de empresas da construção em projetos de infraestrutura nos diversos mercados mundiais. Com isso, a CBIC tem capacidade técnica para pesquisar e emitir periodicamente diversos boletins inerentes aos dados da Construção Civil em todo o país, como: consumo de materiais de construção, novos materiais que vêm sendo implementados no mercado, além do acompanhamento da produção nacional e do monitoramento do crescimento do setor em diversos estados.

Nesse trabalho, também foram utilizados dados do IBGE, Instituto Brasileiro de Geografia e Estatística, do ano de 2018, que, atualmente é o principal provedor de dados e informações do país,além de desenvolver diversas funções ligadas às pesquisas e análise de informações de cunho estatístico em todo o território nacional. Através dos dados referentes a cada estado, como PIB, renda média dos cidadãos e IDH, foi possível produzir nesse relatório um estudo estatístico que visa demonstrar como esses parâmetros de cunho social podem impactar diretamente no consumo de cimento pelos estados.

O Índice de Desenvolvimento Humano (IDH) é uma medida resumida do progresso a longo prazo em três dimensões básicas do desenvolvimento humano: renda, educação e saúde. O objetivo da criação do IDH foi o de oferecer um contraponto a outro indicador muito utilizado, o Produto Interno Bruto (PIB) per capita, que considera apenas a dimensão econômica do desenvolvimento.” (PNUD, 2020).

Conforme citado no Atlas do Desenvolvimento Humano no Brasil (2020), as faixas do IDH são as seguintes:

MUITO ALTO: 0,800 - 1,000

ALTO: 0,700 - 0,799

MÉDIO: 0,600 - 0,699

BAIXO: 0,500 - 0,599

MUITO BAIXO: 0,000 - 0,499

2. Objetivos Gerais

Esse trabalho tem como objetivo geral apresentar o consumo de cimento mensal em toneladas de todos os estados da federação durante o ano de 2019, relacionando esses dados com outras variáveis que influenciam diretamente no consumo desse material tão importante para a construção. Tais variáveis são: PIB,RENDA e CONSUMO. Essas variáveis se referem ao Produto Interno Bruto do pais, a renda média dos habitantes de cada estado e ao consumo per capita por toneladas por habitante ano em cada estado. Relacionando essas variáveis com o consumo de cimento por métodos estatísticos é possível avaliar os impactos que esses dados podem causar na indústria da contrução civil em todo o país.

2.1 Objetivos Específicos

Verificar através de testes estatísticos e de gráficos como as variáveis qualitativas e quantitativas podem se relacionar entre si e qual é o resultado dessa análise para o consumo de cimento no Brasil em 2019. Informar através de gráficos e mapas as possíveis variações no consumo de cimento no país ao longo do ano de 2019 e como a quantidade consumida desse produto tão importante pode sofrer influência direta de outros fatores, como PIB,IDH e renda dos cidadãos.

3. Metodologia empregada

O presente trabalho é constituido das seguintes etapas:

Etapa 1 - Importação da base de dados referente ao consumo de cimento no ano de 2019 do site da CBIC;

Etapa 2 - Manipulação estatística das principais variáveis do banco de dados;

Etapa 3 - Teste de Hipóteses Estatísticas e suas interpretações inerentes ao trabalho;

Etapa 4 - Gráficos do tipo Boxplot juntamente com suas interpretações;

Etapa 5 - Estatísticas dos dados e suas interpretações;

Etapa 6 - Diagrama de Dispersão e Matriz de Correlação das principais variáveis e suas interpretações;

Etapa 7 - Mapas nacionais do consumo de cimento com as principais variáveis e suas interpretações.

A tabela abaixo apresenta a base de dados do CBIC utilizada nessa pesquisa:

# Biblioteca necessária para incluir a tabela: 

library(kableExtra) 

# Base de dados utilizada na pesquisa:

library(readxl)
dados4 <- read_excel("trabalho estatistica/dados4.xlsx")
View(dados4)

# Apresentando os números sem notação científica:

options(scipen = 999)

# Realizando a manipulação da tabela da base de dados: 

  kable(dados4, row.names = FALSE)%>%
  kable_styling( full_width = T,bootstrap_options = c("striped", "hover", "condensed", "responsive"), 
                 position = "center", fixed_thead = T) %>%
  scroll_box(width = "900px", height = "600px")
LOCALIDADE ESTADO CODIGO POPULAÇÃO REGIÃO COD REGIAO PIB IDH RENDA JAN FEV MAR ABR MAI JUN JUL AGO SET OUT NOV DEZ TOTAL CONSUMO
RONDÔNIA RO 11 1796460 Norte N 44914000 0.725 1113 32559 24910 28713 32660 31635 35142 36419 40300 35493 38489 35591 27530 399441 0.22
ACRE AC 12 894470 Norte N 15331100 0.719 909 11188 10381 8080 11154 12508 12126 14496 16723 15253 16531 15206 10160 153806 0.17
AMAZONAS AM 13 4207714 Norte N 100109200 0.733 791 42731 36026 34609 40787 39823 39957 52048 53567 46239 51066 51684 44907 533444 0.13
RORAIMA RR 14 631181 Norte N 13370000 0.752 1204 9908 10723 10625 10593 10681 7887 9751 9654 9422 11160 10491 10225 121120 0.19
PARÁ PA 15 8690745 Norte N 161349600 0.698 863 110704 91638 90744 82108 97490 96803 118687 109761 120188 131620 125374 115811 1290928 0.15
AMAPÁ AP 16 861773 Norte N 16795200 0.741 857 9691 7378 6970 7612 8442 8835 11251 11342 13110 13195 10053 12274 120153 0.14
TOCANTINS TO 17 1590248 Norte N 35666200 0.743 1045 31615 30275 29568 26940 35910 33954 37983 40046 32647 39065 36180 28749 402932 0.25
MARANHÃO MA 21 7114598 Nordeste NE 98179500 0.687 605 70660 50796 47834 45327 54032 60657 67250 70773 67010 81128 81737 76841 774045 0.11
PIAUÍ PI 22 3281480 Nordeste NE 50378400 0.697 817 57142 46283 43390 40824 55063 56474 68133 68642 64741 71269 67631 62845 702437 0.21
CEARÁ CE 23 9187103 Nordeste NE 155903800 0.735 855 151601 129537 105236 110835 127925 127138 157128 164440 140298 168407 163615 155070 1701230 0.19
RIO GRANDE DO NORTE RN 24 3534165 Nordeste NE 66969600 0.731 956 46081 38703 36037 38430 44471 37884 51585 54306 52511 59472 54022 49791 563293 0.16
PARAÍBA PB 25 4039277 Nordeste NE 64373600 0.722 898 68053 55231 53723 57457 62755 48148 62190 62219 61329 81988 79341 76646 769080 0.19
PERNAMBUCO PE 26 9616621 Nordeste NE 186352000 0.727 871 149983 123483 125104 129633 138233 109657 128809 140408 134634 189040 166406 155456 1690846 0.18
ALAGOAS AL 27 3351543 Nordeste NE 54413000 0.683 714 32388 30378 30641 32337 36405 22499 27961 32378 32582 42703 38584 36503 395359 0.12
SERGIPE SE 28 2318822 Nordeste NE 42018000 0.702 906 36567 30849 31021 31437 31533 26431 25978 29860 39045 45213 42237 39732 409903 0.18
BAHIA BA 29 14930634 Nordeste NE 286239500 0.714 841 291428 249430 241612 252303 281912 200213 270511 281466 285535 328259 298078 264838 3245585 0.22
MINAS GERAIS MG 31 21292666 Sudeste SE 614875800 0.787 1322 501489 460699 445583 509271 532602 500905 588495 589349 543982 614074 557419 412582 6256450 0.29
ESPÍRITO SANTO ES 32 4064052 Sudeste SE 137020100 0.772 1295 111377 98614 94022 91546 95674 88927 105688 104711 97530 99651 76710 75456 1139906 0.28
RIO DE JANEIRO RJ 33 17366189 Sudeste SE 758859000 0.796 1689 232609 195364 205690 231354 236711 215360 258015 244870 225410 252849 226618 190993 2715843 0.16
SÃO PAULO SP 35 46289333 Sudeste SE 2210561900 0.826 1898 860232 773607 790146 886929 941600 817301 957289 978990 906956 980948 872046 692232 10458276 0.23
PARANÁ PR 41 11516840 Sul S 440029400 0.792 1607 323005 291453 300203 317058 314142 301878 358797 356169 316188 346214 323401 238466 3786974 0.33
SANTA CATARINA SC 42 7252502 Sul S 298227100 0.808 1660 252700 246146 255873 273299 270918 256605 303526 299284 284550 307576 281317 226233 3258027 0.45
RIO GRANDE DO SUL RS 43 11422973 Sul S 457294000 0.787 1705 226547 228500 223896 234132 207586 228583 234565 249519 230086 233136 233800 223214 2753564 0.24
MATO GROSSO DO SUL MS 50 2809394 Centro-Oeste MW 106969100 0.766 1439 77048 65660 65445 78095 80998 69415 87346 82888 79287 81855 77495 56612 902144 0.32
MATO GROSSO MT 51 3526220 Centro-Oeste MW 137442900 0.774 1386 102685 96144 102197 106712 124057 124625 133116 144310 140357 152769 124038 95054 1446064 0.41
GOIÁS GO 52 7113540 Centro-Oeste MW 195681700 0.769 1323 178918 161936 173792 176627 207991 185784 234176 226996 218141 234939 199619 168797 2367716 0.33
DISTRITO FEDERAL DF 53 3055149 Centro-Oeste MW 254817200 0.851 2460 48990 44726 44491 43901 55019 50942 63992 64127 60822 65182 51282 43554 637028 0.21

3.1 Dicionário de dados utilizados nesse trabalho

A tabela abaixo constitui o dicionário de dados, em que constam as variáveis e uma breve explicação do que cada uma delas significa.

Abaixo está apresentado o dicionário de dados, local onde estão todas as variáveis do banco de dados:

# Base de dados em que está o dicionário de dados:

library(readxl)

dicio <- read_excel("C:/Users/User/Desktop/trabalho estatistica/dados4.xlsx")

# Execução e manipulação da tabela:

library(DT)

DT::datatable(dicio, rownames = FALSE, colnames = FALSE)

Nesse trabalho foram utilizadas as seguintes variáveis:

  • LOCALIDADE: São os estados que compõem a República Federativa do Brasil;

  • ESTADO: São as siglas de cada estado do país;

  • CÓDIGO: É o código numérico que representa cada estado do país;

  • POPULAÇÃO: Trata-se da população dos estados no ano de 2018;

  • REGIÃO: Trata-se das subdivisões das regiões do país;

  • COD REGIÃO: Trata-se de um código de uma ou duas letras para cada região do país;

  • PIB: Trata-se do Produto Interno Bruto, em bilhões de reais, no ano de 2018;

  • IDH: Trata-se do Índice de Desenvolvimento Humano dos estados no ano de 2018;

  • RENDA: Trata-se da renda média dos habitantes em cada estado no ano de 2018;

  • JAN: Trata-se do consumo de cimento em toneladas por estado em Janeiro de 2019;

  • FEV: Trata-se do consumo de cimento em toneladas por estado em Fevereiro de 2019;

  • MAR: Trata-se do consumo de cimento em toneladas por estado em Fevereiro de 2019;

  • ABR: Trata-se do consumo de cimento em toneladas por estado em Fevereiro de 2019;

  • MAI: Trata-se do consumo de cimento em toneladas por estado em Maio de 2019;

  • JUN: Trata-se do consumo de cimento em toneladas por estado em Junho de 2019;

  • JUL: Trata-se do consumo de cimento em toneladas por estado em Julho de 2019;

  • AGO: Trata-se do consumo de cimento em toneladas por estado em Agosto de 2019;

  • SET: Trata-se do consumo de cimento em toneladas por estado em Setembro de 2019;

  • OUT: Trata-se do consumo de cimento em toneladas por estado em Outubro de 2019;

  • NOV: Trata-se do consumo de cimento em toneladas por estado em Novembro de 2019;

  • DEZ: Trata-se do consumo de cimento em toneladas por estado em Dezembro de 2019;

  • TOTAL: Trata-se do total de cimento em toneladas consumido pelos estados em 2019;

  • CONSUMO: Trata-se do total de cimento em toneladas consumido por habitante ano em cada estado em 2019. É o consumo per capita por habitante.

Em estatística, algumas variáveis são classificadas como qualitativas ou categóricas e outras como quantitativas. As variáveis qualitativas nesse trabalho são: LOCALIDADE;ESTADO;REGIÃO e COD REGIÃO. Já as variáveis quantitativas são representadas por:POPULAÇÃO;PIB;IDH;RENDA;JAN;FEV;MAR;ABR; MAI;JUN;JUL;AGO;SET;OUT;NOV;DEZ;TOTAL e CONSUMO.

A variável CONSUMO, que corresponde ao consumo per capita anual em toneladas por habitante em cada estado, sendo calculado dividindo-se o total de cimento consumido no ano pela população de cada estado. Dessa forma, obteve-se o consumo médio anual em toneladas por habitante em cada estado no ano de 2019.

Com essas variáveis foi possível gerar gráficos,executar testes de hipóteses e fornecer dados estatísticos de grande importância para a melhor compreensão dos principais fatores que podem impactar no consumo desse produto tão importante para o desenvolvimento e para as obras de infraestrutura do Brasil.

4. Apresentação dos Testes de Hipóteses

4.1 Testes de Hipóteses para as variáveis que não tem distribuição normal

A seguir tem-se uma breve explicação a respeito dos Testes de Hipóteses Estatísticas realizados nessa pesquisa. Em todos os testes apresentados a seguir o valor de alpha é 0.05. Além disso, em todos os testes também existem as hipóteses nula e alternativa, que são escolhidas de acordo com o p-valor encontrado no teste. Em todos os testes existe a comparação entre p-valor e alpha, conforme explicitado abaixo.

4.1.1 Teste de Shapiro-Wilk para Normalidade

O objetivo deste teste é fornecer uma estatística para avaliar se uma amostra tem distribuição normal. O teste pode ser utilizado para amostras de qualquer tamanho. A avaliação do pressuposto de normalidade é exigida pela maioria dos procedimentos estatísticos. A análise estatística paramétrica é um dos melhores exemplos para mostrar a importância de avaliar a suposição de normalidade.

Hipóteses do Teste de Shapiro-Wilk:

H0(Hipótese nula): os dados seguem uma distribuição normal. H1(Hipótese alternativa) : os dados não seguem uma distribuição normal. alpha = 0,05

Interpretação a ser realizada para a verificação da normalidade por esse teste:

Se Pvalor ≤ alpha: rejeita-se H0 Se Pvalor > alpha: não se rejeita H0

4.1.2 Teste da Correlação de Spearman

O Teste de Correlação de Spearman também faz a mensuração da associação linear entre duas variáveis quantitativas. Esse teste deve ser realizado para as variáveis que não apresentam distribuição normal.

Hipóteses do Teste de Spearman:

Hipótese nula: Não há associação entre as duas variáveis.Não há correlação entre as variáveis. Hipótese alternativa: Há associação entre as duas variáveis.Existe correlação entre as variáveis. rho: se estiver afastado de 1 ou -1 indica correlação fraca entre as variáveis.

H0(Hipótese nula): se o valor de rho = 0: não há correlação entre as variáveis. H1(Hipótese alternativa): se o valor de rho for diferente de zero: há correlação entre as variáveis. alpha = 0,05

Se Pvalor ≤ alpha: rejeita-se H0 Se Pvalor > alpha: não se rejeita H0

4.1.3 Teste de Kruskal-Wallis

O Teste de Kruskal-Wallis pode ser aplicado a variáveis categóricas com mais de dois grupos. Sem outras suposições sobre a distribuição dos dados, o teste de Kruskal-Wallis não aborda hipóteses sobre medianas dos grupos. Em vez disso, o teste aborda se é provável que uma observação em um grupo seja maior que uma observação em outro grupo. O teste assume que as observações são independentes, ou seja, não é apropriado para observações emparelhadas ou dados de medidas repetidas.
Após a verificação do pressuposto de normalidade, esse teste foi executado para os dados que não seguem distribuição normal.

Hipóteses do Teste de Kruskal-Wallis:

H0(Hipótese nula): os grupos analisados possuem distribuições idênticas. H1(Hipótese alternativa): os grupos analisados possuem diferentes distribuições. alpha = 0,05

Se Pvalor ≤ alpha: rejeita-se H0 Se Pvalor > alpha: não se rejeita H0

4.1.4 Teste de Comparações Múltiplas de Wilcoxon

O teste de Comparações Múltiplas de Wilcoxon de duas amostras é tipicamente um teste de igualdade estocástica entre duas distribuições de dados. Esse teste é baseado em classificação que compara valores para dois grupos. Um resultado significativo sugere que os valores para os dois grupos são diferentes. O teste ainda aborda se é provável que uma observação em um grupo seja maior que uma observação no outro. Em casos de distribuições não normais, usamos testes não paramétricos, como o Teste de Wilcoxon para comparar as as médias.

Hipóteses para o Teste de Wilcoxon:

H0(Hipótese nula): os dois grupos são amostrados de populações com distribuições idênticas. H1(Hipótese alternativa): os dois grupos são amostrados de populações com distribuições diferentes. alpha = 0,05

Se Pvalor ≤ alpha: rejeita-se H0 Se Pvalor > alpha: não se rejeita H0

4.2 Testes de Hipóteses para a variável que tem distribuição normal

Nessa pesquisa, a variável IDH apresenta distribuição normal, como será demonstrado mais adiante, sendo necessário a aplicação de outros testes para essa variável.

4.2.1 Teste de Bartlett:

O teste de Bartlett é usado para verificar se as amostras têm homogeneidade de variâncias (variâncias iguais). A avaliação do pressuposto de homogeneidade de variâncias é exigida pela maioria dos procedimentos estatísticos. O Teste de Bartlett pode ser usado para verificar esse pressuposto.

Hipóteses para o Teste de Bartlett:

H0(Hipótese nula): as variâncias são iguais. H1(Hipótese alternativa): as variâncias são desiguais para pelo menos dois grupos. alpha = 0,05

Se Pvalor ≤ alpha: rejeita-se H0 Se Pvalor > alpha: não se rejeita H0

4.2.2 Teste Anova:

Esse teste pode comparar mais de duas médias e mostra se as diferenças entre essas médias são significativas.O teste permite que se avalie se a diferença entre as médias ocorreram por acaso ou não. Esse teste deve ser utilizado somente após a avaliação dos pressupostos de normalidade, de homogeneidade de variâncias (variâncias iguais), e de independência.

Esse teste deve ser empregado nas seguintes situações:

  • Os dados seguem a distribuição normal;
  • Tem-se dois grupos ou mais;
  • Concluiu-se no Teste de Bartlett que os grupos têm variâncias iguais

Hipóteses do Teste Anova:

H0(Hipótese nula): as médias entre os grupos são iguais. H1(Hipótese alternativa):há pelo menos uma diferença entre as médias dos grupos. alpha = 0,05

Se Pvalor ≤ alpha: rejeita-se H0 Se Pvalor > alpha: não se rejeita H0

4.2.3 Teste das Comparações Múltiplas de Tukey:

O Teste de Tukey é um dos testes de comparação de média mais utilizado, por ser bastante rigoroso e de fácil aplicação. Ele consiste em comparar todos os possíveis pares de médias e se baseia na diferença mínima significativa “D.M.S”, considerando os percentis do grupo. No cálculo da “D.M.S”, utiliza-se também a distribuição da amplitude estudentizada, o quadrado médio dos resíduos da ANOVA e o tamanho amostral dos grupos. Esse teste é aplicado quando o teste “F” para tratamentos da ANOVA (análise de variância) for significativo.

Sendo as médias diferentes, por meio do Teste de Tukey é possível avaliar essas médias. Essa avaliação será realizada com base no p-valor ajustado, que aparece como pajd na tabela gerada após o teste.

Hipóteses do Teste de Tukey:

H0(Hipótese nula): os grupos possuem distribuição em média diferentes entre si H1(Hipótese alternativa):os grupos possuem distribuição em média semelhantes entre si alpha = 0,05

Se Pvalor ≤ alpha: rejeita-se H0 Se Pvalor > alpha: não se rejeita H0

5. Realização do Testes de Hipóteses

5.1 Teste de Shapiro-Wilk

O Teste de Shapiro, utilizado para variáveis quantitativas, pode ser utilizado para as seguintes variáveis do banco de dados:

Primeiro Trimestre: JAN e MAR Segundo Trimestre: ABR e JUN Terceiro Trimetre: JUL e SET Quarto Trimestre: OUT e DEZ

Também incluem-se as variáveis: CONSUMO, TOTAL,RENDA, PIB, IDH e POPULAÇÃO

Entretanto, nesse trabalho, optou-se por trabalhar como algumas variáveis específicas dentro de cada trimestre do ano de 2019. Essas variáveis são os meses do ano.

5.1.1 Realização do Teste de Shapiro para algumas variáveis correspondentes aos meses do ano

Inicialmente foram realizados vários Testes de Shapiro para verificar uma possível normalidade das principais variáveis do banco de dados.

Realizou-se, inicialmente, teste para os meses iniciais e finais de cada trimestre do ano de 2019:

## Teste de normalidade (Shapiro Wilk)

# H0: os dados seguem uma distribuição normal
# H1: os dados NÃO seguem uma distribuição normal
# alpha = 0.05

## Aplicando o Teste de Shapiro para as seguintes variáveis quantitativas:

# Meses iniciais e finais do primeiro trimestre:

shapiro.test(dados4$JAN)

    Shapiro-Wilk normality test

data:  dados4$JAN
W = 0.71, p-value = 0.000005
shapiro.test(dados4$MAR)

    Shapiro-Wilk normality test

data:  dados4$MAR
W = 0.7, p-value = 0.000004
# Meses iniciais e finais do segundo trimestre: 

shapiro.test(dados4$ABR)

    Shapiro-Wilk normality test

data:  dados4$ABR
W = 0.68, p-value = 0.000002
shapiro.test(dados4$JUN)

    Shapiro-Wilk normality test

data:  dados4$JUN
W = 0.69, p-value = 0.000003
# Meses iniciais e finais do terceiro trimestre: 

shapiro.test(dados4$JUL)

    Shapiro-Wilk normality test

data:  dados4$JUL
W = 0.7, p-value = 0.000004
shapiro.test(dados4$SET)

    Shapiro-Wilk normality test

data:  dados4$SET
W = 0.69, p-value = 0.000003
# Meses iniciais e finais do terceiro trimestre: 

shapiro.test(dados4$OUT)

    Shapiro-Wilk normality test

data:  dados4$OUT
W = 0.7, p-value = 0.000004
shapiro.test(dados4$DEZ)

    Shapiro-Wilk normality test

data:  dados4$DEZ
W = 0.74, p-value = 0.00001
#Conclusão:
#Como pvalor < 0.05, rejeito H0
#os dados NÃO seguem uma distribuição normal

Conclusão:

Constatou-se que para as variáveis testadas, tem-se: pvalor < 0.05.Logo, rejeita-se a hipótese nula H0 e conclui-se que os dados não seguem uma distribuição normal e pode ser executado em seguida o Teste de kruskal-Wallis.

5.1.2 Realização do Teste de Shapiro para outras variáveis

Realizou-se também, o Teste de Shapiro, para outras variáveis quantitativas do banco de dados, afim de verificar a normalidade das variáveis.

Foram realizados testes de normalidade para as seguintes variáveis:

RENDA
PIB
IDH
POPULAÇÃO
CONSUMO
TOTAL

#Teste de normalidade (Shapiro Wilk)

#H0: os dados seguem uma distribuição normal
#H1: os dados NÃO seguem uma distribuição normal
#alpha = 0.05

# Tranformando variáveis:####ALTEREI

dados4$PIB<-as.numeric(sub(",", ".", dados4$PIB))
dados4$IDH<-as.numeric(sub(",", ".", dados4$IDH))
dados4$RENDA<-as.double(dados4$RENDA)
dados4$CONSUMO<-as.double(dados4$CONSUMO)

# Aplicando o Teste de Shapiro para outras variáveis quantitativas:####ALTEREI

shapiro.test(dados4$RENDA)

    Shapiro-Wilk normality test

data:  dados4$RENDA
W = 0.9, p-value = 0.01
shapiro.test(dados4$PIB)

    Shapiro-Wilk normality test

data:  dados4$PIB
W = 0.8, p-value = 0.0002
shapiro.test(dados4$POPULAÇÃO)

    Shapiro-Wilk normality test

data:  dados4$POPULAÇÃO
W = 0.67, p-value = 0.000002
shapiro.test(dados4$CONSUMO)

    Shapiro-Wilk normality test

data:  dados4$CONSUMO
W = 0.92, p-value = 0.03
shapiro.test(dados4$TOTAL)

    Shapiro-Wilk normality test

data:  dados4$TOTAL
W = 0.7, p-value = 0.000004
#Conclusão:
#Como pvalor < 0.05, rejeito H0
#os dados NÃO seguem uma distribuição normal

# Aplicando o Teste de Shapiro para a variável IDH:

shapiro.test(dados4$IDH)

    Shapiro-Wilk normality test

data:  dados4$IDH
W = 0.97, p-value = 0.5
#Conclusão:
#Como pvalor > 0.05, não rejeito H0
#os dados seguem uma distribuição normal

Conclusão:

Para a variável “IDH”, tem-se: pvalor > 0.05. Logo, não é possível rejeitar a hipótese nula H0.Portanto, para essa variável, os dados seguem uma distribuição normal e será necessário executar o Teste de Bartlett.

Para as outras variáveis testadas, tem-se: pvalor < 0.05.Logo, rejeita-se a hipótese nula H0 e conclui-se que os dados não seguem uma distribuição normal e pode ser executado em seguida o Teste de kruskal-Wallis.

5.2 Realização do Teste de Bartlett

Esse Teste, também chamado de Teste da Homogeneidade das Variâncias, é utilizado para variáveis que apresentam distribuição normal. Nessa pesquisa, a variável IDH apresenta esse tipo de distribuição, pois ao ser realizado o Teste de Shapiro para essa variável encontrou-se pvalor > 0.05.

Será realizado o Teste de Bartlett com o objetivo de verificar se a Região interfere no IDH dos estados.

# Testando se a Região interfere no IDH:

# Tranformação necessária para a variável *IDH*:

dados4$IDH<-as.numeric(sub(",", ".", dados4$IDH))

# Criação de um modelo estatístico:
modelo <- aov(IDH~REGIÃO, data=dados4)
residuos <- residuals(modelo)

summary(residuos)
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.03214 -0.01494 -0.00367  0.00000  0.01260  0.06100
# Hipóteses

#H0: os dados seguem uma distribuição normal
#H1: os dados NÃO seguem uma distribuição normal
#alpha = 0.05

#pvalor>0.05
#NÃO rejeito H0 (os dados seguem distribuição normal)

shapiro.test(residuos)
## 
##  Shapiro-Wilk normality test
## 
## data:  residuos
## W = 0.95, p-value = 0.2
# p-value = 0.5158

# Conclusão: Como pvalor>0.05, então os dados inerentes ao IDH seguem distribuição normal. 

# Teste de Bartlett:

bartlett.test(residuos~dados4$REGIÃO)
## 
##  Bartlett test of homogeneity of variances
## 
## data:  residuos by dados4$REGIÃO
## Bartlett's K-squared = 4.9, df = 4, p-value = 0.3
#p-value = 0.3005

# Hipóteses do Teste de Bartlett:

#H0: todas as variâncias são iguais
#H1: pelo menos uma das variâncias é diferente
#alpha = 0.05

#pvalor>0.05, NÃO rejeito H0
#todas as variâncias são iguais

Conclusão:

Ao executar o Teste de Bartlett, percebeu-se que pvalor>0.05, logo a hipótese H0 não pode ser rejeitada, concluindo que todas as variâncias para o IDH são iguais.

5.3 Realização do Teste Anova

Em seguida, já tendo concluído que as variâncias são todas iguais, executou-se o Teste de Anova para um modelo estatístico formado pelas variáveis IDH e REGIÃO.

O Teste Anova deve ser realizado quando as variâncias são todas iguais.

# Teste de Anova para *IDH* e *Região*:

modelo2 <- aov(IDH~REGIÃO, data= dados4)
summary(modelo2)
##             Df Sum Sq Mean Sq F value    Pr(>F)    
## REGIÃO       4 0.0374 0.00934    17.5 0.0000014 ***
## Residuals   22 0.0117 0.00053                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
# Hipóteses do Teste de Anova:

#pvalor>0.05, não rej H0
#coeficientes das retas de regressão são iguais

# P-valor representado por  Pr(>F)= 0.00000137

Conclusão:

Ao realizar o Teste de Anova para as variáveis IDH e REGIÃO, encontrou-se pvalor<0.05,representado por PR(>F) na matriz, ou seja, a hipótese nula deve ser rejeitada. Portanto, conclui-se, que existe ao menos uma média entre os grupos que difere das demais.

Para avaliar qual é a média diferente, deve-se executar o Teste de Comparações Múltiplas de Tukey entre as variáveis IDH e REGIÃO.

5.4 Realização do Teste de Comparações Múltiplas de Tukey

Realizando o Teste de Tukey para as variáveis IDH e REGIÃO. Com esse teste será possível saber quais regiões apresentam distribuição em média do IDH diferentes e semelhantes dentro do mesmo grupo.

# Teste de Comparações Múltiplas de Tukey:

TukeyHSD(modelo2)
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = IDH ~ REGIÃO, data = dados4)
## 
## $REGIÃO
##                             diff      lwr      upr  p adj
## Nordeste-Centro-Oeste -0.0791111 -0.12030 -0.03792 0.0001
## Norte-Centro-Oeste    -0.0598571 -0.10282 -0.01690 0.0036
## Sudeste-Centro-Oeste   0.0052500 -0.04322  0.05372 0.9975
## Sul-Centro-Oeste       0.0056667 -0.04668  0.05802 0.9975
## Norte-Nordeste         0.0192540 -0.01529  0.05380 0.4810
## Sudeste-Nordeste       0.0843611  0.04317  0.12555 0.0000
## Sul-Nordeste           0.0847778  0.03908  0.13047 0.0001
## Sudeste-Norte          0.0651071  0.02215  0.10807 0.0015
## Sul-Norte              0.0655238  0.01823  0.11282 0.0038
## Sul-Sudeste            0.0004167 -0.05193  0.05277 1.0000

Conclusão:

Ao executar o Teste de Tukey, deve-se observar os valores de p adj, que é o p-valor ajustado. Ao observar esses dados, notou-se que para as regiões Nordeste e Centro-Oeste; Norte e Centro-Oeste;Sudeste e Nordeste;Sul e Nordeste;Sudeste e Norte; Sul e Norte, têm pvalor<0.05, o que indica que esses grupos apresentam distribuição em média do IDH diferentes dentro do mesmo grupo. Os outros grupos, que têm pvalor>0.05, apresentam distribuição em média do IDH semelhantes dentro do mesmo grupo.

6. Construção de gráficos para constatar a situação de normalidade das variáveis

6.1 Gráficos para as variáveis referentes aos meses do ano

Com o objetivo de reiterar a condição de não normalidade das variáveis testadas pelo Teste de Shapiro acima, pode-se construir gráficos para confirmar essa situação.

Realizou-se a construção de gráficos que auxiliam na reafirmação da condição de não normalidade para as variáveis inerentes aos meses do ano.

Construindo gráficos para os meses iniciais e finais de cada trimestre para reiterar a situação de normalidade do consumo de Cimento em toneladas em alguns meses do ano de 2019:

6.1.1 Gráfico do consumo de Cimento em Janeiro e Março de 2019

# JANEIRO: 
qqnorm(dados4$JAN,xlab = "Quantis teóricos",
       ylab = "Consumo",main = "Gráfico 1:Consumo de Cimento no Brasil em Janeiro de 2019")
qqline(dados4$JAN, col = 2)

# MARÇO:

qqnorm(dados4$MAR,xlab = "Quantis teóricos",
       ylab = "Consumo",main = "Gráfico 2: Consumo de Cimento no Brasil em Março de 2019")
qqline(dados4$MAR, col = 3)

6.1.2 Gráfico do consumo de Cimento em Abril e Junho de 2019

# ABRIL: 
qqnorm(dados4$ABR,xlab = "Quantis teóricos",
       ylab = "Consumo",main = "Gráfico 3: Consumo de Cimento no Brasil em Abril de 2019")
qqline(dados4$ABR, col = 4)

# JUNHO:

qqnorm(dados4$JUN,xlab = "Quantis teóricos",
       ylab = "Consumo",main = "Gráfico 4: Consumo de Cimento no Brasil em Junho de 2019")
qqline(dados4$JUN, col = 5)

6.1.3 Gráfico do consumo de Cimento em Julho e Setembro de 2019

# JULHO: 
qqnorm(dados4$JUL,xlab = "Quantis teóricos",
       ylab = "Consumo",main = "Gráfico 5: Consumo de Cimento no Brasil em Julho de 2019")
qqline(dados4$JUL, col = 6)

# SETEMBRO:

qqnorm(dados4$SET,xlab = "Quantis teóricos",
       ylab = "Consumo",main = "Gráfico 6: Consumo de Cimento no Brasil em Setembro de 2019")
qqline(dados4$SET, col = 7)

6.1.4 Gráfico do consumo de Cimento em Outubro e Dezembro de 2019

# OUTUBRO:

qqnorm(dados4$OUT,xlab = "Quantis teóricos",
       ylab = "Consumo",main = "Gráfico 7: Consumo de Cimento no Brasil em Outubro de 2019")
qqline(dados4$OUT, col = 12)

# DEZEMBRO:

qqnorm(dados4$NOV,xlab = "Quantis teóricos",
       ylab = "Consumo",main = "Gráfico 8: Consumo de Cimento no Brasil em Dezembro de 2019")
qqline(dados4$NOV, col = 9)

Comentário:

Conforme observado, em todos os gráficos QQ-PLOT o consumo de cimento para os meses citados realmente não apresentam uma distribuição normal. Isso pode ser afirmado por causa dos muitos dados que não se encontram enfileirados sobre a reta do gráfico,ou seja, estão mais afastados da reta, confirmando, portanto uma distribuição não normal dos dados de consumo de cimento referentes a esses meses.

6.2 Construção de gráficos para outras variáveis

Realizou-se também a construção de gráficos do tipo “QQPLOT” para reiterar a condição de não normalidade de outras variáveis já testadas pelo Teste de Shapiro, como: Renda,PIB,População,Consumo e Total.

Construindo gráficos do tipo “QQPLOT” para essas variáveis:

# Tranformação de variáveis:### ALTEREI

dados4$PIB<-as.numeric(sub(",", ".", dados4$PIB)) 

dados4$CONSUMO<-as.numeric(sub(",", ".", dados4$CONSUMO))

# RENDA:

qqnorm(dados4$RENDA,xlab = "Quantis teóricos",
       ylab = "Consumo",main = "Gráfico 9: Renda Média por estados em 2019")
qqline(dados4$RENDA, col = 19)

# PIB: #### alterei

qqnorm(dados4$PIB,xlab = "Quantis teóricos",
       ylab = "Consumo",main = "Gráfico 10: PIB por estados em 2019")
qqline(dados4$PIB, col = 19)

# POPULAÇÃO:

qqnorm(dados4$POPULAÇÃO,xlab = "Quantis teóricos",
       ylab = "População",main = "Gráfico 11: Distribuição da Renda Média por estados em 2019")
qqline(dados4$POPULAÇÃO, col = 19)

# CONSUMO:

qqnorm(dados4$CONSUMO,xlab = "Quantis teóricos",
       ylab = "Consumo",main = "Gráfico 12: Consumo per capita por estados em 2019")
qqline(dados4$CONSUMO, col = 19)

# TOTAL:

qqnorm(dados4$TOTAL,xlab = "Quantis teóricos",
       ylab = "Consumo",main = "Gráfico 13: Consumo total de Cimento no Brasil em 2019")
qqline(dados4$TOTAL, col = 14)

Comentário:

Assim como para as variáveis inerentes aos meses do ano, foi observado em todos os gráficos dessas outras variáveis quantitativas que esses dados realmente não apresentam uma distribuição normal, uma vez que a maioria desses valores, que no gráfico são representados por pontos, encontram-se afastados da linha reta, confirmando, portanto, uma distribuição não normal dos mesmos.

6.3 Construção de gráfico para o IDH:

Como já constatado acima, pelo Teste de Shapiro, a variável IDH não apresenta distribuição normal. Em seguida será construido o gráfico QQPLOT para essa variável, afim de reiterar a situação de não normalidade da mesma.

qqnorm(dados4$IDH,xlab = "Quantis teóricos",
       ylab = "IDH",main = "Gráfico 14: IDH por estados em 2019")
qqline(dados4$IDH, col = 27)

Comentário:

Observa-se no gráfico plotado para o IDH que os valores correspondentes a essa variável apresentam uma tendência de enfileiramento sobre ou bem próximo à reta do gráfico, não havendo pontos espalhados ou afastados da reta, o que ratifica que essa variável realmente apresenta distribuição normal.

7. Teste de Spearman

Foi executado o Teste de Spearman para as variáveis que não apresentam distribuição normal, tanto para aquelas que correspondem aos meses do ano, como aquelas que estão relacionadas com o total de cimento consumido, o PIB e o IDH.

7.1 Para as variáveis correspondentes aos meses do ano que não apresentam distribuição normal

Esse teste tem como objetivo verificar se algumas variáveis apresentam correlação entre si. A correlação de Spearman é do tipo não paramétrica, ou seja, pode-se executá-la para as variáveis testadas que não apresentam distribuição normal.

Para as variáveis referentes aos meses do ano, vamos aplicar o teste para os meses iniciais e finais de cada trimestre:

Teste de correlação para os meses iniciais e finais de cada trimestre:

## Teste da correlação de Spearman

#H0(Hipótese nula): se o valor de rho = 0: não há correlação entre as variáveis. 
#H1(Hipótese alternativa): se o valor de rho for diferente de zero: há correlação entre as variáveis.
#alpha = 0,05

#Se Pvalor ≤ alpha: rejeita-se H0
#Se Pvalor > alpha: não se rejeita H0

# Aplicando Spearman para Janeiro e Março:

cor.test(dados4$JAN,dados4$MAR,method = "spearman")
## 
##  Spearman's rank correlation rho
## 
## data:  dados4$JAN and dados4$MAR
## S = 24, p-value = 0.000000008
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##    rho 
## 0.9927
#Conclusão:
# Pvalor ≤ alpha: rejeita-se H0, logo existe correlação entre as variáveis.

# Aplicando Spearman para Abril e Junho:

cor.test(dados4$ABR,dados4$JUN,method = "spearman")
## 
##  Spearman's rank correlation rho
## 
## data:  dados4$ABR and dados4$JUN
## S = 38, p-value = 0.00000003
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##    rho 
## 0.9884
# Aplicando Spearman para Julho e Setembro:

cor.test(dados4$JUL,dados4$SET,method = "spearman")
## 
##  Spearman's rank correlation rho
## 
## data:  dados4$JUL and dados4$SET
## S = 26, p-value = 0.00000001
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##    rho 
## 0.9921
# Aplicando Spearman para Outubro e Dezembro:

cor.test(dados4$OUT,dados4$DEZ,method = "spearman")
## 
##  Spearman's rank correlation rho
## 
## data:  dados4$OUT and dados4$DEZ
## S = 40, p-value = 0.00000004
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##    rho 
## 0.9878
#Conclusão geral:
#Pvalor ≤ alpha: rejeita-se H0, logo existe correlação entre as variáveis.

Conclusão:

Como p-valor é menor do que alpha em todos os testes de Spearman realizados acima, logo pode-se rejeitar a hipótese nula,ou seja, ficamos com a hipótese alternativa, que afirma que existe correlação entre as variáveis. Além disso, em todas as análises o valor de “rho” é positivo, o que indica que conforme uma variável aumenta, a outra também aumenta. Nota-se também um valor alto, próximo de 1, para “rho”, o que indica uma forte correlação entre as variáveis testadas.

7.2 Para outras variáveis que também não apresentam distribuição normal

Vamos realizar o teste de correlação de Spearman para algumas outras variáveis já anteriormente comentadas nesse trabalho.

Aplicando o Teste de Spearman para as seguintes variáveis:

PIB e Total Renda e Total

Com isso, pode-se será possível verificar se esses pares de variáveis tem alguma correlação entre si.

Teste de Spearman para as variáveis:

## Teste da correlação de Spearman

#H0(Hipótese nula): se o valor de rho = 0: não há correlação entre as variáveis. 
#H1(Hipótese alternativa): se o valor de rho for diferente de zero: há correlação entre as variáveis.
#alpha = 0,05

#Se Pvalor ≤ alpha: rejeita-se H0
#Se Pvalor > alpha: não se rejeita H0

## Aplicando o Teste de Spearman

# PIB e Total ### ALTEREI

cor.test(dados4$PIB,dados4$TOTAL,method = "spearman")
## 
##  Spearman's rank correlation rho
## 
## data:  dados4$PIB and dados4$TOTAL
## S = 236, p-value = 0.000001
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##    rho 
## 0.9193
# Renda e Total

cor.test(dados4$RENDA,dados4$TOTAL,method = "spearman")
## 
##  Spearman's rank correlation rho
## 
## data:  dados4$RENDA and dados4$TOTAL
## S = 1818, p-value = 0.02
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##    rho 
## 0.4451
#Conclusão geral:
#Pvalor ≤ alpha: rejeita-se H0, logo existe correlação entre as variáveis.

Conclusão:

Como p-valor é menor do que alpha em todos os testes de Spearman realizados acima, logo pode-se rejeitar a hipótese nula,ou seja, ficamos com a hipótese alternativa, que afirma que existe correlação entre as variáveis.

Observou-se um valor baixo para “rho” quando testou-se as variáveis Renda e Total,o que indica uma correlação mais fraca entre essas variáveis. Isso pode ser explicado pelos estados, que, apesar da baixa renda média, apresentam um consumo considerável de cimento em toneladas por ano.

8. Teste de Kruskal-Wallis

No banco de dados, tem-se a variável qualitativa Região. Essa variável tem mais de duas categorias, já que no Brasil existem cinco regiões distintas. Como essa variável tem mais de duas categorias pode-se realizar o Teste de Kruskal-Wallis, que pode ser feito entre variáveis qualitativas ou categóricas e variáveis quantitativas.

8.1 Realização do Teste de Kruskal-Wallis

Após a verificação do pressuposto de normalidade, executou-se o teste para os dados que não seguem uma distribuição normal.

Seguindo a metodologia dos testes anteriores,em relação as variáveis inerentes aos meses do ano, esse teste também será realizado para os meses iniciais e finais de cada trimestre de 2019.

Realização do Teste para verificar se a variável REGIÃO interfere na quantidade de Cimento consumida ao longo dos meses em 2019.

# Teste de Kruskal-Wallis:

# Hipoteses do Teste: 

#H0: os grupos analisados possuem distribuições idênticas.
#H1: os grupos analisados possuem diferentes distribuições.
#alpha = 0,05
# Se Pvalor <= alpha: rej h0
# Se Pvalor > alpha: não rej h0

# Bibliotecas necessárias para o Teste:

library(dplyr)
## Warning: package 'dplyr' was built under R version 4.0.4
## 
## Attaching package: 'dplyr'
## The following object is masked from 'package:kableExtra':
## 
##     group_rows
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(rstatix)
## Warning: package 'rstatix' was built under R version 4.0.4
## 
## Attaching package: 'rstatix'
## The following object is masked from 'package:stats':
## 
##     filter
# Realização do Teste de Kruskal-Wallis para as variáveis quantitativas referentes aos meses iniciais e finais de cada trimestre do ano de 2019.

# Realização do Teste para os meses de Janeiro e Março de 2019. 

# Testando se a variável *REGIÃO* interfere na quantidade de cimento para o mês de Janeiro e para o mês de Março: 

kruskal.test(dados4$TOTAL~dados4$REGIÃO)
## 
##  Kruskal-Wallis rank sum test
## 
## data:  dados4$TOTAL by dados4$REGIÃO
## Kruskal-Wallis chi-squared = 16, df = 4, p-value = 0.003
kruskal.test(dados4$MAR~dados4$REGIÃO)
## 
##  Kruskal-Wallis rank sum test
## 
## data:  dados4$MAR by dados4$REGIÃO
## Kruskal-Wallis chi-squared = 17, df = 4, p-value = 0.002
# Testando se a variável *REGIÃO* interfere na quantidade de Cimento para o mês de Abril e para o mês de Junho:

kruskal.test(dados4$ABR~dados4$REGIÃO)
## 
##  Kruskal-Wallis rank sum test
## 
## data:  dados4$ABR by dados4$REGIÃO
## Kruskal-Wallis chi-squared = 17, df = 4, p-value = 0.002
kruskal.test(dados4$JUN~dados4$REGIÃO)
## 
##  Kruskal-Wallis rank sum test
## 
## data:  dados4$JUN by dados4$REGIÃO
## Kruskal-Wallis chi-squared = 17, df = 4, p-value = 0.002
# Testando se a variável *REGIÃO* interfere na quantidade de Cimento para o mês de Julho e para o mês de Setembro:

kruskal.test(dados4$JUL~dados4$REGIÃO)
## 
##  Kruskal-Wallis rank sum test
## 
## data:  dados4$JUL by dados4$REGIÃO
## Kruskal-Wallis chi-squared = 16, df = 4, p-value = 0.003
kruskal.test(dados4$SET~dados4$REGIÃO)
## 
##  Kruskal-Wallis rank sum test
## 
## data:  dados4$SET by dados4$REGIÃO
## Kruskal-Wallis chi-squared = 16, df = 4, p-value = 0.003
# Testando se a variável *REGIÃO* interfere na quantidade de Cimento para o mês de Outubro e para o mês de Dezembro:

kruskal.test(dados4$OUT~dados4$REGIÃO)
## 
##  Kruskal-Wallis rank sum test
## 
## data:  dados4$OUT by dados4$REGIÃO
## Kruskal-Wallis chi-squared = 16, df = 4, p-value = 0.003
kruskal.test(dados4$DEZ~dados4$REGIÃO)
## 
##  Kruskal-Wallis rank sum test
## 
## data:  dados4$DEZ by dados4$REGIÃO
## Kruskal-Wallis chi-squared = 15, df = 4, p-value = 0.005
#Conclusão geral:
#Pvalor ≤ alpha: rejeita-se H0, logo os grupos analisados possuem distribuições distintas.

Conclusão:

Conforme observado em todos os Testes de Kruskal-Wallis realizado para as variáveis inerentes aos meses iniciais e finais de cada trimestre, p-valor é menor do que alpha e portanto, conclui-se que os grupos de variáveis testadas apresentam distribuições distintas, ou seja, as distribuições relacionadas ao concumo de Cimento não são idênticas para os meses iniciais e finais de cada trimestre.

Com isso fica comprovado que de fato a variável REGIÃO interfere na quantidade de cimento consumida pelos estados, uma vez que esse consumo realmente é diferente para cada região do país.

8.2 Realização do Teste de Kruskal-Wallis para outras variáveis

Aplicou-se também o Teste para outras variáveis que não apresentam distribuição normal, como RENDA, CONSUMO e TOTAL, juntamente com a variável qualitativa REGIÃO e com isso pode-se verificar se a variável categórica REGIÃO interfere nessas outras variáveis.

Realização do Teste para as variáveisRENDA, CONSUMO e TOTAL

# Teste de Kruskal-Wallis:

# Hipoteses do Teste: 

#H0: os grupos analisados possuem distribuições idênticas.
#H1: os grupos analisados possuem diferentes distribuições.
#alpha = 0,05
# Se Pvalor <= alpha: rej h0
# Se Pvalor > alpha: não rej h0

# Bibliotecas necessárias para o Teste:

library(dplyr)
library(rstatix)

# Realização do Teste de Kruskal-Wallis para as outras variáveis quantitativas: 

kruskal.test(dados4$RENDA~dados4$REGIÃO)
## 
##  Kruskal-Wallis rank sum test
## 
## data:  dados4$RENDA by dados4$REGIÃO
## Kruskal-Wallis chi-squared = 20, df = 4, p-value = 0.0005
kruskal.test(dados4$CONSUMO~dados4$REGIÃO)
## 
##  Kruskal-Wallis rank sum test
## 
## data:  dados4$CONSUMO by dados4$REGIÃO
## Kruskal-Wallis chi-squared = 14, df = 4, p-value = 0.007
kruskal.test(dados4$TOTAL~dados4$REGIÃO)
## 
##  Kruskal-Wallis rank sum test
## 
## data:  dados4$TOTAL by dados4$REGIÃO
## Kruskal-Wallis chi-squared = 16, df = 4, p-value = 0.003
#Conclusão geral:
#Pvalor ≤ alpha: rejeita-se H0, logo os grupos analisados possuem distribuições distintas.

Conclusão:

Conforme observado em todos os testes executados para as variáveis acima, p-valor é menor do que alpha e portanto, conclui-se que os grupos de variáveis testadas apresentam informações distintas, ou seja, as distribuições relacionadas à Renda, consumo per capita por habitante ano e Total consumido em toneladas por cada estado durante o ano apresentam distribuições distintas em cada região do país.

9. Teste de Comparações Múltiplas de Wilcoxon

Esse Teste deve ser utilizado para os dados que não apresentam distribuição normal e tem como objetivo comparar grupos que são dependentes, ou seja, grupos relacionados.

Em casos de distribuições não normais usamos testes não paramétricos, como o Teste de Wilcoxon, para comparar as médias.

Como anteriormente pelo Teste de Kruskal-Wallis já se provou que para os meses inciais e finais de cada trimestre, p-valor é menor do que alpha, então para o Teste de Wilcoxon optou-se por comparar a influência das regiões em relação ao consumo de cimento apenas para os meses iniciais de cada trimestre de 2019.

Inicialmente realizando o Teste para a variável qualitativa REGIÃO e para as variáveis quantitativas inerentes aos meses iniciais de cada trimestre do ano de 2019.

# Teste de Wilcoxon:

#Como pvalor < 0.05, rejeito H0
#Os grupos são amostrados de populações com diferentes distribuições

#Hipótese nula: os dois grupos são amostrados de populações com distribuições idênticas.
#Hipótese alternativa: os dois grupos são amostrados de populações com distribuições diferentes.

# Bibliotecas necessárias para o Teste:

library(dplyr)
library(rstatix)

# Realização do Teste de Wilcoxon para as variáveis quantitativas referentes aos meses iniciais e finais de cada trimestre do ano de 2019.  

# Realização do Teste para os meses de Janeiro e Março de 2019. 

# Testando se a variável *REGIÃO* interfere na quantidade de cimento para o mês de Janeiro de 2019:

PMW1 <- pairwise.wilcox.test(dados4$JAN,
                            dados4$REGIÃO,
                            p.adjust.method="fdr")

# Adjusts p-values for multiple comparisons;
PMW1
## 
##  Pairwise comparisons using Wilcoxon rank sum exact test 
## 
## data:  dados4$JAN and dados4$REGIÃO 
## 
##          Centro-Oeste Nordeste Norte Sudeste
## Nordeste 0.56         -        -     -      
## Norte    0.07         0.06     -     -      
## Sudeste  0.07         0.07     0.06  -      
## Sul      0.07         0.07     0.06  0.86   
## 
## P value adjustment method: fdr
# Testando se a variável *REGIÃO* interfere na quantidade de cimento para o mês de Abril de 2019:

PMW3 <- pairwise.wilcox.test(dados4$ABR,
                             dados4$REGIÃO,
                             p.adjust.method="fdr")
# Adjusts p-values for multiple comparisons;
PMW3
## 
##  Pairwise comparisons using Wilcoxon rank sum exact test 
## 
## data:  dados4$ABR and dados4$REGIÃO 
## 
##          Centro-Oeste Nordeste Norte Sudeste
## Nordeste 0.46         -        -     -      
## Norte    0.06         0.06     -     -      
## Sudeste  0.14         0.06     0.06  -      
## Sul      0.08         0.06     0.06  1.00   
## 
## P value adjustment method: fdr
# Testando se a variável *REGIÃO* interfere na quantidade de cimento para o mês de Julho de 2019:

PMW5 <- pairwise.wilcox.test(dados4$JUL,
                             dados4$REGIÃO,
                             p.adjust.method="fdr")
# Adjusts p-values for multiple comparisons;
PMW5
## 
##  Pairwise comparisons using Wilcoxon rank sum exact test 
## 
## data:  dados4$JUL and dados4$REGIÃO 
## 
##          Centro-Oeste Nordeste Norte Sudeste
## Nordeste 0.37         -        -     -      
## Norte    0.06         0.08     -     -      
## Sudeste  0.14         0.07     0.06  -      
## Sul      0.08         0.06     0.06  0.86   
## 
## P value adjustment method: fdr
# Testando se a variável *REGIÃO* interfere na quantidade de cimento para o mês de Outubro de 2019:

PMW7 <- pairwise.wilcox.test(dados4$OUT,
                             dados4$REGIÃO,
                             p.adjust.method="fdr")
# Adjusts p-values for multiple comparisons;
PMW7
## 
##  Pairwise comparisons using Wilcoxon rank sum exact test 
## 
## data:  dados4$OUT and dados4$REGIÃO 
## 
##          Centro-Oeste Nordeste Norte Sudeste
## Nordeste 0.67         -        -     -      
## Norte    0.06         0.06     -     -      
## Sudeste  0.14         0.06     0.06  -      
## Sul      0.14         0.06     0.06  0.86   
## 
## P value adjustment method: fdr

Conclusão:

Conclui-se que, como p-valor é menor do que alpha, então a hipótese nula é rejeitada. Logo, os grupos analisados são amostrados de distribuições diferentes. Isso quer dizer que a taxa de consumo de Cimento nos meses testados ao longo de 2019 não é a mesma em todas as regiões do país. Dessa forma, entende-se que a região exerce influência direta sobre a quantidade de Cimento em toneladas consumida pelos estados.

Através da Matriz do Teste de Wilcoxon que compara a influência das regiões em relação ao consumo de cimento, percebe-se o seguinte:

Primeiro Trimestre de 2019

Janeiro:

Em relação ao mês de Janeiro, observa-se que as regiões Norte e Centro-Oeste;Sudeste e Centro-Oeste;Sul e Centro-Oeste;Nordeste e Sudeste;Nordeste e Norte;Nordeste e Sul;Norte e Sudeste; Norte e Sul;Sudeste e Sul, apresentam distribuições da variável em média diferentes entre si, pois quando são comparadas uma com a outra, p-valor é menor do que 0,05. Já as regiões Sudeste e Sul; Centro-Oeste e Nordeste, apresentam distribuições da variável em média semelhantes, pois quando são comparadas uma com a outra, p-valor é maior do que 0,05.

Segundo Trimestre de 2019

Abril:

Em relação ao mês de Abril, observa-se que as regiões Norte e Centro-Oeste;Sul e Centro-Oeste;Nordeste e Sudeste;Nordeste e Norte;Nordeste e Sul;Norte e Sudeste; Norte e Sul, apresentam distribuições da variável em média diferentes entre si, pois quando são comparadas uma com a outra, p-valor é menor do que 0,05. Já as regiões Nordeste e Centro-oESTE; Sudeste e Centro-Oeste; Sul e Sudeste, apresentam distribuições da variável em média semelhantes, pois quando são comparadas uma com a outra, p-valor é maior do que 0,05.

Terceiro Trimestre de 2019

Julho:

Em relação ao mês de Julho, observa-se que as regiões Norte e Centro-Oeste; Sul e Centro-Oeste; Norte E Nordeste; Sul e Nordeste; Sudeste e Nordeste;Sudeste e Norte; Sul e Norte, apresentam distribuições da variável em média diferentes entre si, pois quando são comparadas uma com a outra, p-valor é menor do que 0,05.Já as regiões Nordeste e Centro-Oeste; Sudeste e Centro-Oeste; Sul e Sudeste, apresentam distribuições da variável em média semelhantes, pois quando são comparadas uma com a outra, p-valor é maior do que 0,05.

Quarto Trimestre de 2019

Outubro:

Em relação ao mês de Outubro, observa-se que todas as regiões presentam distribuições da variável em média semelhantes, pois quando são comparadas uma com a outra, p-valor é maior do que 0,05.

9.1 Resumo Numérico do Teste de Wilcoxon

Como esse teste se baseia na mediana das diferenças, pode-se gerar um resumo numérico. Nessa etapa foi criado um resumo numérico para as variáveis inerentes aos meses do ano de 2019, no que tange ao consumo de Cimento.

Será criado um resumo numérico para os meses iniciais e finais de cada trimestre de 2019.

# Resumo numérico entre os meses iniciais e finais do primeiro trimestre:

# Janeiro e Março:

# Criando a variável dif no banco de dados:

dados4$dif <- dados4$MAR - dados4$JAN 
View(dados4)

# Gerando uma estatística descritiva dessa diferença entre Março e Janeiro: 

dados4 %>% get_summary_stats(MAR, JAN, dif, type = "median_iqr")
## # A tibble: 3 x 4
##   variable     n median     iqr
##   <chr>    <dbl>  <dbl>   <dbl>
## 1 dif         27 -10044  19900.
## 2 JAN         27  77048 163084.
## 3 MAR         27  65445 156926
# Resumo numérico entre os meses iniciais e finais do segundo trimestre:

# Abril e Junho:

dados4$dif <- dados4$JUN - dados4$ABR
View(dados4)

# Gerando uma estatística descritiva dessa diferença entre Junho e Abril: 

dados4 %>% get_summary_stats(JUN, ABR, dif, type = "median_iqr")
## # A tibble: 3 x 4
##   variable     n median     iqr
##   <chr>    <dbl>  <dbl>   <dbl>
## 1 ABR         27  78095 168446.
## 2 dif         27  -2619  16601 
## 3 JUN         27  69415 156486.
# Resumo numérico entre os meses iniciais e finais do terceiro trimestre:

# Julho e Setembro:

# Criando a variável dif no banco de dados:

dados4$dif <- dados4$SET - dados4$JUL
View(dados4)

# Gerando uma estatística descritiva dessa diferença entre Setembro e Julho: 

dados4 %>% get_summary_stats(SET, JUL, dif, type = "median_iqr")
## # A tibble: 3 x 4
##   variable     n median     iqr
##   <chr>    <dbl>  <dbl>   <dbl>
## 1 dif         27  -3170  13310 
## 2 JUL         27  87346 189586.
## 3 SET         27  79287 179134.
# Resumo numérico entre os meses iniciais e finais do quarto trimestre:

# Outubro e Dezembro: 

# Criando a variável dif no banco de dados:

dados4$dif <- dados4$DEZ - dados4$OUT

# Gerando uma estatística descritiva dessa diferença entre Dezembro e Outubro: 

dados4 %>% get_summary_stats(DEZ, OUT, dif, type = "median_iqr")
## # A tibble: 3 x 4
##   variable     n median    iqr
##   <chr>    <dbl>  <dbl>  <dbl>
## 1 DEZ         27  76646 138252
## 2 dif         27 -13337  53500
## 3 OUT         27  81988 185898

Conclusão:

Para os meses de Janeiro e Março

Para esses meses observa-se que o valor da mediana da diferença é - 10144, ou seja, é um valor diferente de zero, o que permite afirmar que realmente existe uma diferença de consumo de Cimento entre esses meses. Além disso, como o valor da mediana é negativo, pode-se inferir, também, que o consumo de Cimento em janeiro foi maior do que o consumo em março.

Para os meses de Abril e Junho

Para esses meses observa-se que o valor da mediana da diferença é - 2619, ou seja, é um valor diferente de zero, o que permite afirmar que realmente existe uma diferença de consumo de Cimento entre esses meses.Além disso, como o valor da mediana é negativo, pode-se inferir também que o consumo de Cimento em abril foi maior do que o consumo em junho.

Para os meses de Julho e Setembro

Para esses meses observa-se que o valor da mediana da diferença é - 3170, ou seja, é um valor diferente de zero, o que permite afirmar que realmente existe uma diferença de consumo de Cimento entre esses meses.Além disso, como o valor da mediana é negativo, pode-se inferir também que o consumo de Cimento em julho foi maior do que o consumo em setembro.

Para os meses de Outubro e Dezembro

Para esses meses observa-se que o valor da mediana da diferença é - 13337, ou seja, é um valor diferente de zero, o que permite afirmar que realmente existe uma diferença de consumo de Cimento entre esses meses.Além disso, como o valor da mediana é negativo, pode-se inferir também que o consumo de Cimento em outubro foi maior do que o consumo em dezembro.

10. Construção de gráficos do tipo Boxplot

Nessa etapa serão construídos gráficos do tipo Boxplot entre variáveis quantitativas e qualitativas do banco de dados. Primeiramente serão utilizadas variáveis quantitativas inerentes aos meses iniciais de cada trimestre do ano de 2019. A variável qualitativa REGIÃO será utilizada nessa etapa. Optou-se, nessa etapa, por construir os Boxplots somente dos meses iniciais de cada trimestre, pois o consumo nesses meses apresentou maiores variações do que em outros períodos do ano, conforme os gráficos a seguir.

10.1 Boxplot para as variáveis meses do ano

Criando gráficos para os meses iniciais de cada trimestre juntamente com a variável qualitativa. Assim será possível entender como diferentes regiões podem impactar no consumo desse produto tão importante para o desenvolvimento nacional.

10.1.1 Boxplot para o primeiro trimestre de 2019:

# Manipulação de variáveis:

dados4$REGIÃO<-as.factor(dados4$REGIÃO)
dados4$ESTADO<-as.factor(dados4$ESTADO)
dados4$LOCALIDADE<-as.factor(dados4$LOCALIDADE)
dados4$IDH<-as.numeric(sub(",", ".", dados4$IDH)) 
dados4$CONSUMO<-as.numeric(sub(",", ".", dados4$CONSUMO)) 

# Boxplot para o primeiro trimestre:

# Janeiro:

boxplot(JAN~ REGIÃO,data=dados4, col=c("red","#faa005","#1bc704","#0f8efc","yellow"), main="Boxplot 1 \n Consumo de cimento no Brasil por região - Janeiro\n")

Comentário:

Tendo em vista o gráfico Boxplot 1, referente ao mês de Janeiro de 2019, observa-se que a região Norte apresenta um outlier, ou seja, nessa localidade existe um estado com consumo de Cimento no mês de Janeiro bastante superior aos outros estados dessa região. Nota-se também que todas as regiões apresentam pequena amplitude interquartil, com exceção da região Sudeste.Pode-se observar ainda que o Sudeste se destaca pelos elevados índices de consumo de cimento em toneladas no mês de Janeiro, enquanto as outras regiões apresentam consomem quantidades bem inferiores. Destaca-se a região Norte que apresenta um baixíssimo consumo quando comparada as outras localidade, de modo que nesse mês somente um estado dessa localidade consumiu mais cerca de 100 mil toneladas de cimento.

10.1.2 Boxplot para o segundo trimestre de 2019:

# Boxplot para o segundo trimestre:

# Abril:

boxplot(ABR ~ REGIÃO,data = dados4, col=c("red","#faa005","#1bc704","#0f8efc","yellow"), main="Boxplot 2 \n Consumo de cimento no Brasil por região - Abril\n")

Comentário:

Tendo em vista o gráfico Boxplot 2, referente ao mês de Abril de 2019, observa-se a presença de dois outliers, um para a região Norte e outro para o Nordeste,o que indica que em cada uma dessas regiões um determinado estado se destacou no consumo de cimento em relação aos demais.Destaque para os elevados consumos da região Sudeste e as baixas taxas do Norte.Nota-se também que todas as regiões apresentam pequena amplitude interquartil, com exceção da região Sudeste. A região Norte tem consumo máximo abaixo de 100 mil toneladas nesse mês, o que também ocorreu no trimestre anterior.Pode-se observar também que a região Sudeste apresenta grandes variações de consumo, pois existem estados que consumiram menos de 100 mil toneladas e outros com mais de 800 mil toneladas no mês, como é o caso dO Espírito Santo e São Paulo repectivamente.

10.1.3 Boxplot para o terceiro trimestre de 2019:

# Boxplot para o segundo trimestre:

# Julho:

boxplot(JUL ~ REGIÃO,data = dados4, col=c("red","#faa005","#1bc704","#0f8efc","yellow"), main="Boxplot 3 \n Consumo de cimento no Brasil por região - Julho\n")

Comentário:

Tendo em vista o gráfico Boxplot 3, referente ao mês de Julho de 2019, observa-se a presença de dois outliers,um para a região Nordeste e outro para a região Norte, o que indica que em cada uma dessas regiões um determinado estado se destacou no consumo de cimento em relação aos demais.Nota-se também que todas as regiões apresentam pequena amplitude interquartil, com exceção da região Sudeste.Em relação aos trimestres anteriores, observa-se que a região Norte já apresenta maior consumo de Cimento, com algum estado dessa localidade ultrapassando as 100 mil toneladas de cimento. Geralmente, na região Norte, o Pará se destaca no consumo de cimento, por ser um estado mais populoso e por atrair maiores investimentos externos. Destaque também para a região Centro-Oeste, que apresenta consumo de mais 200 mil toneladas nesse mês por algum estado, um aumento para essa localidade em relação ao consumido nos trimestres anteriores.

10.1.4 Boxplot para o quarto trimestre de 2019:

# Boxplot para o segundo trimestre:

# Outubro:

boxplot(OUT ~ REGIÃO,data = dados4, col=c("red","#faa005","#1bc704","#0f8efc","yellow"), main="Boxplot 4 \n Consumo de cimento no Brasil por região - Outubro\n")

Comentário:

Tendo em vista o gráfico Boxplot 4, referente ao mês de Outubro de 2019, observa-se que a região Norte apresenta um outlier, ou seja, nessa localidade existe um estado com consumo de Cimento no mês de Janeiro bastante superior aos outros estados dessa região. Destaque para a região Sul que apresenta valores de consumo próximos a 400 mil toneladas. Destaque também para o Sudeste, que por ser uma das regiões mais ricas do país, atrai bastante investimento e tem alta demanda por esse produto em todos os trimestres do ano. A região Centro-Oeste, se mantém, em relação ao trimestre anterior, com um consumo de mais de 200 mil toneladas demandado por algum estado nesse mês, o que pode ser considerado um valor elevado para essa localidade.Já a região Nordeste apresentou aumento em relação aos meses anteriores, com algum estado consumindo mais de 300 mil toneladas nesse mês.

Comentário geral para os quatro trimestres analisados:

Em relação aos meses dos quatro trimestres citados, obserbou-se pelos gráficos a hegemonia a região Sudeste em relação as outras, apresentando sempre elevadas taxas de consumo de cimento. A região Sul também apresenta taxas altas, tendo sempre algum estado consumindo próximo de 400 mil toneladas ao longo dos meses.Já o Nordeste teve grande variação de consumo em Abril, com algum estado consumindo bem mais do que os outros, mas nos outros trimestres região se mantém com um consumo considerável de cimento. Por fim,a região Norte apresenta baixos consumos ao longo de todo o ano, quando comparada com outras localidades do país.

10.2 Boxplot para outras variáveis quantitativas

Foram construídos também outros gráficos Boxplot relacionados as outras variáveis quantitativas do banco de dados, como: RENDA,CONSUMO,IDH e TOTAL. A variável qualitativa utilizada foi: REGIÃO.

Com isso foi possível ilustrar, como a Região impacta diretamente sobre esses dados,contribuindo para explicar o alto poder de investimento do Sudeste, assim como as baixas demandas por cimento do Norte.

10.2.1 Boxplot para consumo per capita por habitante por ano

A variável CONSUMO refere-se ao Consumo per capita por habitante ano em toneladas de cada estado do país. Geralmente esse dado está ligado a Renda Média dos cidadãos de cada estado, uma vez que, quanto maior a renda, maior é a capacidade de um indivíduo em executar uma obra ou adquirir um imóvel, o que aumenta a demanda por Cimento numa determinada região.

# Boxplot entre Consumo e Região: 

boxplot(CONSUMO ~ REGIÃO,data = dados4, col=c("red","#faa005","#1bc704","#0f8efc","yellow"), main="Boxplot 5 \n Consumo de cimento per capita por região\n")

Comentário:

Para o gráfico Boxplot 5, entre as variáveis CONSUMO e REGIÃO, observa-se elevados valores de Consumo per capita na região Sul e Centro-Oeste, o que pode ser explicado pela alta Renda Média dessas localidades. O Centro-Oeste se destaca pelo elevado valor da Renda per capita no Distrito Federal, o que contribui para o aumento significativo do consumo nessa região. Além disso, o elevado IDH no Sul do país também contribui para essa taxa expressiva de consumo de cimento ao longo de 2019. Já a região Nordeste apresenta um outlier na parte inferior do gráfico, o que indica, nesse caso, que algum estado apresenta uma taxa de consumo bastante inferior aos demais. O baixo consumo do Nordeste está ligado ao baixo IDH da região.

10.2.2 Boxplot para Renda Média da população

A variável RENDA refere-se a Renda Média da população em cada estado do país. Essa variável está diretamente ligada a qualidade de vida das pessoas e aos índices de consumo de produtos de todo tipo por parte das famílias. Além disso, observou-se que a Renda Média pode variar consideravelmente em diferentes regiões do país, conforme o gráfico abaixo. A variável qualitativa utilizada foi REGIÃO

# Boxplot entre Renda Média da população e Região:

boxplot(RENDA ~ REGIÃO,data = dados4, col=c("red","#faa005","#1bc704","#0f8efc","yellow"), main="Boxplot 6 \n Renda média da população por Região\n")

Comentário:

Para o gráfico Boxplot 6, entre as variáveis RENDA e REGIÃO, observa-se elevados valores de Renda Média da População no Centro-Oeste, ultrapassando a marca dos R$ 2000,00. A elevada Renda da população do Centro-Oeste é consequência da região do Distrito Federal, que apresenta um elevado valor nesse quesito. As regiões Sul e Sudeste também se destacam pela alta renda da população, principalmente devido ao IDH expressivo desses locais. Já o Nordeste detém renda média bastante inferior em relação as outras partes do país , o que contribui para uma desaceleração considerável no consumo desse produto pelos cidadãos. O Norte, apesar de ter Renda Média em alguns estados, bem superiores a renda do Nordeste, se destaca pelo baixo consumo de Cimento em diferentes meses do ano, conforme visto nos gráficos inerentes aos meses do ano.

10.2.3 Boxplot para IDH

o Indice de Desenvolvimento Humano, conhecido como IDH, está associado aos fatores de qualidade de vida da população em geral, como acesso à moradia, eletricidade, internet, alimentação adequada, além de estar ligado também as questões de infraestrutura de uma determinada região. Sendo assim, o IDH pode impactar diretamente no consumo de diversos itens, inclusive o Cimento, que, geralmente, é mais demandado em locais que têm altas taxas desse índice. o gráfico Boxplot abaixo mostra como o consumo pode variar de acordo com o IDH.

# Boxplot entre IDH e Região:

boxplot(IDH ~ REGIÃO,data = dados4, col=c("red","#faa005","#1bc704","#0f8efc","yellow"), main="Boxplot 7 \n IDH por região\n")

Comentário:

Conforme observado no gráfico Boxplot 7, as regiões Centro-Oeste, Sudeste e Sul tem as maiores tacas de IDH, o que sinaliza para elevado consumo de Cimento nessas localidades. Já as regiões Norte e Nordeste apresentam IDH bastante baixo em relação ao restante do país, o que é uma consequência do baixo grau de investimento em infraestruturas nesses estados.

11. Construção das Estatísticas

Nessa etapa do trabalho, serão geradas as principais estatísticas dessa pesquisa, como: Média, Valores Máximos e Mínimos, além do Desvio Padrão. Essas estatísticas serão calculadas considerando o consumo de Cimento em toneladas ao longo de ano pelos estados. Esse dados serão calculados para as variáveis inerentes aos meses de cada trimestre do ano e para as variáveis ligadas ao Consumo por habitante ano e Total consumido de cimento pelos Estados ao longo do ano DE 2019.

Logo, serão as seguintes variáveis:

Primeiro Trimestre: JAN, FEV e MAR Segundo Trimestre: ABR, MAI e JUN Terceiro Trimetre: JUL, AGO e SET Quarto Trimestre: OUT, NOV e DEZ

Também incluem-se as variáveis: CONSUMO e TOTAL.

11.1 Cálculo da Média do consumo de cimento por região

Será calculada a média do consumo de cimento em toneladas por região para cada mês de cada trimestre do ano de 2019.

11.1.1 Primeiro Trimestre

# Consumo de Cimento por região no primeiro trimestre:

# Cálculo da Média do consumo de cimento para Janeiro, Fevereiro e Março:

 dados4 %>% group_by(REGIÃO) %>%           
  select(JAN,FEV,MAR) %>%          
  summarise(media_JAN=mean(JAN), media_FEV=mean(FEV),media_MAR=mean(MAR))  
## Adding missing grouping variables: `REGIÃO`
## # A tibble: 5 x 4
##   REGIÃO       media_JAN media_FEV media_MAR
##   <fct>            <dbl>     <dbl>     <dbl>
## 1 Centro-Oeste   101910.    92116.    96481.
## 2 Nordeste       100434.    83854.    79400.
## 3 Norte           35485.    30190.    29901.
## 4 Sudeste        426427.   382071    383860.
## 5 Sul            267417.   255366.   259991.

Comentário:

Pode-se observar que em todas as regiões houve queda no consumo de cimento nos dois primeiros meses do trimestre. A região Sudeste, como já comentado acima, destaca-se pelos altos valores de consumo de cimento quando comparada a outras regiões. A região Sul apresentou considerável consumo de cimento no trimestre.

11.1.2 Segundo Trimestre

# Consumo de Cimento por região no segundo trimestre:

dados4 %>% group_by(REGIÃO) %>%           
  select(ABR,MAI,JUN) %>%          
  summarise(media_ABR=mean(ABR), media_MAI=mean(MAI),media_JUN=mean(JUN))  
## Adding missing grouping variables: `REGIÃO`
## # A tibble: 5 x 4
##   REGIÃO       media_ABR media_MAI media_JUN
##   <fct>            <dbl>     <dbl>     <dbl>
## 1 Centro-Oeste   101334.   117016.   107692.
## 2 Nordeste        82065.    92481     76567.
## 3 Norte           30265.    33784.    33529.
## 4 Sudeste        429775    451647.   405623.
## 5 Sul            274830.   264215.   262355.

Comentário:

Todas as regiões apresentaram queda no consumo de cimento entre os meses de Maio e Junho. A região Norte registrou baixa variação média ao longo de todo o trimestre. A região Sudeste apresentou queda considerável na média entre os dois últimos meses do trimestre. Além disso, essa localidade se destaca pelo altíssimo consumo de cimento no Brasil. A região Sul apresentou considerável consumo de cimento no trimestre.O Norte apresenta taxas bastante inferiores as demais localidades.

11.1.3 Terceiro Trimestre

# Consumo de Cimento por região no terceiro trimestre:

dados4 %>% group_by(REGIÃO) %>%           
  select(JUL,AGO,SET) %>%          
  summarise(media_JUL=mean(JUL), media_AGO=mean(AGO),media_SET=mean(SET))
## Adding missing grouping variables: `REGIÃO`
## # A tibble: 5 x 4
##   REGIÃO       media_JUL media_AGO media_SET
##   <fct>            <dbl>     <dbl>     <dbl>
## 1 Centro-Oeste   129658.   129580.   124652.
## 2 Nordeste        95505    100499.    97521.
## 3 Norte           40091.    40199     38907.
## 4 Sudeste        477372.   479480    443470.
## 5 Sul            298963.   301657.   276941.

Comentário:

Assim como no trimestre anterior, todas as regiões apresentaram queda no consumo médio de cimento nos dois últimos meses do trimestre. Destaque para a queda significativa na região Sul entre os meses de Agosto e Setembro. As regiões Norte, Nordeste e Centro-Oeste registraram poucas variações no consumo durante o trimestre. A região Sudeste destaca-se pelas elevadas taxas de consumo de cimento. A região Sul apresentou considerável consumo de cimento no trimestre. O Norte apresenta taxas bastante inferiores as demais localidades.

11.1.4 Quarto Trimestre

# Consumo de Cimento por região no quarto trimestre:

dados4 %>% group_by(REGIÃO) %>%           
  select(OUT,NOV,DEZ) %>%          
  summarise(media_OUT=mean(OUT), media_NOV=mean(NOV),media_DEZ=mean(DEZ))
## Adding missing grouping variables: `REGIÃO`
## # A tibble: 5 x 4
##   REGIÃO       media_OUT media_NOV media_DEZ
##   <fct>            <dbl>     <dbl>     <dbl>
## 1 Centro-Oeste   133686.   113108.    91004.
## 2 Nordeste       118609.   110183.   101969.
## 3 Norte           43018     40654.    35665.
## 4 Sudeste        486880.   433198.   342816.
## 5 Sul            295642    279506    229304.

Comentário:

Conforme observado na tabela, todas as regiões apresentam queda de consumo de Cimento ao longo do trimestre. Destaca-se a abrupta queda das regiões Sul e Sudeste entre os meses de novembro e dezembro. A região Sudeste se destaca pelos elevados nível de consumo, enquanto o Norte apresenta taxas bastante inferiores as demais.

11.2 Consumo médio anual por tonelada por habitante por região:

Será calculado o consumo médio anual em toneladas per capita por habitante em cada estado da federação. Com isso, é possível conhecer as regiões com maiores taxas no consumo de Cimento por habitante.

# Consumo médio anual por tonelada por habitante por região:

dados4 %>% group_by(REGIÃO) %>%           
  select(CONSUMO) %>%          
  summarise(media_CONSUMO=mean(CONSUMO))
## Adding missing grouping variables: `REGIÃO`
## # A tibble: 5 x 2
##   REGIÃO       media_CONSUMO
##   <fct>                <dbl>
## 1 Centro-Oeste         0.318
## 2 Nordeste             0.173
## 3 Norte                0.179
## 4 Sudeste              0.24 
## 5 Sul                  0.34

Comentário:

Apesar de a região Sudeste apresentar as maiores taxas de consumo de Cimento, a média DE consumo anual por tonelada por habitante foi maior no Sul. Isso ocorre, dentre outros motivos, pelo fato dessa região apresentar elevado IDH e alta Renda Média da população.

11.3 Valores Máximos e Mínimos de consumo de Cimento

Pode-se obter os valores máximos e mínimos referentes ao consumo de Cimento em todos os trimestre do ano de 2019 por cada região do país.

11.3.1 Primeiro Trimestre

Valores mínimos de consumo por região:

# Valores mínimos de consumo de Cimento no primeiro trimestre:

dados4 %>% group_by(REGIÃO) %>%           
  select(JAN,FEV,MAR) %>%          
  summarise(minimo_JAN=min(JAN), minimo_FEV=min(FEV),minimo_MAR=min(MAR)) 
## Adding missing grouping variables: `REGIÃO`
## # A tibble: 5 x 4
##   REGIÃO       minimo_JAN minimo_FEV minimo_MAR
##   <fct>             <dbl>      <dbl>      <dbl>
## 1 Centro-Oeste      48990      44726      44491
## 2 Nordeste          32388      30378      30641
## 3 Norte              9691       7378       6970
## 4 Sudeste          111377      98614      94022
## 5 Sul              226547     228500     223896

Comentário:

No primeiro trimestre, os valores mínimos de consumo de cimento no Nordeste são próximos, havendo somente uma alta no fim do primeiro trimestre. Já no Sudeste, houve uma redução considerável de Janeiro para Fevereiro, no que se refere ao valor mínimo de consumo, mantendo-se a queda em Março.
Os valores mínimos da região Sul se mantiveram próximos, apesar de ter ocorrido aumento e queda no consumo dentro do período considerado.

Valores máximos de consumo por região:

# Valores máximos de consumo de Cimento no primeiro trimestre:

dados4 %>% group_by(REGIÃO) %>%           
  select(JAN,FEV,MAR) %>%          
  summarise(maximo_JAN=max(JAN), maximo_FEV=max(FEV),maximo_MAR=max(MAR)) 
## Adding missing grouping variables: `REGIÃO`
## # A tibble: 5 x 4
##   REGIÃO       maximo_JAN maximo_FEV maximo_MAR
##   <fct>             <dbl>      <dbl>      <dbl>
## 1 Centro-Oeste     178918     161936     173792
## 2 Nordeste         291428     249430     241612
## 3 Norte            110704      91638      90744
## 4 Sudeste          860232     773607     790146
## 5 Sul              323005     291453     300203

Comentário:

Todas as regiões apresentaram queda de consumo entre os meses de Janeiro e Fevereiro. Destaca-se o Nordeste, que nesse período teve consumo máximo superior ao Centro-Oeste. A região Sudeste apresentou queda significativa do primeiro para os dois últimos meses do período.

11.3.2 Segundo Trimestre:

Valores mínimos de consumo por região:

# Valores mínimos de consumo de Cimento no segundo trimestre:

dados4 %>% group_by(REGIÃO) %>%           
  select(ABR,MAI,JUN) %>%          
  summarise(minimo_ABR=min(ABR), minimo_MAI=min(MAI),minimo_JUN=min(JUN))
## Adding missing grouping variables: `REGIÃO`
## # A tibble: 5 x 4
##   REGIÃO       minimo_ABR minimo_MAI minimo_JUN
##   <fct>             <dbl>      <dbl>      <dbl>
## 1 Centro-Oeste      43901      55019      50942
## 2 Nordeste          31437      31533      22499
## 3 Norte              7612       8442       7887
## 4 Sudeste           91546      95674      88927
## 5 Sul              234132     207586     228583

Comentário:

Todas as regiões, exceto o Sul, apresentaram queda no valor mínimo de consumo entre os meses de Maio e Junho. Destaca-se a região Sul, que obteve valores mínimos bastante superiores aos obtidos pelo Sudeste. Já a região Norte apresenta valores mínimos de ocnsumo bastante inferiores as outras localidades.

Valores máximos de consumo por região:

# Valores máximos de consumo de Cimento no segundo trimestre:

dados4 %>% group_by(REGIÃO) %>%           
  select(ABR,MAI,JUN) %>%          
  summarise(maximo_ABR=max(ABR), maximo_MAI=max(MAI),maximo_JUN=max(JUN)) 
## Adding missing grouping variables: `REGIÃO`
## # A tibble: 5 x 4
##   REGIÃO       maximo_ABR maximo_MAI maximo_JUN
##   <fct>             <dbl>      <dbl>      <dbl>
## 1 Centro-Oeste     176627     207991     185784
## 2 Nordeste         252303     281912     200213
## 3 Norte             82108      97490      96803
## 4 Sudeste          886929     941600     817301
## 5 Sul              317058     314142     301878

Comentário:

Todas as regiões apresentam queda no valor máximo entre os meses de Maio e Junho.O Norte apresenta valores de consumo máximo bem inferiores aos de outras localidades. Destaca-se o Sudeste com valores máximos de consumo muito elevados em relação as demais regiões.

11.3.3 Terceiro Trimestre:

Valores mínimos de consumo por região:

# Valores mínimos de consumo de Cimento no terceiro trimestre:

dados4 %>% group_by(REGIÃO) %>%           
  select(JUL,AGO,SET) %>%          
  summarise(minimo_JUL=min(JUL), minimo_AGO=min(AGO),minimo_SET=min(SET)) 
## Adding missing grouping variables: `REGIÃO`
## # A tibble: 5 x 4
##   REGIÃO       minimo_JUL minimo_AGO minimo_SET
##   <fct>             <dbl>      <dbl>      <dbl>
## 1 Centro-Oeste      63992      64127      60822
## 2 Nordeste          25978      29860      32582
## 3 Norte              9751       9654       9422
## 4 Sudeste          105688     104711      97530
## 5 Sul              234565     249519     230086

Comentário:

Todas as regiões, exceto o Nordeste apresentaram queda no valor mínimo de consumo entre os meses de Agosto e Setembro. Destaca-se a região Sul, que nesse período, teve valores mínimos de consumo superiores ao Sudeste. Além disso, o Norte apresenta valores bastante inferiores as demais localidades.

Valores máximos de consumo por região:

# Valores máximos de consumo de Cimento no primeiro trimestre:

dados4 %>% group_by(REGIÃO) %>%           
  select(JUL,AGO,SET) %>%          
  summarise(maximo_JUL=max(JUL), maximo_AGO=max(AGO),maximo_SET=max(SET))
## Adding missing grouping variables: `REGIÃO`
## # A tibble: 5 x 4
##   REGIÃO       maximo_JUL maximo_AGO maximo_SET
##   <fct>             <dbl>      <dbl>      <dbl>
## 1 Centro-Oeste     234176     226996     218141
## 2 Nordeste         270511     281466     285535
## 3 Norte            118687     109761     120188
## 4 Sudeste          957289     978990     906956
## 5 Sul              358797     356169     316188

Comentário:

As regiões apresentram variações dentro do trimestre, oscilando entre altas e quedas no valor máximo de consumo. Destaca-se o Sudeste, que nesse período apresenta valores bastante superiores as demais localidades. Durante esse trimestre o Nordeste apresentou valores máximos de ocnsumo superiores ao Centro-Oeste.

11.3.4 Quarto Trimestre:

Valores mínimos de consumo por região:

# Valores mínimos de consumo de Cimento no quarto trimestre:

dados4 %>% group_by(REGIÃO) %>%           
  select(OUT,NOV,DEZ) %>%          
  summarise(minimo_OUT=min(OUT), minimo_NOV=min(NOV),minimo_DEZ=min(DEZ)) 
## Adding missing grouping variables: `REGIÃO`
## # A tibble: 5 x 4
##   REGIÃO       minimo_OUT minimo_NOV minimo_DEZ
##   <fct>             <dbl>      <dbl>      <dbl>
## 1 Centro-Oeste      65182      51282      43554
## 2 Nordeste          42703      38584      36503
## 3 Norte             11160      10053      10160
## 4 Sudeste           99651      76710      75456
## 5 Sul              233136     233800     223214

Comentário:

A maioria das regiões, exceto o Sul, apresentaram queda no valor mínimo de consumo entre os meses de Outubro e Novembro. As regiões Sul e Norte apresentaram poucas variações ao longo de todo o trimestre. Destaca-se nesse período a região Sul, que apresentou consumo mínimo bastante superior ao Sudeste. A região Norte apresentou valores bastante inferiores as demais.

Valores máximos de consumo por região:

# Valores máximos de consumo de Cimento no quarto trimestre:

dados4 %>% group_by(REGIÃO) %>%           
  select(OUT,NOV,DEZ) %>%          
  summarise(maximo_OUT=max(OUT), maximo_NOV=max(NOV),maximo_DEZ=max(DEZ))
## Adding missing grouping variables: `REGIÃO`
## # A tibble: 5 x 4
##   REGIÃO       maximo_OUT maximo_NOV maximo_DEZ
##   <fct>             <dbl>      <dbl>      <dbl>
## 1 Centro-Oeste     234939     199619     168797
## 2 Nordeste         328259     298078     264838
## 3 Norte            131620     125374     115811
## 4 Sudeste          980948     872046     692232
## 5 Sul              346214     323401     238466

Comentário:

Para os valores máximos de consumo de Cimento, observou-se nesse trimestre que todas as regiões apresentaram queda no consumo. Destaca-se o Sudeste que apresentou retração expressiva no valor máximo de consumo no mês de dezembro, quando comparado com início do trimestre. Pode-se destacar ainda o Nordeste que apresentou valores máximos bastante superiores ao Centro-Oeste.

11.3.5 Valores mínimos de consumo de Cimento por tonelada por habitante por região

# Valores mínimos de consumo por ton por hab por região:

dados4 %>% group_by(REGIÃO) %>%           
  select(CONSUMO) %>%          
  summarise(minimo_CONSUMO=min(CONSUMO))
## Adding missing grouping variables: `REGIÃO`
## # A tibble: 5 x 2
##   REGIÃO       minimo_CONSUMO
##   <fct>                 <dbl>
## 1 Centro-Oeste           0.21
## 2 Nordeste               0.11
## 3 Norte                  0.13
## 4 Sudeste                0.16
## 5 Sul                    0.24

Comentário:

Pode-se observar que as regiões Norte e Nordeste apresentam valores mínimos de consumo consideravelmente inferiores aos demais. Tal situação pode ser explicada pelo baixo IDH e Renda Média da população nessas localidades, o que provoca uma redução no consumo de diversos itens, especialmente aqueles ligados à contrução civil, como o Cimento. As regiões Sul, Sudeste e Centro-Oeste apresentam os maiores valores mínimos, justamente devido ao elevado padrão de vida desses locais.

11.3.6 Valores máximos de consumo de Cimento por tonelada por habitante por região

# Valores máximos de consumo por ton por hab por região:

dados4 %>% group_by(REGIÃO) %>%           
  select(CONSUMO) %>%          
  summarise(maximo_CONSUMO=max(CONSUMO))
## Adding missing grouping variables: `REGIÃO`
## # A tibble: 5 x 2
##   REGIÃO       maximo_CONSUMO
##   <fct>                 <dbl>
## 1 Centro-Oeste          0.41 
## 2 Nordeste              0.22 
## 3 Norte                 0.25 
## 4 Sudeste               0.290
## 5 Sul                   0.45

Comentário:

Pode-se observar que os maiores consumos per capita, ou seja, o consumo anual em toneladas por habitante e por região ocorrem no Centro-Oeste e no Sul. Conforme já ilustrado acima nos Boxplots, um dos motivos para essas altas taxas de consumo de Cimento é o elevado IDH do local. A região Sudeste também apresenta alto consumo, porém por ter IDH e Renda média menor do que o Sul, apresenta menores taxas de consumo.

11.4 Desvio Padrão por região

Nessa etapa, será calculado o Desvio Padrão do consumo de Cimento por região ao longo do ano de 2019 no Brasil para cada trimestre do ano, visando fazer uma comparação entre esses valores.

11.4.1 Desvio Padrão no primeiro trimestre:

# Desvio Padrão do Consumo de Cimento no primeiro trimestre:

dados4 %>% group_by(REGIÃO) %>%           
  select(JAN,FEV,MAR) %>%          
  summarise(desviopadrao_JAN=sd(JAN), desviopadrao_FEV=sd(FEV),desviopadrao_MAR=sd(MAR)) 
## Adding missing grouping variables: `REGIÃO`
## # A tibble: 5 x 4
##   REGIÃO       desviopadrao_JAN desviopadrao_FEV desviopadrao_MAR
##   <fct>                   <dbl>            <dbl>            <dbl>
## 1 Centro-Oeste           55826.           51110.           56792.
## 2 Nordeste               84428.           72547.           69480.
## 3 Norte                  35693.           29239.           29152.
## 4 Sudeste               331985.          302594.          308020.
## 5 Sul                    49885.           32474.           38320.

Comentário:

Conforme a tabela, a região Centro-Oeste não apresentou grandes variações no consumo ao longo do primeiro trimestre, o que indica regularidade no consumo de Cimento durante esse período. O Sudeste apresentou variações significativas de Desvio Padrão nesse trimestre, o que indica baixa regularidade nos valores de consumo do produto ao longo do período.

11.4.2 Desvio Padrão no segundo trimestre:

# Desvio Padrão do Consumo de Cimento no primeiro trimestre:

dados4 %>% group_by(REGIÃO) %>%           
  select(ABR,MAI,JUN) %>%          
  summarise(desviopadrao_ABR=sd(ABR), desviopadrao_MAI=sd(MAI),desviopadrao_JUN=sd(JUN))
## Adding missing grouping variables: `REGIÃO`
## # A tibble: 5 x 4
##   REGIÃO       desviopadrao_ABR desviopadrao_MAI desviopadrao_JUN
##   <fct>                   <dbl>            <dbl>            <dbl>
## 1 Centro-Oeste           56381.           67000.           60748.
## 2 Nordeste               73030.           80746.           58458.
## 3 Norte                  26079.           30910.           31019.
## 4 Sudeste               350751.          373953.          324065.
## 5 Sul                    41484.           53593.           36984.

Comentário:

Conforme a tabela, pode-se observar que a Região Norte apresentou pouca variação no Desvio Padrão entre os meses de Maio e Junho, indicando regularidade no consumo de Cimento nesse período. Já o Sudeste apresentou grande variação entre Maio e Junho, indicando baixa regularidade no consumo desse produto nesse período. Isso significa que nesse trimestre o Sudeste apresentou grandes variações no Consumo de Cimento ao longo dos meses, podendo haver retrações ou crescimento do consumo.

11.4.3 Desvio Padrão no terceiro trimestre:

# Desvio Padrão do Consumo de Cimento no terceiro trimestre:

dados4 %>% group_by(REGIÃO) %>%           
  select(JUL,AGO,SET) %>%          
  summarise(desviopadrao_JUL=sd(JUL), desviopadrao_AGO=sd(AGO),desviopadrao_SET=sd(SET))
## Adding missing grouping variables: `REGIÃO`
## # A tibble: 5 x 4
##   REGIÃO       desviopadrao_JUL desviopadrao_AGO desviopadrao_SET
##   <fct>                   <dbl>            <dbl>            <dbl>
## 1 Centro-Oeste           75362.           73419.           70991.
## 2 Nordeste               78674.           81822.           80261.
## 3 Norte                  38179.           34963.           38309.
## 4 Sudeste               378125.          390331.          361546.
## 5 Sul                    62242.           53365.           43552.

Comentário:

Conforme a tabela, pode-se observar poucas variações nos valores do Desvio Padrão para as regiões Centro-Oeste e Norte, que indica alta regularidade do consumo de Cimento nessa região em relação as demais, ou seja, durante esse período essas regiões não tiveram grandes variações no consumo. Já a Região Sudeste apresentou grande variação no valor do Desvio Padrão entre Agosto e Setembro, indicando baixa regularidade no consumo de cimento nesse período.

11.4.4 Desvio Padrão no quarto trimestre:

# Desvio Padrão do Consumo de Cimento no quarto trimestre:

dados4 %>% group_by(REGIÃO) %>%           
  select(OUT,NOV,DEZ) %>%          
  summarise(desviopadrao_OUT=sd(OUT), desviopadrao_NOV=sd(NOV),desviopadrao_DEZ=sd(DEZ))
## Adding missing grouping variables: `REGIÃO`
## # A tibble: 5 x 4
##   REGIÃO       desviopadrao_OUT desviopadrao_NOV desviopadrao_DEZ
##   <fct>                   <dbl>            <dbl>            <dbl>
## 1 Centro-Oeste           77450.           65050.           56280.
## 2 Nordeste               94225.           84992.           75740.
## 3 Norte                  41947.           40494.           37567.
## 4 Sudeste               393700.          354860.          271717.
## 5 Sul                    57476.           44828.            8077.

Comentário:

Conforme a tabela, pode-se observar que a região Norte apresentou poucas variações no valor do Desvio Padrão nesse período, indicando alta regularidade na quantidade consumida de Cimento.Já o Sudeste apresentou grandes variações nos valores de Desvio Padrão ao longo do período, indicando baixa regularidade na quantidade consumida desse produto ao longo do trimestre. Destaca-se a região Sul que, entre os meses de Novembro e Dezembro apresentou grande variação no Desvio Padrão, o que indica que nesses meses houve baixa regularidade em relação a quantidade de Cimento consumida.

12. Diagramas de Dispersão

Serão criados Diagramas de Dispersão para as variáveis quantitativas referentes aos meses do ano de 2019. Para isso, os gráfico serão gerados a partir dos meses iniciais e finais de cada trimestre do ano. Com isso pode-se avaliar o comportamento dos dados no gráfico.

Esse tipo de diagrama deve ser gerado para variáveis quantitativas.

12.1 Diagrama para as variáveis meses do ano

12.1.1 Primeiro Trimestre

Diagrama de Dispersão entre os meses iniciais e finais do primeiro trimestre.

# Diagrama de Dispersão para Janeiro e Março:

plot(dados4$JAN,dados4$MAR,pch=19,col="yellow",
     xlab = "Janeiro",
     ylab = "Março",
     main = "Diagrama 1 - Diagrama de dispersão para o Consumo de Cimento")
abline(lsfit(dados4$JAN,dados4$MAR),
       col="red")

Comentário:

Conforme o gráfico, para os meses de Janeiro e Março, a maioria dos estados do país consumiu no máximo um valor próximo de 350 mil toneladas de cimento. Entretanto, houveram regiões que consumiram acima de 400 mil toneladas desse produto no período mencionado. Geralmente o Sudeste se descata por ser a região de maior consumo.

12.1.2 Segundo Trimestre

Diagrama de Dispersão entre os meses iniciais e finais do segundo trimestre:

# Diagrama de Dispersão para Abril e Junho:

plot(dados4$ABR,dados4$JUN,pch=19,col="blue",
     xlab = "Abril",
     ylab = "Junho",
     main = "Diagrama 2 - Diagrama de dispersão para o consumo de Cimento")
abline(lsfit(dados4$ABR,dados4$JUN),
       col="red")

Comentário:

Conforme o trimestre anteriores e pelo gráfico, para os meses de Abril e Junho, a maioria dos estados do país consumiu no máximo um valor próximo de 350 mil toneladas de cimento. Entretanto, houveram regiões que consumiram acima de 400 mil toneladas desse produto no período mencionado. Geralmente o Sudeste se descata por ser a região de maior consumo.

12.1.3 Terceiro Trimestre

Diagrama de Dispersão entre os meses iniciais e finais do terceiro trimestre:

# Diagrama de Dispersão para Julho e Setembro:

plot(dados4$JUL,dados4$SET,pch=19,col="green",
     xlab = "Julho",
     ylab = "Setembro",
     main = "Diagrama 3 - Diagrama de dispersão para o consumo de Cimento")
abline(lsfit(dados4$JUL,dados4$SET),
       col="red")

Comentário:

Conforme trimestres anteriores e pelo gráfico, para os meses de Julho e Setembro, a maioria dos estados do país consumiu no máximo um valor próximo de 350 mil toneladas de cimento. Entretanto, houveram regiões que consumiram acima de 400 mil toneladas desse produto no período mencionado. Geralmente o Sudeste se descata por ser a região de maior consumo.Observa-se também, em relação ao primeiro trimstre, um aumento na quantidade de estados que consumiram até o máximo de 200 mil toneladas durante esses meses.

12.1.4 Quarto Trimestre

Diagrama de Dispersão entre os meses iniciais e finais do quarto trimestre:

# Diagrama de Dispersão para Outubro e Dezembro:

plot(dados4$OUT,dados4$DEZ,pch=19,col="black",
     xlab = "Outubro",
     ylab = "Dezembro",
     main = "Diagrama 4 - Diagrama de dispersão para o Consumo de Cimento")
abline(lsfit(dados4$OUT,dados4$DEZ),
       col="red")

Comentário:

Conforme o gráfico, em relação aos dois primeiros trimestres do ano, o mês de Outubro já aparece com uma concentração maior de estados que apresentam consumo de Cimento em torno de 200 mil toneladas. Mantendo-se o mesmo andamento dos meses anteriores, são poucos estados que consomem mais de 500 mil toneladas em um determinado mês. Geralmente, conforme foi visto até essa etapa do trabalho, é o estado de São Paulo que se destaca pelo maior consumo de Cimento no Brasil.

12.2 Diagrama de Dispersão para outras variáveis

Afim de compreender melhor como se dão as variações de consumo de Cimento no país, optou-se por gerar outros Diagramas de Dispersão envolvendo outras variáveis quantitativas importantes do banco de dados.

Os diagramas serão construídos com as seguintes variáveis: RENDA e CONSUMO
POPULAÇÃO e CONSUMO IDH e CONSUMO

12.2.1 Variáveis Renda e Consumo

Diagrama de Dispersão para as variáveis: Renda e Consumo per capita de Cimento anual em toneladas por estado

# Diagrama entre as variáveis: Renda e Consumo

plot(dados4$RENDA,dados4$CONSUMO,pch=19,col="black",
     xlab = "Renda",
     ylab = "Consumo",
     main = "Diagrama 5 - Diagrama de dispersão entre Renda e Consumo")
abline(lsfit(dados4$RENDA,dados4$CONSUMO),
       col="purple")

Comentário:

Através do Diagrama de Dispersão, pode-se observar que em locais em que a renda média da população gira em torno de R$1500,00, o consumo per capita por habitante ano em tonelada é mais elevado. A região Sudeste apresenta essa renda, o que explica as altas quantidades de Cimento consumidas. Pode-se notar que as menores taxas de consumo médio de Cimento são para localidades com renda média inferior a R$1000,00, como é o caso do Norte do país.

12.2.2 Variáveis População e Consumo

Diagrama de Dispersão para as variáveis: População e Consumo per capita de Cimento anual em toneladas por estado

# Diagrama entre as variáveis: População e Consumo


plot(dados4$POPULAÇÃO,dados4$CONSUMO,pch=19,col="black",
     xlab = "População",
     ylab = "Consumo",
     main = "Diagrama 6 - Diagrama de dispersão entre população e consumo")
abline(lsfit(dados4$POPULAÇÃO,dados4$CONSUMO),
       col="green")

Comentário:

Através do Diagrama de Dispersão, pode-se observar que os maiores consumos médios per capita de cimento se dão em locais com população em torno dos 10 milhões de habitantes. O estado de São Paulo apresenta elevado consumo mas como também tem grande população, a taxa de consumo per capita em relação à população não é tão elevada como em outros estados, a exemplo do Paraná, que tem uma população bem inferior a do estado de São Paulo, porém apresenta consumo médio per capita bastante superior, conforme pode ser visualizado no Boxplot 5 anteriormente citado.

12.2.3 Variáveis IDH e Consumo

Diagrama de Dispersão para as variáveis: IDH e Consumo per capita de Cimento anual em toneladas por estado

# Diagrama entre as variáveis: IDH e Consumo

plot(dados4$IDH,dados4$CONSUMO,pch=19,col="black",
     xlab = "IDH",
     ylab = "Consumo",
     main = "Diagrama 7 - Diagrama de dispersão entre IDH e Consumo")
abline(lsfit(dados4$IDH,dados4$CONSUMO),
       col="red")

Comentário:

Através do Diagrama de Dispersão, pode-se observar que o consumo per capita anul em toneladas por estado é bastante elevado em localidades com IDH em torno de 0,80. Tal situação ocorre na região Sudeste e em alguns estados da região Sul, que apresentam elevado IDH e alto consumo de Cimento. Entretanto, regiões como o Distrito Federal apresentam IDH muito alto, porém não registram taxas tão elevadas de consumo desse produto. Já as regiões com baixo IDH consomem pouco cimento anualmente, como é o caso dos estado do Norte do país.

13. Matriz de Correlação

A correlação entre variáveis é interpretada através da matriz de correlação. Na matriz são apresentados diversos números. Esses números podem ser comparados com os extremos -1 e +1. Quanto mais próximo de -1 ou +1, mais forte será a correlação entre as variáveis.

Por meio de uma Matriz de Correlação, pode-se, através da visualização gráfica e dos valores numéricos do coeficiente de correlação entre as variáveis, entender como as mesmas estão relacionadas umas com as outras. Nessa etapa, serão geradas algumas matrizes de correlação para as variáveis quantitativas referentes aos meses do ano e para outras variáveis quantitativas importantes do banco de dados.

13.1 Matriz de Correlação para as variáveis meses do ano

Será construída a Matriz de Correlação para as variáves quantitativas referentes aos meses do ano de 2019 utilizando as seguintes variáveis:

JAN;JUL e DEZ & MAR;JUN e NOV

Dessa forma será possível verificar se existe uma correlação forte para o consumo de cimento entre esses meses do ano, de diferentes trimestres.

13.1.1 Matriz 1 - Meses do ano

# Matriz de Correlação do consumo de Cimento para Janeiro, Julho e Dezembro

# Biblioteca necessária para essa etapa:

library(corrplot)
## corrplot 0.84 loaded
# Matriz de Correlação:

variaveis_quant<-c("JAN","JUL","DEZ")

dados4[,variaveis_quant]
## # A tibble: 27 x 3
##       JAN    JUL    DEZ
##     <dbl>  <dbl>  <dbl>
##  1  32559  36419  27530
##  2  11188  14496  10160
##  3  42731  52048  44907
##  4   9908   9751  10225
##  5 110704 118687 115811
##  6   9691  11251  12274
##  7  31615  37983  28749
##  8  70660  67250  76841
##  9  57142  68133  62845
## 10 151601 157128 155070
## # ... with 17 more rows
cor(dados4[,variaveis_quant])
##        JAN    JUL    DEZ
## JAN 1.0000 0.9961 0.9950
## JUL 0.9961 1.0000 0.9888
## DEZ 0.9950 0.9888 1.0000
correlacao_dados<-cor(dados4[,variaveis_quant])

corrplot.mixed(correlacao_dados)

Comentário:

Conforme o gráfico gerado e a matriz de correlação da tabela, pode-se observar que durante esses três meses existe uma forte correlação entre as variáveis, aproximando-se sempre do valor máximo 1. Dessa maneira, entende-se que durante os meses de Janeiro, Julho e Dezembro as quantidades de cimento consumidas pelos estados apresentam correlação entre si.

13.1.2 Matriz 2 - Meses do ano

# Matriz de Correlação do consumo de Cimento para Julho, Setembro e Dezembro

# Biblioteca necessária para essa etapa:

library(corrplot)

# Matriz de Correlação:

variaveis_quant<-c("MAR","JUN","NOV")

dados4[,variaveis_quant]
## # A tibble: 27 x 3
##       MAR    JUN    NOV
##     <dbl>  <dbl>  <dbl>
##  1  28713  35142  35591
##  2   8080  12126  15206
##  3  34609  39957  51684
##  4  10625   7887  10491
##  5  90744  96803 125374
##  6   6970   8835  10053
##  7  29568  33954  36180
##  8  47834  60657  81737
##  9  43390  56474  67631
## 10 105236 127138 163615
## # ... with 17 more rows
cor(dados4[,variaveis_quant])
##        MAR    JUN    NOV
## MAR 1.0000 0.9963 0.9952
## JUN 0.9963 1.0000 0.9942
## NOV 0.9952 0.9942 1.0000
correlacao_dados<-cor(dados4[,variaveis_quant])

corrplot.mixed(correlacao_dados)

Comentário:

Assim como para o período anterior, o consumo de cimento para os meses de Março, Junho e Novembro apresentam forte correlação entre si. De acordo com a tabela e com o gráfico gerado, pode-se observar que os valores são bem próximos de +1, indicando que as quantidades consumidas nesse período têm uma correlação forte entre si.

13.2 Matriz 3 - Outras variáveis

Será construida uma Matriz de Correlação para as variáveis POPULAÇÃO;RENDA eCONSUMO. Dessa forma será possível descobrir se existe correlação entre elas, além de ser possível saber a força da correlação existente.

# Matriz de Correlação do consumo de Cimento para População, Renda e Consumo 

# Biblioteca necessária para essa etapa:

library(corrplot)

# Matriz de Correlação:

variaveis_quant<-c("POPULAÇÃO","RENDA","CONSUMO")

dados4[,variaveis_quant]
## # A tibble: 27 x 3
##    POPULAÇÃO RENDA CONSUMO
##        <dbl> <dbl>   <dbl>
##  1   1796460  1113    0.22
##  2    894470   909    0.17
##  3   4207714   791    0.13
##  4    631181  1204    0.19
##  5   8690745   863    0.15
##  6    861773   857    0.14
##  7   1590248  1045    0.25
##  8   7114598   605    0.11
##  9   3281480   817    0.21
## 10   9187103   855    0.19
## # ... with 17 more rows
cor(dados4[,variaveis_quant])
##           POPULAÇÃO  RENDA CONSUMO
## POPULAÇÃO   1.00000 0.3736 0.08558
## RENDA       0.37361 1.0000 0.50594
## CONSUMO     0.08558 0.5059 1.00000
correlacao_dados<-cor(dados4[,variaveis_quant])

corrplot.mixed(correlacao_dados)

Comentário:

Conforme o gráfico gerado e a matriz de correlação da tabela, pode-se observar que para essas variáveis existem variações entre a força das correlações. Nota-se que entre consumo e renda, tem-se uma correlação de 0.50 aproximadamente, o que significa correlação fraca, ou seja, pode haver locais com renda alta e consumo mais baixo, como é o caso do Distrito Federal. Entre população e consumo, a correlação é de 0.08, ou seja, bastante fraca, indicando que existem regiões com população menor e altas quantidades consumidas, como é o caso do Espírito Santo que tem consumo médio anual per capita por habitante de quase 0,30 toneladas por ano.

13.3 Matriz 4 - Outras variáveis

Será construida uma Matriz de Correlação para as variáveis IDH;RENDA eCONSUMO. Dessa forma será possível descobrir se existe correlação entre elas, além de ser possível saber a força da correlação existente.

# Matriz de Correlação do consumo de cimento para IDH, Renda e Consumo

# Biblioteca necessária para essa etapa:

library(corrplot)

# Matriz de Correlação:

variaveis_quant<-c("IDH","RENDA","CONSUMO")

dados4[,variaveis_quant]
## # A tibble: 27 x 3
##      IDH RENDA CONSUMO
##    <dbl> <dbl>   <dbl>
##  1 0.725  1113    0.22
##  2 0.719   909    0.17
##  3 0.733   791    0.13
##  4 0.752  1204    0.19
##  5 0.698   863    0.15
##  6 0.741   857    0.14
##  7 0.743  1045    0.25
##  8 0.687   605    0.11
##  9 0.697   817    0.21
## 10 0.735   855    0.19
## # ... with 17 more rows
cor(dados4[,variaveis_quant])
##            IDH  RENDA CONSUMO
## IDH     1.0000 0.9471  0.5645
## RENDA   0.9471 1.0000  0.5059
## CONSUMO 0.5645 0.5059  1.0000
correlacao_dados<-cor(dados4[,variaveis_quant])

corrplot.mixed(correlacao_dados)

Comentário:

Conforme o gráfico gerado e a matriz de correlação da tabela, pode-se observar que para essas variáveis existem variações entre a força das correlações.Nota-se uma correlação bem forte, de 0.94, entre renda e IDH, o que significa que na maioria das vezes, locais com alto IDH tem renda mais elevada e em locais com baixo IDH a renda é mais baixa. Destaca-se a fraca correlação entre IDH e consumo, de aproximadamente 0.56, indicando que existem locais com IDH mais alto e baixo consumo per capita de cimento, como é o caso do Distrito Federal, por exemplo.

14. Mapas do Brasil por regiões e indicadores sociais

14.1 Mapas do Brasil por regiões

Foram construídos diversos mapas do Brasil, considerando as principais variáveis quantitativas e qualitativas. Com isso foi possível visualizar como diversos dados de caráter social, como IDH e Renda dos cidadãos podem impactar diretamente no consumo de cimento em cada região. Através dos mapas é possível observar a variação do consumo de cimento entre determinados meses do ano de 2019 nos estados.

Para os meses do ano, optou-se por construir quatro mapas, de modo que todos os trimestres do ano fossem representados. Sendo assim, foram construídos mapas de consumo de cimento para os seguintes meses de 2019:

Janeiro, Abril, Julho e Outubro

Dessa forma, pode-se ilustrar de modo mais consistente como as variações no consumo de cimento ocorrem nos estados e regiões ao longo do ano.

As figuras contidas nos mapas são meramente ilustrativas.

14.1.1 Dados necessários para o Mapa

# Bibliotecas necessárias:

library(geobr)
## Warning: package 'geobr' was built under R version 4.0.4
## Loading required namespace: sf
library(dplyr)
library(readxl)
library(ggspatial)
## Warning: package 'ggspatial' was built under R version 4.0.4
library(ggimage)
## Warning: package 'ggimage' was built under R version 4.0.4
## Loading required package: ggplot2
## Warning: package 'ggplot2' was built under R version 4.0.4
# Banco de dados: 

library(readxl)
dados4 <- read_excel("trabalho estatistica/dados4.xlsx")

# Manipulação de variáveis:

dados4$IDH<-as.numeric(sub(",", ".", dados4$IDH)) 

dados4$PIB<-as.numeric(sub(",", ".", dados4$PIB))
## Warning: NAs introduzidos por coerção
dados4$CONSUMO<-as.numeric(sub(",", ".", dados4$CONSUMO))

# Excluindo a possibilidade de notação científica

options(scipen = 999)

# Objetos criados:

estados <- read_state(code_state="all", year=2010)
## Using year 2010
## Loading data for the whole country
## 
  |                                                                            
  |                                                                      |   0%
  |                                                                            
  |===                                                                   |   4%
  |                                                                            
  |=====                                                                 |   7%
  |                                                                            
  |========                                                              |  11%
  |                                                                            
  |==========                                                            |  15%
  |                                                                            
  |=============                                                         |  19%
  |                                                                            
  |================                                                      |  22%
  |                                                                            
  |==================                                                    |  26%
  |                                                                            
  |=====================                                                 |  30%
  |                                                                            
  |=======================                                               |  33%
  |                                                                            
  |==========================                                            |  37%
  |                                                                            
  |=============================                                         |  41%
  |                                                                            
  |===============================                                       |  44%
  |                                                                            
  |==================================                                    |  48%
  |                                                                            
  |====================================                                  |  52%
  |                                                                            
  |=======================================                               |  56%
  |                                                                            
  |=========================================                             |  59%
  |                                                                            
  |============================================                          |  63%
  |                                                                            
  |===============================================                       |  67%
  |                                                                            
  |=================================================                     |  70%
  |                                                                            
  |====================================================                  |  74%
  |                                                                            
  |======================================================                |  78%
  |                                                                            
  |=========================================================             |  81%
  |                                                                            
  |============================================================          |  85%
  |                                                                            
  |==============================================================        |  89%
  |                                                                            
  |=================================================================     |  93%
  |                                                                            
  |===================================================================   |  96%
  |                                                                            
  |======================================================================| 100%
dados4 <- read_excel("trabalho estatistica/dados4.xlsx") %>% rename(abbrev_state=ESTADO)
juntos <- full_join(estados,dados4,by="abbrev_state") 

# Transformação de variável:

summary(dados4)
##   LOCALIDADE        abbrev_state           CODIGO       POPULAÇÃO       
##  Length:27          Length:27          Min.   :11.0   Min.   :  631181  
##  Class :character   Class :character   1st Qu.:19.0   1st Qu.: 2932272  
##  Mode  :character   Mode  :character   Median :27.0   Median : 4064052  
##                                        Mean   :29.1   Mean   : 7842803  
##                                        3rd Qu.:38.0   3rd Qu.: 9401862  
##                                        Max.   :53.0   Max.   :46289333  
##     REGIÃO           COD REGIAO            PIB                IDH           
##  Length:27          Length:27          Length:27          Length:27         
##  Class :character   Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character   Mode  :character  
##                                                                             
##                                                                             
##                                                                             
##      RENDA           JAN              FEV              MAR        
##  Min.   : 605   Min.   :  9691   Min.   :  7378   Min.   :  6970  
##  1st Qu.: 860   1st Qu.: 39649   1st Qu.: 33438   1st Qu.: 32815  
##  Median :1045   Median : 77048   Median : 65660   Median : 65445  
##  Mean   :1186   Mean   :150663   Mean   :134403   Mean   :134268  
##  3rd Qu.:1412   3rd Qu.:202732   3rd Qu.:178650   3rd Qu.:189741  
##  Max.   :2460   Max.   :860232   Max.   :773607   Max.   :790146  
##       ABR              MAI              JUN              JUL        
##  Min.   :  7612   Min.   :  8442   Min.   :  7887   Min.   :  9751  
##  1st Qu.: 35545   1st Qu.: 38114   1st Qu.: 36513   1st Qu.: 44784  
##  Median : 78095   Median : 80998   Median : 69415   Median : 87346  
##  Mean   :144421   Mean   :153189   Mean   :139412   Mean   :165377  
##  3rd Qu.:203990   3rd Qu.:207788   3rd Qu.:192998   3rd Qu.:234370  
##  Max.   :886929   Max.   :941600   Max.   :817301   Max.   :957289  
##       AGO              SET              OUT              NOV        
##  Min.   :  9654   Min.   :  9422   Min.   : 11160   Min.   : 10053  
##  1st Qu.: 46934   1st Qu.: 42642   1st Qu.: 48140   1st Qu.: 46760  
##  Median : 82888   Median : 79287   Median : 81988   Median : 79341  
##  Mean   :167670   Mean   :157531   Mean   :175474   Mean   :159258  
##  3rd Qu.:235933   3rd Qu.:221776   3rd Qu.:234038   3rd Qu.:213118  
##  Max.   :978990   Max.   :906956   Max.   :980948   Max.   :872046  
##       DEZ             TOTAL            CONSUMO         
##  Min.   : 10160   Min.   :  120153   Length:27         
##  1st Qu.: 41643   1st Qu.:  471674   Class :character  
##  Median : 76646   Median :  902144   Mode  :character  
##  Mean   :132984   Mean   : 1814652                     
##  3rd Qu.:179895   3rd Qu.: 2541780                     
##  Max.   :692232   Max.   :10458276
dados4$abbrev_state<-as.factor(dados4$abbrev_state)  

summary(dados4) 
##   LOCALIDADE         abbrev_state     CODIGO       POPULAÇÃO       
##  Length:27          AC     : 1    Min.   :11.0   Min.   :  631181  
##  Class :character   AL     : 1    1st Qu.:19.0   1st Qu.: 2932272  
##  Mode  :character   AM     : 1    Median :27.0   Median : 4064052  
##                     AP     : 1    Mean   :29.1   Mean   : 7842803  
##                     BA     : 1    3rd Qu.:38.0   3rd Qu.: 9401862  
##                     CE     : 1    Max.   :53.0   Max.   :46289333  
##                     (Other):21                                     
##     REGIÃO           COD REGIAO            PIB                IDH           
##  Length:27          Length:27          Length:27          Length:27         
##  Class :character   Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character   Mode  :character  
##                                                                             
##                                                                             
##                                                                             
##                                                                             
##      RENDA           JAN              FEV              MAR        
##  Min.   : 605   Min.   :  9691   Min.   :  7378   Min.   :  6970  
##  1st Qu.: 860   1st Qu.: 39649   1st Qu.: 33438   1st Qu.: 32815  
##  Median :1045   Median : 77048   Median : 65660   Median : 65445  
##  Mean   :1186   Mean   :150663   Mean   :134403   Mean   :134268  
##  3rd Qu.:1412   3rd Qu.:202732   3rd Qu.:178650   3rd Qu.:189741  
##  Max.   :2460   Max.   :860232   Max.   :773607   Max.   :790146  
##                                                                   
##       ABR              MAI              JUN              JUL        
##  Min.   :  7612   Min.   :  8442   Min.   :  7887   Min.   :  9751  
##  1st Qu.: 35545   1st Qu.: 38114   1st Qu.: 36513   1st Qu.: 44784  
##  Median : 78095   Median : 80998   Median : 69415   Median : 87346  
##  Mean   :144421   Mean   :153189   Mean   :139412   Mean   :165377  
##  3rd Qu.:203990   3rd Qu.:207788   3rd Qu.:192998   3rd Qu.:234370  
##  Max.   :886929   Max.   :941600   Max.   :817301   Max.   :957289  
##                                                                     
##       AGO              SET              OUT              NOV        
##  Min.   :  9654   Min.   :  9422   Min.   : 11160   Min.   : 10053  
##  1st Qu.: 46934   1st Qu.: 42642   1st Qu.: 48140   1st Qu.: 46760  
##  Median : 82888   Median : 79287   Median : 81988   Median : 79341  
##  Mean   :167670   Mean   :157531   Mean   :175474   Mean   :159258  
##  3rd Qu.:235933   3rd Qu.:221776   3rd Qu.:234038   3rd Qu.:213118  
##  Max.   :978990   Max.   :906956   Max.   :980948   Max.   :872046  
##                                                                     
##       DEZ             TOTAL            CONSUMO         
##  Min.   : 10160   Min.   :  120153   Length:27         
##  1st Qu.: 41643   1st Qu.:  471674   Class :character  
##  Median : 76646   Median :  902144   Mode  :character  
##  Mean   :132984   Mean   : 1814652                     
##  3rd Qu.:179895   3rd Qu.: 2541780                     
##  Max.   :692232   Max.   :10458276                     
## 

14.1.2 Construção do Mapa do Brasil por regiões

# Mapa por regiões

ggplot(juntos)+
  geom_sf(aes(fill=REGIÃO))+
  scale_fill_manual(values = c("orange","red","yellow","green","blue","purple"))+
  annotation_scale(location="br",height = unit(0.2,"cm"))+
  annotation_north_arrow(location="tr",
                         style = north_arrow_nautical,
                         height = unit(1.5,"cm"),
                         width = unit(1.5,"cm"))+
  labs(title = "Mapa 1 - Mapa do Brasil",
       subtitle = "Subdivisão em Regiões",
       fill="Regiões",
       x=NULL,
       y=NULL)+
  geom_sf_text(data=estados,aes(label = abbrev_state), size=2, color= "black")+
  theme_bw()+
  theme(legend.position = c(0.18,0.2),
        legend.key.size = unit(3.7,"mm"))
## Warning in st_point_on_surface.sfc(sf::st_zm(x)): st_point_on_surface may not
## give correct results for longitude/latitude data
## Scale on map varies by more than 10%, scale bar may be inaccurate

14.2 Mapa do Brasil por IDH

O IDH é uma medida do progresso a longo prazo das regiões e estados. Com base nele é possível conhecer sobre os diversos parâmetros de qualidade de vida da população, como renda, educação, saneamento básico, saúde e infraestrutura. O Brasil apresenta grandes variações em relação ao IDH, existindo locais com taxas desses índice bastante elevadas, como os estados do Sudeste e Sul e outros com taxas bem baixas, como é o caso de alguns estados das regiões Norte e Nordeste.

14.2.1 Dados necessários para o Mapa

# # Manipulação de variáveis:

dados4$IDH<-as.numeric(sub(",", ".", dados4$IDH)) 

juntos$IDH<-as.numeric(sub(",", ".", juntos$IDH))

juntos$CATEGORIA10 <- cut(juntos$IDH,breaks =c(0.680,0.720,0.750,0.800,Inf),
                          labels = c("0.681 a 0.720","0.721 a 0.750","0.751 a 0.800","Mais de 0.800"))   

14.2.2 Construção do Mapa do Brasil por IDH

# Mapa por IDH

ggplot(juntos)+
  geom_sf(aes(fill=CATEGORIA10))+
  scale_fill_manual(values = c("orange","red","yellow","green","blue","purple"))+
  annotation_scale(location="br",height = unit(0.2,"cm"))+
  annotation_north_arrow(location="tr",
                         style = north_arrow_nautical,
                         height = unit(1.5,"cm"),
                         width = unit(1.5,"cm"))+
  geom_image(aes(x=-37,y=-27),
             image="icon/idhbr.jpg",size= 0.22)+
  labs(title = "Mapa 2 - Indíce de Desenvolvimento Humano por estados - Brasil",
       subtitle = "IDH por estados",
       fill="Taxas do IDH",
       x=NULL,
       y=NULL)+
  geom_sf_text(data=estados,aes(label = abbrev_state), size=2, color= "black")+
  theme_bw()+
  theme(legend.position = c(0.18,0.2),
        legend.key.size = unit(3.7,"mm"))
## Warning in st_point_on_surface.sfc(sf::st_zm(x)): st_point_on_surface may not
## give correct results for longitude/latitude data
## Scale on map varies by more than 10%, scale bar may be inaccurate

Comentário:

Nesse mapa observa-se quatro escalas de IDH, variando entre 0.681 até mais de 0.800, de forma que, conforme já comentado em outras etapas anteriores do trabalho, a região Sudeste, Sul e o Distrito Federal no Centro-Oeste apresentam predominantemente os maiores IDH’s do país, sendo esses locais grandes pólos industriais e de serviços, com grande PIB e população, o que contribui para o elevado grau de infraestrutura dessas regiões. Essas variações no IDH impactaram diretamente o consumo de cimento durante o ano de 2019.

14.3 Mapa da população por estados

Esse mapa permite visualizar como existem grandes variações populacionais nas diversas regiõe e estados do Brasil, havendo grande concentração populacional no Sudeste e baixa densidade demográfica nos estados do Norte. Com isso, pode-se entender as causas das variações no consumo de cimento no país por regiões.

14.3.1 Dados necessários para o Mapa

# # Manipulação de variáveis:

juntos$POPULAÇÃO<-as.numeric(juntos$POPULAÇÃO)
  
juntos$CATEGORIA8 <- cut(juntos$POPULAÇÃO,breaks =c(600000,2000000,5000000,10000000,20000000,Inf),
                           labels = c("600000 a 2000000 ","2000001 a 5000000","5000001 a 10000000","10000001 a 20000000","Mais de 20000000"))

14.3.2 Construção do Mapa do Brasil por população dos estados

# Mapa da população por estados

ggplot(juntos)+
  geom_sf(aes(fill=CATEGORIA8))+
  scale_fill_manual(values = c("orange","red","yellow","green","blue","purple"))+
  annotation_scale(location="br",height = unit(0.2,"cm"))+
  annotation_north_arrow(location="tr",
                         style = north_arrow_nautical,
                         height = unit(1.5,"cm"),
                         width = unit(1.5,"cm"))+
  geom_image(aes(x=-37,y=-27),
             image="icon/populacao.jpg",size= 0.24)+
  labs(title = "Mapa 3 - População por estados - Brasil",
       subtitle = "População por estados",
       fill="População \nMilhões de hab",
       x=NULL,
       y=NULL)+
  geom_sf_text(data=estados,aes(label = abbrev_state), size=2, color= "black")+
  theme_bw()+
  theme(legend.position = c(0.18,0.2),
        legend.key.size = unit(3.7,"mm"))
## Warning in st_point_on_surface.sfc(sf::st_zm(x)): st_point_on_surface may not
## give correct results for longitude/latitude data
## Scale on map varies by more than 10%, scale bar may be inaccurate

Comentário:

Nesse mapa observa-se grandes concentrações populacionais no Sul e Sudeste, o que explica o elevado nível de desenvolvimento dessas regiões e o alto número de empresas, organizações e mão de obra qualificada. Devido a isso, essas regiões são responsáveis pelas principais obras de infraestrutura do país, com investimento maciço no setor da construção civil, de modo que o consumo de cimento nessas localidades seja bastante elevado.

14.4 Mapa do Brasil por renda média dos estados

Esse mapa permite visualizar as variações da renda média dos cidadãos por estado no país. Observa-se que as regiões Sul e Sudeste apresentam renda bastante elevadas e consequentemente isso impacta no padrão de vida da população desses locais, de modo que o consumo de diversos produtos, inclusive de cimento, seja bastante alto nessas localidades.

14.4.1 Dados necessários para o Mapa

# # Manipulação de variáveis:

juntos$CATEGORIA6 <- cut(juntos$RENDA,breaks =c(500,1000,1500,2000,Inf),
                           labels = c("501 a 1000","1001 a 1500","1501 a 2000","Mais de 2000"))

14.4.2 Construção do Mapa do Brasil por renda média dos estados

# Mapa do Brasil por renda média dos estados

ggplot(juntos)+
  geom_sf(aes(fill=CATEGORIA6))+
  scale_fill_manual(values = c("orange","red","yellow","green","blue","purple"))+
  annotation_scale(location="br",height = unit(0.2,"cm"))+
  annotation_north_arrow(location="tr",
                         style = north_arrow_nautical,
                         height = unit(1.5,"cm"),
                         width = unit(1.5,"cm"))+
  geom_image(aes(x=-37,y=-27),
             image="icon/renda.jpg",size= 0.23)+
  labs(title = "Mapa 4 - Renda média mensal por estado - Brasil",
       subtitle = "Renda média",
       fill="Renda mensal média \nEm reais",
       x=NULL,
       y=NULL)+
  geom_sf_text(data=estados,aes(label = abbrev_state), size=2, color= "black")+
  theme_bw()+
  theme(legend.position = c(0.18,0.2),
        legend.key.size = unit(3.7,"mm"))
## Warning in st_point_on_surface.sfc(sf::st_zm(x)): st_point_on_surface may not
## give correct results for longitude/latitude data
## Scale on map varies by more than 10%, scale bar may be inaccurate

Comentário:

Nesse mapa é possível observar os elevados valores de renda média das regiões Sudeste, Sul e do Distrito Federal, com esse local atingindo mais de R$ 2000,00, o que é considerado um valor bastante alto. Em contrapartida, observa-se que a maioria dos estados do Norte e Nordeste apresentam renda média bastante baixa, com valores oscilando entre R$ 500,00 e R$ 1000,00, o que explica o baixo IDH dessas localidades, além de influenciar diretamente no poder de compra de diversos itens pela população, inclusive o cimento. Dessa forma, isso explica o motivo das condições precárias de infraestrutura na maioria desses locais e os baixos índices de investimento por parte da iniciativa privada, colaborando para agravar a qualidade de vida da população.

15. Mapas de consumo de cimento por estados

A seguir, estão apresentados os mapas de consumo de cimento por estados e regiões, demonstrando como ocorrem variações consideráveis nas quantidades consumidas desse produto no país e como essas discrepâncias estão diretamente ligadas aos fatores supracitados, como renda média e IDH.

15.1 Mapa de consumo de cimento por estados em Janeiro de 2019

Será construído o mapa de consumo de cimento em toneladas para o mês de Janeiro de 2019, levando em conta todas as regiões e estados do Brasil.

15.1.1 Dados necessários para o Mapa

# Manipulação de variáveis

juntos$CATEGORIA1 <- cut(juntos$JAN,breaks =c(4999,10000,50000,100000,300000,600000,Inf),
                           labels = c("5000 a 10000","10001 a 50000","50001 a 100000","100001 a 300000","300001 a 600000","Mais de 600000"))   

15.1.2 Construção do Mapa do consumo de cimento - Janeiro 2019

# Mapa de consumo de cimento em Janeiro de 2019

ggplot(juntos)+
  geom_sf(aes(fill=CATEGORIA1))+
  scale_fill_manual(values = c("orange","red","yellow","green","blue","purple"))+
  annotation_scale(location="br",height = unit(0.2,"cm"))+
  annotation_north_arrow(location="tr",
                         style = north_arrow_nautical,
                         height = unit(1.5,"cm"),
                         width = unit(1.5,"cm"))+
  geom_image(aes(x=-37,y=-27),
             image="icon/cimento.jpg",size= 0.26)+                 
  labs(title = "Mapa 5 - Consumo de cimento por estados - Brasil",
       subtitle = "Janeiro - 2019",
       fill="Consumo \nEm toneladas",
       x=NULL,
       y=NULL)+
  geom_sf_text(data=estados,aes(label = abbrev_state), size=2, color= "black")+
  theme_bw()+
  theme(legend.position = c(0.18,0.2),
        legend.key.size = unit(4.2,"mm"))
## Warning in st_point_on_surface.sfc(sf::st_zm(x)): st_point_on_surface may not
## give correct results for longitude/latitude data
## Scale on map varies by more than 10%, scale bar may be inaccurate

Comentário:

De acordo com o mapa, pode-se observar que a regiões Sudeste e Sul consumiram elevadas quantidades de cimento nesse mês, ultrapassando as 100 mil toneladas, sobretudo, o estado de São Paulo, que chega a consumir mais de 600 mil toneladas desse produto em janeiro. Em contrapartida, pode-se notar que a região Norte apresenta consumo bastante inferior as demais. Observar que, como já comentado em tapas anteriores do trabalho, o Distrito Federal, apesar do elevado IDH, consumiu quantidades modestas de cimento.

15.2 Mapa de consumo de cimento por estados em Abril de 2019

Será construído o mapa de consumo de cimento em toneladas para o mês de Abril de 2019, levando em conta todas as regiões e estados do Brasil.

15.2.1 Dados necessários para o Mapa

# Manipulação de variáveis:

 juntos$CATEGORIA2 <- cut(juntos$ABR,breaks =c(4999,10000,50000,100000,300000,600000,Inf),
                           labels = c("5000 a 10000","10001 a 50000","50001 a 100000","100001 a 300000","300001 a 600000","Mais de 600000")) 

15.2.2 Construção do Mapa do consumo de cimento - Abril 2019

# Mapa de consumo de cimento em Abril de 2019

ggplot(juntos)+
  geom_sf(aes(fill=CATEGORIA2))+
  scale_fill_manual(values = c("orange","red","yellow","green","blue","purple"))+
  annotation_scale(location="br",height = unit(0.2,"cm"))+
  annotation_north_arrow(location="tr",
                         style = north_arrow_nautical,
                         height = unit(1.5,"cm"),
                         width = unit(1.5,"cm"))+
  geom_image(aes(x=-37,y=-27),
             image="icon/cimento.jpg",size= 0.26)+
  labs(title = "Mapa 6 - Consumo de cimento por estados - Brasil",
       subtitle = "Abril - 2019",
       fill="Consumo \nEm toneladas",
       x=NULL,
       y=NULL)+
  geom_sf_text(data=estados,aes(label = abbrev_state), size=2, color= "black")+
  theme_bw()+
  theme(legend.position = c(0.18,0.2),
        legend.key.size = unit(3.7,"mm"))
## Warning in st_point_on_surface.sfc(sf::st_zm(x)): st_point_on_surface may not
## give correct results for longitude/latitude data
## Scale on map varies by more than 10%, scale bar may be inaccurate

Comentário:

Pode-se observar nesse mapa, em relação ao mês de Janeiro, algumas variações no consumo de cimento em alguns estados das regiões Norte, Nordeste e Sudeste. Essa variações que ocorrem são aumentos ou quedas no consumo desse produto. O Norte e Nordeste se caracterizam por baixos IDH e consequentemente condições precárias de infraestrutura em muitas localidades, o que impacta diretamente na demanda por cimento. Entretanto, o estado do Pará se destaca na região Norte por apresentar taxas consideráveis de consumo desse produto. As regiões Sudeste e Sul se destacam com elevadas quantidades consumidas.

15.3 Mapa de consumo de cimento por estados em Julho de 2019

Será construído o mapa de consumo de cimento em toneladas para o mês de Julho de 2019, levando em conta todas as regiões e estados do Brasil.

15.3.1 Dados necessários para o Mapa

# Manipulação de variáveis:

juntos$CATEGORIA3 <- cut(juntos$JUL,breaks =c(4999,10000,50000,100000,300000,600000,Inf),
                           labels = c("5000 a 10000","10001 a 50000","50001 a 100000","100001 a 300000","300001 a 600000","Mais de 600000")) 

15.3.2 Construção do Mapa do consumo de cimento - Julho 2019

# Mapa de consumo de cimento em Julho de 2019

ggplot(juntos)+
  geom_sf(aes(fill=CATEGORIA3))+
  scale_fill_manual(values = c("orange","red","yellow","green","blue","purple"))+
  annotation_scale(location="br",height = unit(0.2,"cm"))+
  annotation_north_arrow(location="tr",
                         style = north_arrow_nautical,
                         height = unit(1.5,"cm"),
                         width = unit(1.5,"cm"))+
  geom_image(aes(x=-37,y=-27),
             image="icon/cimento.jpg",size= 0.26)+
  labs(title = "Mapa 7 - Consumo de cimento por estados - Brasil",
       subtitle = "Julho - 2019",
       fill="Consumo \nEm toneladas",
       x=NULL,
       y=NULL)+
  geom_sf_text(data=estados,aes(label = abbrev_state), size=2, color= "black")+
  theme_bw()+
  theme(legend.position = c(0.18,0.2),
        legend.key.size = unit(3.7,"mm"))
## Warning in st_point_on_surface.sfc(sf::st_zm(x)): st_point_on_surface may not
## give correct results for longitude/latitude data
## Scale on map varies by more than 10%, scale bar may be inaccurate

Comentário:

Pode-se observar nesse mapa, em relação ao mês de Abril, variações expressivas no consumo de cimento em alguns estados das regiões Norte e Nordeste. Nesse mês, apesar das baixas quantidades de cimento consumidas historicamente, estados como Amazonas e Pará apresentaram altas consideráveis no consumo desse produto. Houve alta também em alguns estados do Nordeste, como Maranhão e Piauí, que chegaram a consumir entre 50 mil e 100 mil toneladas de cimento nesse mês, o que é considerado um valor significativo para essas regiões. A regiões Sul e Sudeste se mantém com consumos bastante elevados.

15.4 Mapa de consumo de cimento por estados em Outubro de 2019

Será construído o mapa de consumo de cimento em toneladas para o mês de Outubro de 2019, levando em conta todas as regiões e estados do Brasil.

15.4.1 Dados necessários para o Mapa

# Manipulação de variáveis:

 juntos$CATEGORIA4 <- cut(juntos$OUT,breaks =c(4999,10000,50000,100000,300000,600000,Inf),
                           labels = c("5000 a 10000","10001 a 50000","50001 a 100000","100001 a 300000","300001 a 600000","Mais de 600000")) 

15.4.2 Construção do Mapa do consumo de cimento - Outubro 2019

# Mapa de consumo de cimento em Outubro de 2019

ggplot(juntos)+
  geom_sf(aes(fill=CATEGORIA4))+
  scale_fill_manual(values = c("orange","red","yellow","green","blue","purple"))+
  annotation_scale(location="br",height = unit(0.2,"cm"))+
  annotation_north_arrow(location="tr",
                         style = north_arrow_nautical,
                         height = unit(1.5,"cm"),
                         width = unit(1.5,"cm"))+
  geom_image(aes(x=-37,y=-27),
             image="icon/cimento.jpg",size= 0.26)+
  labs(title = "Mapa 8 - Consumo de cimento por estados - Brasil",
       subtitle = "Outubro - 2019",
       fill="Consumo \nEm toneladas",
       x=NULL,
       y=NULL)+
  geom_sf_text(data=estados,aes(label = abbrev_state), size=2, color= "black")+
  theme_bw()+
  theme(legend.position = c(0.18,0.2),
        legend.key.size = unit(3.7,"mm"))
## Warning in st_point_on_surface.sfc(sf::st_zm(x)): st_point_on_surface may not
## give correct results for longitude/latitude data
## Scale on map varies by more than 10%, scale bar may be inaccurate

Comentário:

Pode-se obeservar nesse mapa, em relação ao mês anterior, retração no consumo de cimento em várias regiões do país, como no Norte, Nordeste, Sudeste e Sul. Como comentado anteriormente essas retrações são bastante comuns no Norte e Nordeste mas são mais raras no Sudeste e Sul. Destaca-se ainda, nesse mês, uma desaceleração do consumo no estado de São Paulo, que pela primeira vez desde Janeiro, não ultrapassou as 600 mil toneladas consumidas. Nota-se também uma desceleração do consumo no estado do Rio de Janeiro, que pela primeira vez desde o início do ano teve consumo abaixo das 300 mil toneladas no mês. Essas retrações no consumo de cimento nesses grandes pólos industriais do Sudeste possivelmente ocorre pelas queda dos índices econômicos do país, favorecendo a não estimulação de investimentos em alguns períodos do ano.

15.5 Mapa do consumo de cimento per capita por estado

Será construído o mapa de consumo de cimento anual em toneladas per capita por estado do país levando em conta a população, de modo que seja possível visualizar com facilidade os locais com maior ou menor consumo desse produto.

15.5.1 Dados necessários para o Mapa

# Manipulação de variáveis:

juntos$CONSUMO<-as.numeric(juntos$CONSUMO)

juntos$CATEGORIA7 <- cut(juntos$CONSUMO,breaks =c(0.10,0.15,0.20,0.30,Inf),
                         labels = c("0.11 a 0.15","0.16 a 0.20","0.21 a 0.30","Mais de 0.30"))

15.5.2 Construção do Mapa do consumo de cimento per capita por estado

# Mapa de consumo de cimento per capita por estado

ggplot(juntos)+
  geom_sf(aes(fill=CATEGORIA7))+
  scale_fill_manual(values = c("orange","red","yellow","green","blue","purple"))+
  annotation_scale(location="br",height = unit(0.2,"cm"))+
  annotation_north_arrow(location="tr",
                         style = north_arrow_nautical,
                         height = unit(1.5,"cm"),
                         width = unit(1.5,"cm"))+
  geom_image(aes(x=-37,y=-27),
             image="icon/consumocimento.jpg",size= 0.28)+
  labs(title = "Mapa 9 - Consumo de Cimento per capita por estados - Brasil",
       subtitle = "Consumo por habitante",
       fill="Consumo de cimento\nEm toneladas",
       x=NULL,
       y=NULL)+
  geom_sf_text(data=estados,aes(label = abbrev_state), size=2, color= "black")+
  theme_bw()+
  theme(legend.position = c(0.18,0.2),
        legend.key.size = unit(3.7,"mm"))
## Warning in st_point_on_surface.sfc(sf::st_zm(x)): st_point_on_surface may not
## give correct results for longitude/latitude data
## Scale on map varies by more than 10%, scale bar may be inaccurate

Comentário:

Pode-se observar nesse mapa o consumo de cimento em toneladas anual per capita por estado de acordo com a população. Com isso, é possível notar a grande disparidade de consumo das regiões Sudeste, Sul e Centro-Oeste, quando comparadas com outros locais. Além disso, é fundamental observar, como já foi dito anteriormente nesse trabalho, a existência de localidades que, apesar de taxas elevadas de IDH e renda média da população, apresentam baixo consumo de cimento por habitante, como é o caso do estado do Rio de Janeiro. Em contrapartida, estados com IDH e renda mais baixa, como os estados do Mato Grosso e Mato Grosso do Sul, apresentam alto consumo médio por habitante.

15.6 Mapa do consumo total de cimento anual por estado

Será construido o mapa do consumo total de cimento anual por estado em toneladas. Com isso será possível visualizar as grandes disparidades no consumo desse produto em cada estado quando se considerar a quantidade total de todo o ano.

15.6.1 Dados necessários para o Mapa

# Manipulação de variáveis:

juntos$CATEGORIA5 <- cut(juntos$TOTAL,breaks =c(4999,10000,50000,100000,300000,600000,Inf),
                           labels = c("5000 a 10000","10001 a 50000","50001 a 100000","100001 a 300000","300001 a 600000","Mais de 600000")) 

15.6.2 Construção do Mapa do consumo total de cimento por estado

# Mapa de consumo total de cimento anual por estados em toneladas

ggplot(juntos)+
  geom_sf(aes(fill=CATEGORIA5))+
  scale_fill_manual(values = c("orange","red","yellow","green","blue","purple"))+
  annotation_scale(location="br",height = unit(0.2,"cm"))+
  annotation_north_arrow(location="tr",
                         style = north_arrow_nautical,
                         height = unit(1.5,"cm"),
                         width = unit(1.5,"cm"))+
  geom_image(aes(x=-37,y=-27),
             image="icon/consumocimento.jpg",size= 0.28)+
  labs(title = "Mapa 10 - Total de cimento consumido por estados - Brasil",
       subtitle = "Total consumido - 2019",
       fill="Total no ano \nEm toneladas",
       x=NULL,
       y=NULL)+
  geom_sf_text(data=estados,aes(label = abbrev_state), size=2, color= "black")+
  theme_bw()+
  theme(legend.position = c(0.18,0.2),
        legend.key.size = unit(3.7,"mm"))
## Warning in st_point_on_surface.sfc(sf::st_zm(x)): st_point_on_surface may not
## give correct results for longitude/latitude data
## Scale on map varies by more than 10%, scale bar may be inaccurate

Comentário:

No mapa a seguir é possível observar as grandes variações no consumo total de cimento consumido no ano de 2019 no Brasil. Pode-se observar que a maioria dos estados das regiões Sul, Sudeste, Nordeste e Centro-Oeste consumiram mais de 600 mil toneladas de cimento no ano. Entretanto ´vários estados da região Norte e alguns do Nordeste tiveram consumo modesto, ficando entre 100 e 300 mil toneladas ou até 600 mil toneladas.Nota-se ainda que, mesmo em estado com IDH baixo, como alguns da região Nordeste conseguiram atingir altos índices de consumo de cimento no acumulado do final do ano. Isso se deve as variações que vão ocorrendo ao longo do ano com altas e retrações no consumo.

16. Conclusão

Conclui-se, nesse trabalho, que o setor da construção civil é dependente dos índices econômicos do país. Dessa forma, foi possível perceber as grandes variações de consumo de cimento em toneladas que existem atualmente entre os estados e as regiões. Notou-se, que em regiões empobrecidas e com baixos índices de IDH e renda média,como em alguns estados do Norte e Nordeste, o consumo desse produto é bastante tímido, sendo baixo também o consumo per capita por habitante desse insumo nessas localidades. Com isso, o setor da construção civil nessas regiões fica enfraquecido, gerando poucos empregos e oportunidades na área, além de reduzir investimentos privados em infraestrutura, o que corrobora para a baixa qualidade de vida da população. Em contrapartida, regiões como o Sul e o Sudeste consomem quantidades elevadas de cimento mensalmente, o que contribui para impulsionar o progresso e os pólos industriais desses locais, atraindo mais empregos e investimentos, além de proporcionar o crescimento do setor. É importante ressaltar também, como comentado em etapas anteriores dessa pesquisa, que, quando se analisa o consumo mensal em toneladas, é comum encontrar estados com elevado IDH e que apresentam baixo consumo per capita, como é o caso do Distrito Federal e do Rio de Janeiro. Em contrapartida, pode-se encontrar também estados com IDH e renda média mais baixos e que consomem quantidades consideráveis de cimento, como é o caso do estado da Bahia. Em suma, o consumo de cimento no Brasil apresentou-se bastante desigual no ano de 2019, destacando-se as grandes demandas e as enormes quantidades consumidas pelas regiões Sudeste e Sul desse produto, tão importante para a melhoria das condições de infraestrutura e para o desenvolvimento da nação.

17. Referências Bibliográficas

AGÊNCIA IBGE NOTÍCIAS.PIB BRASIL.Disponível em: https://agenciadenoticias.ibge.gov.br/agencia-sala-de-imprensa/2013-agencia-de-noticias/releases/29445-contas-regionais-em-2018-apenas-sergipe-teve-queda-no-pib.Acesso em: 09 mar. 2021.

Atlas do Desenvolvimento Humano no Brasil.Disponível em: http://www.atlasbrasil.org.br/ranking.Acesso em: 06 mar. 2021.

BRASIL.Instituto Brasileiro de Geografia e Estatística. O IBGE.Disponível em: https://www.ibge.gov.br/institucional/o-ibge.html.Acesso em: 08 mar. 2021.

CBIC.Câmara Brasileira da Indústria da Construção.Disponível em: http://www.cbicdados.com.br/menu/materiais-de-construcao/cimento.Acesso em: 04 mar. 2021.

CBIC.Câmara Brasileira da Indústria da Construção.Disponível em: https://cbic.org.br/institucional/.Acesso em: 11 mar. 2021.

Cimento.Cimento no Brasil.Disponível em: https://cimento.org/cimento-no-brasil/#:~:text=O%20mercado%20do%20cimento%20no,de%20moagem%20e%20mesmo%20planta.Acesso em: 11 mar. 2021.

Minitab.Entendendo Análise de Variância (ANOVA) e o teste F.Disponível em: https://blog.minitab.com/pt/entendendo-analise-de-variancia-anova-e-o-teste-f.Acesso em: 12 mar. 2021.

Operdata.Como interpretar uma análise de variância Anova.Disponível em: https://operdata.com.br/blog/como-interpretar-analise-de-variancia-anova/.Acesso em: 16 mar. 2021.

PNUD (Programa das Nações Unidas para o Desenvolvimento).IDH.Disponível em: https://www.br.undp.org/content/brazil/pt/home/idh0.html.Acesso em: 12 mar. 2021.

Sienge.O impacto e a importância da construção civil no país. Disponível em: https://www.sienge.com.br/blog/construcao-civil-no-pais/. Acesso em: 19 mar. 2021.

SNIC.Sindicato Nacional da Indústria do Cimento.Disponível em: http://snic.org.br/.Acesso em: 06 mar. 2021.

SISTEMA FIBRA.Construção Civil representa 6,2% do PIB no Brasil.Disponível em: https://www.sistemafibra.org.br/fibra/sala-de-imprensa/noticias/1315-construcao-civil-representa-6-2-do-pib-brasil.Acesso em: 18 mar. 2021.

UEM.Universidade Estatual de Maringá.Teste para normalidade e homocedasticidade.Disponível em: https://biostatistics-uem.github.io/Bio/aula8/teste_normalidade_homocedasticidade.html.Acesso em: 10 mar. 2021.