knitr::opts_chunk$set(echo = TRUE)
options(digits=4)
UNIVERSIDADE FEDERAL FLUMINENSE
ESCOLA DE ENGENHARIA
PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA CIVIL
Trabalho de Estatística
ANÁLISE DO CONSUMO DE CIMENTO NO BRASIL EM 2019
Aluno: Hugo Saulo Morgado Ribeiro
Disciplina: Estatística aplicada à engenharia
Docente: Steven Ross
Matrícula: M015.220.006
Niterói
2021
O Brasil, como os demais países em desenvolvimento, tem uma grande carência de infraestrutura em diversas áreas, além da grande desigualdade social e da significativa discrepância na taxa de desenvolvimento dos estados e regiões.Apesar dos altos e baixos da economia, o impacto da construção civil tanto no PIB, como na geração de empregos é muito grande, sendo esse setor um dos principais motores da economia.Segundo o Sienge, em 2019 a construção civil representava 6,7 milhões de postos de trabalho. Isso era o equivalente a 7,3% de todos os empregos no Brasil,ou seja, cada 14 pessoas empregadas, uma trabalha na construção civil.
Semelhante a geração de empregos, o impacto do nosso setor na economia representou em 2017, segundo o FIBRA, 6,2% do PIB. Isso equivale a cerca de R$ 322 bilhões e coloca a construção civil entre os seis principais motores da economia, juntamente com agricultura, energia, mineração e outros.
O mercado do cimento no Brasil é atualmente composto por 24 grupos cimenteiros, nacionais e estrangeiros, com 100 plantas que produziam clinquer e/ou cimento normalmente até o ano de 2014, quando, no ano seguinte, começou a grande crise do setor e muitas fábricas começaram a fechar unidades de moagem e mesmo plantas integradas. Até o final de 2018 foram fechadas 20 fábricas de cimento, sendo 12 integradas e oito moagens. Das 13 plantas que rodavam e produziam cimento no Estado de São Paulo, seis tiveram as atividades interrompidas (SIENGE, 2020).
O cimento vêm sendo utilizado há bastante tempo em diversas obras de infraestrutura em todo o mundo. O Brasil, por ser um país continental,utiliza em grande escala esse insumo, que é de enorme importância para o país e para o desenvolvimento nacional. A construção civil é de grande relevância para a economia, sendo, atualmente, um dos principais setores geradores de empregos diretos e indiretos na população ativa, impactando diretamente no desenvolvimento nacional.
A Câmara Brasileira da Indústria da Construção (CBIC) foi fundada em 1957, no Estado do Rio de Janeiro, com o objetivo de tratar das questões ligadas à Indústria da Construção e ao Mercado Imobiliário, além de ser a representante institucional do setor no Brasil e no exterior.A CBIC representa institucionalmente o setor e promove a integração da cadeia produtiva da construção em âmbito nacional, contribuindo para o desenvolvimento econômico e social do país.
A entidade também representa internacionalmente a indústria da construção. Integra a Federação Interamericana da Indústria da Construção (FIIC), entidade que representa a construção em toda a América Latina, e da qual assumiu a liderança de comissão técnica criada em 2016 para discutir e articular ações destinadas a fomentar a inserção de um maior número de empresas da construção em projetos de infraestrutura nos diversos mercados mundiais. Com isso, a CBIC tem capacidade técnica para pesquisar e emitir periodicamente diversos boletins inerentes aos dados da Construção Civil em todo o país, como: consumo de materiais de construção, novos materiais que vêm sendo implementados no mercado, além do acompanhamento da produção nacional e do monitoramento do crescimento do setor em diversos estados.
Nesse trabalho, também foram utilizados dados do IBGE, Instituto Brasileiro de Geografia e Estatística, do ano de 2018, que, atualmente é o principal provedor de dados e informações do país,além de desenvolver diversas funções ligadas às pesquisas e análise de informações de cunho estatístico em todo o território nacional. Através dos dados referentes a cada estado, como PIB, renda média dos cidadãos e IDH, foi possível produzir nesse relatório um estudo estatístico que visa demonstrar como esses parâmetros de cunho social podem impactar diretamente no consumo de cimento pelos estados.
O Índice de Desenvolvimento Humano (IDH) é uma medida resumida do progresso a longo prazo em três dimensões básicas do desenvolvimento humano: renda, educação e saúde. O objetivo da criação do IDH foi o de oferecer um contraponto a outro indicador muito utilizado, o Produto Interno Bruto (PIB) per capita, que considera apenas a dimensão econômica do desenvolvimento.” (PNUD, 2020).
Conforme citado no Atlas do Desenvolvimento Humano no Brasil (2020), as faixas do IDH são as seguintes:
MUITO ALTO: 0,800 - 1,000
ALTO: 0,700 - 0,799
MÉDIO: 0,600 - 0,699
BAIXO: 0,500 - 0,599
MUITO BAIXO: 0,000 - 0,499
Esse trabalho tem como objetivo geral apresentar o consumo de cimento mensal em toneladas de todos os estados da federação durante o ano de 2019, relacionando esses dados com outras variáveis que influenciam diretamente no consumo desse material tão importante para a construção. Tais variáveis são: PIB,RENDA e CONSUMO. Essas variáveis se referem ao Produto Interno Bruto do pais, a renda média dos habitantes de cada estado e ao consumo per capita por toneladas por habitante ano em cada estado. Relacionando essas variáveis com o consumo de cimento por métodos estatísticos é possível avaliar os impactos que esses dados podem causar na indústria da contrução civil em todo o país.
Verificar através de testes estatísticos e de gráficos como as variáveis qualitativas e quantitativas podem se relacionar entre si e qual é o resultado dessa análise para o consumo de cimento no Brasil em 2019. Informar através de gráficos e mapas as possíveis variações no consumo de cimento no país ao longo do ano de 2019 e como a quantidade consumida desse produto tão importante pode sofrer influência direta de outros fatores, como PIB,IDH e renda dos cidadãos.
O presente trabalho é constituido das seguintes etapas:
Etapa 1 - Importação da base de dados referente ao consumo de cimento no ano de 2019 do site da CBIC;
Etapa 2 - Manipulação estatística das principais variáveis do banco de dados;
Etapa 3 - Teste de Hipóteses Estatísticas e suas interpretações inerentes ao trabalho;
Etapa 4 - Gráficos do tipo Boxplot juntamente com suas interpretações;
Etapa 5 - Estatísticas dos dados e suas interpretações;
Etapa 6 - Diagrama de Dispersão e Matriz de Correlação das principais variáveis e suas interpretações;
Etapa 7 - Mapas nacionais do consumo de cimento com as principais variáveis e suas interpretações.
A tabela abaixo apresenta a base de dados do CBIC utilizada nessa pesquisa:
# Biblioteca necessária para incluir a tabela:
library(kableExtra)
# Base de dados utilizada na pesquisa:
library(readxl)
dados4 <- read_excel("trabalho estatistica/dados4.xlsx")
View(dados4)
# Apresentando os números sem notação científica:
options(scipen = 999)
# Realizando a manipulação da tabela da base de dados:
kable(dados4, row.names = FALSE)%>%
kable_styling( full_width = T,bootstrap_options = c("striped", "hover", "condensed", "responsive"),
position = "center", fixed_thead = T) %>%
scroll_box(width = "900px", height = "600px")
| LOCALIDADE | ESTADO | CODIGO | POPULAÇÃO | REGIÃO | COD REGIAO | PIB | IDH | RENDA | JAN | FEV | MAR | ABR | MAI | JUN | JUL | AGO | SET | OUT | NOV | DEZ | TOTAL | CONSUMO |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| RONDÔNIA | RO | 11 | 1796460 | Norte | N | 44914000 | 0.725 | 1113 | 32559 | 24910 | 28713 | 32660 | 31635 | 35142 | 36419 | 40300 | 35493 | 38489 | 35591 | 27530 | 399441 | 0.22 |
| ACRE | AC | 12 | 894470 | Norte | N | 15331100 | 0.719 | 909 | 11188 | 10381 | 8080 | 11154 | 12508 | 12126 | 14496 | 16723 | 15253 | 16531 | 15206 | 10160 | 153806 | 0.17 |
| AMAZONAS | AM | 13 | 4207714 | Norte | N | 100109200 | 0.733 | 791 | 42731 | 36026 | 34609 | 40787 | 39823 | 39957 | 52048 | 53567 | 46239 | 51066 | 51684 | 44907 | 533444 | 0.13 |
| RORAIMA | RR | 14 | 631181 | Norte | N | 13370000 | 0.752 | 1204 | 9908 | 10723 | 10625 | 10593 | 10681 | 7887 | 9751 | 9654 | 9422 | 11160 | 10491 | 10225 | 121120 | 0.19 |
| PARÁ | PA | 15 | 8690745 | Norte | N | 161349600 | 0.698 | 863 | 110704 | 91638 | 90744 | 82108 | 97490 | 96803 | 118687 | 109761 | 120188 | 131620 | 125374 | 115811 | 1290928 | 0.15 |
| AMAPÁ | AP | 16 | 861773 | Norte | N | 16795200 | 0.741 | 857 | 9691 | 7378 | 6970 | 7612 | 8442 | 8835 | 11251 | 11342 | 13110 | 13195 | 10053 | 12274 | 120153 | 0.14 |
| TOCANTINS | TO | 17 | 1590248 | Norte | N | 35666200 | 0.743 | 1045 | 31615 | 30275 | 29568 | 26940 | 35910 | 33954 | 37983 | 40046 | 32647 | 39065 | 36180 | 28749 | 402932 | 0.25 |
| MARANHÃO | MA | 21 | 7114598 | Nordeste | NE | 98179500 | 0.687 | 605 | 70660 | 50796 | 47834 | 45327 | 54032 | 60657 | 67250 | 70773 | 67010 | 81128 | 81737 | 76841 | 774045 | 0.11 |
| PIAUÍ | PI | 22 | 3281480 | Nordeste | NE | 50378400 | 0.697 | 817 | 57142 | 46283 | 43390 | 40824 | 55063 | 56474 | 68133 | 68642 | 64741 | 71269 | 67631 | 62845 | 702437 | 0.21 |
| CEARÁ | CE | 23 | 9187103 | Nordeste | NE | 155903800 | 0.735 | 855 | 151601 | 129537 | 105236 | 110835 | 127925 | 127138 | 157128 | 164440 | 140298 | 168407 | 163615 | 155070 | 1701230 | 0.19 |
| RIO GRANDE DO NORTE | RN | 24 | 3534165 | Nordeste | NE | 66969600 | 0.731 | 956 | 46081 | 38703 | 36037 | 38430 | 44471 | 37884 | 51585 | 54306 | 52511 | 59472 | 54022 | 49791 | 563293 | 0.16 |
| PARAÍBA | PB | 25 | 4039277 | Nordeste | NE | 64373600 | 0.722 | 898 | 68053 | 55231 | 53723 | 57457 | 62755 | 48148 | 62190 | 62219 | 61329 | 81988 | 79341 | 76646 | 769080 | 0.19 |
| PERNAMBUCO | PE | 26 | 9616621 | Nordeste | NE | 186352000 | 0.727 | 871 | 149983 | 123483 | 125104 | 129633 | 138233 | 109657 | 128809 | 140408 | 134634 | 189040 | 166406 | 155456 | 1690846 | 0.18 |
| ALAGOAS | AL | 27 | 3351543 | Nordeste | NE | 54413000 | 0.683 | 714 | 32388 | 30378 | 30641 | 32337 | 36405 | 22499 | 27961 | 32378 | 32582 | 42703 | 38584 | 36503 | 395359 | 0.12 |
| SERGIPE | SE | 28 | 2318822 | Nordeste | NE | 42018000 | 0.702 | 906 | 36567 | 30849 | 31021 | 31437 | 31533 | 26431 | 25978 | 29860 | 39045 | 45213 | 42237 | 39732 | 409903 | 0.18 |
| BAHIA | BA | 29 | 14930634 | Nordeste | NE | 286239500 | 0.714 | 841 | 291428 | 249430 | 241612 | 252303 | 281912 | 200213 | 270511 | 281466 | 285535 | 328259 | 298078 | 264838 | 3245585 | 0.22 |
| MINAS GERAIS | MG | 31 | 21292666 | Sudeste | SE | 614875800 | 0.787 | 1322 | 501489 | 460699 | 445583 | 509271 | 532602 | 500905 | 588495 | 589349 | 543982 | 614074 | 557419 | 412582 | 6256450 | 0.29 |
| ESPÍRITO SANTO | ES | 32 | 4064052 | Sudeste | SE | 137020100 | 0.772 | 1295 | 111377 | 98614 | 94022 | 91546 | 95674 | 88927 | 105688 | 104711 | 97530 | 99651 | 76710 | 75456 | 1139906 | 0.28 |
| RIO DE JANEIRO | RJ | 33 | 17366189 | Sudeste | SE | 758859000 | 0.796 | 1689 | 232609 | 195364 | 205690 | 231354 | 236711 | 215360 | 258015 | 244870 | 225410 | 252849 | 226618 | 190993 | 2715843 | 0.16 |
| SÃO PAULO | SP | 35 | 46289333 | Sudeste | SE | 2210561900 | 0.826 | 1898 | 860232 | 773607 | 790146 | 886929 | 941600 | 817301 | 957289 | 978990 | 906956 | 980948 | 872046 | 692232 | 10458276 | 0.23 |
| PARANÁ | PR | 41 | 11516840 | Sul | S | 440029400 | 0.792 | 1607 | 323005 | 291453 | 300203 | 317058 | 314142 | 301878 | 358797 | 356169 | 316188 | 346214 | 323401 | 238466 | 3786974 | 0.33 |
| SANTA CATARINA | SC | 42 | 7252502 | Sul | S | 298227100 | 0.808 | 1660 | 252700 | 246146 | 255873 | 273299 | 270918 | 256605 | 303526 | 299284 | 284550 | 307576 | 281317 | 226233 | 3258027 | 0.45 |
| RIO GRANDE DO SUL | RS | 43 | 11422973 | Sul | S | 457294000 | 0.787 | 1705 | 226547 | 228500 | 223896 | 234132 | 207586 | 228583 | 234565 | 249519 | 230086 | 233136 | 233800 | 223214 | 2753564 | 0.24 |
| MATO GROSSO DO SUL | MS | 50 | 2809394 | Centro-Oeste | MW | 106969100 | 0.766 | 1439 | 77048 | 65660 | 65445 | 78095 | 80998 | 69415 | 87346 | 82888 | 79287 | 81855 | 77495 | 56612 | 902144 | 0.32 |
| MATO GROSSO | MT | 51 | 3526220 | Centro-Oeste | MW | 137442900 | 0.774 | 1386 | 102685 | 96144 | 102197 | 106712 | 124057 | 124625 | 133116 | 144310 | 140357 | 152769 | 124038 | 95054 | 1446064 | 0.41 |
| GOIÁS | GO | 52 | 7113540 | Centro-Oeste | MW | 195681700 | 0.769 | 1323 | 178918 | 161936 | 173792 | 176627 | 207991 | 185784 | 234176 | 226996 | 218141 | 234939 | 199619 | 168797 | 2367716 | 0.33 |
| DISTRITO FEDERAL | DF | 53 | 3055149 | Centro-Oeste | MW | 254817200 | 0.851 | 2460 | 48990 | 44726 | 44491 | 43901 | 55019 | 50942 | 63992 | 64127 | 60822 | 65182 | 51282 | 43554 | 637028 | 0.21 |
A tabela abaixo constitui o dicionário de dados, em que constam as variáveis e uma breve explicação do que cada uma delas significa.
Abaixo está apresentado o dicionário de dados, local onde estão todas as variáveis do banco de dados:
# Base de dados em que está o dicionário de dados:
library(readxl)
dicio <- read_excel("C:/Users/User/Desktop/trabalho estatistica/dados4.xlsx")
# Execução e manipulação da tabela:
library(DT)
DT::datatable(dicio, rownames = FALSE, colnames = FALSE)
Nesse trabalho foram utilizadas as seguintes variáveis:
LOCALIDADE: São os estados que compõem a República Federativa do Brasil;
ESTADO: São as siglas de cada estado do país;
CÓDIGO: É o código numérico que representa cada estado do país;
POPULAÇÃO: Trata-se da população dos estados no ano de 2018;
REGIÃO: Trata-se das subdivisões das regiões do país;
COD REGIÃO: Trata-se de um código de uma ou duas letras para cada região do país;
PIB: Trata-se do Produto Interno Bruto, em bilhões de reais, no ano de 2018;
IDH: Trata-se do Índice de Desenvolvimento Humano dos estados no ano de 2018;
RENDA: Trata-se da renda média dos habitantes em cada estado no ano de 2018;
JAN: Trata-se do consumo de cimento em toneladas por estado em Janeiro de 2019;
FEV: Trata-se do consumo de cimento em toneladas por estado em Fevereiro de 2019;
MAR: Trata-se do consumo de cimento em toneladas por estado em Fevereiro de 2019;
ABR: Trata-se do consumo de cimento em toneladas por estado em Fevereiro de 2019;
MAI: Trata-se do consumo de cimento em toneladas por estado em Maio de 2019;
JUN: Trata-se do consumo de cimento em toneladas por estado em Junho de 2019;
JUL: Trata-se do consumo de cimento em toneladas por estado em Julho de 2019;
AGO: Trata-se do consumo de cimento em toneladas por estado em Agosto de 2019;
SET: Trata-se do consumo de cimento em toneladas por estado em Setembro de 2019;
OUT: Trata-se do consumo de cimento em toneladas por estado em Outubro de 2019;
NOV: Trata-se do consumo de cimento em toneladas por estado em Novembro de 2019;
DEZ: Trata-se do consumo de cimento em toneladas por estado em Dezembro de 2019;
TOTAL: Trata-se do total de cimento em toneladas consumido pelos estados em 2019;
CONSUMO: Trata-se do total de cimento em toneladas consumido por habitante ano em cada estado em 2019. É o consumo per capita por habitante.
Em estatística, algumas variáveis são classificadas como qualitativas ou categóricas e outras como quantitativas. As variáveis qualitativas nesse trabalho são: LOCALIDADE;ESTADO;REGIÃO e COD REGIÃO. Já as variáveis quantitativas são representadas por:POPULAÇÃO;PIB;IDH;RENDA;JAN;FEV;MAR;ABR; MAI;JUN;JUL;AGO;SET;OUT;NOV;DEZ;TOTAL e CONSUMO.
A variável CONSUMO, que corresponde ao consumo per capita anual em toneladas por habitante em cada estado, sendo calculado dividindo-se o total de cimento consumido no ano pela população de cada estado. Dessa forma, obteve-se o consumo médio anual em toneladas por habitante em cada estado no ano de 2019.
Com essas variáveis foi possível gerar gráficos,executar testes de hipóteses e fornecer dados estatísticos de grande importância para a melhor compreensão dos principais fatores que podem impactar no consumo desse produto tão importante para o desenvolvimento e para as obras de infraestrutura do Brasil.
A seguir tem-se uma breve explicação a respeito dos Testes de Hipóteses Estatísticas realizados nessa pesquisa. Em todos os testes apresentados a seguir o valor de alpha é 0.05. Além disso, em todos os testes também existem as hipóteses nula e alternativa, que são escolhidas de acordo com o p-valor encontrado no teste. Em todos os testes existe a comparação entre p-valor e alpha, conforme explicitado abaixo.
O objetivo deste teste é fornecer uma estatística para avaliar se uma amostra tem distribuição normal. O teste pode ser utilizado para amostras de qualquer tamanho. A avaliação do pressuposto de normalidade é exigida pela maioria dos procedimentos estatísticos. A análise estatística paramétrica é um dos melhores exemplos para mostrar a importância de avaliar a suposição de normalidade.
Hipóteses do Teste de Shapiro-Wilk:
H0(Hipótese nula): os dados seguem uma distribuição normal. H1(Hipótese alternativa) : os dados não seguem uma distribuição normal. alpha = 0,05
Interpretação a ser realizada para a verificação da normalidade por esse teste:
Se Pvalor ≤ alpha: rejeita-se H0 Se Pvalor > alpha: não se rejeita H0
O Teste de Correlação de Spearman também faz a mensuração da associação linear entre duas variáveis quantitativas. Esse teste deve ser realizado para as variáveis que não apresentam distribuição normal.
Hipóteses do Teste de Spearman:
Hipótese nula: Não há associação entre as duas variáveis.Não há correlação entre as variáveis. Hipótese alternativa: Há associação entre as duas variáveis.Existe correlação entre as variáveis. rho: se estiver afastado de 1 ou -1 indica correlação fraca entre as variáveis.
H0(Hipótese nula): se o valor de rho = 0: não há correlação entre as variáveis. H1(Hipótese alternativa): se o valor de rho for diferente de zero: há correlação entre as variáveis. alpha = 0,05
Se Pvalor ≤ alpha: rejeita-se H0 Se Pvalor > alpha: não se rejeita H0
O Teste de Kruskal-Wallis pode ser aplicado a variáveis categóricas com mais de dois grupos. Sem outras suposições sobre a distribuição dos dados, o teste de Kruskal-Wallis não aborda hipóteses sobre medianas dos grupos. Em vez disso, o teste aborda se é provável que uma observação em um grupo seja maior que uma observação em outro grupo. O teste assume que as observações são independentes, ou seja, não é apropriado para observações emparelhadas ou dados de medidas repetidas.
Após a verificação do pressuposto de normalidade, esse teste foi executado para os dados que não seguem distribuição normal.
Hipóteses do Teste de Kruskal-Wallis:
H0(Hipótese nula): os grupos analisados possuem distribuições idênticas. H1(Hipótese alternativa): os grupos analisados possuem diferentes distribuições. alpha = 0,05
Se Pvalor ≤ alpha: rejeita-se H0 Se Pvalor > alpha: não se rejeita H0
O teste de Comparações Múltiplas de Wilcoxon de duas amostras é tipicamente um teste de igualdade estocástica entre duas distribuições de dados. Esse teste é baseado em classificação que compara valores para dois grupos. Um resultado significativo sugere que os valores para os dois grupos são diferentes. O teste ainda aborda se é provável que uma observação em um grupo seja maior que uma observação no outro. Em casos de distribuições não normais, usamos testes não paramétricos, como o Teste de Wilcoxon para comparar as as médias.
Hipóteses para o Teste de Wilcoxon:
H0(Hipótese nula): os dois grupos são amostrados de populações com distribuições idênticas. H1(Hipótese alternativa): os dois grupos são amostrados de populações com distribuições diferentes. alpha = 0,05
Se Pvalor ≤ alpha: rejeita-se H0 Se Pvalor > alpha: não se rejeita H0
Nessa pesquisa, a variável IDH apresenta distribuição normal, como será demonstrado mais adiante, sendo necessário a aplicação de outros testes para essa variável.
O teste de Bartlett é usado para verificar se as amostras têm homogeneidade de variâncias (variâncias iguais). A avaliação do pressuposto de homogeneidade de variâncias é exigida pela maioria dos procedimentos estatísticos. O Teste de Bartlett pode ser usado para verificar esse pressuposto.
Hipóteses para o Teste de Bartlett:
H0(Hipótese nula): as variâncias são iguais. H1(Hipótese alternativa): as variâncias são desiguais para pelo menos dois grupos. alpha = 0,05
Se Pvalor ≤ alpha: rejeita-se H0 Se Pvalor > alpha: não se rejeita H0
Esse teste pode comparar mais de duas médias e mostra se as diferenças entre essas médias são significativas.O teste permite que se avalie se a diferença entre as médias ocorreram por acaso ou não. Esse teste deve ser utilizado somente após a avaliação dos pressupostos de normalidade, de homogeneidade de variâncias (variâncias iguais), e de independência.
Esse teste deve ser empregado nas seguintes situações:
Hipóteses do Teste Anova:
H0(Hipótese nula): as médias entre os grupos são iguais. H1(Hipótese alternativa):há pelo menos uma diferença entre as médias dos grupos. alpha = 0,05
Se Pvalor ≤ alpha: rejeita-se H0 Se Pvalor > alpha: não se rejeita H0
O Teste de Tukey é um dos testes de comparação de média mais utilizado, por ser bastante rigoroso e de fácil aplicação. Ele consiste em comparar todos os possíveis pares de médias e se baseia na diferença mínima significativa “D.M.S”, considerando os percentis do grupo. No cálculo da “D.M.S”, utiliza-se também a distribuição da amplitude estudentizada, o quadrado médio dos resíduos da ANOVA e o tamanho amostral dos grupos. Esse teste é aplicado quando o teste “F” para tratamentos da ANOVA (análise de variância) for significativo.
Sendo as médias diferentes, por meio do Teste de Tukey é possível avaliar essas médias. Essa avaliação será realizada com base no p-valor ajustado, que aparece como pajd na tabela gerada após o teste.
Hipóteses do Teste de Tukey:
H0(Hipótese nula): os grupos possuem distribuição em média diferentes entre si H1(Hipótese alternativa):os grupos possuem distribuição em média semelhantes entre si alpha = 0,05
Se Pvalor ≤ alpha: rejeita-se H0 Se Pvalor > alpha: não se rejeita H0
O Teste de Shapiro, utilizado para variáveis quantitativas, pode ser utilizado para as seguintes variáveis do banco de dados:
Primeiro Trimestre: JAN e MAR Segundo Trimestre: ABR e JUN Terceiro Trimetre: JUL e SET Quarto Trimestre: OUT e DEZ
Também incluem-se as variáveis: CONSUMO, TOTAL,RENDA, PIB, IDH e POPULAÇÃO
Entretanto, nesse trabalho, optou-se por trabalhar como algumas variáveis específicas dentro de cada trimestre do ano de 2019. Essas variáveis são os meses do ano.
Inicialmente foram realizados vários Testes de Shapiro para verificar uma possível normalidade das principais variáveis do banco de dados.
Realizou-se, inicialmente, teste para os meses iniciais e finais de cada trimestre do ano de 2019:
## Teste de normalidade (Shapiro Wilk)
# H0: os dados seguem uma distribuição normal
# H1: os dados NÃO seguem uma distribuição normal
# alpha = 0.05
## Aplicando o Teste de Shapiro para as seguintes variáveis quantitativas:
# Meses iniciais e finais do primeiro trimestre:
shapiro.test(dados4$JAN)
Shapiro-Wilk normality test
data: dados4$JAN
W = 0.71, p-value = 0.000005
shapiro.test(dados4$MAR)
Shapiro-Wilk normality test
data: dados4$MAR
W = 0.7, p-value = 0.000004
# Meses iniciais e finais do segundo trimestre:
shapiro.test(dados4$ABR)
Shapiro-Wilk normality test
data: dados4$ABR
W = 0.68, p-value = 0.000002
shapiro.test(dados4$JUN)
Shapiro-Wilk normality test
data: dados4$JUN
W = 0.69, p-value = 0.000003
# Meses iniciais e finais do terceiro trimestre:
shapiro.test(dados4$JUL)
Shapiro-Wilk normality test
data: dados4$JUL
W = 0.7, p-value = 0.000004
shapiro.test(dados4$SET)
Shapiro-Wilk normality test
data: dados4$SET
W = 0.69, p-value = 0.000003
# Meses iniciais e finais do terceiro trimestre:
shapiro.test(dados4$OUT)
Shapiro-Wilk normality test
data: dados4$OUT
W = 0.7, p-value = 0.000004
shapiro.test(dados4$DEZ)
Shapiro-Wilk normality test
data: dados4$DEZ
W = 0.74, p-value = 0.00001
#Conclusão:
#Como pvalor < 0.05, rejeito H0
#os dados NÃO seguem uma distribuição normal
Conclusão:
Constatou-se que para as variáveis testadas, tem-se: pvalor < 0.05.Logo, rejeita-se a hipótese nula H0 e conclui-se que os dados não seguem uma distribuição normal e pode ser executado em seguida o Teste de kruskal-Wallis.
Realizou-se também, o Teste de Shapiro, para outras variáveis quantitativas do banco de dados, afim de verificar a normalidade das variáveis.
Foram realizados testes de normalidade para as seguintes variáveis:
RENDA
PIB
IDH
POPULAÇÃO
CONSUMO
TOTAL
#Teste de normalidade (Shapiro Wilk)
#H0: os dados seguem uma distribuição normal
#H1: os dados NÃO seguem uma distribuição normal
#alpha = 0.05
# Tranformando variáveis:####ALTEREI
dados4$PIB<-as.numeric(sub(",", ".", dados4$PIB))
dados4$IDH<-as.numeric(sub(",", ".", dados4$IDH))
dados4$RENDA<-as.double(dados4$RENDA)
dados4$CONSUMO<-as.double(dados4$CONSUMO)
# Aplicando o Teste de Shapiro para outras variáveis quantitativas:####ALTEREI
shapiro.test(dados4$RENDA)
Shapiro-Wilk normality test
data: dados4$RENDA
W = 0.9, p-value = 0.01
shapiro.test(dados4$PIB)
Shapiro-Wilk normality test
data: dados4$PIB
W = 0.8, p-value = 0.0002
shapiro.test(dados4$POPULAÇÃO)
Shapiro-Wilk normality test
data: dados4$POPULAÇÃO
W = 0.67, p-value = 0.000002
shapiro.test(dados4$CONSUMO)
Shapiro-Wilk normality test
data: dados4$CONSUMO
W = 0.92, p-value = 0.03
shapiro.test(dados4$TOTAL)
Shapiro-Wilk normality test
data: dados4$TOTAL
W = 0.7, p-value = 0.000004
#Conclusão:
#Como pvalor < 0.05, rejeito H0
#os dados NÃO seguem uma distribuição normal
# Aplicando o Teste de Shapiro para a variável IDH:
shapiro.test(dados4$IDH)
Shapiro-Wilk normality test
data: dados4$IDH
W = 0.97, p-value = 0.5
#Conclusão:
#Como pvalor > 0.05, não rejeito H0
#os dados seguem uma distribuição normal
Conclusão:
Para a variável “IDH”, tem-se: pvalor > 0.05. Logo, não é possível rejeitar a hipótese nula H0.Portanto, para essa variável, os dados seguem uma distribuição normal e será necessário executar o Teste de Bartlett.
Para as outras variáveis testadas, tem-se: pvalor < 0.05.Logo, rejeita-se a hipótese nula H0 e conclui-se que os dados não seguem uma distribuição normal e pode ser executado em seguida o Teste de kruskal-Wallis.
Esse Teste, também chamado de Teste da Homogeneidade das Variâncias, é utilizado para variáveis que apresentam distribuição normal. Nessa pesquisa, a variável IDH apresenta esse tipo de distribuição, pois ao ser realizado o Teste de Shapiro para essa variável encontrou-se pvalor > 0.05.
Será realizado o Teste de Bartlett com o objetivo de verificar se a Região interfere no IDH dos estados.
# Testando se a Região interfere no IDH:
# Tranformação necessária para a variável *IDH*:
dados4$IDH<-as.numeric(sub(",", ".", dados4$IDH))
# Criação de um modelo estatístico:
modelo <- aov(IDH~REGIÃO, data=dados4)
residuos <- residuals(modelo)
summary(residuos)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.03214 -0.01494 -0.00367 0.00000 0.01260 0.06100
# Hipóteses
#H0: os dados seguem uma distribuição normal
#H1: os dados NÃO seguem uma distribuição normal
#alpha = 0.05
#pvalor>0.05
#NÃO rejeito H0 (os dados seguem distribuição normal)
shapiro.test(residuos)
##
## Shapiro-Wilk normality test
##
## data: residuos
## W = 0.95, p-value = 0.2
# p-value = 0.5158
# Conclusão: Como pvalor>0.05, então os dados inerentes ao IDH seguem distribuição normal.
# Teste de Bartlett:
bartlett.test(residuos~dados4$REGIÃO)
##
## Bartlett test of homogeneity of variances
##
## data: residuos by dados4$REGIÃO
## Bartlett's K-squared = 4.9, df = 4, p-value = 0.3
#p-value = 0.3005
# Hipóteses do Teste de Bartlett:
#H0: todas as variâncias são iguais
#H1: pelo menos uma das variâncias é diferente
#alpha = 0.05
#pvalor>0.05, NÃO rejeito H0
#todas as variâncias são iguais
Conclusão:
Ao executar o Teste de Bartlett, percebeu-se que pvalor>0.05, logo a hipótese H0 não pode ser rejeitada, concluindo que todas as variâncias para o IDH são iguais.
Em seguida, já tendo concluído que as variâncias são todas iguais, executou-se o Teste de Anova para um modelo estatístico formado pelas variáveis IDH e REGIÃO.
O Teste Anova deve ser realizado quando as variâncias são todas iguais.
# Teste de Anova para *IDH* e *Região*:
modelo2 <- aov(IDH~REGIÃO, data= dados4)
summary(modelo2)
## Df Sum Sq Mean Sq F value Pr(>F)
## REGIÃO 4 0.0374 0.00934 17.5 0.0000014 ***
## Residuals 22 0.0117 0.00053
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
# Hipóteses do Teste de Anova:
#pvalor>0.05, não rej H0
#coeficientes das retas de regressão são iguais
# P-valor representado por Pr(>F)= 0.00000137
Conclusão:
Ao realizar o Teste de Anova para as variáveis IDH e REGIÃO, encontrou-se pvalor<0.05,representado por PR(>F) na matriz, ou seja, a hipótese nula deve ser rejeitada. Portanto, conclui-se, que existe ao menos uma média entre os grupos que difere das demais.
Para avaliar qual é a média diferente, deve-se executar o Teste de Comparações Múltiplas de Tukey entre as variáveis IDH e REGIÃO.
Realizando o Teste de Tukey para as variáveis IDH e REGIÃO. Com esse teste será possível saber quais regiões apresentam distribuição em média do IDH diferentes e semelhantes dentro do mesmo grupo.
# Teste de Comparações Múltiplas de Tukey:
TukeyHSD(modelo2)
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = IDH ~ REGIÃO, data = dados4)
##
## $REGIÃO
## diff lwr upr p adj
## Nordeste-Centro-Oeste -0.0791111 -0.12030 -0.03792 0.0001
## Norte-Centro-Oeste -0.0598571 -0.10282 -0.01690 0.0036
## Sudeste-Centro-Oeste 0.0052500 -0.04322 0.05372 0.9975
## Sul-Centro-Oeste 0.0056667 -0.04668 0.05802 0.9975
## Norte-Nordeste 0.0192540 -0.01529 0.05380 0.4810
## Sudeste-Nordeste 0.0843611 0.04317 0.12555 0.0000
## Sul-Nordeste 0.0847778 0.03908 0.13047 0.0001
## Sudeste-Norte 0.0651071 0.02215 0.10807 0.0015
## Sul-Norte 0.0655238 0.01823 0.11282 0.0038
## Sul-Sudeste 0.0004167 -0.05193 0.05277 1.0000
Conclusão:
Ao executar o Teste de Tukey, deve-se observar os valores de p adj, que é o p-valor ajustado. Ao observar esses dados, notou-se que para as regiões Nordeste e Centro-Oeste; Norte e Centro-Oeste;Sudeste e Nordeste;Sul e Nordeste;Sudeste e Norte; Sul e Norte, têm pvalor<0.05, o que indica que esses grupos apresentam distribuição em média do IDH diferentes dentro do mesmo grupo. Os outros grupos, que têm pvalor>0.05, apresentam distribuição em média do IDH semelhantes dentro do mesmo grupo.
Com o objetivo de reiterar a condição de não normalidade das variáveis testadas pelo Teste de Shapiro acima, pode-se construir gráficos para confirmar essa situação.
Realizou-se a construção de gráficos que auxiliam na reafirmação da condição de não normalidade para as variáveis inerentes aos meses do ano.
Construindo gráficos para os meses iniciais e finais de cada trimestre para reiterar a situação de normalidade do consumo de Cimento em toneladas em alguns meses do ano de 2019:
# JANEIRO:
qqnorm(dados4$JAN,xlab = "Quantis teóricos",
ylab = "Consumo",main = "Gráfico 1:Consumo de Cimento no Brasil em Janeiro de 2019")
qqline(dados4$JAN, col = 2)
# MARÇO:
qqnorm(dados4$MAR,xlab = "Quantis teóricos",
ylab = "Consumo",main = "Gráfico 2: Consumo de Cimento no Brasil em Março de 2019")
qqline(dados4$MAR, col = 3)
# ABRIL:
qqnorm(dados4$ABR,xlab = "Quantis teóricos",
ylab = "Consumo",main = "Gráfico 3: Consumo de Cimento no Brasil em Abril de 2019")
qqline(dados4$ABR, col = 4)
# JUNHO:
qqnorm(dados4$JUN,xlab = "Quantis teóricos",
ylab = "Consumo",main = "Gráfico 4: Consumo de Cimento no Brasil em Junho de 2019")
qqline(dados4$JUN, col = 5)
# JULHO:
qqnorm(dados4$JUL,xlab = "Quantis teóricos",
ylab = "Consumo",main = "Gráfico 5: Consumo de Cimento no Brasil em Julho de 2019")
qqline(dados4$JUL, col = 6)
# SETEMBRO:
qqnorm(dados4$SET,xlab = "Quantis teóricos",
ylab = "Consumo",main = "Gráfico 6: Consumo de Cimento no Brasil em Setembro de 2019")
qqline(dados4$SET, col = 7)
# OUTUBRO:
qqnorm(dados4$OUT,xlab = "Quantis teóricos",
ylab = "Consumo",main = "Gráfico 7: Consumo de Cimento no Brasil em Outubro de 2019")
qqline(dados4$OUT, col = 12)
# DEZEMBRO:
qqnorm(dados4$NOV,xlab = "Quantis teóricos",
ylab = "Consumo",main = "Gráfico 8: Consumo de Cimento no Brasil em Dezembro de 2019")
qqline(dados4$NOV, col = 9)
Comentário:
Conforme observado, em todos os gráficos QQ-PLOT o consumo de cimento para os meses citados realmente não apresentam uma distribuição normal. Isso pode ser afirmado por causa dos muitos dados que não se encontram enfileirados sobre a reta do gráfico,ou seja, estão mais afastados da reta, confirmando, portanto uma distribuição não normal dos dados de consumo de cimento referentes a esses meses.
Realizou-se também a construção de gráficos do tipo “QQPLOT” para reiterar a condição de não normalidade de outras variáveis já testadas pelo Teste de Shapiro, como: Renda,PIB,População,Consumo e Total.
Construindo gráficos do tipo “QQPLOT” para essas variáveis:
# Tranformação de variáveis:### ALTEREI
dados4$PIB<-as.numeric(sub(",", ".", dados4$PIB))
dados4$CONSUMO<-as.numeric(sub(",", ".", dados4$CONSUMO))
# RENDA:
qqnorm(dados4$RENDA,xlab = "Quantis teóricos",
ylab = "Consumo",main = "Gráfico 9: Renda Média por estados em 2019")
qqline(dados4$RENDA, col = 19)
# PIB: #### alterei
qqnorm(dados4$PIB,xlab = "Quantis teóricos",
ylab = "Consumo",main = "Gráfico 10: PIB por estados em 2019")
qqline(dados4$PIB, col = 19)
# POPULAÇÃO:
qqnorm(dados4$POPULAÇÃO,xlab = "Quantis teóricos",
ylab = "População",main = "Gráfico 11: Distribuição da Renda Média por estados em 2019")
qqline(dados4$POPULAÇÃO, col = 19)
# CONSUMO:
qqnorm(dados4$CONSUMO,xlab = "Quantis teóricos",
ylab = "Consumo",main = "Gráfico 12: Consumo per capita por estados em 2019")
qqline(dados4$CONSUMO, col = 19)
# TOTAL:
qqnorm(dados4$TOTAL,xlab = "Quantis teóricos",
ylab = "Consumo",main = "Gráfico 13: Consumo total de Cimento no Brasil em 2019")
qqline(dados4$TOTAL, col = 14)
Comentário:
Assim como para as variáveis inerentes aos meses do ano, foi observado em todos os gráficos dessas outras variáveis quantitativas que esses dados realmente não apresentam uma distribuição normal, uma vez que a maioria desses valores, que no gráfico são representados por pontos, encontram-se afastados da linha reta, confirmando, portanto, uma distribuição não normal dos mesmos.
Como já constatado acima, pelo Teste de Shapiro, a variável IDH não apresenta distribuição normal. Em seguida será construido o gráfico QQPLOT para essa variável, afim de reiterar a situação de não normalidade da mesma.
qqnorm(dados4$IDH,xlab = "Quantis teóricos",
ylab = "IDH",main = "Gráfico 14: IDH por estados em 2019")
qqline(dados4$IDH, col = 27)
Comentário:
Observa-se no gráfico plotado para o IDH que os valores correspondentes a essa variável apresentam uma tendência de enfileiramento sobre ou bem próximo à reta do gráfico, não havendo pontos espalhados ou afastados da reta, o que ratifica que essa variável realmente apresenta distribuição normal.
Foi executado o Teste de Spearman para as variáveis que não apresentam distribuição normal, tanto para aquelas que correspondem aos meses do ano, como aquelas que estão relacionadas com o total de cimento consumido, o PIB e o IDH.
Esse teste tem como objetivo verificar se algumas variáveis apresentam correlação entre si. A correlação de Spearman é do tipo não paramétrica, ou seja, pode-se executá-la para as variáveis testadas que não apresentam distribuição normal.
Para as variáveis referentes aos meses do ano, vamos aplicar o teste para os meses iniciais e finais de cada trimestre:
Teste de correlação para os meses iniciais e finais de cada trimestre:
## Teste da correlação de Spearman
#H0(Hipótese nula): se o valor de rho = 0: não há correlação entre as variáveis.
#H1(Hipótese alternativa): se o valor de rho for diferente de zero: há correlação entre as variáveis.
#alpha = 0,05
#Se Pvalor ≤ alpha: rejeita-se H0
#Se Pvalor > alpha: não se rejeita H0
# Aplicando Spearman para Janeiro e Março:
cor.test(dados4$JAN,dados4$MAR,method = "spearman")
##
## Spearman's rank correlation rho
##
## data: dados4$JAN and dados4$MAR
## S = 24, p-value = 0.000000008
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## 0.9927
#Conclusão:
# Pvalor ≤ alpha: rejeita-se H0, logo existe correlação entre as variáveis.
# Aplicando Spearman para Abril e Junho:
cor.test(dados4$ABR,dados4$JUN,method = "spearman")
##
## Spearman's rank correlation rho
##
## data: dados4$ABR and dados4$JUN
## S = 38, p-value = 0.00000003
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## 0.9884
# Aplicando Spearman para Julho e Setembro:
cor.test(dados4$JUL,dados4$SET,method = "spearman")
##
## Spearman's rank correlation rho
##
## data: dados4$JUL and dados4$SET
## S = 26, p-value = 0.00000001
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## 0.9921
# Aplicando Spearman para Outubro e Dezembro:
cor.test(dados4$OUT,dados4$DEZ,method = "spearman")
##
## Spearman's rank correlation rho
##
## data: dados4$OUT and dados4$DEZ
## S = 40, p-value = 0.00000004
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## 0.9878
#Conclusão geral:
#Pvalor ≤ alpha: rejeita-se H0, logo existe correlação entre as variáveis.
Conclusão:
Como p-valor é menor do que alpha em todos os testes de Spearman realizados acima, logo pode-se rejeitar a hipótese nula,ou seja, ficamos com a hipótese alternativa, que afirma que existe correlação entre as variáveis. Além disso, em todas as análises o valor de “rho” é positivo, o que indica que conforme uma variável aumenta, a outra também aumenta. Nota-se também um valor alto, próximo de 1, para “rho”, o que indica uma forte correlação entre as variáveis testadas.
Vamos realizar o teste de correlação de Spearman para algumas outras variáveis já anteriormente comentadas nesse trabalho.
Aplicando o Teste de Spearman para as seguintes variáveis:
PIB e Total Renda e Total
Com isso, pode-se será possível verificar se esses pares de variáveis tem alguma correlação entre si.
Teste de Spearman para as variáveis:
## Teste da correlação de Spearman
#H0(Hipótese nula): se o valor de rho = 0: não há correlação entre as variáveis.
#H1(Hipótese alternativa): se o valor de rho for diferente de zero: há correlação entre as variáveis.
#alpha = 0,05
#Se Pvalor ≤ alpha: rejeita-se H0
#Se Pvalor > alpha: não se rejeita H0
## Aplicando o Teste de Spearman
# PIB e Total ### ALTEREI
cor.test(dados4$PIB,dados4$TOTAL,method = "spearman")
##
## Spearman's rank correlation rho
##
## data: dados4$PIB and dados4$TOTAL
## S = 236, p-value = 0.000001
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## 0.9193
# Renda e Total
cor.test(dados4$RENDA,dados4$TOTAL,method = "spearman")
##
## Spearman's rank correlation rho
##
## data: dados4$RENDA and dados4$TOTAL
## S = 1818, p-value = 0.02
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## 0.4451
#Conclusão geral:
#Pvalor ≤ alpha: rejeita-se H0, logo existe correlação entre as variáveis.
Conclusão:
Como p-valor é menor do que alpha em todos os testes de Spearman realizados acima, logo pode-se rejeitar a hipótese nula,ou seja, ficamos com a hipótese alternativa, que afirma que existe correlação entre as variáveis.
Observou-se um valor baixo para “rho” quando testou-se as variáveis Renda e Total,o que indica uma correlação mais fraca entre essas variáveis. Isso pode ser explicado pelos estados, que, apesar da baixa renda média, apresentam um consumo considerável de cimento em toneladas por ano.
No banco de dados, tem-se a variável qualitativa Região. Essa variável tem mais de duas categorias, já que no Brasil existem cinco regiões distintas. Como essa variável tem mais de duas categorias pode-se realizar o Teste de Kruskal-Wallis, que pode ser feito entre variáveis qualitativas ou categóricas e variáveis quantitativas.
Após a verificação do pressuposto de normalidade, executou-se o teste para os dados que não seguem uma distribuição normal.
Seguindo a metodologia dos testes anteriores,em relação as variáveis inerentes aos meses do ano, esse teste também será realizado para os meses iniciais e finais de cada trimestre de 2019.
Realização do Teste para verificar se a variável REGIÃO interfere na quantidade de Cimento consumida ao longo dos meses em 2019.
# Teste de Kruskal-Wallis:
# Hipoteses do Teste:
#H0: os grupos analisados possuem distribuições idênticas.
#H1: os grupos analisados possuem diferentes distribuições.
#alpha = 0,05
# Se Pvalor <= alpha: rej h0
# Se Pvalor > alpha: não rej h0
# Bibliotecas necessárias para o Teste:
library(dplyr)
## Warning: package 'dplyr' was built under R version 4.0.4
##
## Attaching package: 'dplyr'
## The following object is masked from 'package:kableExtra':
##
## group_rows
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(rstatix)
## Warning: package 'rstatix' was built under R version 4.0.4
##
## Attaching package: 'rstatix'
## The following object is masked from 'package:stats':
##
## filter
# Realização do Teste de Kruskal-Wallis para as variáveis quantitativas referentes aos meses iniciais e finais de cada trimestre do ano de 2019.
# Realização do Teste para os meses de Janeiro e Março de 2019.
# Testando se a variável *REGIÃO* interfere na quantidade de cimento para o mês de Janeiro e para o mês de Março:
kruskal.test(dados4$TOTAL~dados4$REGIÃO)
##
## Kruskal-Wallis rank sum test
##
## data: dados4$TOTAL by dados4$REGIÃO
## Kruskal-Wallis chi-squared = 16, df = 4, p-value = 0.003
kruskal.test(dados4$MAR~dados4$REGIÃO)
##
## Kruskal-Wallis rank sum test
##
## data: dados4$MAR by dados4$REGIÃO
## Kruskal-Wallis chi-squared = 17, df = 4, p-value = 0.002
# Testando se a variável *REGIÃO* interfere na quantidade de Cimento para o mês de Abril e para o mês de Junho:
kruskal.test(dados4$ABR~dados4$REGIÃO)
##
## Kruskal-Wallis rank sum test
##
## data: dados4$ABR by dados4$REGIÃO
## Kruskal-Wallis chi-squared = 17, df = 4, p-value = 0.002
kruskal.test(dados4$JUN~dados4$REGIÃO)
##
## Kruskal-Wallis rank sum test
##
## data: dados4$JUN by dados4$REGIÃO
## Kruskal-Wallis chi-squared = 17, df = 4, p-value = 0.002
# Testando se a variável *REGIÃO* interfere na quantidade de Cimento para o mês de Julho e para o mês de Setembro:
kruskal.test(dados4$JUL~dados4$REGIÃO)
##
## Kruskal-Wallis rank sum test
##
## data: dados4$JUL by dados4$REGIÃO
## Kruskal-Wallis chi-squared = 16, df = 4, p-value = 0.003
kruskal.test(dados4$SET~dados4$REGIÃO)
##
## Kruskal-Wallis rank sum test
##
## data: dados4$SET by dados4$REGIÃO
## Kruskal-Wallis chi-squared = 16, df = 4, p-value = 0.003
# Testando se a variável *REGIÃO* interfere na quantidade de Cimento para o mês de Outubro e para o mês de Dezembro:
kruskal.test(dados4$OUT~dados4$REGIÃO)
##
## Kruskal-Wallis rank sum test
##
## data: dados4$OUT by dados4$REGIÃO
## Kruskal-Wallis chi-squared = 16, df = 4, p-value = 0.003
kruskal.test(dados4$DEZ~dados4$REGIÃO)
##
## Kruskal-Wallis rank sum test
##
## data: dados4$DEZ by dados4$REGIÃO
## Kruskal-Wallis chi-squared = 15, df = 4, p-value = 0.005
#Conclusão geral:
#Pvalor ≤ alpha: rejeita-se H0, logo os grupos analisados possuem distribuições distintas.
Conclusão:
Conforme observado em todos os Testes de Kruskal-Wallis realizado para as variáveis inerentes aos meses iniciais e finais de cada trimestre, p-valor é menor do que alpha e portanto, conclui-se que os grupos de variáveis testadas apresentam distribuições distintas, ou seja, as distribuições relacionadas ao concumo de Cimento não são idênticas para os meses iniciais e finais de cada trimestre.
Com isso fica comprovado que de fato a variável REGIÃO interfere na quantidade de cimento consumida pelos estados, uma vez que esse consumo realmente é diferente para cada região do país.
Aplicou-se também o Teste para outras variáveis que não apresentam distribuição normal, como RENDA, CONSUMO e TOTAL, juntamente com a variável qualitativa REGIÃO e com isso pode-se verificar se a variável categórica REGIÃO interfere nessas outras variáveis.
Realização do Teste para as variáveisRENDA, CONSUMO e TOTAL
# Teste de Kruskal-Wallis:
# Hipoteses do Teste:
#H0: os grupos analisados possuem distribuições idênticas.
#H1: os grupos analisados possuem diferentes distribuições.
#alpha = 0,05
# Se Pvalor <= alpha: rej h0
# Se Pvalor > alpha: não rej h0
# Bibliotecas necessárias para o Teste:
library(dplyr)
library(rstatix)
# Realização do Teste de Kruskal-Wallis para as outras variáveis quantitativas:
kruskal.test(dados4$RENDA~dados4$REGIÃO)
##
## Kruskal-Wallis rank sum test
##
## data: dados4$RENDA by dados4$REGIÃO
## Kruskal-Wallis chi-squared = 20, df = 4, p-value = 0.0005
kruskal.test(dados4$CONSUMO~dados4$REGIÃO)
##
## Kruskal-Wallis rank sum test
##
## data: dados4$CONSUMO by dados4$REGIÃO
## Kruskal-Wallis chi-squared = 14, df = 4, p-value = 0.007
kruskal.test(dados4$TOTAL~dados4$REGIÃO)
##
## Kruskal-Wallis rank sum test
##
## data: dados4$TOTAL by dados4$REGIÃO
## Kruskal-Wallis chi-squared = 16, df = 4, p-value = 0.003
#Conclusão geral:
#Pvalor ≤ alpha: rejeita-se H0, logo os grupos analisados possuem distribuições distintas.
Conclusão:
Conforme observado em todos os testes executados para as variáveis acima, p-valor é menor do que alpha e portanto, conclui-se que os grupos de variáveis testadas apresentam informações distintas, ou seja, as distribuições relacionadas à Renda, consumo per capita por habitante ano e Total consumido em toneladas por cada estado durante o ano apresentam distribuições distintas em cada região do país.
Esse Teste deve ser utilizado para os dados que não apresentam distribuição normal e tem como objetivo comparar grupos que são dependentes, ou seja, grupos relacionados.
Em casos de distribuições não normais usamos testes não paramétricos, como o Teste de Wilcoxon, para comparar as médias.
Como anteriormente pelo Teste de Kruskal-Wallis já se provou que para os meses inciais e finais de cada trimestre, p-valor é menor do que alpha, então para o Teste de Wilcoxon optou-se por comparar a influência das regiões em relação ao consumo de cimento apenas para os meses iniciais de cada trimestre de 2019.
Inicialmente realizando o Teste para a variável qualitativa REGIÃO e para as variáveis quantitativas inerentes aos meses iniciais de cada trimestre do ano de 2019.
# Teste de Wilcoxon:
#Como pvalor < 0.05, rejeito H0
#Os grupos são amostrados de populações com diferentes distribuições
#Hipótese nula: os dois grupos são amostrados de populações com distribuições idênticas.
#Hipótese alternativa: os dois grupos são amostrados de populações com distribuições diferentes.
# Bibliotecas necessárias para o Teste:
library(dplyr)
library(rstatix)
# Realização do Teste de Wilcoxon para as variáveis quantitativas referentes aos meses iniciais e finais de cada trimestre do ano de 2019.
# Realização do Teste para os meses de Janeiro e Março de 2019.
# Testando se a variável *REGIÃO* interfere na quantidade de cimento para o mês de Janeiro de 2019:
PMW1 <- pairwise.wilcox.test(dados4$JAN,
dados4$REGIÃO,
p.adjust.method="fdr")
# Adjusts p-values for multiple comparisons;
PMW1
##
## Pairwise comparisons using Wilcoxon rank sum exact test
##
## data: dados4$JAN and dados4$REGIÃO
##
## Centro-Oeste Nordeste Norte Sudeste
## Nordeste 0.56 - - -
## Norte 0.07 0.06 - -
## Sudeste 0.07 0.07 0.06 -
## Sul 0.07 0.07 0.06 0.86
##
## P value adjustment method: fdr
# Testando se a variável *REGIÃO* interfere na quantidade de cimento para o mês de Abril de 2019:
PMW3 <- pairwise.wilcox.test(dados4$ABR,
dados4$REGIÃO,
p.adjust.method="fdr")
# Adjusts p-values for multiple comparisons;
PMW3
##
## Pairwise comparisons using Wilcoxon rank sum exact test
##
## data: dados4$ABR and dados4$REGIÃO
##
## Centro-Oeste Nordeste Norte Sudeste
## Nordeste 0.46 - - -
## Norte 0.06 0.06 - -
## Sudeste 0.14 0.06 0.06 -
## Sul 0.08 0.06 0.06 1.00
##
## P value adjustment method: fdr
# Testando se a variável *REGIÃO* interfere na quantidade de cimento para o mês de Julho de 2019:
PMW5 <- pairwise.wilcox.test(dados4$JUL,
dados4$REGIÃO,
p.adjust.method="fdr")
# Adjusts p-values for multiple comparisons;
PMW5
##
## Pairwise comparisons using Wilcoxon rank sum exact test
##
## data: dados4$JUL and dados4$REGIÃO
##
## Centro-Oeste Nordeste Norte Sudeste
## Nordeste 0.37 - - -
## Norte 0.06 0.08 - -
## Sudeste 0.14 0.07 0.06 -
## Sul 0.08 0.06 0.06 0.86
##
## P value adjustment method: fdr
# Testando se a variável *REGIÃO* interfere na quantidade de cimento para o mês de Outubro de 2019:
PMW7 <- pairwise.wilcox.test(dados4$OUT,
dados4$REGIÃO,
p.adjust.method="fdr")
# Adjusts p-values for multiple comparisons;
PMW7
##
## Pairwise comparisons using Wilcoxon rank sum exact test
##
## data: dados4$OUT and dados4$REGIÃO
##
## Centro-Oeste Nordeste Norte Sudeste
## Nordeste 0.67 - - -
## Norte 0.06 0.06 - -
## Sudeste 0.14 0.06 0.06 -
## Sul 0.14 0.06 0.06 0.86
##
## P value adjustment method: fdr
Conclusão:
Conclui-se que, como p-valor é menor do que alpha, então a hipótese nula é rejeitada. Logo, os grupos analisados são amostrados de distribuições diferentes. Isso quer dizer que a taxa de consumo de Cimento nos meses testados ao longo de 2019 não é a mesma em todas as regiões do país. Dessa forma, entende-se que a região exerce influência direta sobre a quantidade de Cimento em toneladas consumida pelos estados.
Através da Matriz do Teste de Wilcoxon que compara a influência das regiões em relação ao consumo de cimento, percebe-se o seguinte:
Primeiro Trimestre de 2019
Janeiro:
Em relação ao mês de Janeiro, observa-se que as regiões Norte e Centro-Oeste;Sudeste e Centro-Oeste;Sul e Centro-Oeste;Nordeste e Sudeste;Nordeste e Norte;Nordeste e Sul;Norte e Sudeste; Norte e Sul;Sudeste e Sul, apresentam distribuições da variável em média diferentes entre si, pois quando são comparadas uma com a outra, p-valor é menor do que 0,05. Já as regiões Sudeste e Sul; Centro-Oeste e Nordeste, apresentam distribuições da variável em média semelhantes, pois quando são comparadas uma com a outra, p-valor é maior do que 0,05.
Segundo Trimestre de 2019
Abril:
Em relação ao mês de Abril, observa-se que as regiões Norte e Centro-Oeste;Sul e Centro-Oeste;Nordeste e Sudeste;Nordeste e Norte;Nordeste e Sul;Norte e Sudeste; Norte e Sul, apresentam distribuições da variável em média diferentes entre si, pois quando são comparadas uma com a outra, p-valor é menor do que 0,05. Já as regiões Nordeste e Centro-oESTE; Sudeste e Centro-Oeste; Sul e Sudeste, apresentam distribuições da variável em média semelhantes, pois quando são comparadas uma com a outra, p-valor é maior do que 0,05.
Terceiro Trimestre de 2019
Julho:
Em relação ao mês de Julho, observa-se que as regiões Norte e Centro-Oeste; Sul e Centro-Oeste; Norte E Nordeste; Sul e Nordeste; Sudeste e Nordeste;Sudeste e Norte; Sul e Norte, apresentam distribuições da variável em média diferentes entre si, pois quando são comparadas uma com a outra, p-valor é menor do que 0,05.Já as regiões Nordeste e Centro-Oeste; Sudeste e Centro-Oeste; Sul e Sudeste, apresentam distribuições da variável em média semelhantes, pois quando são comparadas uma com a outra, p-valor é maior do que 0,05.
Quarto Trimestre de 2019
Outubro:
Em relação ao mês de Outubro, observa-se que todas as regiões presentam distribuições da variável em média semelhantes, pois quando são comparadas uma com a outra, p-valor é maior do que 0,05.
Como esse teste se baseia na mediana das diferenças, pode-se gerar um resumo numérico. Nessa etapa foi criado um resumo numérico para as variáveis inerentes aos meses do ano de 2019, no que tange ao consumo de Cimento.
Será criado um resumo numérico para os meses iniciais e finais de cada trimestre de 2019.
# Resumo numérico entre os meses iniciais e finais do primeiro trimestre:
# Janeiro e Março:
# Criando a variável dif no banco de dados:
dados4$dif <- dados4$MAR - dados4$JAN
View(dados4)
# Gerando uma estatística descritiva dessa diferença entre Março e Janeiro:
dados4 %>% get_summary_stats(MAR, JAN, dif, type = "median_iqr")
## # A tibble: 3 x 4
## variable n median iqr
## <chr> <dbl> <dbl> <dbl>
## 1 dif 27 -10044 19900.
## 2 JAN 27 77048 163084.
## 3 MAR 27 65445 156926
# Resumo numérico entre os meses iniciais e finais do segundo trimestre:
# Abril e Junho:
dados4$dif <- dados4$JUN - dados4$ABR
View(dados4)
# Gerando uma estatística descritiva dessa diferença entre Junho e Abril:
dados4 %>% get_summary_stats(JUN, ABR, dif, type = "median_iqr")
## # A tibble: 3 x 4
## variable n median iqr
## <chr> <dbl> <dbl> <dbl>
## 1 ABR 27 78095 168446.
## 2 dif 27 -2619 16601
## 3 JUN 27 69415 156486.
# Resumo numérico entre os meses iniciais e finais do terceiro trimestre:
# Julho e Setembro:
# Criando a variável dif no banco de dados:
dados4$dif <- dados4$SET - dados4$JUL
View(dados4)
# Gerando uma estatística descritiva dessa diferença entre Setembro e Julho:
dados4 %>% get_summary_stats(SET, JUL, dif, type = "median_iqr")
## # A tibble: 3 x 4
## variable n median iqr
## <chr> <dbl> <dbl> <dbl>
## 1 dif 27 -3170 13310
## 2 JUL 27 87346 189586.
## 3 SET 27 79287 179134.
# Resumo numérico entre os meses iniciais e finais do quarto trimestre:
# Outubro e Dezembro:
# Criando a variável dif no banco de dados:
dados4$dif <- dados4$DEZ - dados4$OUT
# Gerando uma estatística descritiva dessa diferença entre Dezembro e Outubro:
dados4 %>% get_summary_stats(DEZ, OUT, dif, type = "median_iqr")
## # A tibble: 3 x 4
## variable n median iqr
## <chr> <dbl> <dbl> <dbl>
## 1 DEZ 27 76646 138252
## 2 dif 27 -13337 53500
## 3 OUT 27 81988 185898
Conclusão:
Para os meses de Janeiro e Março
Para esses meses observa-se que o valor da mediana da diferença é - 10144, ou seja, é um valor diferente de zero, o que permite afirmar que realmente existe uma diferença de consumo de Cimento entre esses meses. Além disso, como o valor da mediana é negativo, pode-se inferir, também, que o consumo de Cimento em janeiro foi maior do que o consumo em março.
Para os meses de Abril e Junho
Para esses meses observa-se que o valor da mediana da diferença é - 2619, ou seja, é um valor diferente de zero, o que permite afirmar que realmente existe uma diferença de consumo de Cimento entre esses meses.Além disso, como o valor da mediana é negativo, pode-se inferir também que o consumo de Cimento em abril foi maior do que o consumo em junho.
Para os meses de Julho e Setembro
Para esses meses observa-se que o valor da mediana da diferença é - 3170, ou seja, é um valor diferente de zero, o que permite afirmar que realmente existe uma diferença de consumo de Cimento entre esses meses.Além disso, como o valor da mediana é negativo, pode-se inferir também que o consumo de Cimento em julho foi maior do que o consumo em setembro.
Para os meses de Outubro e Dezembro
Para esses meses observa-se que o valor da mediana da diferença é - 13337, ou seja, é um valor diferente de zero, o que permite afirmar que realmente existe uma diferença de consumo de Cimento entre esses meses.Além disso, como o valor da mediana é negativo, pode-se inferir também que o consumo de Cimento em outubro foi maior do que o consumo em dezembro.
Nessa etapa serão construídos gráficos do tipo Boxplot entre variáveis quantitativas e qualitativas do banco de dados. Primeiramente serão utilizadas variáveis quantitativas inerentes aos meses iniciais de cada trimestre do ano de 2019. A variável qualitativa REGIÃO será utilizada nessa etapa. Optou-se, nessa etapa, por construir os Boxplots somente dos meses iniciais de cada trimestre, pois o consumo nesses meses apresentou maiores variações do que em outros períodos do ano, conforme os gráficos a seguir.
Criando gráficos para os meses iniciais de cada trimestre juntamente com a variável qualitativa. Assim será possível entender como diferentes regiões podem impactar no consumo desse produto tão importante para o desenvolvimento nacional.
# Manipulação de variáveis:
dados4$REGIÃO<-as.factor(dados4$REGIÃO)
dados4$ESTADO<-as.factor(dados4$ESTADO)
dados4$LOCALIDADE<-as.factor(dados4$LOCALIDADE)
dados4$IDH<-as.numeric(sub(",", ".", dados4$IDH))
dados4$CONSUMO<-as.numeric(sub(",", ".", dados4$CONSUMO))
# Boxplot para o primeiro trimestre:
# Janeiro:
boxplot(JAN~ REGIÃO,data=dados4, col=c("red","#faa005","#1bc704","#0f8efc","yellow"), main="Boxplot 1 \n Consumo de cimento no Brasil por região - Janeiro\n")
Comentário:
Tendo em vista o gráfico Boxplot 1, referente ao mês de Janeiro de 2019, observa-se que a região Norte apresenta um outlier, ou seja, nessa localidade existe um estado com consumo de Cimento no mês de Janeiro bastante superior aos outros estados dessa região. Nota-se também que todas as regiões apresentam pequena amplitude interquartil, com exceção da região Sudeste.Pode-se observar ainda que o Sudeste se destaca pelos elevados índices de consumo de cimento em toneladas no mês de Janeiro, enquanto as outras regiões apresentam consomem quantidades bem inferiores. Destaca-se a região Norte que apresenta um baixíssimo consumo quando comparada as outras localidade, de modo que nesse mês somente um estado dessa localidade consumiu mais cerca de 100 mil toneladas de cimento.
# Boxplot para o segundo trimestre:
# Abril:
boxplot(ABR ~ REGIÃO,data = dados4, col=c("red","#faa005","#1bc704","#0f8efc","yellow"), main="Boxplot 2 \n Consumo de cimento no Brasil por região - Abril\n")
Comentário:
Tendo em vista o gráfico Boxplot 2, referente ao mês de Abril de 2019, observa-se a presença de dois outliers, um para a região Norte e outro para o Nordeste,o que indica que em cada uma dessas regiões um determinado estado se destacou no consumo de cimento em relação aos demais.Destaque para os elevados consumos da região Sudeste e as baixas taxas do Norte.Nota-se também que todas as regiões apresentam pequena amplitude interquartil, com exceção da região Sudeste. A região Norte tem consumo máximo abaixo de 100 mil toneladas nesse mês, o que também ocorreu no trimestre anterior.Pode-se observar também que a região Sudeste apresenta grandes variações de consumo, pois existem estados que consumiram menos de 100 mil toneladas e outros com mais de 800 mil toneladas no mês, como é o caso dO Espírito Santo e São Paulo repectivamente.
# Boxplot para o segundo trimestre:
# Julho:
boxplot(JUL ~ REGIÃO,data = dados4, col=c("red","#faa005","#1bc704","#0f8efc","yellow"), main="Boxplot 3 \n Consumo de cimento no Brasil por região - Julho\n")
Comentário:
Tendo em vista o gráfico Boxplot 3, referente ao mês de Julho de 2019, observa-se a presença de dois outliers,um para a região Nordeste e outro para a região Norte, o que indica que em cada uma dessas regiões um determinado estado se destacou no consumo de cimento em relação aos demais.Nota-se também que todas as regiões apresentam pequena amplitude interquartil, com exceção da região Sudeste.Em relação aos trimestres anteriores, observa-se que a região Norte já apresenta maior consumo de Cimento, com algum estado dessa localidade ultrapassando as 100 mil toneladas de cimento. Geralmente, na região Norte, o Pará se destaca no consumo de cimento, por ser um estado mais populoso e por atrair maiores investimentos externos. Destaque também para a região Centro-Oeste, que apresenta consumo de mais 200 mil toneladas nesse mês por algum estado, um aumento para essa localidade em relação ao consumido nos trimestres anteriores.
# Boxplot para o segundo trimestre:
# Outubro:
boxplot(OUT ~ REGIÃO,data = dados4, col=c("red","#faa005","#1bc704","#0f8efc","yellow"), main="Boxplot 4 \n Consumo de cimento no Brasil por região - Outubro\n")
Comentário:
Tendo em vista o gráfico Boxplot 4, referente ao mês de Outubro de 2019, observa-se que a região Norte apresenta um outlier, ou seja, nessa localidade existe um estado com consumo de Cimento no mês de Janeiro bastante superior aos outros estados dessa região. Destaque para a região Sul que apresenta valores de consumo próximos a 400 mil toneladas. Destaque também para o Sudeste, que por ser uma das regiões mais ricas do país, atrai bastante investimento e tem alta demanda por esse produto em todos os trimestres do ano. A região Centro-Oeste, se mantém, em relação ao trimestre anterior, com um consumo de mais de 200 mil toneladas demandado por algum estado nesse mês, o que pode ser considerado um valor elevado para essa localidade.Já a região Nordeste apresentou aumento em relação aos meses anteriores, com algum estado consumindo mais de 300 mil toneladas nesse mês.
Comentário geral para os quatro trimestres analisados:
Em relação aos meses dos quatro trimestres citados, obserbou-se pelos gráficos a hegemonia a região Sudeste em relação as outras, apresentando sempre elevadas taxas de consumo de cimento. A região Sul também apresenta taxas altas, tendo sempre algum estado consumindo próximo de 400 mil toneladas ao longo dos meses.Já o Nordeste teve grande variação de consumo em Abril, com algum estado consumindo bem mais do que os outros, mas nos outros trimestres região se mantém com um consumo considerável de cimento. Por fim,a região Norte apresenta baixos consumos ao longo de todo o ano, quando comparada com outras localidades do país.
Foram construídos também outros gráficos Boxplot relacionados as outras variáveis quantitativas do banco de dados, como: RENDA,CONSUMO,IDH e TOTAL. A variável qualitativa utilizada foi: REGIÃO.
Com isso foi possível ilustrar, como a Região impacta diretamente sobre esses dados,contribuindo para explicar o alto poder de investimento do Sudeste, assim como as baixas demandas por cimento do Norte.
A variável CONSUMO refere-se ao Consumo per capita por habitante ano em toneladas de cada estado do país. Geralmente esse dado está ligado a Renda Média dos cidadãos de cada estado, uma vez que, quanto maior a renda, maior é a capacidade de um indivíduo em executar uma obra ou adquirir um imóvel, o que aumenta a demanda por Cimento numa determinada região.
# Boxplot entre Consumo e Região:
boxplot(CONSUMO ~ REGIÃO,data = dados4, col=c("red","#faa005","#1bc704","#0f8efc","yellow"), main="Boxplot 5 \n Consumo de cimento per capita por região\n")
Comentário:
Para o gráfico Boxplot 5, entre as variáveis CONSUMO e REGIÃO, observa-se elevados valores de Consumo per capita na região Sul e Centro-Oeste, o que pode ser explicado pela alta Renda Média dessas localidades. O Centro-Oeste se destaca pelo elevado valor da Renda per capita no Distrito Federal, o que contribui para o aumento significativo do consumo nessa região. Além disso, o elevado IDH no Sul do país também contribui para essa taxa expressiva de consumo de cimento ao longo de 2019. Já a região Nordeste apresenta um outlier na parte inferior do gráfico, o que indica, nesse caso, que algum estado apresenta uma taxa de consumo bastante inferior aos demais. O baixo consumo do Nordeste está ligado ao baixo IDH da região.
A variável RENDA refere-se a Renda Média da população em cada estado do país. Essa variável está diretamente ligada a qualidade de vida das pessoas e aos índices de consumo de produtos de todo tipo por parte das famílias. Além disso, observou-se que a Renda Média pode variar consideravelmente em diferentes regiões do país, conforme o gráfico abaixo. A variável qualitativa utilizada foi REGIÃO
# Boxplot entre Renda Média da população e Região:
boxplot(RENDA ~ REGIÃO,data = dados4, col=c("red","#faa005","#1bc704","#0f8efc","yellow"), main="Boxplot 6 \n Renda média da população por Região\n")
Comentário:
Para o gráfico Boxplot 6, entre as variáveis RENDA e REGIÃO, observa-se elevados valores de Renda Média da População no Centro-Oeste, ultrapassando a marca dos R$ 2000,00. A elevada Renda da população do Centro-Oeste é consequência da região do Distrito Federal, que apresenta um elevado valor nesse quesito. As regiões Sul e Sudeste também se destacam pela alta renda da população, principalmente devido ao IDH expressivo desses locais. Já o Nordeste detém renda média bastante inferior em relação as outras partes do país , o que contribui para uma desaceleração considerável no consumo desse produto pelos cidadãos. O Norte, apesar de ter Renda Média em alguns estados, bem superiores a renda do Nordeste, se destaca pelo baixo consumo de Cimento em diferentes meses do ano, conforme visto nos gráficos inerentes aos meses do ano.
o Indice de Desenvolvimento Humano, conhecido como IDH, está associado aos fatores de qualidade de vida da população em geral, como acesso à moradia, eletricidade, internet, alimentação adequada, além de estar ligado também as questões de infraestrutura de uma determinada região. Sendo assim, o IDH pode impactar diretamente no consumo de diversos itens, inclusive o Cimento, que, geralmente, é mais demandado em locais que têm altas taxas desse índice. o gráfico Boxplot abaixo mostra como o consumo pode variar de acordo com o IDH.
# Boxplot entre IDH e Região:
boxplot(IDH ~ REGIÃO,data = dados4, col=c("red","#faa005","#1bc704","#0f8efc","yellow"), main="Boxplot 7 \n IDH por região\n")
Comentário:
Conforme observado no gráfico Boxplot 7, as regiões Centro-Oeste, Sudeste e Sul tem as maiores tacas de IDH, o que sinaliza para elevado consumo de Cimento nessas localidades. Já as regiões Norte e Nordeste apresentam IDH bastante baixo em relação ao restante do país, o que é uma consequência do baixo grau de investimento em infraestruturas nesses estados.
Nessa etapa do trabalho, serão geradas as principais estatísticas dessa pesquisa, como: Média, Valores Máximos e Mínimos, além do Desvio Padrão. Essas estatísticas serão calculadas considerando o consumo de Cimento em toneladas ao longo de ano pelos estados. Esse dados serão calculados para as variáveis inerentes aos meses de cada trimestre do ano e para as variáveis ligadas ao Consumo por habitante ano e Total consumido de cimento pelos Estados ao longo do ano DE 2019.
Logo, serão as seguintes variáveis:
Primeiro Trimestre: JAN, FEV e MAR Segundo Trimestre: ABR, MAI e JUN Terceiro Trimetre: JUL, AGO e SET Quarto Trimestre: OUT, NOV e DEZ
Também incluem-se as variáveis: CONSUMO e TOTAL.
Será calculada a média do consumo de cimento em toneladas por região para cada mês de cada trimestre do ano de 2019.
# Consumo de Cimento por região no primeiro trimestre:
# Cálculo da Média do consumo de cimento para Janeiro, Fevereiro e Março:
dados4 %>% group_by(REGIÃO) %>%
select(JAN,FEV,MAR) %>%
summarise(media_JAN=mean(JAN), media_FEV=mean(FEV),media_MAR=mean(MAR))
## Adding missing grouping variables: `REGIÃO`
## # A tibble: 5 x 4
## REGIÃO media_JAN media_FEV media_MAR
## <fct> <dbl> <dbl> <dbl>
## 1 Centro-Oeste 101910. 92116. 96481.
## 2 Nordeste 100434. 83854. 79400.
## 3 Norte 35485. 30190. 29901.
## 4 Sudeste 426427. 382071 383860.
## 5 Sul 267417. 255366. 259991.
Comentário:
Pode-se observar que em todas as regiões houve queda no consumo de cimento nos dois primeiros meses do trimestre. A região Sudeste, como já comentado acima, destaca-se pelos altos valores de consumo de cimento quando comparada a outras regiões. A região Sul apresentou considerável consumo de cimento no trimestre.
# Consumo de Cimento por região no segundo trimestre:
dados4 %>% group_by(REGIÃO) %>%
select(ABR,MAI,JUN) %>%
summarise(media_ABR=mean(ABR), media_MAI=mean(MAI),media_JUN=mean(JUN))
## Adding missing grouping variables: `REGIÃO`
## # A tibble: 5 x 4
## REGIÃO media_ABR media_MAI media_JUN
## <fct> <dbl> <dbl> <dbl>
## 1 Centro-Oeste 101334. 117016. 107692.
## 2 Nordeste 82065. 92481 76567.
## 3 Norte 30265. 33784. 33529.
## 4 Sudeste 429775 451647. 405623.
## 5 Sul 274830. 264215. 262355.
Comentário:
Todas as regiões apresentaram queda no consumo de cimento entre os meses de Maio e Junho. A região Norte registrou baixa variação média ao longo de todo o trimestre. A região Sudeste apresentou queda considerável na média entre os dois últimos meses do trimestre. Além disso, essa localidade se destaca pelo altíssimo consumo de cimento no Brasil. A região Sul apresentou considerável consumo de cimento no trimestre.O Norte apresenta taxas bastante inferiores as demais localidades.
# Consumo de Cimento por região no terceiro trimestre:
dados4 %>% group_by(REGIÃO) %>%
select(JUL,AGO,SET) %>%
summarise(media_JUL=mean(JUL), media_AGO=mean(AGO),media_SET=mean(SET))
## Adding missing grouping variables: `REGIÃO`
## # A tibble: 5 x 4
## REGIÃO media_JUL media_AGO media_SET
## <fct> <dbl> <dbl> <dbl>
## 1 Centro-Oeste 129658. 129580. 124652.
## 2 Nordeste 95505 100499. 97521.
## 3 Norte 40091. 40199 38907.
## 4 Sudeste 477372. 479480 443470.
## 5 Sul 298963. 301657. 276941.
Comentário:
Assim como no trimestre anterior, todas as regiões apresentaram queda no consumo médio de cimento nos dois últimos meses do trimestre. Destaque para a queda significativa na região Sul entre os meses de Agosto e Setembro. As regiões Norte, Nordeste e Centro-Oeste registraram poucas variações no consumo durante o trimestre. A região Sudeste destaca-se pelas elevadas taxas de consumo de cimento. A região Sul apresentou considerável consumo de cimento no trimestre. O Norte apresenta taxas bastante inferiores as demais localidades.
# Consumo de Cimento por região no quarto trimestre:
dados4 %>% group_by(REGIÃO) %>%
select(OUT,NOV,DEZ) %>%
summarise(media_OUT=mean(OUT), media_NOV=mean(NOV),media_DEZ=mean(DEZ))
## Adding missing grouping variables: `REGIÃO`
## # A tibble: 5 x 4
## REGIÃO media_OUT media_NOV media_DEZ
## <fct> <dbl> <dbl> <dbl>
## 1 Centro-Oeste 133686. 113108. 91004.
## 2 Nordeste 118609. 110183. 101969.
## 3 Norte 43018 40654. 35665.
## 4 Sudeste 486880. 433198. 342816.
## 5 Sul 295642 279506 229304.
Comentário:
Conforme observado na tabela, todas as regiões apresentam queda de consumo de Cimento ao longo do trimestre. Destaca-se a abrupta queda das regiões Sul e Sudeste entre os meses de novembro e dezembro. A região Sudeste se destaca pelos elevados nível de consumo, enquanto o Norte apresenta taxas bastante inferiores as demais.
Será calculado o consumo médio anual em toneladas per capita por habitante em cada estado da federação. Com isso, é possível conhecer as regiões com maiores taxas no consumo de Cimento por habitante.
# Consumo médio anual por tonelada por habitante por região:
dados4 %>% group_by(REGIÃO) %>%
select(CONSUMO) %>%
summarise(media_CONSUMO=mean(CONSUMO))
## Adding missing grouping variables: `REGIÃO`
## # A tibble: 5 x 2
## REGIÃO media_CONSUMO
## <fct> <dbl>
## 1 Centro-Oeste 0.318
## 2 Nordeste 0.173
## 3 Norte 0.179
## 4 Sudeste 0.24
## 5 Sul 0.34
Comentário:
Apesar de a região Sudeste apresentar as maiores taxas de consumo de Cimento, a média DE consumo anual por tonelada por habitante foi maior no Sul. Isso ocorre, dentre outros motivos, pelo fato dessa região apresentar elevado IDH e alta Renda Média da população.
Pode-se obter os valores máximos e mínimos referentes ao consumo de Cimento em todos os trimestre do ano de 2019 por cada região do país.
Valores mínimos de consumo por região:
# Valores mínimos de consumo de Cimento no primeiro trimestre:
dados4 %>% group_by(REGIÃO) %>%
select(JAN,FEV,MAR) %>%
summarise(minimo_JAN=min(JAN), minimo_FEV=min(FEV),minimo_MAR=min(MAR))
## Adding missing grouping variables: `REGIÃO`
## # A tibble: 5 x 4
## REGIÃO minimo_JAN minimo_FEV minimo_MAR
## <fct> <dbl> <dbl> <dbl>
## 1 Centro-Oeste 48990 44726 44491
## 2 Nordeste 32388 30378 30641
## 3 Norte 9691 7378 6970
## 4 Sudeste 111377 98614 94022
## 5 Sul 226547 228500 223896
Comentário:
No primeiro trimestre, os valores mínimos de consumo de cimento no Nordeste são próximos, havendo somente uma alta no fim do primeiro trimestre. Já no Sudeste, houve uma redução considerável de Janeiro para Fevereiro, no que se refere ao valor mínimo de consumo, mantendo-se a queda em Março.
Os valores mínimos da região Sul se mantiveram próximos, apesar de ter ocorrido aumento e queda no consumo dentro do período considerado.
Valores máximos de consumo por região:
# Valores máximos de consumo de Cimento no primeiro trimestre:
dados4 %>% group_by(REGIÃO) %>%
select(JAN,FEV,MAR) %>%
summarise(maximo_JAN=max(JAN), maximo_FEV=max(FEV),maximo_MAR=max(MAR))
## Adding missing grouping variables: `REGIÃO`
## # A tibble: 5 x 4
## REGIÃO maximo_JAN maximo_FEV maximo_MAR
## <fct> <dbl> <dbl> <dbl>
## 1 Centro-Oeste 178918 161936 173792
## 2 Nordeste 291428 249430 241612
## 3 Norte 110704 91638 90744
## 4 Sudeste 860232 773607 790146
## 5 Sul 323005 291453 300203
Comentário:
Todas as regiões apresentaram queda de consumo entre os meses de Janeiro e Fevereiro. Destaca-se o Nordeste, que nesse período teve consumo máximo superior ao Centro-Oeste. A região Sudeste apresentou queda significativa do primeiro para os dois últimos meses do período.
Valores mínimos de consumo por região:
# Valores mínimos de consumo de Cimento no segundo trimestre:
dados4 %>% group_by(REGIÃO) %>%
select(ABR,MAI,JUN) %>%
summarise(minimo_ABR=min(ABR), minimo_MAI=min(MAI),minimo_JUN=min(JUN))
## Adding missing grouping variables: `REGIÃO`
## # A tibble: 5 x 4
## REGIÃO minimo_ABR minimo_MAI minimo_JUN
## <fct> <dbl> <dbl> <dbl>
## 1 Centro-Oeste 43901 55019 50942
## 2 Nordeste 31437 31533 22499
## 3 Norte 7612 8442 7887
## 4 Sudeste 91546 95674 88927
## 5 Sul 234132 207586 228583
Comentário:
Todas as regiões, exceto o Sul, apresentaram queda no valor mínimo de consumo entre os meses de Maio e Junho. Destaca-se a região Sul, que obteve valores mínimos bastante superiores aos obtidos pelo Sudeste. Já a região Norte apresenta valores mínimos de ocnsumo bastante inferiores as outras localidades.
Valores máximos de consumo por região:
# Valores máximos de consumo de Cimento no segundo trimestre:
dados4 %>% group_by(REGIÃO) %>%
select(ABR,MAI,JUN) %>%
summarise(maximo_ABR=max(ABR), maximo_MAI=max(MAI),maximo_JUN=max(JUN))
## Adding missing grouping variables: `REGIÃO`
## # A tibble: 5 x 4
## REGIÃO maximo_ABR maximo_MAI maximo_JUN
## <fct> <dbl> <dbl> <dbl>
## 1 Centro-Oeste 176627 207991 185784
## 2 Nordeste 252303 281912 200213
## 3 Norte 82108 97490 96803
## 4 Sudeste 886929 941600 817301
## 5 Sul 317058 314142 301878
Comentário:
Todas as regiões apresentam queda no valor máximo entre os meses de Maio e Junho.O Norte apresenta valores de consumo máximo bem inferiores aos de outras localidades. Destaca-se o Sudeste com valores máximos de consumo muito elevados em relação as demais regiões.
Valores mínimos de consumo por região:
# Valores mínimos de consumo de Cimento no terceiro trimestre:
dados4 %>% group_by(REGIÃO) %>%
select(JUL,AGO,SET) %>%
summarise(minimo_JUL=min(JUL), minimo_AGO=min(AGO),minimo_SET=min(SET))
## Adding missing grouping variables: `REGIÃO`
## # A tibble: 5 x 4
## REGIÃO minimo_JUL minimo_AGO minimo_SET
## <fct> <dbl> <dbl> <dbl>
## 1 Centro-Oeste 63992 64127 60822
## 2 Nordeste 25978 29860 32582
## 3 Norte 9751 9654 9422
## 4 Sudeste 105688 104711 97530
## 5 Sul 234565 249519 230086
Comentário:
Todas as regiões, exceto o Nordeste apresentaram queda no valor mínimo de consumo entre os meses de Agosto e Setembro. Destaca-se a região Sul, que nesse período, teve valores mínimos de consumo superiores ao Sudeste. Além disso, o Norte apresenta valores bastante inferiores as demais localidades.
Valores máximos de consumo por região:
# Valores máximos de consumo de Cimento no primeiro trimestre:
dados4 %>% group_by(REGIÃO) %>%
select(JUL,AGO,SET) %>%
summarise(maximo_JUL=max(JUL), maximo_AGO=max(AGO),maximo_SET=max(SET))
## Adding missing grouping variables: `REGIÃO`
## # A tibble: 5 x 4
## REGIÃO maximo_JUL maximo_AGO maximo_SET
## <fct> <dbl> <dbl> <dbl>
## 1 Centro-Oeste 234176 226996 218141
## 2 Nordeste 270511 281466 285535
## 3 Norte 118687 109761 120188
## 4 Sudeste 957289 978990 906956
## 5 Sul 358797 356169 316188
Comentário:
As regiões apresentram variações dentro do trimestre, oscilando entre altas e quedas no valor máximo de consumo. Destaca-se o Sudeste, que nesse período apresenta valores bastante superiores as demais localidades. Durante esse trimestre o Nordeste apresentou valores máximos de ocnsumo superiores ao Centro-Oeste.
Valores mínimos de consumo por região:
# Valores mínimos de consumo de Cimento no quarto trimestre:
dados4 %>% group_by(REGIÃO) %>%
select(OUT,NOV,DEZ) %>%
summarise(minimo_OUT=min(OUT), minimo_NOV=min(NOV),minimo_DEZ=min(DEZ))
## Adding missing grouping variables: `REGIÃO`
## # A tibble: 5 x 4
## REGIÃO minimo_OUT minimo_NOV minimo_DEZ
## <fct> <dbl> <dbl> <dbl>
## 1 Centro-Oeste 65182 51282 43554
## 2 Nordeste 42703 38584 36503
## 3 Norte 11160 10053 10160
## 4 Sudeste 99651 76710 75456
## 5 Sul 233136 233800 223214
Comentário:
A maioria das regiões, exceto o Sul, apresentaram queda no valor mínimo de consumo entre os meses de Outubro e Novembro. As regiões Sul e Norte apresentaram poucas variações ao longo de todo o trimestre. Destaca-se nesse período a região Sul, que apresentou consumo mínimo bastante superior ao Sudeste. A região Norte apresentou valores bastante inferiores as demais.
Valores máximos de consumo por região:
# Valores máximos de consumo de Cimento no quarto trimestre:
dados4 %>% group_by(REGIÃO) %>%
select(OUT,NOV,DEZ) %>%
summarise(maximo_OUT=max(OUT), maximo_NOV=max(NOV),maximo_DEZ=max(DEZ))
## Adding missing grouping variables: `REGIÃO`
## # A tibble: 5 x 4
## REGIÃO maximo_OUT maximo_NOV maximo_DEZ
## <fct> <dbl> <dbl> <dbl>
## 1 Centro-Oeste 234939 199619 168797
## 2 Nordeste 328259 298078 264838
## 3 Norte 131620 125374 115811
## 4 Sudeste 980948 872046 692232
## 5 Sul 346214 323401 238466
Comentário:
Para os valores máximos de consumo de Cimento, observou-se nesse trimestre que todas as regiões apresentaram queda no consumo. Destaca-se o Sudeste que apresentou retração expressiva no valor máximo de consumo no mês de dezembro, quando comparado com início do trimestre. Pode-se destacar ainda o Nordeste que apresentou valores máximos bastante superiores ao Centro-Oeste.
# Valores mínimos de consumo por ton por hab por região:
dados4 %>% group_by(REGIÃO) %>%
select(CONSUMO) %>%
summarise(minimo_CONSUMO=min(CONSUMO))
## Adding missing grouping variables: `REGIÃO`
## # A tibble: 5 x 2
## REGIÃO minimo_CONSUMO
## <fct> <dbl>
## 1 Centro-Oeste 0.21
## 2 Nordeste 0.11
## 3 Norte 0.13
## 4 Sudeste 0.16
## 5 Sul 0.24
Comentário:
Pode-se observar que as regiões Norte e Nordeste apresentam valores mínimos de consumo consideravelmente inferiores aos demais. Tal situação pode ser explicada pelo baixo IDH e Renda Média da população nessas localidades, o que provoca uma redução no consumo de diversos itens, especialmente aqueles ligados à contrução civil, como o Cimento. As regiões Sul, Sudeste e Centro-Oeste apresentam os maiores valores mínimos, justamente devido ao elevado padrão de vida desses locais.
# Valores máximos de consumo por ton por hab por região:
dados4 %>% group_by(REGIÃO) %>%
select(CONSUMO) %>%
summarise(maximo_CONSUMO=max(CONSUMO))
## Adding missing grouping variables: `REGIÃO`
## # A tibble: 5 x 2
## REGIÃO maximo_CONSUMO
## <fct> <dbl>
## 1 Centro-Oeste 0.41
## 2 Nordeste 0.22
## 3 Norte 0.25
## 4 Sudeste 0.290
## 5 Sul 0.45
Comentário:
Pode-se observar que os maiores consumos per capita, ou seja, o consumo anual em toneladas por habitante e por região ocorrem no Centro-Oeste e no Sul. Conforme já ilustrado acima nos Boxplots, um dos motivos para essas altas taxas de consumo de Cimento é o elevado IDH do local. A região Sudeste também apresenta alto consumo, porém por ter IDH e Renda média menor do que o Sul, apresenta menores taxas de consumo.
Nessa etapa, será calculado o Desvio Padrão do consumo de Cimento por região ao longo do ano de 2019 no Brasil para cada trimestre do ano, visando fazer uma comparação entre esses valores.
# Desvio Padrão do Consumo de Cimento no primeiro trimestre:
dados4 %>% group_by(REGIÃO) %>%
select(JAN,FEV,MAR) %>%
summarise(desviopadrao_JAN=sd(JAN), desviopadrao_FEV=sd(FEV),desviopadrao_MAR=sd(MAR))
## Adding missing grouping variables: `REGIÃO`
## # A tibble: 5 x 4
## REGIÃO desviopadrao_JAN desviopadrao_FEV desviopadrao_MAR
## <fct> <dbl> <dbl> <dbl>
## 1 Centro-Oeste 55826. 51110. 56792.
## 2 Nordeste 84428. 72547. 69480.
## 3 Norte 35693. 29239. 29152.
## 4 Sudeste 331985. 302594. 308020.
## 5 Sul 49885. 32474. 38320.
Comentário:
Conforme a tabela, a região Centro-Oeste não apresentou grandes variações no consumo ao longo do primeiro trimestre, o que indica regularidade no consumo de Cimento durante esse período. O Sudeste apresentou variações significativas de Desvio Padrão nesse trimestre, o que indica baixa regularidade nos valores de consumo do produto ao longo do período.
# Desvio Padrão do Consumo de Cimento no primeiro trimestre:
dados4 %>% group_by(REGIÃO) %>%
select(ABR,MAI,JUN) %>%
summarise(desviopadrao_ABR=sd(ABR), desviopadrao_MAI=sd(MAI),desviopadrao_JUN=sd(JUN))
## Adding missing grouping variables: `REGIÃO`
## # A tibble: 5 x 4
## REGIÃO desviopadrao_ABR desviopadrao_MAI desviopadrao_JUN
## <fct> <dbl> <dbl> <dbl>
## 1 Centro-Oeste 56381. 67000. 60748.
## 2 Nordeste 73030. 80746. 58458.
## 3 Norte 26079. 30910. 31019.
## 4 Sudeste 350751. 373953. 324065.
## 5 Sul 41484. 53593. 36984.
Comentário:
Conforme a tabela, pode-se observar que a Região Norte apresentou pouca variação no Desvio Padrão entre os meses de Maio e Junho, indicando regularidade no consumo de Cimento nesse período. Já o Sudeste apresentou grande variação entre Maio e Junho, indicando baixa regularidade no consumo desse produto nesse período. Isso significa que nesse trimestre o Sudeste apresentou grandes variações no Consumo de Cimento ao longo dos meses, podendo haver retrações ou crescimento do consumo.
# Desvio Padrão do Consumo de Cimento no terceiro trimestre:
dados4 %>% group_by(REGIÃO) %>%
select(JUL,AGO,SET) %>%
summarise(desviopadrao_JUL=sd(JUL), desviopadrao_AGO=sd(AGO),desviopadrao_SET=sd(SET))
## Adding missing grouping variables: `REGIÃO`
## # A tibble: 5 x 4
## REGIÃO desviopadrao_JUL desviopadrao_AGO desviopadrao_SET
## <fct> <dbl> <dbl> <dbl>
## 1 Centro-Oeste 75362. 73419. 70991.
## 2 Nordeste 78674. 81822. 80261.
## 3 Norte 38179. 34963. 38309.
## 4 Sudeste 378125. 390331. 361546.
## 5 Sul 62242. 53365. 43552.
Comentário:
Conforme a tabela, pode-se observar poucas variações nos valores do Desvio Padrão para as regiões Centro-Oeste e Norte, que indica alta regularidade do consumo de Cimento nessa região em relação as demais, ou seja, durante esse período essas regiões não tiveram grandes variações no consumo. Já a Região Sudeste apresentou grande variação no valor do Desvio Padrão entre Agosto e Setembro, indicando baixa regularidade no consumo de cimento nesse período.
# Desvio Padrão do Consumo de Cimento no quarto trimestre:
dados4 %>% group_by(REGIÃO) %>%
select(OUT,NOV,DEZ) %>%
summarise(desviopadrao_OUT=sd(OUT), desviopadrao_NOV=sd(NOV),desviopadrao_DEZ=sd(DEZ))
## Adding missing grouping variables: `REGIÃO`
## # A tibble: 5 x 4
## REGIÃO desviopadrao_OUT desviopadrao_NOV desviopadrao_DEZ
## <fct> <dbl> <dbl> <dbl>
## 1 Centro-Oeste 77450. 65050. 56280.
## 2 Nordeste 94225. 84992. 75740.
## 3 Norte 41947. 40494. 37567.
## 4 Sudeste 393700. 354860. 271717.
## 5 Sul 57476. 44828. 8077.
Comentário:
Conforme a tabela, pode-se observar que a região Norte apresentou poucas variações no valor do Desvio Padrão nesse período, indicando alta regularidade na quantidade consumida de Cimento.Já o Sudeste apresentou grandes variações nos valores de Desvio Padrão ao longo do período, indicando baixa regularidade na quantidade consumida desse produto ao longo do trimestre. Destaca-se a região Sul que, entre os meses de Novembro e Dezembro apresentou grande variação no Desvio Padrão, o que indica que nesses meses houve baixa regularidade em relação a quantidade de Cimento consumida.
Serão criados Diagramas de Dispersão para as variáveis quantitativas referentes aos meses do ano de 2019. Para isso, os gráfico serão gerados a partir dos meses iniciais e finais de cada trimestre do ano. Com isso pode-se avaliar o comportamento dos dados no gráfico.
Esse tipo de diagrama deve ser gerado para variáveis quantitativas.
Diagrama de Dispersão entre os meses iniciais e finais do primeiro trimestre.
# Diagrama de Dispersão para Janeiro e Março:
plot(dados4$JAN,dados4$MAR,pch=19,col="yellow",
xlab = "Janeiro",
ylab = "Março",
main = "Diagrama 1 - Diagrama de dispersão para o Consumo de Cimento")
abline(lsfit(dados4$JAN,dados4$MAR),
col="red")
Comentário:
Conforme o gráfico, para os meses de Janeiro e Março, a maioria dos estados do país consumiu no máximo um valor próximo de 350 mil toneladas de cimento. Entretanto, houveram regiões que consumiram acima de 400 mil toneladas desse produto no período mencionado. Geralmente o Sudeste se descata por ser a região de maior consumo.
Diagrama de Dispersão entre os meses iniciais e finais do segundo trimestre:
# Diagrama de Dispersão para Abril e Junho:
plot(dados4$ABR,dados4$JUN,pch=19,col="blue",
xlab = "Abril",
ylab = "Junho",
main = "Diagrama 2 - Diagrama de dispersão para o consumo de Cimento")
abline(lsfit(dados4$ABR,dados4$JUN),
col="red")
Comentário:
Conforme o trimestre anteriores e pelo gráfico, para os meses de Abril e Junho, a maioria dos estados do país consumiu no máximo um valor próximo de 350 mil toneladas de cimento. Entretanto, houveram regiões que consumiram acima de 400 mil toneladas desse produto no período mencionado. Geralmente o Sudeste se descata por ser a região de maior consumo.
Diagrama de Dispersão entre os meses iniciais e finais do terceiro trimestre:
# Diagrama de Dispersão para Julho e Setembro:
plot(dados4$JUL,dados4$SET,pch=19,col="green",
xlab = "Julho",
ylab = "Setembro",
main = "Diagrama 3 - Diagrama de dispersão para o consumo de Cimento")
abline(lsfit(dados4$JUL,dados4$SET),
col="red")
Comentário:
Conforme trimestres anteriores e pelo gráfico, para os meses de Julho e Setembro, a maioria dos estados do país consumiu no máximo um valor próximo de 350 mil toneladas de cimento. Entretanto, houveram regiões que consumiram acima de 400 mil toneladas desse produto no período mencionado. Geralmente o Sudeste se descata por ser a região de maior consumo.Observa-se também, em relação ao primeiro trimstre, um aumento na quantidade de estados que consumiram até o máximo de 200 mil toneladas durante esses meses.
Diagrama de Dispersão entre os meses iniciais e finais do quarto trimestre:
# Diagrama de Dispersão para Outubro e Dezembro:
plot(dados4$OUT,dados4$DEZ,pch=19,col="black",
xlab = "Outubro",
ylab = "Dezembro",
main = "Diagrama 4 - Diagrama de dispersão para o Consumo de Cimento")
abline(lsfit(dados4$OUT,dados4$DEZ),
col="red")
Comentário:
Conforme o gráfico, em relação aos dois primeiros trimestres do ano, o mês de Outubro já aparece com uma concentração maior de estados que apresentam consumo de Cimento em torno de 200 mil toneladas. Mantendo-se o mesmo andamento dos meses anteriores, são poucos estados que consomem mais de 500 mil toneladas em um determinado mês. Geralmente, conforme foi visto até essa etapa do trabalho, é o estado de São Paulo que se destaca pelo maior consumo de Cimento no Brasil.
Afim de compreender melhor como se dão as variações de consumo de Cimento no país, optou-se por gerar outros Diagramas de Dispersão envolvendo outras variáveis quantitativas importantes do banco de dados.
Os diagramas serão construídos com as seguintes variáveis: RENDA e CONSUMO
POPULAÇÃO e CONSUMO IDH e CONSUMO
Diagrama de Dispersão para as variáveis: Renda e Consumo per capita de Cimento anual em toneladas por estado
# Diagrama entre as variáveis: Renda e Consumo
plot(dados4$RENDA,dados4$CONSUMO,pch=19,col="black",
xlab = "Renda",
ylab = "Consumo",
main = "Diagrama 5 - Diagrama de dispersão entre Renda e Consumo")
abline(lsfit(dados4$RENDA,dados4$CONSUMO),
col="purple")
Comentário:
Através do Diagrama de Dispersão, pode-se observar que em locais em que a renda média da população gira em torno de R$1500,00, o consumo per capita por habitante ano em tonelada é mais elevado. A região Sudeste apresenta essa renda, o que explica as altas quantidades de Cimento consumidas. Pode-se notar que as menores taxas de consumo médio de Cimento são para localidades com renda média inferior a R$1000,00, como é o caso do Norte do país.
Diagrama de Dispersão para as variáveis: População e Consumo per capita de Cimento anual em toneladas por estado
# Diagrama entre as variáveis: População e Consumo
plot(dados4$POPULAÇÃO,dados4$CONSUMO,pch=19,col="black",
xlab = "População",
ylab = "Consumo",
main = "Diagrama 6 - Diagrama de dispersão entre população e consumo")
abline(lsfit(dados4$POPULAÇÃO,dados4$CONSUMO),
col="green")
Comentário:
Através do Diagrama de Dispersão, pode-se observar que os maiores consumos médios per capita de cimento se dão em locais com população em torno dos 10 milhões de habitantes. O estado de São Paulo apresenta elevado consumo mas como também tem grande população, a taxa de consumo per capita em relação à população não é tão elevada como em outros estados, a exemplo do Paraná, que tem uma população bem inferior a do estado de São Paulo, porém apresenta consumo médio per capita bastante superior, conforme pode ser visualizado no Boxplot 5 anteriormente citado.
Diagrama de Dispersão para as variáveis: IDH e Consumo per capita de Cimento anual em toneladas por estado
# Diagrama entre as variáveis: IDH e Consumo
plot(dados4$IDH,dados4$CONSUMO,pch=19,col="black",
xlab = "IDH",
ylab = "Consumo",
main = "Diagrama 7 - Diagrama de dispersão entre IDH e Consumo")
abline(lsfit(dados4$IDH,dados4$CONSUMO),
col="red")
Comentário:
Através do Diagrama de Dispersão, pode-se observar que o consumo per capita anul em toneladas por estado é bastante elevado em localidades com IDH em torno de 0,80. Tal situação ocorre na região Sudeste e em alguns estados da região Sul, que apresentam elevado IDH e alto consumo de Cimento. Entretanto, regiões como o Distrito Federal apresentam IDH muito alto, porém não registram taxas tão elevadas de consumo desse produto. Já as regiões com baixo IDH consomem pouco cimento anualmente, como é o caso dos estado do Norte do país.
A correlação entre variáveis é interpretada através da matriz de correlação. Na matriz são apresentados diversos números. Esses números podem ser comparados com os extremos -1 e +1. Quanto mais próximo de -1 ou +1, mais forte será a correlação entre as variáveis.
Por meio de uma Matriz de Correlação, pode-se, através da visualização gráfica e dos valores numéricos do coeficiente de correlação entre as variáveis, entender como as mesmas estão relacionadas umas com as outras. Nessa etapa, serão geradas algumas matrizes de correlação para as variáveis quantitativas referentes aos meses do ano e para outras variáveis quantitativas importantes do banco de dados.
Será construída a Matriz de Correlação para as variáves quantitativas referentes aos meses do ano de 2019 utilizando as seguintes variáveis:
JAN;JUL e DEZ & MAR;JUN e NOV
Dessa forma será possível verificar se existe uma correlação forte para o consumo de cimento entre esses meses do ano, de diferentes trimestres.
# Matriz de Correlação do consumo de Cimento para Janeiro, Julho e Dezembro
# Biblioteca necessária para essa etapa:
library(corrplot)
## corrplot 0.84 loaded
# Matriz de Correlação:
variaveis_quant<-c("JAN","JUL","DEZ")
dados4[,variaveis_quant]
## # A tibble: 27 x 3
## JAN JUL DEZ
## <dbl> <dbl> <dbl>
## 1 32559 36419 27530
## 2 11188 14496 10160
## 3 42731 52048 44907
## 4 9908 9751 10225
## 5 110704 118687 115811
## 6 9691 11251 12274
## 7 31615 37983 28749
## 8 70660 67250 76841
## 9 57142 68133 62845
## 10 151601 157128 155070
## # ... with 17 more rows
cor(dados4[,variaveis_quant])
## JAN JUL DEZ
## JAN 1.0000 0.9961 0.9950
## JUL 0.9961 1.0000 0.9888
## DEZ 0.9950 0.9888 1.0000
correlacao_dados<-cor(dados4[,variaveis_quant])
corrplot.mixed(correlacao_dados)
Comentário:
Conforme o gráfico gerado e a matriz de correlação da tabela, pode-se observar que durante esses três meses existe uma forte correlação entre as variáveis, aproximando-se sempre do valor máximo 1. Dessa maneira, entende-se que durante os meses de Janeiro, Julho e Dezembro as quantidades de cimento consumidas pelos estados apresentam correlação entre si.
# Matriz de Correlação do consumo de Cimento para Julho, Setembro e Dezembro
# Biblioteca necessária para essa etapa:
library(corrplot)
# Matriz de Correlação:
variaveis_quant<-c("MAR","JUN","NOV")
dados4[,variaveis_quant]
## # A tibble: 27 x 3
## MAR JUN NOV
## <dbl> <dbl> <dbl>
## 1 28713 35142 35591
## 2 8080 12126 15206
## 3 34609 39957 51684
## 4 10625 7887 10491
## 5 90744 96803 125374
## 6 6970 8835 10053
## 7 29568 33954 36180
## 8 47834 60657 81737
## 9 43390 56474 67631
## 10 105236 127138 163615
## # ... with 17 more rows
cor(dados4[,variaveis_quant])
## MAR JUN NOV
## MAR 1.0000 0.9963 0.9952
## JUN 0.9963 1.0000 0.9942
## NOV 0.9952 0.9942 1.0000
correlacao_dados<-cor(dados4[,variaveis_quant])
corrplot.mixed(correlacao_dados)
Comentário:
Assim como para o período anterior, o consumo de cimento para os meses de Março, Junho e Novembro apresentam forte correlação entre si. De acordo com a tabela e com o gráfico gerado, pode-se observar que os valores são bem próximos de +1, indicando que as quantidades consumidas nesse período têm uma correlação forte entre si.
Será construida uma Matriz de Correlação para as variáveis POPULAÇÃO;RENDA eCONSUMO. Dessa forma será possível descobrir se existe correlação entre elas, além de ser possível saber a força da correlação existente.
# Matriz de Correlação do consumo de Cimento para População, Renda e Consumo
# Biblioteca necessária para essa etapa:
library(corrplot)
# Matriz de Correlação:
variaveis_quant<-c("POPULAÇÃO","RENDA","CONSUMO")
dados4[,variaveis_quant]
## # A tibble: 27 x 3
## POPULAÇÃO RENDA CONSUMO
## <dbl> <dbl> <dbl>
## 1 1796460 1113 0.22
## 2 894470 909 0.17
## 3 4207714 791 0.13
## 4 631181 1204 0.19
## 5 8690745 863 0.15
## 6 861773 857 0.14
## 7 1590248 1045 0.25
## 8 7114598 605 0.11
## 9 3281480 817 0.21
## 10 9187103 855 0.19
## # ... with 17 more rows
cor(dados4[,variaveis_quant])
## POPULAÇÃO RENDA CONSUMO
## POPULAÇÃO 1.00000 0.3736 0.08558
## RENDA 0.37361 1.0000 0.50594
## CONSUMO 0.08558 0.5059 1.00000
correlacao_dados<-cor(dados4[,variaveis_quant])
corrplot.mixed(correlacao_dados)
Comentário:
Conforme o gráfico gerado e a matriz de correlação da tabela, pode-se observar que para essas variáveis existem variações entre a força das correlações. Nota-se que entre consumo e renda, tem-se uma correlação de 0.50 aproximadamente, o que significa correlação fraca, ou seja, pode haver locais com renda alta e consumo mais baixo, como é o caso do Distrito Federal. Entre população e consumo, a correlação é de 0.08, ou seja, bastante fraca, indicando que existem regiões com população menor e altas quantidades consumidas, como é o caso do Espírito Santo que tem consumo médio anual per capita por habitante de quase 0,30 toneladas por ano.
Será construida uma Matriz de Correlação para as variáveis IDH;RENDA eCONSUMO. Dessa forma será possível descobrir se existe correlação entre elas, além de ser possível saber a força da correlação existente.
# Matriz de Correlação do consumo de cimento para IDH, Renda e Consumo
# Biblioteca necessária para essa etapa:
library(corrplot)
# Matriz de Correlação:
variaveis_quant<-c("IDH","RENDA","CONSUMO")
dados4[,variaveis_quant]
## # A tibble: 27 x 3
## IDH RENDA CONSUMO
## <dbl> <dbl> <dbl>
## 1 0.725 1113 0.22
## 2 0.719 909 0.17
## 3 0.733 791 0.13
## 4 0.752 1204 0.19
## 5 0.698 863 0.15
## 6 0.741 857 0.14
## 7 0.743 1045 0.25
## 8 0.687 605 0.11
## 9 0.697 817 0.21
## 10 0.735 855 0.19
## # ... with 17 more rows
cor(dados4[,variaveis_quant])
## IDH RENDA CONSUMO
## IDH 1.0000 0.9471 0.5645
## RENDA 0.9471 1.0000 0.5059
## CONSUMO 0.5645 0.5059 1.0000
correlacao_dados<-cor(dados4[,variaveis_quant])
corrplot.mixed(correlacao_dados)
Comentário:
Conforme o gráfico gerado e a matriz de correlação da tabela, pode-se observar que para essas variáveis existem variações entre a força das correlações.Nota-se uma correlação bem forte, de 0.94, entre renda e IDH, o que significa que na maioria das vezes, locais com alto IDH tem renda mais elevada e em locais com baixo IDH a renda é mais baixa. Destaca-se a fraca correlação entre IDH e consumo, de aproximadamente 0.56, indicando que existem locais com IDH mais alto e baixo consumo per capita de cimento, como é o caso do Distrito Federal, por exemplo.
Foram construídos diversos mapas do Brasil, considerando as principais variáveis quantitativas e qualitativas. Com isso foi possível visualizar como diversos dados de caráter social, como IDH e Renda dos cidadãos podem impactar diretamente no consumo de cimento em cada região. Através dos mapas é possível observar a variação do consumo de cimento entre determinados meses do ano de 2019 nos estados.
Para os meses do ano, optou-se por construir quatro mapas, de modo que todos os trimestres do ano fossem representados. Sendo assim, foram construídos mapas de consumo de cimento para os seguintes meses de 2019:
Janeiro, Abril, Julho e Outubro
Dessa forma, pode-se ilustrar de modo mais consistente como as variações no consumo de cimento ocorrem nos estados e regiões ao longo do ano.
As figuras contidas nos mapas são meramente ilustrativas.
# Bibliotecas necessárias:
library(geobr)
## Warning: package 'geobr' was built under R version 4.0.4
## Loading required namespace: sf
library(dplyr)
library(readxl)
library(ggspatial)
## Warning: package 'ggspatial' was built under R version 4.0.4
library(ggimage)
## Warning: package 'ggimage' was built under R version 4.0.4
## Loading required package: ggplot2
## Warning: package 'ggplot2' was built under R version 4.0.4
# Banco de dados:
library(readxl)
dados4 <- read_excel("trabalho estatistica/dados4.xlsx")
# Manipulação de variáveis:
dados4$IDH<-as.numeric(sub(",", ".", dados4$IDH))
dados4$PIB<-as.numeric(sub(",", ".", dados4$PIB))
## Warning: NAs introduzidos por coerção
dados4$CONSUMO<-as.numeric(sub(",", ".", dados4$CONSUMO))
# Excluindo a possibilidade de notação científica
options(scipen = 999)
# Objetos criados:
estados <- read_state(code_state="all", year=2010)
## Using year 2010
## Loading data for the whole country
##
|
| | 0%
|
|=== | 4%
|
|===== | 7%
|
|======== | 11%
|
|========== | 15%
|
|============= | 19%
|
|================ | 22%
|
|================== | 26%
|
|===================== | 30%
|
|======================= | 33%
|
|========================== | 37%
|
|============================= | 41%
|
|=============================== | 44%
|
|================================== | 48%
|
|==================================== | 52%
|
|======================================= | 56%
|
|========================================= | 59%
|
|============================================ | 63%
|
|=============================================== | 67%
|
|================================================= | 70%
|
|==================================================== | 74%
|
|====================================================== | 78%
|
|========================================================= | 81%
|
|============================================================ | 85%
|
|============================================================== | 89%
|
|================================================================= | 93%
|
|=================================================================== | 96%
|
|======================================================================| 100%
dados4 <- read_excel("trabalho estatistica/dados4.xlsx") %>% rename(abbrev_state=ESTADO)
juntos <- full_join(estados,dados4,by="abbrev_state")
# Transformação de variável:
summary(dados4)
## LOCALIDADE abbrev_state CODIGO POPULAÇÃO
## Length:27 Length:27 Min. :11.0 Min. : 631181
## Class :character Class :character 1st Qu.:19.0 1st Qu.: 2932272
## Mode :character Mode :character Median :27.0 Median : 4064052
## Mean :29.1 Mean : 7842803
## 3rd Qu.:38.0 3rd Qu.: 9401862
## Max. :53.0 Max. :46289333
## REGIÃO COD REGIAO PIB IDH
## Length:27 Length:27 Length:27 Length:27
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
##
##
##
## RENDA JAN FEV MAR
## Min. : 605 Min. : 9691 Min. : 7378 Min. : 6970
## 1st Qu.: 860 1st Qu.: 39649 1st Qu.: 33438 1st Qu.: 32815
## Median :1045 Median : 77048 Median : 65660 Median : 65445
## Mean :1186 Mean :150663 Mean :134403 Mean :134268
## 3rd Qu.:1412 3rd Qu.:202732 3rd Qu.:178650 3rd Qu.:189741
## Max. :2460 Max. :860232 Max. :773607 Max. :790146
## ABR MAI JUN JUL
## Min. : 7612 Min. : 8442 Min. : 7887 Min. : 9751
## 1st Qu.: 35545 1st Qu.: 38114 1st Qu.: 36513 1st Qu.: 44784
## Median : 78095 Median : 80998 Median : 69415 Median : 87346
## Mean :144421 Mean :153189 Mean :139412 Mean :165377
## 3rd Qu.:203990 3rd Qu.:207788 3rd Qu.:192998 3rd Qu.:234370
## Max. :886929 Max. :941600 Max. :817301 Max. :957289
## AGO SET OUT NOV
## Min. : 9654 Min. : 9422 Min. : 11160 Min. : 10053
## 1st Qu.: 46934 1st Qu.: 42642 1st Qu.: 48140 1st Qu.: 46760
## Median : 82888 Median : 79287 Median : 81988 Median : 79341
## Mean :167670 Mean :157531 Mean :175474 Mean :159258
## 3rd Qu.:235933 3rd Qu.:221776 3rd Qu.:234038 3rd Qu.:213118
## Max. :978990 Max. :906956 Max. :980948 Max. :872046
## DEZ TOTAL CONSUMO
## Min. : 10160 Min. : 120153 Length:27
## 1st Qu.: 41643 1st Qu.: 471674 Class :character
## Median : 76646 Median : 902144 Mode :character
## Mean :132984 Mean : 1814652
## 3rd Qu.:179895 3rd Qu.: 2541780
## Max. :692232 Max. :10458276
dados4$abbrev_state<-as.factor(dados4$abbrev_state)
summary(dados4)
## LOCALIDADE abbrev_state CODIGO POPULAÇÃO
## Length:27 AC : 1 Min. :11.0 Min. : 631181
## Class :character AL : 1 1st Qu.:19.0 1st Qu.: 2932272
## Mode :character AM : 1 Median :27.0 Median : 4064052
## AP : 1 Mean :29.1 Mean : 7842803
## BA : 1 3rd Qu.:38.0 3rd Qu.: 9401862
## CE : 1 Max. :53.0 Max. :46289333
## (Other):21
## REGIÃO COD REGIAO PIB IDH
## Length:27 Length:27 Length:27 Length:27
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
##
##
##
##
## RENDA JAN FEV MAR
## Min. : 605 Min. : 9691 Min. : 7378 Min. : 6970
## 1st Qu.: 860 1st Qu.: 39649 1st Qu.: 33438 1st Qu.: 32815
## Median :1045 Median : 77048 Median : 65660 Median : 65445
## Mean :1186 Mean :150663 Mean :134403 Mean :134268
## 3rd Qu.:1412 3rd Qu.:202732 3rd Qu.:178650 3rd Qu.:189741
## Max. :2460 Max. :860232 Max. :773607 Max. :790146
##
## ABR MAI JUN JUL
## Min. : 7612 Min. : 8442 Min. : 7887 Min. : 9751
## 1st Qu.: 35545 1st Qu.: 38114 1st Qu.: 36513 1st Qu.: 44784
## Median : 78095 Median : 80998 Median : 69415 Median : 87346
## Mean :144421 Mean :153189 Mean :139412 Mean :165377
## 3rd Qu.:203990 3rd Qu.:207788 3rd Qu.:192998 3rd Qu.:234370
## Max. :886929 Max. :941600 Max. :817301 Max. :957289
##
## AGO SET OUT NOV
## Min. : 9654 Min. : 9422 Min. : 11160 Min. : 10053
## 1st Qu.: 46934 1st Qu.: 42642 1st Qu.: 48140 1st Qu.: 46760
## Median : 82888 Median : 79287 Median : 81988 Median : 79341
## Mean :167670 Mean :157531 Mean :175474 Mean :159258
## 3rd Qu.:235933 3rd Qu.:221776 3rd Qu.:234038 3rd Qu.:213118
## Max. :978990 Max. :906956 Max. :980948 Max. :872046
##
## DEZ TOTAL CONSUMO
## Min. : 10160 Min. : 120153 Length:27
## 1st Qu.: 41643 1st Qu.: 471674 Class :character
## Median : 76646 Median : 902144 Mode :character
## Mean :132984 Mean : 1814652
## 3rd Qu.:179895 3rd Qu.: 2541780
## Max. :692232 Max. :10458276
##
# Mapa por regiões
ggplot(juntos)+
geom_sf(aes(fill=REGIÃO))+
scale_fill_manual(values = c("orange","red","yellow","green","blue","purple"))+
annotation_scale(location="br",height = unit(0.2,"cm"))+
annotation_north_arrow(location="tr",
style = north_arrow_nautical,
height = unit(1.5,"cm"),
width = unit(1.5,"cm"))+
labs(title = "Mapa 1 - Mapa do Brasil",
subtitle = "Subdivisão em Regiões",
fill="Regiões",
x=NULL,
y=NULL)+
geom_sf_text(data=estados,aes(label = abbrev_state), size=2, color= "black")+
theme_bw()+
theme(legend.position = c(0.18,0.2),
legend.key.size = unit(3.7,"mm"))
## Warning in st_point_on_surface.sfc(sf::st_zm(x)): st_point_on_surface may not
## give correct results for longitude/latitude data
## Scale on map varies by more than 10%, scale bar may be inaccurate
O IDH é uma medida do progresso a longo prazo das regiões e estados. Com base nele é possível conhecer sobre os diversos parâmetros de qualidade de vida da população, como renda, educação, saneamento básico, saúde e infraestrutura. O Brasil apresenta grandes variações em relação ao IDH, existindo locais com taxas desses índice bastante elevadas, como os estados do Sudeste e Sul e outros com taxas bem baixas, como é o caso de alguns estados das regiões Norte e Nordeste.
# # Manipulação de variáveis:
dados4$IDH<-as.numeric(sub(",", ".", dados4$IDH))
juntos$IDH<-as.numeric(sub(",", ".", juntos$IDH))
juntos$CATEGORIA10 <- cut(juntos$IDH,breaks =c(0.680,0.720,0.750,0.800,Inf),
labels = c("0.681 a 0.720","0.721 a 0.750","0.751 a 0.800","Mais de 0.800"))
# Mapa por IDH
ggplot(juntos)+
geom_sf(aes(fill=CATEGORIA10))+
scale_fill_manual(values = c("orange","red","yellow","green","blue","purple"))+
annotation_scale(location="br",height = unit(0.2,"cm"))+
annotation_north_arrow(location="tr",
style = north_arrow_nautical,
height = unit(1.5,"cm"),
width = unit(1.5,"cm"))+
geom_image(aes(x=-37,y=-27),
image="icon/idhbr.jpg",size= 0.22)+
labs(title = "Mapa 2 - Indíce de Desenvolvimento Humano por estados - Brasil",
subtitle = "IDH por estados",
fill="Taxas do IDH",
x=NULL,
y=NULL)+
geom_sf_text(data=estados,aes(label = abbrev_state), size=2, color= "black")+
theme_bw()+
theme(legend.position = c(0.18,0.2),
legend.key.size = unit(3.7,"mm"))
## Warning in st_point_on_surface.sfc(sf::st_zm(x)): st_point_on_surface may not
## give correct results for longitude/latitude data
## Scale on map varies by more than 10%, scale bar may be inaccurate
Comentário:
Nesse mapa observa-se quatro escalas de IDH, variando entre 0.681 até mais de 0.800, de forma que, conforme já comentado em outras etapas anteriores do trabalho, a região Sudeste, Sul e o Distrito Federal no Centro-Oeste apresentam predominantemente os maiores IDH’s do país, sendo esses locais grandes pólos industriais e de serviços, com grande PIB e população, o que contribui para o elevado grau de infraestrutura dessas regiões. Essas variações no IDH impactaram diretamente o consumo de cimento durante o ano de 2019.
Esse mapa permite visualizar como existem grandes variações populacionais nas diversas regiõe e estados do Brasil, havendo grande concentração populacional no Sudeste e baixa densidade demográfica nos estados do Norte. Com isso, pode-se entender as causas das variações no consumo de cimento no país por regiões.
# # Manipulação de variáveis:
juntos$POPULAÇÃO<-as.numeric(juntos$POPULAÇÃO)
juntos$CATEGORIA8 <- cut(juntos$POPULAÇÃO,breaks =c(600000,2000000,5000000,10000000,20000000,Inf),
labels = c("600000 a 2000000 ","2000001 a 5000000","5000001 a 10000000","10000001 a 20000000","Mais de 20000000"))
# Mapa da população por estados
ggplot(juntos)+
geom_sf(aes(fill=CATEGORIA8))+
scale_fill_manual(values = c("orange","red","yellow","green","blue","purple"))+
annotation_scale(location="br",height = unit(0.2,"cm"))+
annotation_north_arrow(location="tr",
style = north_arrow_nautical,
height = unit(1.5,"cm"),
width = unit(1.5,"cm"))+
geom_image(aes(x=-37,y=-27),
image="icon/populacao.jpg",size= 0.24)+
labs(title = "Mapa 3 - População por estados - Brasil",
subtitle = "População por estados",
fill="População \nMilhões de hab",
x=NULL,
y=NULL)+
geom_sf_text(data=estados,aes(label = abbrev_state), size=2, color= "black")+
theme_bw()+
theme(legend.position = c(0.18,0.2),
legend.key.size = unit(3.7,"mm"))
## Warning in st_point_on_surface.sfc(sf::st_zm(x)): st_point_on_surface may not
## give correct results for longitude/latitude data
## Scale on map varies by more than 10%, scale bar may be inaccurate
Comentário:
Nesse mapa observa-se grandes concentrações populacionais no Sul e Sudeste, o que explica o elevado nível de desenvolvimento dessas regiões e o alto número de empresas, organizações e mão de obra qualificada. Devido a isso, essas regiões são responsáveis pelas principais obras de infraestrutura do país, com investimento maciço no setor da construção civil, de modo que o consumo de cimento nessas localidades seja bastante elevado.
Esse mapa permite visualizar as variações da renda média dos cidadãos por estado no país. Observa-se que as regiões Sul e Sudeste apresentam renda bastante elevadas e consequentemente isso impacta no padrão de vida da população desses locais, de modo que o consumo de diversos produtos, inclusive de cimento, seja bastante alto nessas localidades.
# # Manipulação de variáveis:
juntos$CATEGORIA6 <- cut(juntos$RENDA,breaks =c(500,1000,1500,2000,Inf),
labels = c("501 a 1000","1001 a 1500","1501 a 2000","Mais de 2000"))
# Mapa do Brasil por renda média dos estados
ggplot(juntos)+
geom_sf(aes(fill=CATEGORIA6))+
scale_fill_manual(values = c("orange","red","yellow","green","blue","purple"))+
annotation_scale(location="br",height = unit(0.2,"cm"))+
annotation_north_arrow(location="tr",
style = north_arrow_nautical,
height = unit(1.5,"cm"),
width = unit(1.5,"cm"))+
geom_image(aes(x=-37,y=-27),
image="icon/renda.jpg",size= 0.23)+
labs(title = "Mapa 4 - Renda média mensal por estado - Brasil",
subtitle = "Renda média",
fill="Renda mensal média \nEm reais",
x=NULL,
y=NULL)+
geom_sf_text(data=estados,aes(label = abbrev_state), size=2, color= "black")+
theme_bw()+
theme(legend.position = c(0.18,0.2),
legend.key.size = unit(3.7,"mm"))
## Warning in st_point_on_surface.sfc(sf::st_zm(x)): st_point_on_surface may not
## give correct results for longitude/latitude data
## Scale on map varies by more than 10%, scale bar may be inaccurate
Comentário:
Nesse mapa é possível observar os elevados valores de renda média das regiões Sudeste, Sul e do Distrito Federal, com esse local atingindo mais de R$ 2000,00, o que é considerado um valor bastante alto. Em contrapartida, observa-se que a maioria dos estados do Norte e Nordeste apresentam renda média bastante baixa, com valores oscilando entre R$ 500,00 e R$ 1000,00, o que explica o baixo IDH dessas localidades, além de influenciar diretamente no poder de compra de diversos itens pela população, inclusive o cimento. Dessa forma, isso explica o motivo das condições precárias de infraestrutura na maioria desses locais e os baixos índices de investimento por parte da iniciativa privada, colaborando para agravar a qualidade de vida da população.
A seguir, estão apresentados os mapas de consumo de cimento por estados e regiões, demonstrando como ocorrem variações consideráveis nas quantidades consumidas desse produto no país e como essas discrepâncias estão diretamente ligadas aos fatores supracitados, como renda média e IDH.
Será construído o mapa de consumo de cimento em toneladas para o mês de Janeiro de 2019, levando em conta todas as regiões e estados do Brasil.
# Manipulação de variáveis
juntos$CATEGORIA1 <- cut(juntos$JAN,breaks =c(4999,10000,50000,100000,300000,600000,Inf),
labels = c("5000 a 10000","10001 a 50000","50001 a 100000","100001 a 300000","300001 a 600000","Mais de 600000"))
# Mapa de consumo de cimento em Janeiro de 2019
ggplot(juntos)+
geom_sf(aes(fill=CATEGORIA1))+
scale_fill_manual(values = c("orange","red","yellow","green","blue","purple"))+
annotation_scale(location="br",height = unit(0.2,"cm"))+
annotation_north_arrow(location="tr",
style = north_arrow_nautical,
height = unit(1.5,"cm"),
width = unit(1.5,"cm"))+
geom_image(aes(x=-37,y=-27),
image="icon/cimento.jpg",size= 0.26)+
labs(title = "Mapa 5 - Consumo de cimento por estados - Brasil",
subtitle = "Janeiro - 2019",
fill="Consumo \nEm toneladas",
x=NULL,
y=NULL)+
geom_sf_text(data=estados,aes(label = abbrev_state), size=2, color= "black")+
theme_bw()+
theme(legend.position = c(0.18,0.2),
legend.key.size = unit(4.2,"mm"))
## Warning in st_point_on_surface.sfc(sf::st_zm(x)): st_point_on_surface may not
## give correct results for longitude/latitude data
## Scale on map varies by more than 10%, scale bar may be inaccurate
Comentário:
De acordo com o mapa, pode-se observar que a regiões Sudeste e Sul consumiram elevadas quantidades de cimento nesse mês, ultrapassando as 100 mil toneladas, sobretudo, o estado de São Paulo, que chega a consumir mais de 600 mil toneladas desse produto em janeiro. Em contrapartida, pode-se notar que a região Norte apresenta consumo bastante inferior as demais. Observar que, como já comentado em tapas anteriores do trabalho, o Distrito Federal, apesar do elevado IDH, consumiu quantidades modestas de cimento.
Será construído o mapa de consumo de cimento em toneladas para o mês de Abril de 2019, levando em conta todas as regiões e estados do Brasil.
# Manipulação de variáveis:
juntos$CATEGORIA2 <- cut(juntos$ABR,breaks =c(4999,10000,50000,100000,300000,600000,Inf),
labels = c("5000 a 10000","10001 a 50000","50001 a 100000","100001 a 300000","300001 a 600000","Mais de 600000"))
# Mapa de consumo de cimento em Abril de 2019
ggplot(juntos)+
geom_sf(aes(fill=CATEGORIA2))+
scale_fill_manual(values = c("orange","red","yellow","green","blue","purple"))+
annotation_scale(location="br",height = unit(0.2,"cm"))+
annotation_north_arrow(location="tr",
style = north_arrow_nautical,
height = unit(1.5,"cm"),
width = unit(1.5,"cm"))+
geom_image(aes(x=-37,y=-27),
image="icon/cimento.jpg",size= 0.26)+
labs(title = "Mapa 6 - Consumo de cimento por estados - Brasil",
subtitle = "Abril - 2019",
fill="Consumo \nEm toneladas",
x=NULL,
y=NULL)+
geom_sf_text(data=estados,aes(label = abbrev_state), size=2, color= "black")+
theme_bw()+
theme(legend.position = c(0.18,0.2),
legend.key.size = unit(3.7,"mm"))
## Warning in st_point_on_surface.sfc(sf::st_zm(x)): st_point_on_surface may not
## give correct results for longitude/latitude data
## Scale on map varies by more than 10%, scale bar may be inaccurate
Comentário:
Pode-se observar nesse mapa, em relação ao mês de Janeiro, algumas variações no consumo de cimento em alguns estados das regiões Norte, Nordeste e Sudeste. Essa variações que ocorrem são aumentos ou quedas no consumo desse produto. O Norte e Nordeste se caracterizam por baixos IDH e consequentemente condições precárias de infraestrutura em muitas localidades, o que impacta diretamente na demanda por cimento. Entretanto, o estado do Pará se destaca na região Norte por apresentar taxas consideráveis de consumo desse produto. As regiões Sudeste e Sul se destacam com elevadas quantidades consumidas.
Será construído o mapa de consumo de cimento em toneladas para o mês de Julho de 2019, levando em conta todas as regiões e estados do Brasil.
# Manipulação de variáveis:
juntos$CATEGORIA3 <- cut(juntos$JUL,breaks =c(4999,10000,50000,100000,300000,600000,Inf),
labels = c("5000 a 10000","10001 a 50000","50001 a 100000","100001 a 300000","300001 a 600000","Mais de 600000"))
# Mapa de consumo de cimento em Julho de 2019
ggplot(juntos)+
geom_sf(aes(fill=CATEGORIA3))+
scale_fill_manual(values = c("orange","red","yellow","green","blue","purple"))+
annotation_scale(location="br",height = unit(0.2,"cm"))+
annotation_north_arrow(location="tr",
style = north_arrow_nautical,
height = unit(1.5,"cm"),
width = unit(1.5,"cm"))+
geom_image(aes(x=-37,y=-27),
image="icon/cimento.jpg",size= 0.26)+
labs(title = "Mapa 7 - Consumo de cimento por estados - Brasil",
subtitle = "Julho - 2019",
fill="Consumo \nEm toneladas",
x=NULL,
y=NULL)+
geom_sf_text(data=estados,aes(label = abbrev_state), size=2, color= "black")+
theme_bw()+
theme(legend.position = c(0.18,0.2),
legend.key.size = unit(3.7,"mm"))
## Warning in st_point_on_surface.sfc(sf::st_zm(x)): st_point_on_surface may not
## give correct results for longitude/latitude data
## Scale on map varies by more than 10%, scale bar may be inaccurate
Comentário:
Pode-se observar nesse mapa, em relação ao mês de Abril, variações expressivas no consumo de cimento em alguns estados das regiões Norte e Nordeste. Nesse mês, apesar das baixas quantidades de cimento consumidas historicamente, estados como Amazonas e Pará apresentaram altas consideráveis no consumo desse produto. Houve alta também em alguns estados do Nordeste, como Maranhão e Piauí, que chegaram a consumir entre 50 mil e 100 mil toneladas de cimento nesse mês, o que é considerado um valor significativo para essas regiões. A regiões Sul e Sudeste se mantém com consumos bastante elevados.
Será construído o mapa de consumo de cimento em toneladas para o mês de Outubro de 2019, levando em conta todas as regiões e estados do Brasil.
# Manipulação de variáveis:
juntos$CATEGORIA4 <- cut(juntos$OUT,breaks =c(4999,10000,50000,100000,300000,600000,Inf),
labels = c("5000 a 10000","10001 a 50000","50001 a 100000","100001 a 300000","300001 a 600000","Mais de 600000"))
# Mapa de consumo de cimento em Outubro de 2019
ggplot(juntos)+
geom_sf(aes(fill=CATEGORIA4))+
scale_fill_manual(values = c("orange","red","yellow","green","blue","purple"))+
annotation_scale(location="br",height = unit(0.2,"cm"))+
annotation_north_arrow(location="tr",
style = north_arrow_nautical,
height = unit(1.5,"cm"),
width = unit(1.5,"cm"))+
geom_image(aes(x=-37,y=-27),
image="icon/cimento.jpg",size= 0.26)+
labs(title = "Mapa 8 - Consumo de cimento por estados - Brasil",
subtitle = "Outubro - 2019",
fill="Consumo \nEm toneladas",
x=NULL,
y=NULL)+
geom_sf_text(data=estados,aes(label = abbrev_state), size=2, color= "black")+
theme_bw()+
theme(legend.position = c(0.18,0.2),
legend.key.size = unit(3.7,"mm"))
## Warning in st_point_on_surface.sfc(sf::st_zm(x)): st_point_on_surface may not
## give correct results for longitude/latitude data
## Scale on map varies by more than 10%, scale bar may be inaccurate
Comentário:
Pode-se obeservar nesse mapa, em relação ao mês anterior, retração no consumo de cimento em várias regiões do país, como no Norte, Nordeste, Sudeste e Sul. Como comentado anteriormente essas retrações são bastante comuns no Norte e Nordeste mas são mais raras no Sudeste e Sul. Destaca-se ainda, nesse mês, uma desaceleração do consumo no estado de São Paulo, que pela primeira vez desde Janeiro, não ultrapassou as 600 mil toneladas consumidas. Nota-se também uma desceleração do consumo no estado do Rio de Janeiro, que pela primeira vez desde o início do ano teve consumo abaixo das 300 mil toneladas no mês. Essas retrações no consumo de cimento nesses grandes pólos industriais do Sudeste possivelmente ocorre pelas queda dos índices econômicos do país, favorecendo a não estimulação de investimentos em alguns períodos do ano.
Será construído o mapa de consumo de cimento anual em toneladas per capita por estado do país levando em conta a população, de modo que seja possível visualizar com facilidade os locais com maior ou menor consumo desse produto.
# Manipulação de variáveis:
juntos$CONSUMO<-as.numeric(juntos$CONSUMO)
juntos$CATEGORIA7 <- cut(juntos$CONSUMO,breaks =c(0.10,0.15,0.20,0.30,Inf),
labels = c("0.11 a 0.15","0.16 a 0.20","0.21 a 0.30","Mais de 0.30"))
# Mapa de consumo de cimento per capita por estado
ggplot(juntos)+
geom_sf(aes(fill=CATEGORIA7))+
scale_fill_manual(values = c("orange","red","yellow","green","blue","purple"))+
annotation_scale(location="br",height = unit(0.2,"cm"))+
annotation_north_arrow(location="tr",
style = north_arrow_nautical,
height = unit(1.5,"cm"),
width = unit(1.5,"cm"))+
geom_image(aes(x=-37,y=-27),
image="icon/consumocimento.jpg",size= 0.28)+
labs(title = "Mapa 9 - Consumo de Cimento per capita por estados - Brasil",
subtitle = "Consumo por habitante",
fill="Consumo de cimento\nEm toneladas",
x=NULL,
y=NULL)+
geom_sf_text(data=estados,aes(label = abbrev_state), size=2, color= "black")+
theme_bw()+
theme(legend.position = c(0.18,0.2),
legend.key.size = unit(3.7,"mm"))
## Warning in st_point_on_surface.sfc(sf::st_zm(x)): st_point_on_surface may not
## give correct results for longitude/latitude data
## Scale on map varies by more than 10%, scale bar may be inaccurate
Comentário:
Pode-se observar nesse mapa o consumo de cimento em toneladas anual per capita por estado de acordo com a população. Com isso, é possível notar a grande disparidade de consumo das regiões Sudeste, Sul e Centro-Oeste, quando comparadas com outros locais. Além disso, é fundamental observar, como já foi dito anteriormente nesse trabalho, a existência de localidades que, apesar de taxas elevadas de IDH e renda média da população, apresentam baixo consumo de cimento por habitante, como é o caso do estado do Rio de Janeiro. Em contrapartida, estados com IDH e renda mais baixa, como os estados do Mato Grosso e Mato Grosso do Sul, apresentam alto consumo médio por habitante.
Será construido o mapa do consumo total de cimento anual por estado em toneladas. Com isso será possível visualizar as grandes disparidades no consumo desse produto em cada estado quando se considerar a quantidade total de todo o ano.
# Manipulação de variáveis:
juntos$CATEGORIA5 <- cut(juntos$TOTAL,breaks =c(4999,10000,50000,100000,300000,600000,Inf),
labels = c("5000 a 10000","10001 a 50000","50001 a 100000","100001 a 300000","300001 a 600000","Mais de 600000"))
# Mapa de consumo total de cimento anual por estados em toneladas
ggplot(juntos)+
geom_sf(aes(fill=CATEGORIA5))+
scale_fill_manual(values = c("orange","red","yellow","green","blue","purple"))+
annotation_scale(location="br",height = unit(0.2,"cm"))+
annotation_north_arrow(location="tr",
style = north_arrow_nautical,
height = unit(1.5,"cm"),
width = unit(1.5,"cm"))+
geom_image(aes(x=-37,y=-27),
image="icon/consumocimento.jpg",size= 0.28)+
labs(title = "Mapa 10 - Total de cimento consumido por estados - Brasil",
subtitle = "Total consumido - 2019",
fill="Total no ano \nEm toneladas",
x=NULL,
y=NULL)+
geom_sf_text(data=estados,aes(label = abbrev_state), size=2, color= "black")+
theme_bw()+
theme(legend.position = c(0.18,0.2),
legend.key.size = unit(3.7,"mm"))
## Warning in st_point_on_surface.sfc(sf::st_zm(x)): st_point_on_surface may not
## give correct results for longitude/latitude data
## Scale on map varies by more than 10%, scale bar may be inaccurate
Comentário:
No mapa a seguir é possível observar as grandes variações no consumo total de cimento consumido no ano de 2019 no Brasil. Pode-se observar que a maioria dos estados das regiões Sul, Sudeste, Nordeste e Centro-Oeste consumiram mais de 600 mil toneladas de cimento no ano. Entretanto ´vários estados da região Norte e alguns do Nordeste tiveram consumo modesto, ficando entre 100 e 300 mil toneladas ou até 600 mil toneladas.Nota-se ainda que, mesmo em estado com IDH baixo, como alguns da região Nordeste conseguiram atingir altos índices de consumo de cimento no acumulado do final do ano. Isso se deve as variações que vão ocorrendo ao longo do ano com altas e retrações no consumo.
Conclui-se, nesse trabalho, que o setor da construção civil é dependente dos índices econômicos do país. Dessa forma, foi possível perceber as grandes variações de consumo de cimento em toneladas que existem atualmente entre os estados e as regiões. Notou-se, que em regiões empobrecidas e com baixos índices de IDH e renda média,como em alguns estados do Norte e Nordeste, o consumo desse produto é bastante tímido, sendo baixo também o consumo per capita por habitante desse insumo nessas localidades. Com isso, o setor da construção civil nessas regiões fica enfraquecido, gerando poucos empregos e oportunidades na área, além de reduzir investimentos privados em infraestrutura, o que corrobora para a baixa qualidade de vida da população. Em contrapartida, regiões como o Sul e o Sudeste consomem quantidades elevadas de cimento mensalmente, o que contribui para impulsionar o progresso e os pólos industriais desses locais, atraindo mais empregos e investimentos, além de proporcionar o crescimento do setor. É importante ressaltar também, como comentado em etapas anteriores dessa pesquisa, que, quando se analisa o consumo mensal em toneladas, é comum encontrar estados com elevado IDH e que apresentam baixo consumo per capita, como é o caso do Distrito Federal e do Rio de Janeiro. Em contrapartida, pode-se encontrar também estados com IDH e renda média mais baixos e que consomem quantidades consideráveis de cimento, como é o caso do estado da Bahia. Em suma, o consumo de cimento no Brasil apresentou-se bastante desigual no ano de 2019, destacando-se as grandes demandas e as enormes quantidades consumidas pelas regiões Sudeste e Sul desse produto, tão importante para a melhoria das condições de infraestrutura e para o desenvolvimento da nação.
AGÊNCIA IBGE NOTÍCIAS.PIB BRASIL.Disponível em: https://agenciadenoticias.ibge.gov.br/agencia-sala-de-imprensa/2013-agencia-de-noticias/releases/29445-contas-regionais-em-2018-apenas-sergipe-teve-queda-no-pib.Acesso em: 09 mar. 2021.
Atlas do Desenvolvimento Humano no Brasil.Disponível em: http://www.atlasbrasil.org.br/ranking.Acesso em: 06 mar. 2021.
BRASIL.Instituto Brasileiro de Geografia e Estatística. O IBGE.Disponível em: https://www.ibge.gov.br/institucional/o-ibge.html.Acesso em: 08 mar. 2021.
CBIC.Câmara Brasileira da Indústria da Construção.Disponível em: http://www.cbicdados.com.br/menu/materiais-de-construcao/cimento.Acesso em: 04 mar. 2021.
CBIC.Câmara Brasileira da Indústria da Construção.Disponível em: https://cbic.org.br/institucional/.Acesso em: 11 mar. 2021.
Cimento.Cimento no Brasil.Disponível em: https://cimento.org/cimento-no-brasil/#:~:text=O%20mercado%20do%20cimento%20no,de%20moagem%20e%20mesmo%20planta.Acesso em: 11 mar. 2021.
Minitab.Entendendo Análise de Variância (ANOVA) e o teste F.Disponível em: https://blog.minitab.com/pt/entendendo-analise-de-variancia-anova-e-o-teste-f.Acesso em: 12 mar. 2021.
Operdata.Como interpretar uma análise de variância Anova.Disponível em: https://operdata.com.br/blog/como-interpretar-analise-de-variancia-anova/.Acesso em: 16 mar. 2021.
PNUD (Programa das Nações Unidas para o Desenvolvimento).IDH.Disponível em: https://www.br.undp.org/content/brazil/pt/home/idh0.html.Acesso em: 12 mar. 2021.
Sienge.O impacto e a importância da construção civil no país. Disponível em: https://www.sienge.com.br/blog/construcao-civil-no-pais/. Acesso em: 19 mar. 2021.
SNIC.Sindicato Nacional da Indústria do Cimento.Disponível em: http://snic.org.br/.Acesso em: 06 mar. 2021.
SISTEMA FIBRA.Construção Civil representa 6,2% do PIB no Brasil.Disponível em: https://www.sistemafibra.org.br/fibra/sala-de-imprensa/noticias/1315-construcao-civil-representa-6-2-do-pib-brasil.Acesso em: 18 mar. 2021.
UEM.Universidade Estatual de Maringá.Teste para normalidade e homocedasticidade.Disponível em: https://biostatistics-uem.github.io/Bio/aula8/teste_normalidade_homocedasticidade.html.Acesso em: 10 mar. 2021.