A partir da população podemos observar que apesar das regiões estarem muito próximas geograficamente a composição das cidades em si é muito diferente sendo o Vale do Paraíba composto por 39 cidades com uma população de 2264594 de pessoas enquanto o Sul e Suldeste Mineiro contam com 146 cidades e uma população de 2438611. Ou seja, uma diferença de apenas 174017 pessoas (cerca de 7.4 %) que é consideravelmente menor que a diferença entre o número de cidades, que é de 107 (cerca de por 73.29%), em outras palavras, é nítido que as cidades do interior paulista são muito maiores na questão populacional. E as outras estatísticas, quais são as diferenças?
length(ss$codmun7)
## [1] 146
length(vp$codmun7)
## [1] 39
sum(ss$pop)
## [1] 2438611
sum(vp$pop)
## [1] 2264594
diferpop <- (sum(ss$pop)) - (sum(vp$pop))
diferpop
## [1] 174017
porcentdifpop <-diferpop/sum(ss$pop)*100
porcentdifpop
## [1] 7.135906
difcid <- (length(ss$codmun7)) - (length(vp$codmun7))
difcid
## [1] 107
porcentdifcid <- difcid/length(ss$codmun7)*100
porcentdifcid
## [1] 73.28767
row.names(vp) <- vp$nome.mun
head(vp)
## Source: local data frame [6 x 83]
##
## uf nome.uf meso nome.meso micro
## (fctr) (fctr) (fctr) (fctr) (fctr)
## 1 35 são paulo 3513 vale do paraíba paulista 35051
## 2 35 são paulo 3513 vale do paraíba paulista 35052
## 3 35 são paulo 3513 vale do paraíba paulista 35052
## 4 35 são paulo 3513 vale do paraíba paulista 35052
## 5 35 são paulo 3513 vale do paraíba paulista 35050
## 6 35 são paulo 3513 vale do paraíba paulista 35051
## Variables not shown: nome.micro (chr), codmun6 (fctr), codmun7 (fctr),
## nome.mun (chr), espvida (dbl), fectot (dbl), mort1 (dbl), razdep (dbl),
## t_env (dbl), e_anosestudo (dbl), t_analf25m (dbl), t_flbas (dbl),
## t_flfund (dbl), t_flmed (dbl), t_flpre (dbl), t_flsuper (dbl), pind
## (dbl), pmpob (dbl), pren10ricos (dbl), pren20 (dbl), pren20ricos (dbl),
## pren40 (dbl), pren60 (dbl), pren80 (dbl), r1040 (dbl), r2040 (dbl), rdpc
## (dbl), cpr (dbl), emp (dbl), p_agro (dbl), p_com (dbl), p_constr (dbl),
## p_extr (dbl), p_formal (dbl), p_fund (dbl), p_med (dbl), p_serv (dbl),
## p_siup (dbl), p_super (dbl), p_transf (dbl), ren0 (dbl), ren1 (dbl),
## ren2 (dbl), ren3 (dbl), ren5 (dbl), renocup (dbl), trabcc (dbl), trabpub
## (dbl), trabsc (dbl), t_agua (dbl), t_banagua (dbl), t_dens (dbl), t_lixo
## (dbl), t_luz (dbl), parede (dbl), t_m10a14cf (dbl), t_m15a17cf (dbl),
## t_mcff (dbl), t_des (dbl), t_fund25m (dbl), t_med25m (dbl), t_super25m
## (dbl), t_ativ (dbl), pop (int), t_urb (dbl), vab.agro (dbl), vab.ind
## (dbl), vab.ser (dbl), vab.adm (dbl), vab.total (dbl), impostos (dbl),
## pib (dbl), pibpc (dbl), agro (dbl), ind (dbl), ser (dbl), adm (dbl), imp
## (dbl)
row.names(ss) <- ss$nome.mun
head(ss)
## Source: local data frame [6 x 83]
##
## uf nome.uf meso nome.meso micro nome.micro
## (fctr) (fctr) (fctr) (fctr) (fctr) (chr)
## 1 31 minas gerais 3110 sul/sudoeste de minas 31055 andrelândia
## 2 31 minas gerais 3110 sul/sudoeste de minas 31054 são lourenço
## 3 31 minas gerais 3110 sul/sudoeste de minas 31051 poços de caldas
## 4 31 minas gerais 3110 sul/sudoeste de minas 31049 alfenas
## 5 31 minas gerais 3110 sul/sudoeste de minas 31047 passos
## 6 31 minas gerais 3110 sul/sudoeste de minas 31049 alfenas
## Variables not shown: codmun6 (fctr), codmun7 (fctr), nome.mun (chr),
## espvida (dbl), fectot (dbl), mort1 (dbl), razdep (dbl), t_env (dbl),
## e_anosestudo (dbl), t_analf25m (dbl), t_flbas (dbl), t_flfund (dbl),
## t_flmed (dbl), t_flpre (dbl), t_flsuper (dbl), pind (dbl), pmpob (dbl),
## pren10ricos (dbl), pren20 (dbl), pren20ricos (dbl), pren40 (dbl), pren60
## (dbl), pren80 (dbl), r1040 (dbl), r2040 (dbl), rdpc (dbl), cpr (dbl),
## emp (dbl), p_agro (dbl), p_com (dbl), p_constr (dbl), p_extr (dbl),
## p_formal (dbl), p_fund (dbl), p_med (dbl), p_serv (dbl), p_siup (dbl),
## p_super (dbl), p_transf (dbl), ren0 (dbl), ren1 (dbl), ren2 (dbl), ren3
## (dbl), ren5 (dbl), renocup (dbl), trabcc (dbl), trabpub (dbl), trabsc
## (dbl), t_agua (dbl), t_banagua (dbl), t_dens (dbl), t_lixo (dbl), t_luz
## (dbl), parede (dbl), t_m10a14cf (dbl), t_m15a17cf (dbl), t_mcff (dbl),
## t_des (dbl), t_fund25m (dbl), t_med25m (dbl), t_super25m (dbl), t_ativ
## (dbl), pop (int), t_urb (dbl), vab.agro (dbl), vab.ind (dbl), vab.ser
## (dbl), vab.adm (dbl), vab.total (dbl), impostos (dbl), pib (dbl), pibpc
## (dbl), agro (dbl), ind (dbl), ser (dbl), adm (dbl), imp (dbl)
vppibA <- select(vp, vab.agro, vab.ind, vab.ser, vab.adm, impostos)
ssmpibA <- select(ss, vab.agro, vab.ind, vab.ser, vab.adm, impostos)
sssmpibA <- scale(ssmpibA)
svppibA <- scale(vppibA)
pibvpA <- sum(vppibA)
pibsmA <- sum(ssmpibA)
tpibvp <- select(vp, pib)
sum(tpibvp)
## [1] 66991318
tpibsm <- select(ss, pib)
sum(tpibsm)
## [1] 38867345
Vamos analisar a composição levando em consideração os dados do PIB de cada uma dessas regiões levando em conta o valor agregado bruto dos índices provenientes da Agricultura, Indústria, Serviços e Administração Pública além dos Impostos.
Vamos comparar cada variável independentemente das outras, ou seja, observaremos o valor agregado de cada região em determinado setor da economia.
Sobre os indíces de Agricultura temos uma difença grande nos valores absolutos e relativos para cada região: o valor agragado bruto no Vale do Paraíba é de 297887.7 (0.4446661 porcento do PIB); o valor agragado bruto no Sul e Suldeste Mineiro é de 3291002 (8.467268 porcento do PIB). Isto quer dizer que os valores brutos do Suldeste Mineiro representa cerca de 11 vezes mais do que os do Vale do Paraíba. Porém, o curioso é que nos dados estatísticos os valores de média e mediana para o Vale apresentam-se maiores (7638.1 e 5510,5) respectivamente, contra (22541 e 16435) do Sul Mineiro, porém devemos lembrar que no Sul de Minas há muito mais cidades, portanto perante as estes dados podemos ver que nas cidades do Vale do Paraíba a distribuição dos valores de agricultura é menos homogeneo e no Sul e Suldeste mineiro há uma distribuição entre as cidades.
Sobre os índices no seguimento Industrial temos uma diferença grande nos valores absolutos e relativos para cada região: O valor agregado bruto no Vale do Paraíba é de 24664342 (36.81722 por cento do PIB); O valor agregado bruto no Sul e Suldeste Mineiro é de 16029256 (41.24093 por cento do PIB). Neste caso, temos que os valores brutos do Vale do Paraíba são mais que o dobro (2.69117 vezes) mais do que os Sul e Suldeste Mineiro. Nos dados de média e mediana para o Vale apresentam-se muito maiores (632419 e 34944) respectivamente, contra (62773.4 e 9814.0) do Sul Mineiro, para a média o valor é de aproximadamente 10 vezes e para a mediana 3,56 vezes, portanto podemos verificar que para este setor da Economia as cidades do Vale do Paraíba são mais inclinadas à indústria, porém a alta diferença entre as médias e medianas para as duas regiões mostram que há uma desigualdade neste setor mesmo dentro das próprias mesorregiões. No Vale do Paraíba a cidade de São José dos Campos representa quase a metade do valor absoluto (44.24129%), enquanto no Sul e Suldeste Mineiro as cidades de Poços de Caldas, Pouso Alegre e Itajubá representam juntas quase um terço do total (27.15776) do valor agregado.
Para o setor de Serviços e comércio temos menor diferença entre as mesorregiões na representação desse segmento dentro do PIB: O valor agregado bruto no Vale do Paraíba é de 24664342 (36.1857 por cento do PIB); O valor agregado bruto no Sul e Suldeste Mineiro é de 9164910 (23.57997 por cento do PIB). Comparando os valores agregados, temos que o Sul e Suldeste Mineiro têm um valor menor em relação ao Vale de Paraíba (1.5 vezes) Analisando as estatísticas, encontramos grande discrepância tanto entre as regiões quanto em relação às cidades dentro da região No caso do Vale do Paraíba temos uma média de 621572 e mediana de 59514, com isso podemos concluir que há enorme divergência entre as cidades com São José dos Campos representando cerca de 38.7 % do total. Para o Sul e Suldeste de Minas Gerais os valores de média e mediana são, respectivamente, 109789 e 32232, apresentando uma boa diferença também, no qual as cidades de Poços de Caldas, Pouso Alegre e Varginha representam 30,7 % do valor agregado deste setor.
Para os valores agregados em Administração Pública as regiões detêm certa proximidade: O valor agregado bruto no Vale do Paraíba é de 5866194 (8.756648 por cento do PIB); O valor agregado bruto no Sul e Suldeste Mineiro é de 5621109 (14.46229 por cento do PIB). Verificamos pouca diferença entre os valores absolutos (245084.6 , cerca de 4,2% do valor do Vale do Paraíba), o que faz sentido, sendo que a população total está pareada. Nos dados estatísticos, temos certa homogeneidade com média e mediana, respectivamente, 150415 e 35271 para o Vale e 38501 e 21662 para o Sul mineiro. Neste caso temos novamente São José dos Campos representando 27.78105% do total e aferindo diretamente na diferença entre a média e mediana no Vale do Paraíba, e para o Sul de Minas as mesmas cidades: Poços de Caldas, Pouso Alegre e Varginha representam 18,5 % do valor em Administração Pública.
No segmento de Impostos temos certa diferença entre as regiões nos valores absolutos, mas pouca nos valores na composição do PIB: O valor agregado bruto no Vale do Paraíba é de 11921598 (17.79574 por cento do PIB); o valor agregado bruto no Sul e Suldeste Mineiro é de 4761068 (12.24953 por cento do PIB). Para os valores dos Impostos, o Vale do Paraíba apresenta 2.5 vezes mais além do valor médio das cidades que é de quase 10 vezes maior (305682 contra 305682), porém neste dado temos São José dos Campos e Taubaté como grandes outliers representando 52.5% do total, já na região Sul mineira, novamente Poços de Caldas, Pouso Alegre e Varginha apresentam grande parte da representação total com quase 40%.
round(cor(vppibA),3)
## vab.agro vab.ind vab.ser vab.adm impostos
## vab.agro 1.000 0.511 0.487 0.518 0.499
## vab.ind 0.511 1.000 0.989 0.977 0.924
## vab.ser 0.487 0.989 1.000 0.991 0.943
## vab.adm 0.518 0.977 0.991 1.000 0.950
## impostos 0.499 0.924 0.943 0.950 1.000
cor(ssmpibA)
## vab.agro vab.ind vab.ser vab.adm impostos
## vab.agro 1.0000000 0.1969089 0.3154737 0.4299703 0.2036766
## vab.ind 0.1969089 1.0000000 0.8926715 0.8567481 0.9448069
## vab.ser 0.3154737 0.8926715 1.0000000 0.9674366 0.9572103
## vab.adm 0.4299703 0.8567481 0.9674366 1.0000000 0.8890004
## impostos 0.2036766 0.9448069 0.9572103 0.8890004 1.0000000
cor(vppibA) %>% corrplot(tl.cex=0.8,tl.col="black", type="lower")
cor(ssmpibA) %>% corrplot(tl.cex=0.8,tl.col="black", type="lower")
Analisando a correlação entre as variáveis, podemos observar que a o índice que mais se diferencia das outras é o valor agregado bruto da agropecuária, os demais acompanham radicalmente com correlações maiores que 0,85.
# k-médias
set.seed(1)
kvpp <- kmeans(svppibA, 2)
autoplot(kvpp, data = vppibA, label = TRUE, label.size = 3) + theme_bw()
kssm <- kmeans(sssmpibA, 2)
autoplot(kssm, data = ssmpibA, label = TRUE, label.size = 3) + theme_bw()
Analisando os agrupamentos pelo método de k-médias verificamos que apesar das diferenças na composição do PIB das regiões elas demonstram que há muita discrepância na separação dos grupos, e acompanhando a mesma proporção de tamanho, ou seja, no Vale do Paraíba duas cidades compõem um grupo e as outras cidades compõe o outro, já no Sul e Suldeste de Minas Gerais um grupo é composto por 8 cidades contra 138. Quando analisamos a proporção vemos que ambas estão perto do 5%.
# método hierárquico aglomerativo
distMatrixv <- dist(vppibA)
hc <- hclust(distMatrixv)
ggdendrogram(hc, rotate=TRUE)
distMatrixs <- dist(ssmpibA)
hc <- hclust(distMatrixs)
ggdendrogram(hc, rotate=TRUE)
A análise através do método de dendograma nos permite confirmar a análise de agrupamento realizada para o método k-médias, no qual em ambas as regiões verificamos um grande número de cidades com uma “distância” relativamente baixa e apenas algumas cidades com uma distância exorbitante das demais.
——————————————-//————————————
vpp <- select(vp, rdpc, e_anosestudo, cpr, emp, p_agro, p_serv, p_com, p_constr, p_formal, p_transf)
ssm <- select(ss, rdpc, e_anosestudo, cpr, emp, p_agro, p_serv, p_com, p_constr, p_formal, p_transf)
sssm <- scale(ssm)
svpp <- scale(vpp)
row.names(vpp) <- vp$nome.mun
row.names(ssm) <- ss$nome.mun
dados <- rbind(vpp, ssm)
Nesta parte analisaremos as regiões do Vale do Paraíba e Sul/Sudoeste de Minas em relação a indicadores de renda, população, anos de estudo, empregos, e população por setores de trabalho (agropecuária, serviços, comércio e indústria). Todos os dados foram coletados do portal AtlasBrasil e tem como base o Censo de 2010 realizado pelo IBGE. Todos os dados apresentam valores médios ou porcentagens, o que significa dizer que está sendo avaliada a razão de cada indicador sobre a população de cada cidade.
As variáveis serão apresentadas e discutidas da seguinte forma:
rdpc - Razão entre o somatório da renda de todos os indivíduos residentes em domicílios particulares permanentes e o número total desses indivíduos. Valores em reais de 01/agosto de 2010.A renda per capta é um cálculo muito utilizado para mostrar a como seria a distribuição de renda de certa região. Neste caso, analisando os dados dessas regiões podemos verificar certa diferença entre algumas cidades, com algumas contando com renda de R$ 1191,00 por pessoa, enquanto há outras com R$ 367,70 por individuo. A média e a mediana se aproximam com valores de R$ 604,3 e R$ 573,4 respectivamente, portanto podemos verificar certa homogeneidade entre a maioria das observações.
e_anosestudo - Número médio de anos de estudo que uma geração de crianças que ingressa na escola deverá completar ao atingir 18 anos de idade, se os padrões atuais se mantiverem ao longo de sua vida escolar. Essa variável apresenta de forma simples a média dos anos de estudo de cada cidade. Na nossa análise foi verificado que apesar da média e mediana serem praticamente a mesma (9,48 anos) e os quartis (1º - 8,85 e 3º - 10,12) estarem bem distribuídos, ainda há cidades que destoam das outras com máximo de 11,35 anos e mínimo de 7,16 (quase dois anos de diferença da média), o que em termos representa uma desigualdade pequena em relação a número, porém interpretando esse número podemos verificar que esta desigualdade é acentuada, pois um valor médio variar cerca de 2 anos de uma cidade para outra equivale dizer que há muita diferença.
cpr - Razão entre o número de trabalhadores por conta própria de 18 anos ou mais de idade e o número total de pessoas ocupadas nessa faixa etária multiplicado por 100. Essa variável compara o número de pessoas que tem seu próprio negócio ou fazem serviços de forma autônoma em relação total das pessoas que trabalham em certa região. Por ser uma medida de porcentagem podemos concluir que há muita diferença entre as cidades, logo que essa medida está variando de 11,4 % a 56,4 % e com média de 24 %.
emp - Razão entre o número de empregadores de 18 anos ou mais de idade e o número total de pessoas ocupadas nessa faixa etária multiplicado por 100. Essa taxa representa o número de empreendedores que empregam sobre todos os trabalhadores, e como os valores de média, mediana e 1º e 3º quartis encontrados são baixos (cerca de 1,6 %) podemos concluir que há um equilíbrio entre as cidades, porém há algumas que destoam das outras com taxas com cerca de 5 %.
p_formal - Razão entre o número de pessoas de 18 anos ou mais formalmente ocupadas e o número total de pessoas ocupadas nessa faixa etária multiplicado por 100. Foram considerados como formalmente ocupados os empregados com carteira de trabalho assinada, os militares do exército, da marinha, da aeronáutica, da polícia militar ou do corpo de bombeiros, os empregados pelo regime jurídico dos funcionários públicos, assim como os empregadores e trabalhadores por conta própria que eram contribuintes de instituto de previdência oficial. Ao analisarmos as taxas das cidades de Vale do Paraíba e Sul/Suldeste de Minas Gerais podemos verificar que há grande discrepância entre elas (quase 60%), e ainda podemos dizer que isso é ruim, pois a média fica em torno de 53%, ou seja, das pessoas ocupadas somente metade está formalizada
As taxas as seguir demonstram a razão do número de pessoas em cada setor de produção especificamente e o total de pessoas trabalhando.Em geral essas taxas apresentam alta variação entre as observações, com cerca de 50% de diferença de uma cidade para outra, apresentando assim que há alta diversidade entre as cidades e que apesar de estarem próximas geograficamente as atividades de cada economia são bem diferenciadas:
p_agro - Razão entre o número de pessoas de 18 anos ou mais de idade ocupadas no setor agropecuário e o número total de pessoas ocupadas nessa faixa etária.
p_serv - Razão entre o número de pessoas de 18 anos ou mais de idade ocupadas no setor de serviços e o número total de pessoas ocupadas nessa faixa etária multiplicado por 100.
p_com - Razão entre o número de pessoas de 18 anos ou mais de idade ocupadas no setor de comércio e o número total de pessoas ocupadas nessa faixa etária multiplicado por 100.
p_constr - Razão entre o número de pessoas de 18 anos ou mais de idade ocupadas no setor de construção e o número total de pessoas ocupadas nessa faixa etária multiplicado por 100.
p_transf - razão entre o número de pessoas de 18 anos ou mais de idade ocupadas na indústria de transformação e o número total de pessoas ocupadas nessa faixa etária multiplicado por 100.
Resumo estatístico das variáveis:
summary(dados)
## rdpc e_anosestudo cpr emp
## Min. : 367.7 Min. : 7.160 Min. :11.39 Min. :0.000
## 1st Qu.: 500.2 1st Qu.: 8.850 1st Qu.:18.28 1st Qu.:1.120
## Median : 573.4 Median : 9.480 Median :21.90 Median :1.590
## Mean : 604.3 Mean : 9.484 Mean :24.07 Mean :1.687
## 3rd Qu.: 682.1 3rd Qu.:10.120 3rd Qu.:27.81 3rd Qu.:2.300
## Max. :1191.0 Max. :11.350 Max. :56.41 Max. :5.180
## p_agro p_serv p_com p_constr
## Min. : 0.86 Min. :13.41 Min. : 3.81 Min. : 2.160
## 1st Qu.:16.72 1st Qu.:25.64 1st Qu.: 7.87 1st Qu.: 4.950
## Median :31.21 Median :32.74 Median :10.01 Median : 6.470
## Mean :31.06 Mean :33.43 Mean :10.72 Mean : 6.919
## 3rd Qu.:45.36 3rd Qu.:39.62 3rd Qu.:13.12 3rd Qu.: 8.510
## Max. :69.55 Max. :62.17 Max. :28.41 Max. :19.740
## p_formal p_transf
## Min. :22.05 Min. : 1.41
## 1st Qu.:45.31 1st Qu.: 6.50
## Median :53.78 Median : 9.91
## Mean :53.15 Mean :12.09
## 3rd Qu.:63.35 3rd Qu.:16.68
## Max. :79.09 Max. :39.56
Matriz de correlações:
x <-as.matrix(dados)
R <- cor(x)
round(R,2)
## rdpc e_anosestudo cpr emp p_agro p_serv p_com p_constr
## rdpc 1.00 0.18 -0.21 0.52 -0.58 0.47 0.56 0.23
## e_anosestudo 0.18 1.00 -0.13 0.09 -0.40 0.48 0.33 0.44
## cpr -0.21 -0.13 1.00 -0.13 0.49 -0.47 -0.24 -0.43
## emp 0.52 0.09 -0.13 1.00 -0.34 0.28 0.49 0.08
## p_agro -0.58 -0.40 0.49 -0.34 1.00 -0.83 -0.73 -0.68
## p_serv 0.47 0.48 -0.47 0.28 -0.83 1.00 0.62 0.76
## p_com 0.56 0.33 -0.24 0.49 -0.73 0.62 1.00 0.41
## p_constr 0.23 0.44 -0.43 0.08 -0.68 0.76 0.41 1.00
## p_formal 0.51 0.17 -0.72 0.28 -0.67 0.52 0.51 0.41
## p_transf 0.29 -0.02 -0.14 0.16 -0.44 -0.05 0.19 -0.04
## p_formal p_transf
## rdpc 0.51 0.29
## e_anosestudo 0.17 -0.02
## cpr -0.72 -0.14
## emp 0.28 0.16
## p_agro -0.67 -0.44
## p_serv 0.52 -0.05
## p_com 0.51 0.19
## p_constr 0.41 -0.04
## p_formal 1.00 0.37
## p_transf 0.37 1.00
A matriz de correlações nos traz mais informações a cerca da relação de uma variável para a outra. Variando de -1 a 1, os valores demonstram não só a relação positiva ou negativa, mas também o quanto elas se aproximam em valores numéricos, isso porque os valores das variâncias foram padronizadas e portanto passiveis de comparação. Os números perto de 0 significam que uma variável não se aproximam, ou no caso, não tem relação nenhuma de crescimento (o crescimento de uma não implica no crescimento da outra), a partir disso quanto maior for o número absoluto maior relação essas variáveis tem entre si (caso uma cresça a outra também cresce , ou decresce numa certa proporção).
Gráfico de correlações:
cor(x) %>% corrplot(tl.cex=0.8,tl.col="black", type="lower")
Este gráfico nos permite visualizar de forma sistêmica a relação entre as variáveis apresentadas na matriz de correlações. Sendo de maior tamanho os valores mais altos, na cor azul quando as variáveis são positivamente correlacionadas e em vermelho quando são negativamente correlacionadas. Analisando a matriz e o gráfico de correlações pode-se verificar que a variável p_agro (taxa das pessoas ocupadas no setor agropecuário) está altamente relacionada negativamente com as outras taxas de ocupação além de estar perto de -0,6 em relação a renda per capta, o que nos faz imaginar que quanto maior esse índice menor será a renda da população da cidade e menos pessoas estarão envolvidas nos outros setores da economia. Ainda analisando as taxas de ocupação, podemos verificar a alta correlação entre p-serv e p_constr (0,76) o que nos faz concluir que quanto maior o número de pessoas em no setor de construção maior será o número de pessoas no setor serviços e isso pode ser explicado pela lógica de que quanto mais obras se faz em determinada região, maior será a necessidade de serviços (exemplos : instalações elétricas; profissionais de serviços hidráulicos). O índice que tem maior relação com a renda per capta é o p-com, o que nós leva a dizer que quanto mais pessoas no setor de comércio maior será a renda per capta de tal cidade e o índice que tem menor relação com a renda per capta é e_anosestudos, o que surpreende, pois ao pensarmos em capacitação, quanto mais se estuda mais a renda se eleva, porém como visto nesta análise isso não é verdade, sendo uma correlação de apenas 0,18, ou seja, quase não há relação entre os anos de estudo e a renda de determinada região. Outra observação a se fazer é a comparação entre cpr e p_formal, no qual a correlação é de – 0,72, sendo um alto valor que nos leva a concluir que quanto maior for o número de trabalhadores que atuam por conta própria, menor será o número de pessoas ocupadas formalizadas naquela cidade. O que, infelizmente, faz sentido, pois o trabalhador autônomo tem recursos para não se formalizar (contribuir para a previdência oficial).
Diagrama de dispersão:
plot(dados)
No diagrama de dispersão podemos verificar a relação de uma variável com a outra graficamente e ilustra as análise realizadas anteriormente.
kvpp <- kmeans(svpp, 2)
autoplot(kvpp, data = vpp, label = TRUE, label.size = 3) + theme_bw()
kssm <- kmeans(sssm, 2)
autoplot(kssm, data = ssm, label = TRUE, label.size = 3) + theme_bw()
Analisando os agrupamentos realizados a partir do método k-means podemos verificar que há uma maior relação entre as cidades avaliando a composição da população, no qual se dividirmos as duas regiões em 2 grupos encontraremos uma divisão mais acentuda se comparado com o agrupamento derivado pela composição do PIB, ou seja, para os dados de composição da população, temos que as cidades se mostram mais “parecidas” entre elas em ambas as regiões.
distMatrix <- dist(vpp)
hc <- hclust(distMatrix)
ggdendrogram(hc, rotate=TRUE)
distMatrix <- dist(ssm)
hc <- hclust(distMatrix)
ggdendrogram(hc, rotate=TRUE)
Ao aplicar o método de agrupamento dendograma podemos verificar que para ambas as regiões as distâncias entre as cidades marcam uma divisão em 3 grupos (contrariando o método de ward aplicado para o k-means), e podemos verificar certa semelhança entre as regiões em relação a composição da população.
Após aplicarmos os agrupamentos em relação a Composição do PIB e Composição da população podemos confirmar a análise em relação as variáveis do PIB que demonstram que ambas regiões apresentam cidades que podem ser tratadas como outliers, se destacando em determinadas medidas em relação as outras cidades. Para o Vale do Paraíba o destaque fica para a cidade de São José dos Campos e Taubaté e para a Região do Sul/Suldeste de Minas o destaque são as cidades de Poços de Caldas, Pouso Alegre e Varginha.
modelovp1 <- lm(pib ~ rdpc + e_anosestudo + cpr + emp + p_agro + p_serv + p_com + p_constr + p_formal + p_transf, data = vp)
summary(modelovp1)
##
## Call:
## lm(formula = pib ~ rdpc + e_anosestudo + cpr + emp + p_agro +
## p_serv + p_com + p_constr + p_formal + p_transf, data = vp)
##
## Residuals:
## Min 1Q Median 3Q Max
## -4183087 -1853183 -186359 1581753 11645696
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -5198415 23186578 -0.224 0.824230
## rdpc 26667 5899 4.520 0.000103 ***
## e_anosestudo 1800558 1259591 1.429 0.163930
## cpr -634580 294384 -2.156 0.039856 *
## emp -975537 985727 -0.990 0.330815
## p_agro 37050 228520 0.162 0.872369
## p_serv -112340 221566 -0.507 0.616106
## p_com 113452 302863 0.375 0.710782
## p_constr 40227 333266 0.121 0.904787
## p_formal -202744 150272 -1.349 0.188090
## p_transf -56542 211846 -0.267 0.791502
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3496000 on 28 degrees of freedom
## Multiple R-squared: 0.5653, Adjusted R-squared: 0.41
## F-statistic: 3.641 on 10 and 28 DF, p-value: 0.003328
Residuos
modelovp1 %>%
ggplot(aes(fitted(modelovp1), resid(modelovp1))) + geom_point() +
geom_hline(yintercept = 0)
modelosm1 <- lm(pib ~ rdpc + e_anosestudo + cpr + emp + p_agro + p_serv + p_com + p_constr + p_formal + p_transf, data = ss)
summary(modelosm1)
##
## Call:
## lm(formula = pib ~ rdpc + e_anosestudo + cpr + emp + p_agro +
## p_serv + p_com + p_constr + p_formal + p_transf, data = ss)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1400121 -190743 -35599 123029 2253776
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1857536 993345 -1.870 0.0637 .
## rdpc 1866 359 5.197 7.3e-07 ***
## e_anosestudo 54735 48368 1.132 0.2598
## cpr 5629 6227 0.904 0.3676
## emp -83253 45876 -1.815 0.0718 .
## p_agro -5233 8644 -0.605 0.5459
## p_serv 12804 12545 1.021 0.3092
## p_com 28015 18905 1.482 0.1407
## p_constr -54195 24540 -2.208 0.0289 *
## p_formal 8672 4608 1.882 0.0620 .
## p_transf -6016 9992 -0.602 0.5481
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 403400 on 135 degrees of freedom
## Multiple R-squared: 0.5107, Adjusted R-squared: 0.4744
## F-statistic: 14.09 on 10 and 135 DF, p-value: < 2.2e-16
Residuos
modelosm1 %>%
ggplot(aes(fitted(modelosm1), resid(modelosm1))) + geom_point() +
geom_hline(yintercept = 0)
Ao realizar a regressão multipla através das variáveis de composição da população para explicar o PIB de cada região podemos verificar que estas variáveis não estão altamente relacionadas como o esperado. Obtemos esta resposta atráves do r quadrado (ajustado) que foi 0,41 para o Vale do Paraíba e 0,47 para o Sul e Suldeste de Minas Gerais, além da análise de residuos que no gráfico nos mostra grandes erros, ou seja, não podemos analisar a situação economica de uma certa cidade com base na sua composição populacional logo que está composição não implica diretamente no PIB do próprio município.