O presente documento tem como finalidade analisar os dados do
estado do Piauí, disponibilizados pelo Instituto Brasileiro de Geografia
e Estatística - IBGE
A Análise dos dados do estado do Piauí fornece uma
percepção acerca da mortalidade infantil estar relacionada ao Índice de
Desenvolvimento Humano Municipal (IDHM), bem como à escolarização. O
Índice de Desenvolvimento Humano (IDH) é medido através de uma média
controlada de três componentes necessários como a saúde, educação e
renda. Cada um desses componentes recebe a mesma importância na fórmula,
refletindo a visão de que todos são igualmente vitais para assegurar o
progresso humano da população. A taxa de mortalidade infantil representa
a medida de crianças que não sobrevivem ao seu primeiro ano de vida,
para cada mil nascidos vivos, em uma população específica e durante um
período de tempo definido. O índice de escolarização, é a proporção de
indivíduos de um grupo etário específico que estão matriculados na
escola em comparação com o número total de indivíduos na mesma faixa
etária.
O Índice de Desenvolvimento Humano Municipal (IDHM), sendo uma medida abrangente do bem-estar humano, pode influenciar tanto a mortalidade infantil quanto a escolarização. Uma alta taxa de mortalidade infantil pode indicar problemas de saúde na população, o que pode afetar negativamente o IDHM. Da mesma forma, uma baixa taxa de escolarização pode indicar falta de acesso à educação, o que também pode reduzir o IDHM. Por outro lado, um alto IDHM pode indicar boas condições de saúde e acesso à educação, o que pode levar a uma baixa taxa de mortalidade infantil e uma alta taxa de escolarização. A análise em conjunto das variáveis é fundamental para compreender a situação socioeconômica dos municípios do estado do Piauí.
Analisar os dados disponíveis e aplicar técnicas estatísticas
adequadas para testar a hipótese da relação entre a mortalidade
infantil, o Índice de Desenvolvimento Humano Municipal (IDHM) e a
escolarização no estado do Piauí.
Investigar a associação entre a mortalidade infantil, o IDHM e a
escolarização no estado do Piauí, e entender como esses fatores se
inter-relacionam e influenciam uns aos outros.
Analisar os dados sobre a mortalidade infantil, o IDHM e a escolarização no estado do Piauí.
Aplicar técnicas estatísticas adequadas para avaliar a relação entre essas variáveis
Evidenciar pontos de melhoria em áreas específicas de preocupação
Para a realização da análise foi utilizado os dados do estado do Piauí e seus 224 municípios, disponibilizados pelo Instituto Brasileiro de Geografia e Estatística - IBGE, com o intuito de investigar as variáveis contínuas mortalidade infantil, Índice de Desenvolvimento Humano Municipal (IDHM) e a escolarização. Os métodos aplicados foram a regressão linear múltipla para estimar a relação entre as variáveis supracitadas, com indicadores de ajuste R-quadrado para representar a proporção da variação e p-valor para determinar a significância estatística do resultado da regressão, teste t para os coeficientes da regressão, a fim de compreender quais variáveis têm um impacto significativo na variável dependente, bem como a análise exploratória de dados para verificar a distribuição das variáveis e a presença de valores atípicos (outliers).
Os resultados desta análise fornecem conclusões baseadas nos dados disponibilizados, podendo variar se considerarmos fatores não incluídos neste estudo.
Tabela 1. Visualização estruturada e completa dos dadosVariável Dependente: Mortalidade Infantil (MI).
Variáveis Independentes: Índice de Desenvolvimento Humano Municipal (IDHM) e a Escolarização (ESC).
O IDHM é classificado muito baixo quando resulta em (0 à 0,499), baixo (0,5 à 0,599), médio (0,6 à 0,699), alto (0,7 à 0,799) e muito alto (0,8 à 1)
Gráfico 1. Apresentação de 20 municípios com Índice de Desenvolvimento Humano (IDH) baixo no estado do Piauí.
Gráfico 2. Apresentação de 20 municípios com Índice de Desenvolvimento Humano (IDH) alto no estado do Piauí.
Após coletar os dados, é necessário realizar uma análise exploratória através de histogramas e boxplots para entender a distribuição de cada variável e identificar possíveis valores atípicos (outliers).
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 3.45 12.82 16.95 21.84 28.57 63.83 67
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.4850 0.5467 0.5650 0.5710 0.5910 0.7510
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 84.70 96.90 97.80 97.55 98.60 100.00
Os histogramas da mortalidade infantil(MI), Índice de Desenvolvimento
Humano Municipal (IDHM) e escolarização (ESC) mostram a distribuição
dessas variáveis.
Figura 1. Histograma de MI
O histograma (MI) apresenta a distribuição das taxas de mortalidade infantil (MI). A distribuição é inclinada para a direita, o que indica que a maioria dos municípios tem uma taxa de mortalidade infantil menor, enquanto poucos municípios têm uma taxa de mortalidade infantil muito alta, ou seja, é um problema significativo em alguns Municípios, não em todos.
Figura 2. Histograma de IDHM
O histograma do IDHM (Índice de Desenvolvimento Humano Municipal) apresenta a frequência mais alta em torno de 0,6, ou seja, a maioria dos municípios nesta área tem um valor de IDHM de cerca de 0,6. Os valores de IDHM variam de cerca de 0,5 à 0,7, dessa forma, entende-se que a maioria dos municípios nesta área tem um nível moderado de desenvolvimento humano.
Figura 3. Histograma da Escolarização
O histograma da escolarização apresenta que a maioria dos municípios desta amostra tem um alto nível de escolaridade.
Os gráficos de dispersão de mortalidade infantil(MI) versus Índice de Desenvolvimento Humano Municipal(IDHM), e mortalidade infantil(MI) versus escolarização (ESC) mostram a relação entre essas variáveis. O gráfico de dispersão de mortalidade infantil versus IDHM mostra uma tendência decrescente, isso pode indicar que municípios com maior IDHM tendem a ter menor mortalidade infantil. Da mesma forma, a relação entre mortalidade infantil e escolarização pode ser explorada.
Gráfico 3. Dispersão de MI versus IDHM
A distribuição dos pontos no gráfico sugere uma correlação negativa entre o IDHM e a mortalidade infantil (MI). Isso significa que, em geral, quanto maior o IDHM (indicando um maior nível de desenvolvimento humano), menor é a mortalidade infantil, ou seja, municípios com maior desenvolvimento humano tendem a ter taxas de mortalidade infantil mais baixas.
Gráfico 4. Dispersão de MI versus ESC
A distribuição dos pontos no gráfico sugere uma correlação negativa entre a escolarização (ESC) e a mortalidade infantil (MI). Isso significa que, em geral, quanto maior a escolarização (ESC), menor é a mortalidade infantil (MI), ou seja, municípios com maior nível de educação tendem a ter taxas de mortalidade infantil mais baixas.
##
## Call:
## lm(formula = MI ~ IDHM + ESC, data = dados)
##
## Residuals:
## Min 1Q Median 3Q Max
## -17.999 -8.940 -3.696 7.512 41.450
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 91.4842 60.0688 1.523 0.1298
## IDHM -49.8101 25.1586 -1.980 0.0495 *
## ESC -0.4218 0.6222 -0.678 0.4988
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 13.43 on 154 degrees of freedom
## (67 observations deleted due to missingness)
## Multiple R-squared: 0.03106, Adjusted R-squared: 0.01848
## F-statistic: 2.468 on 2 and 154 DF, p-value: 0.08806
O coeficiente de regressão Estimate indica a mudança na
variável dependente mortalidade infantil (MI) para cada unidade de
mudança na variável independente, mantendo todas as outras variáveis
constantes. Pode ser observado acima que o coeficiente para Índice de
desenvolvimento Humano Municipal (IDHM) é -49.8101, o que sugere que
para cada aumento unitário no IDHM, a mortalidade infantil diminui em
49.8101 unidades, mantendo a escolarização constante. O erro padrão da
estimativa Std. Error, mede a precisão do coeficiente de
regressão. A lógica é fácil de entender, pois quando o erro padrão é
pequeno, logo a estimativa do coeficiente é mais precisa e confiável.
Quanto ao t value é o valor t, que é o coeficiente de
regressão dividido pelo erro padrão. Ele é usado para testar a hipótese
nula de que o coeficiente de regressão é igual a zero, ou seja, a
variável independente não tem efeito sobre a variável dependente. Em
seguida é analisado o valor p (Pr(>|t|), a probabilidade
de obter um valor t tão extremo ou mais extremo, dado que a hipótese
nula é verdadeira. Se o valor p é menor que o nível de significância que
geralmente é de 0.05, então rejeitamos a hipótese nula e concluímos que
a variável independente tem um efeito significativo sobre a variável
dependente.
É possível observar acima, que o valor p para IDHM é
0.0495, resultando ser menor que 0.05, dessa forma, podemos
concluir que o IDHM tem um efeito significativo sobre a mortalidade
infantil. No entanto, o valor p para escolarização (ESC) é
0.4988, o que é maior que 0.05, portanto, não podemos
concluir que a escolarização tem um efeito significativo sobre a
mortalidade infantil.
Valor t, valor p e o intervalo de confiança para cada coeficiente de regressão.
## # A tibble: 3 × 5
## term estimate std.error statistic p.value
## <chr> <dbl> <dbl> <dbl> <dbl>
## 1 (Intercept) 91.5 60.1 1.52 0.130
## 2 IDHM -49.8 25.2 -1.98 0.0495
## 3 ESC -0.422 0.622 -0.678 0.499
Gráfico de dispersão com uma linha de melhor ajuste para cada par de
variáveis.
Gráfico 5. Dispersão com uma linha do IDHM versus MI
Existem alguns pontos que se desviam significativamente da linha de melhor ajuste em azul. Esses pontos são Valores atípicos (outliers), em outras palavras, existem outros fatores não considerados neste gráfico que podem estar influenciando a mortalidade infantil.
Gráfico 6. Dispersão com uma linha de ESC versus MI
A linha de melhor ajuste inclina-se para baixo da esquerda para a direita e os pontos de dados estão espalhados ao redor dessa linha com uma maior concentração de pontos no canto inferior esquerdo do gráfico, ou seja, à medida que a escolarização aumenta, a mortalidade infantil diminui.
Portanto, a análise dos dados indica que o Piauí possui um IDHM médio, e evidencia a elevada taxa de mortalidade infantil. Embora a taxa de escolarização esteja acima da média nacional, ainda existem desafios a serem superados para aprimorar o desenvolvimento humano e diminuir a mortalidade infantil. Com base nesta análise, o Índice de Desenvolvimento Humano Municipal (IDHM) parece ter um impacto significativo na mortalidade infantil, enquanto a educação não parece ter o mesmo efeito. Vale ressaltar, que é fundamental interpretar os resultados de uma análise de correlação com prudência. Embora possamos identificar relações entre as variáveis, isso não nos permite concluir definitivamente sobre relações de causa e efeito. Essas conclusões geralmente requerem experimentos controlados ou análises mais profundas.
DA SAÚDE, Ministério .Boletim Epidemiológico: Mortalidade infantil no Brasil Acesso em: 27 de novembro de 2023
DA SILVA, Fernando. Análise exploratória de dados com o gráfico de histograma Acesso em: 28 de novembro de 2023
Iberdrola. O que é o Índice de Desenvolvimento Humano e por que se reduziu pela primeira vez desde 1990? Acesso em: 25 de novembro de 2023
PERES, Fernanda.Canal YouTube: Estatística Aplicada à vida real Acesso em: 25 de novembro de 2023
R, Curso.RPubs: O pacote ggplot2 Acesso em: 28 de novembro de 2023
SAÚDE, Revista de Administração. Taxa de mortalidade infantil no Piauí e determinantes sociais Acesso em: 28 de novembro de 2023
ZEVIANI, Walmes. Visualização de Dados com ggplot2 Acesso em: 25 de novembro de 2023
#Foi utilizado para desativar as mensagens, avisos e eco do código
#{r message=FALSE, warning=FALSE, echo=FALSE}
Tabela 1. Visualização estruturada e completa dos dados
#A biblioteca abaixo permite ler arquivos excel
library(readxl)
#A biblioteca ggplot2 fornece funções para criar gráficos
library(ggplot2)
#A biblioteca broom converte modelos estatísticos em formatos ordenados
library(broom)
#Define o nome do arquivo excel que será lido
meuxlsx <- "piaui.xlsx"
#Lê a primeira planilha do arquivo excel especificado e armazena os dados na variável "Dados"
Dados <- read_excel(path = meuxlsx, sheet = 1)
#Converte os dados lidos para um data frame, que é uma estrutura de dados tabular no R
dados <- as.data.frame(Dados)
#A biblioteca "rmarkdown" fornece funções para renderizar tabelas
library(rmarkdown)
#Renderiza a tabela de dados em um formato que pode ser visualizado em uma página estruturada
paged_table(dados)
#A biblioteca "dplyr" fornece funções para manipulação de dados
#O parâmetro warn.conflicts = FALSE suprime avisos sobre conflitos de nomes de funções
library(dplyr, warn.conflicts = FALSE)
Gráfico 1. Apresentação de 20 municípios com Índice de Desenvolvimento Humano (IDH) baixo no estado do Piauí.
#Ordena o dataframe 'dados' pela coluna 'IDHM' em ordem crescente e seleciona as primeiras 20 linhas
dados_IDHM_baixo <- dados %>% arrange(IDHM) %>% head(20)
#Cria um gráfico de barras para os municípios com IDHM baixo
#"aes" define as variáveis que serão usadas no gráfico
ggplot(data = dados_IDHM_baixo, aes(x = IDHM, y = Municipio, fill = IDHM)) +
#Adiciona as barras ao gráfico
geom_bar(stat = "identity", color = "white") +
#Define a cor das barras baseada no valor de 'IDHM'
scale_fill_gradient(low = "red", high = "green") +
#Adiciona rótulos de texto às barras
geom_text(aes(label = round(IDHM, 2)), hjust = 1.5) +
#Define os títulos do gráfico e dos eixos
labs(title = "Municípios com IDHM baixo", x = "IDHM", y = "Municípios")
Gráfico 2. Apresentação de 20 municípios com Índice de Desenvolvimento Humano (IDH) alto no estado do Piauí.
#Ordena o dataframe 'dados' pela coluna 'IDHM' em ordem decrescente e seleciona as primeiras 20 linhas
dados_IDHM_alto <- dados %>% arrange(desc(IDHM)) %>% head(20)
#Cria um gráfico de barras para os municípios com IDHM alto
#"aes" define as variáveis que serão usadas no gráfico
ggplot(data = dados_IDHM_alto, aes(x = IDHM, y = Municipio, fill = IDHM)) +
#Adiciona as barras ao gráfico
geom_bar(stat = "identity", color = "white") +
#Define a cor das barras baseada no valor de 'IDHM'
scale_fill_gradient(low = "red", high = "green") +
#Adiciona rótulos de texto às barras
geom_text(aes(label = round(IDHM, 2)), hjust = 1.5) +
#Define os títulos do gráfico e dos eixos
labs(title = "Municípios com IDHM alto", x = "IDHM", y = "Municípios")
#Mortalidade infantil(MI)
#Fornece um resumo estatístico da coluna 'MI' do dataframe 'dados'
summary(dados$MI)
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 3.45 12.82 16.95 21.84 28.57 63.83 67
#Índice de Desenvolvimento Humano Municipal(IDHM)
#Fornece um resumo estatístico da coluna 'IDHM' do dataframe 'dados'
summary(dados$IDHM)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.4850 0.5467 0.5650 0.5710 0.5910 0.7510
#Escolarização(ESC)
#Fornece um resumo estatístico da coluna 'ESC' do dataframe 'dados'
summary(dados$ESC)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 84.70 96.90 97.80 97.55 98.60 100.00
#Mortalidade infantil(MI)
#Cria um histograma da coluna 'MI' do dataframe 'dados'
#"aes" define as variáveis que serão usadas no gráfico
#"geom_histogram" adiciona as barras ao histograma
ggplot(dados, aes(x = MI)) + geom_histogram()
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## Warning: Removed 67 rows containing non-finite values (`stat_bin()`).
#Índice de Desenvolvimento Humano Municipal(IDHM)
#Cria um histograma da coluna 'IDHM' do dataframe 'dados'
#"aes" define as variáveis que serão usadas no gráfico
#"geom_histogram" adiciona as barras ao histograma
ggplot(dados, aes(x = IDHM)) + geom_histogram()
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
#Escolarização(ESC)
#Cria um histograma da coluna 'ESC' do dataframe 'dados'
#"aes" define as variáveis que serão usadas no gráfico
#"geom_histogram" adiciona as barras ao histograma
ggplot(dados, aes(x = ESC)) + geom_histogram()
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
Gráfico 3. Dispersão de MI versus IDHM
#Cria um gráfico de dispersão usando a biblioteca ggplot2
#ggplot(dados, aes(x = IDHM, y = MI)) define o conjunto de dados e mapeia as variáveis IDHM e MI para os eixos x e y, respectivamente
#geom_point() adiciona pontos ao gráfico, cada ponto representa uma observação no conjunto de dados
ggplot(dados, aes(x = IDHM, y = MI)) + geom_point()
## Warning: Removed 67 rows containing missing values (`geom_point()`).
Gráfico 4. Dispersão de MI versus ESC
#Cria um gráfico de dispersão usando a biblioteca ggplot2
#ggplot(dados, aes(x = ESC, y = MI)) define o conjunto de dados e mapeia as variáveis ESC e MI para os eixos x e y, respectivamente
#geom_point() adiciona pontos ao gráfico, cada ponto representa uma observação no conjunto de dados
ggplot(dados, aes(x = ESC, y = MI)) + geom_point()
## Warning: Removed 67 rows containing missing values (`geom_point()`).
#Regressão linear múltipla
#A função lm() é usada para ajustar modelos lineares
#MI ~ IDHM + ESC é a fórmula do modelo, onde MI é a variável dependente e IDHM e ESC são as variáveis independentes
#data = dados especifica o conjunto de dados a ser usado
modelo <- lm(MI ~ IDHM + ESC, data = dados)
#A função summary() é usada para obter um resumo do modelo
#Isso inclui os coeficientes de regressão, o valor de R-quadrado e o valor-p
summary(modelo)
##
## Call:
## lm(formula = MI ~ IDHM + ESC, data = dados)
##
## Residuals:
## Min 1Q Median 3Q Max
## -17.999 -8.940 -3.696 7.512 41.450
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 91.4842 60.0688 1.523 0.1298
## IDHM -49.8101 25.1586 -1.980 0.0495 *
## ESC -0.4218 0.6222 -0.678 0.4988
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 13.43 on 154 degrees of freedom
## (67 observations deleted due to missingness)
## Multiple R-squared: 0.03106, Adjusted R-squared: 0.01848
## F-statistic: 2.468 on 2 and 154 DF, p-value: 0.08806
#A função tidy() da biblioteca broom é usada para obter um resumo limpo e arrumado do modelo de regressão
tidy(modelo)
## # A tibble: 3 × 5
## term estimate std.error statistic p.value
## <chr> <dbl> <dbl> <dbl> <dbl>
## 1 (Intercept) 91.5 60.1 1.52 0.130
## 2 IDHM -49.8 25.2 -1.98 0.0495
## 3 ESC -0.422 0.622 -0.678 0.499
Gráfico 5. Dispersão com uma linha do IDHM versus MI
#Cria um gráfico de dispersão usando a biblioteca ggplot2
#ggplot(dados, aes(x = IDHM, y = MI)) define o conjunto de dados e mapeia as variáveis IDHM e MI para os eixos x e y, respectivamente
#geom_point() adiciona pontos ao gráfico, cada ponto representa uma observação no conjunto de dados
#geom_smooth(method = "lm") adiciona uma linha de melhor ajuste ao gráfico usando o método de mínimos quadrados (lm)
ggplot(dados, aes(x = IDHM, y = MI)) + geom_point() + geom_smooth(method = "lm")
## `geom_smooth()` using formula = 'y ~ x'
## Warning: Removed 67 rows containing non-finite values (`stat_smooth()`).
## Warning: Removed 67 rows containing missing values (`geom_point()`).
Gráfico 6. Dispersão com uma linha de ESC versus MI
#Cria um gráfico de dispersão usando a biblioteca ggplot2
#ggplot(dados, aes(x = ESC, y = MI)) define o conjunto de dados e mapeia as variáveis ESC e MI para os eixos x e y, respectivamente
#geom_point() adiciona pontos ao gráfico, cada ponto representa uma observação no conjunto de dados
#geom_smooth(method = "lm") adiciona uma linha de melhor ajuste ao gráfico usando o método de mínimos quadrados (lm)
ggplot(dados, aes(x = ESC, y = MI)) + geom_point() + geom_smooth(method = "lm")
## `geom_smooth()` using formula = 'y ~ x'
## Warning: Removed 67 rows containing non-finite values (`stat_smooth()`).
## Warning: Removed 67 rows containing missing values (`geom_point()`).