1 - Introdução

Uma breve declaração dos objetivos e hipóteses: -Com este trabalho, nós resolvemos analisar alguns dados como gini, world happiness report e alguns outros indicadores sócio-demográficos. Para realizar isso, juntamos algumas bases de dados e formamos uma só, com todo o conteúdo que precisávamos. Nossa hipótese é:

“Altos níveis de desigualdade afetam de maneira positiva ou negativa os índices de felicidade de uma nação?”

2 - Objetivos

Determinar se há alguma correlação entre o índice de gini e o índice de felicidade (happiness index), e assim entender melhor o impacto da desigualdade nas populações estudadas.

3 metodologia

Pesquisa quantitativa

Utilizando os gráficos construídos sobre nossa base de dados para ter insights e então analisá-los com testes de hipótese para avaliar a relevância entre as variáveis

Hipótese inicial

Desiualdade tem um efeito negativo na percepção de felicidade de uma nação

3.1 Descrição da base de dados

Carregando as bibliotecas

library(readr)
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(tibble)
library(corrplot)
## Warning: package 'corrplot' was built under R version 4.0.5
## corrplot 0.84 loaded
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.0.5
library(rworldmap)
## Warning: package 'rworldmap' was built under R version 4.0.5
## Loading required package: sp
## Warning: package 'sp' was built under R version 4.0.5
## ### Welcome to rworldmap ###
## For a short introduction type :   vignette('rworldmap')
library(ggpubr)
## Warning: package 'ggpubr' was built under R version 4.0.5

Carregando as bases de dados

combined_final_last_10_years <- read_csv("C:/Users/Arthur/Desktop/trabalho estatistica/combined_final_last_10_years.csv")
## 
## -- Column specification --------------------------------------------------------
## cols(
##   continent = col_character(),
##   country = col_character(),
##   year = col_double(),
##   demox_eiu = col_double(),
##   income_per_person = col_double(),
##   `invest_%_gdp` = col_double(),
##   `tax_%_gdp` = col_double(),
##   gini_index = col_double()
## )
View(combined_final_last_10_years)

X2015 <- read_csv("C:/Users/Arthur/Desktop/trabalho estatistica/2015.csv")
## 
## -- Column specification --------------------------------------------------------
## cols(
##   Country = col_character(),
##   Region = col_character(),
##   `Happiness Rank` = col_double(),
##   `Happiness Score` = col_double(),
##   `Standard Error` = col_double(),
##   `Economy (GDP per Capita)` = col_double(),
##   Family = col_double(),
##   `Health (Life Expectancy)` = col_double(),
##   Freedom = col_double(),
##   `Trust (Government Corruption)` = col_double(),
##   Generosity = col_double(),
##   `Dystopia Residual` = col_double()
## )
view(X2015)

ISO3 <- read_csv("C:/Users/Arthur/Desktop/trabalho estatistica/ISO3.csv")
## 
## -- Column specification --------------------------------------------------------
## cols(
##   country = col_character(),
##   ISO3 = col_character()
## )
view(ISO3)

Manipulando os dados para chegar na tabela a ser trabalhada

combined_final_last_10_years %>% count(country,sort=TRUE)
## # A tibble: 138 x 2
##    country                    n
##    <chr>                  <int>
##  1 Angola                    11
##  2 Argentina                 11
##  3 Australia                 11
##  4 Austria                   11
##  5 Bangladesh                11
##  6 Belarus                   11
##  7 Belgium                   11
##  8 Bhutan                    11
##  9 Bosnia and Herzegovina    11
## 10 Botswana                  11
## # ... with 128 more rows
Tabela2015 <- combined_final_last_10_years %>% filter(year == 2015)

Tabela2015 %>% count(country,sort=TRUE)
## # A tibble: 106 x 2
##    country         n
##    <chr>       <int>
##  1 Afghanistan     1
##  2 Albania         1
##  3 Angola          1
##  4 Argentina       1
##  5 Armenia         1
##  6 Australia       1
##  7 Austria         1
##  8 Azerbaijan      1
##  9 Bangladesh      1
## 10 Belarus         1
## # ... with 96 more rows
names(X2015)[names(X2015) == "Country"] <- "country"

Tabela_merge <- merge(Tabela2015,X2015,by.x = "country") # Arrumar o nome dos países aqui

Tabela_final = Tabela_merge[,-c(2)]

# Mudando a ordem das colunas

Tabela_final_ordenada <- Tabela_final[, c(1, 8, 7, 9, 2, 3, 4, 5, 6, 10, 11, 12, 13, 14, 15, 16, 17, 18)]

GinivsFelicidade <- merge(Tabela_final_ordenada,ISO3,by.x = "country") # Arrumando os nomes dos países
names(GinivsFelicidade)[1:19]<-c("Country","Region","Gini","Happiness Rank","Year","demox","ipc","inv%GDP","tax%GDP","hpscr","Sd","Econ","Fam","Lifex","Free","Trust","Gen","Res","ISO3")

a) Fontes dos dados

Serão abordadas duas bases de dados encontradas no Kaggle, https://www.kaggle.com/unsdsn/world-happiness, que deriva o índice de felicidade em variáveis como índice de democracia, estrutura familiar e confiança no governo e https://www.kaggle.com/psterk/income-inequality?select=gini.csv, que deriva o Índice de Gini, um medidor de desigualdade de renda baseado em métricas econômicas. Também será utilizado uma base com o código ISO3 dos países para poder criar mapas utilizando a biblioteca rworldmap.

Matriz com a explicação de todas as variáveis utilizadas na base de dados

GINI -> O índice de gini é uma medida sócio-econômica que serve como instrumento para a mensuração da disparidade na distribuição de renda em uma população, é calculada através da medição da chamada curva de Lorenzo, obtida através de um gráfico aonde no eixo X se encontra a população, e no eixo Y encontra-se a a renda.

Happiness Index -> O Happiness Score, ou ranque de felicidade, é um medida presente no dataset “World Happiness Report”, seus resultados são calculados através de uma pesquisa feita pelo Gallup, uma instituição de pesquisa Norte-Americana. As perguntas são feitas com base na “escada de cantrill” , analisando a vontade de viver e o valor que os indivíduos dão a vida, fazendo assim uma nota que vai de 0(pouca vontade de viver e baixas expectativas) até o 10(alta vontade de viver e boas expectativas quanto a vida). O Happiness Index os ranqueia do mais baixo ao mais alto, aonde teoricamente se encontraria o país “mais feliz”, ocupando a primeira posição do ranking.

Demox -> Esta variável representa o nível da democracia no país, indicando o quão democrático é o país e o quanto o povo participa das decisões tangentes a política. É calculado através de 5 variáveis: pluralidade, funcionamento do governo, liberdades civis, participação no governo e cultura política.

Income per person -> Mostra a renda per capita. É calculada dividindo a renda do país pelo número de habitantes.

Invest_%_GDP -> aponta a porcentagem do PIB que é direcionada para investimentos diretos em infraestrutura.

Tax_%_GDP -> Mostra a porcentagem do PIB do país que é advinda de impostos

Region -> Mostra a região aonde o país se encontra no mapa.

Health -> Expectativa de vida, calculada fazendo a média de longevidade da população local

Freedom -> Mostra a liberdade econômica de um país, calculada levando em conta alguns fatores como facilidade para se abrir empresas ou fazer negócios no país em análise

Trust -> Indica O quanto o governo atual de um país é confiável, possibilidades de um golpe e afins, aos olhos da comunidade internacional. É calculado através de outros indicadores como o índice de democracia e o de liberdade econômica

Generosity -> Mostra o quanto as empresas e entidades do país estão envolvidas em atividades como filantropia.

Dystopian Residual -> Mostra o quanto o país vai além do esperado pelo modelo, ou seja, o quanto o resultado final do país ultrapassa o esperado

Family -> Média do suporte familiar e o valor dado a família na cultura presente no país em análise, em outras palavras, a importância dada ao conceito de família.

b) Número de observações

Serão analisados 96 países do mundo todo, com foco em regiões onde temos uma maior completude de dados.

3.2 Metodologia Utilizada

Utilizamos tabelas de correlação, gráficos de dispersão e mapas com gradientes baseados nas variáveis a serem estudadas, além do Teste Shapiro-Wilk e Teste de Spearman para validar as hipóteses.

4 Análise de resultados

Montando os mapas

# Construindo a base do mapa apenas com felicidade (X2015)

HappinessMerge<-merge(X2015,ISO3,by.x="country")

# Mundo e felicidade (colocar mapa mais recente também por curiosidade?)

mapahappiness <- joinCountryData2Map(HappinessMerge, joinCode = "ISO3", nameJoinColumn = "ISO3")
## 138 codes from your data successfully matched countries in the map
## 0 codes from your data failed to match with a country code in the map
## 105 codes from the map weren't represented in your data
mapCountryData(mapahappiness, nameColumnToPlot="Happiness Score", colourPalette = c("red","blue"),
               borderCol = "azure4",
               oceanCol = "gray97",
               missingCountryCol = "lightgrey",
               mapTitle = "Happiness Score 2015")

Gráfico 1 - Pontuação de felicidade no mundo (2015)

# Mapa geral completo apenas Gini
# Construindo a base do mapa apenas com Gini (Tabela2015)

GiniMerge <- merge(Tabela2015,ISO3,by.x = "country")

# Mundo e felicidade (colocar mapa mais recente também por curiosidade?)

mapaGini <- joinCountryData2Map(GiniMerge, joinCode = "ISO3", nameJoinColumn = "ISO3")
## 99 codes from your data successfully matched countries in the map
## 0 codes from your data failed to match with a country code in the map
## 144 codes from the map weren't represented in your data
mapCountryData(mapaGini, nameColumnToPlot="gini_index", colourPalette = c("blue","red"),
               borderCol = "azure4",
               oceanCol = "gray97",
               missingCountryCol = "lightgrey",
               mapTitle = "Gini Index 2015")
## Warning in rwmGetColours(colourPalette, numColours): 2 colours specified and 7
## required, using interpolation to calculate colours

Gráfico 2 - Índice de Gini no mundo (2015)

As cores estão invertidas pois consideramos que um índice de Gini menor (menos desigualdade) é algo positivo.

Índices de correlação

Correlação Mundo

ginihap<-GinivsFelicidade[,-c(1,2,4,5,19)]
corginihapp<-cor(ginihap)
corrplot.mixed(corginihapp,tl.pos = "lt",number.cex=0.6)

Tabela 1 - Correlação mundial

Correlação por região

## América Latina 
GinivsFelicidadeAmericaLatina<- filter(GinivsFelicidade, Region == "Latin America and Caribbean")
ginihapAL<-GinivsFelicidadeAmericaLatina[,-c(1,2,4,5,19)]
corginihappAL<-cor(ginihapAL)
corrplot.mixed(corginihappAL,tl.pos = "lt",number.cex=0.6)

# Tabela 1.1

Tabela 1.1 - Correlação da América Latina

## Europa Ocidental
GinivsFelicidadeEuropaO<- filter(GinivsFelicidade, Region == "Western Europe")
ginihapEUO<-GinivsFelicidadeEuropaO[,-c(1,2,4,5,19)]
corginihappEUO<-cor(ginihapEUO)
corrplot.mixed(corginihappEUO,tl.pos = "lt",number.cex=0.6)

# Tabela 1.2

Tabela 1.2 - Correlação da Europa Ocidental

## Africa Subsariana
GinivsFelicidadeAfrica<- filter(GinivsFelicidade, Region == "Sub-Saharan Africa")
ginihapAF<-GinivsFelicidadeAfrica[,-c(1,2,4,5,19)]
corginihappAF<-cor(ginihapAF)
corrplot.mixed(corginihappAF,tl.pos = "lt",number.cex=0.6)

Tabela 1.3 - Correlação da África Subsariana

Gráficos de dispersão

Dispersão mundo

dmundoregiaopontos <- ggplot(GinivsFelicidade, aes(x=Gini, y=hpscr, color=Region)) + geom_point() + geom_smooth() +
  labs(title ="Gini vs Happiness Score", x="Gini", y="Happiness Score")
print(dmundoregiaopontos)
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'

 # Gráfico muito disperso, porém regiões parecem seguir padrões

Gráfico 3 - Dispersão da Pontuação de Felicidade e Índice de Gini no mundo, agregado

Olhando esse gráfico, percebemos que diferentes regiões apresetam certos padrões, mesmo que no agregado não pareça haver qualquer relação entre as vairáveis

Plotando o gráfico de dispersão para as regiões

dmundoregiao <- ggplot(GinivsFelicidade, aes(x=Gini, y=hpscr, color=Region)) + geom_point() + geom_smooth(method = "lm") +
  labs(title ="Gini vs Happiness Score", x="Gini", y="Happiness Score")

dmundoregiao1 <- dmundoregiao + theme(plot.title=element_text(size=14, face="bold"),
                  axis.text.x=element_text(size=7),
                  axis.text.y=element_text(size=7),
                  axis.title.x = element_text(size=10),
                  axis.title.y = element_text(size=10))+
  scale_color_discrete(name="Regiões")

# Separando por o gráfico de dispersão por tipo para facilitar a visualização

dmundoregiao2 <- dmundoregiao1 + facet_wrap( ~ Region, ncol=3,scales = "free")  # colunas definidas pelo tipo

dmundoregiao3 <- dmundoregiao2 + 
  theme(strip.text.x = element_text(size = 4.5)) # Arrumar tamanho do strip

print(dmundoregiao3)
## `geom_smooth()` using formula 'y ~ x'

Gráfico 4 - Dispersão dividida por regiões para melhor observação

Testes de normalidade

Testes de normalidade das variáveis Gini e Happiness Score

# Gráficos da normal usando ggpubr e teste de shapiro

ggdensity(GinivsFelicidade$Gini, 
          main = "Densidade do Gini Index")

ggdensity(GinivsFelicidade$hpscr, 
          main = "Densidade do Happiness Score")

# Teste de shapiro para averiguar a normalidade

shapiro.test(GinivsFelicidade$Gini)
## 
##  Shapiro-Wilk normality test
## 
## data:  GinivsFelicidade$Gini
## W = 0.94843, p-value = 0.0009339
shapiro.test(GinivsFelicidade$hpscr)
## 
##  Shapiro-Wilk normality test
## 
## data:  GinivsFelicidade$hpscr
## W = 0.96871, p-value = 0.02247

Gráficos 6 e 7 - Densidade dos valores das variáveis

Variáveis não têm distribuição normal segundo o Teste de Shapiiro-Wilk

Testes de Hipótese

Teste de hipótese para validar a correlação entre o Índice de Gini e o Happiness Score no mundo e nas regiões escolhidas.

H0: Não há associação

H1: Há associação

significância: 95% alpha: 0,05

p-valor <= alpha rejeito H0

pvalor > alpha não rejeito H0

# Testando a correlação com o coeficiente de correlação de Spearman

## Mundo

cor.test(GinivsFelicidade$Gini, GinivsFelicidade$hpscr, method="spearman")
## 
##  Spearman's rank correlation rho
## 
## data:  GinivsFelicidade$Gini and GinivsFelicidade$hpscr
## S = 179155, p-value = 0.01304
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##        rho 
## -0.2538828
## Europa Ocidental

cor.test(GinivsFelicidadeEuropaO$Gini, GinivsFelicidadeEuropaO$hpscr, method="spearman")
## 
##  Spearman's rank correlation rho
## 
## data:  GinivsFelicidadeEuropaO$Gini and GinivsFelicidadeEuropaO$hpscr
## S = 2322.7, p-value = 0.0001569
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##        rho 
## -0.7464261
## Africa subsariana

cor.test(GinivsFelicidadeAfrica$Gini, GinivsFelicidadeAfrica$hpscr, method="spearman")
## 
##  Spearman's rank correlation rho
## 
## data:  GinivsFelicidadeAfrica$Gini and GinivsFelicidadeAfrica$hpscr
## S = 344, p-value = 0.1565
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##       rho 
## 0.3857143
## America Latina

cor.test(GinivsFelicidadeAmericaLatina$Gini, GinivsFelicidadeAmericaLatina$hpscr, method="spearman")
## 
##  Spearman's rank correlation rho
## 
## data:  GinivsFelicidadeAmericaLatina$Gini and GinivsFelicidadeAmericaLatina$hpscr
## S = 470, p-value = 0.5667
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##       rho 
## 0.1607143

5 Discussão

Após a montagem dos gráficos e tabelas, fizemos uma breve análise visual para observar se haveriam tendências e correlações nas representações gráficas.

Nossas expectativas no início da pesquisa eram de que não importando o país ou região em análise, o índice de gini, responsável por apontar a desigualdade em um país, sempre iria apresentar uma influência significativa sobre a média da felicidade geral da população do país ou região em questão.

Já imaginávamos que em certos casos o grau da significância seria menor do que em outros, mas ainda assim acreditávamos que haveria algum tipo de correlação. Contudo, ao olharmos o Gráfico 3 não percebemos nenhuma correlação clara entre as variáveis no agragado. Apenas quando dividmimos o gráfico de dispersão por regiões (Gráfico 4) que foi possível notar padrões e possíveis correlações entre as variáveis estudadas.

Após a constatação das expectativas, partimos para a aplicação dos métodos e para a escolha das regiões nas quais focaríamos nossas análises. Escolhemos as seguintes regiões: África subsariana, Europa Ocidental e América Latina, bem como realizamos uma análise acerca de todos os outros países com intuito de obtermos uma média mundial, para efeito de comparação. A escolha das regiões seguiu o critério de abordar uma região desenvolvida (Europa Ocidental), uma em desenvolvimento (América Latina), e uma sub-desenvolvida (África Subsariana), além de levar em conta as regiões com o maior número de amostras para dar mais robustez aos testes de hipótese a serem aplicados sobre os coeficientes de correlação.

Aplicamos Testes de Shapiro-Wilk para observar se havia normalidade nas distribuições e, após constatarmos que não havia normalidade, aplicamos o método de Spearman, indicado para quando não se pode supor a existência de uma distribuição normal em todas as variáveis, para então avaliar se existiria correlação ou não entre as variáveis em questão. Após a aplicação do método, descobrimos que em alguns casos havia sim uma correlação mas que em outros, ao contrário do que acreditávamos, não havia.

Foi possível observar que no agregado mundial nossa hipótese inicial obteve sustentação. Embora a correlação não seja forte, com um valor de apenas -0.24, ela se mostrou estatísticamente significativa nos Testes de Spearman. Constatado isso, partimos para a análise específica de regiões, levando em conta os critérios explicitados acima e seus gráficos de dispersão (Gráfico 5) para procurar os exemplos mais representativos.

Após um primeiro olhar nos gráficos e nas correlações, inferimos que poderia haver uma correlação direta, e não inversa como inicialmente pensamos, entre a desigualdade e a felicidade em países pobres. Isso se dá ao fato de que encontramos uma correlação praticamente nula na região de renda média (América Latina) e encontramos uma correlação positiva (0.36) na África Subsariana, além dos gráficos da última mostrarem uma linha de tendência inversa daquela observada na europa (gráfico 5). Supomos, então, que a percepção de desigualdade de renda em países muito pobres poderia ter um efeito positivo na percepção de felicidade, por dar a perspectiva de que seria possível se tornar mais rico ou melhorar seu padrão de vida em relação ao atual.

Surpreedentemente, embora o valor da correlação entre o Índice de Gini na região da Europa Ocidental tenha sido forte (-0.78) e estatísticamente significante pelo teste de spearman, o mesmo não foi observado nas outras regiões estudadas. Os resultados apontam que nas regiões não desenvolvidas, Happiness Score (pontuação de felicidade) e o Índice de Gini não estão correlacionados.

6 Conclusão

A partir dos resultados obtidos, entramos na fase do debate, e tentamos entender quais seriam os possíveis fatores que levaram ao resultado que obtivemos. Chegamos a seguinte concusão: Provavelmente, nos continentes subdesenvolvidos e em desenvolvimento (Africa subsariana e América Latina), a desigualdade não afeta tanto os índices de felicidade pois nestas regiões a pobreza é mais ampla e distribuída no seio da sociedade, o que faz com que os individuos, de forma geral, se contentem com a condição de vida que lhes é apresentada enquanto crescem dentro da sociedade, haja vista que a segregação tende a ser grande e o indivíduo se acostuma a ver apenas pobreza ou condições de vida mais precárias ao seu redor. Em outras palavras, os membros destas sociedades se “acostumam” mais com condições de vida mais precárias e tomam ela como algo normal. Já no continente Europeu (Desenvolvido), a desigualdade afeta bastante a felicidade pois são países onde parte considerável da população tem acesso a uma condição de vida mais elevada, oque faz com que aqueles que não a tem tal condição de vida, e que normalmente dividem os mesmos espaços urbanos que aqueles que tem, devido a menor segregação, almejem uma qualidade de vida maior e não se sintam contentados ou completos com aquilo possuem no momento, levando a uma maiores taxas de infelicidade.

Em resumo, uma região que tem muita pobreza, ou piores condições de vida mais alastradas por seu território, tornando difícil a visualização da desigualdade ou uma fuga da pobreza, tende a ter uma população que problematiza menos a desigualdade e talvez encare essa realidade como o único futuro possível. Já nas sociedades mais desenvolvidas, onde o contato daquele que tem com aquele que não tem é maior, há um maior nível de descontentamento.