Respostas L5P2

dados = read_csv(
    here::here("data/participation-per-country.csv"),
    col_types = cols(
        .default = col_double(),
        site = col_character(),
        country = col_character(),
        geo = col_character(),
        four_regions = col_character(),
        eight_regions = col_character(),
        six_regions = col_character(),
        `World bank income group 2017` = col_character()
    )
) %>% 
    filter(usuarios > 200) 

dados_stack = dados %>% 
    filter(site == "StackOverflow")

dados_super = dados %>% 
    filter(site == "SuperUser")

glimpse(dados)

## Rows: 121
## Columns: 21
## $ site                           <chr> "StackOverflow", "StackOverflow", "Stac~
## $ country                        <chr> "Argentina", "Australia", "Austria", "B~
## $ PDI                            <dbl> 49, 36, 11, 80, 65, 69, 70, 39, 63, 80,~
## $ IDV                            <dbl> 46, 90, 55, 20, 75, 38, 30, 80, 23, 20,~
## $ MAS                            <dbl> 56, 61, 79, 55, 54, 49, 40, 52, 28, 66,~
## $ UAI                            <dbl> 86, 51, 70, 60, 94, 76, 85, 48, 86, 30,~
## $ usuarios                       <dbl> 2798, 12313, 2518, 2558, 4275, 10717, 1~
## $ responderam_prop               <dbl> 0.5357398, 0.6133355, 0.6310564, 0.3928~
## $ perguntaram_prop               <dbl> 0.5210865, 0.5897832, 0.5933280, 0.4757~
## $ editaram_prop                  <dbl> 0.09256612, 0.14699911, 0.14932486, 0.0~
## $ comentaram_prop                <dbl> 0.25339528, 0.33395598, 0.35027800, 0.1~
## $ GNI                            <dbl> NA, 59570, 48160, 840, 44990, 11630, 68~
## $ Internet                       <dbl> 51.0, 79.5, 79.8, 5.0, 78.0, 45.0, 51.0~
## $ EPI                            <dbl> 59.02, NA, 63.21, NA, 61.21, 49.96, NA,~
## $ geo                            <chr> "arg", "aus", "aut", "bgd", "bel", "bra~
## $ four_regions                   <chr> "americas", "asia", "europe", "asia", "~
## $ eight_regions                  <chr> "america_south", "east_asia_pacific", "~
## $ six_regions                    <chr> "america", "east_asia_pacific", "europe~
## $ Latitude                       <dbl> -34.00000, -25.00000, 47.33333, 24.0000~
## $ Longitude                      <dbl> -64.00000, 135.00000, 13.33333, 90.0000~
## $ `World bank income group 2017` <chr> "Upper middle income", "High income", "~

Nessa etapa do laboratório, estamos interessados em entender a relação da atuação de pessoas de diferentes países em responder perguntas no stackoverflow com características socioeconômicas e culturais dos países. Especificamente, queremos entender a relação da proporção de pessoas que responderam em um país com: fluência em inglês da população (EPI), produto interno bruto do país, disponibilidade de internet no país e grau de individualismo na cultura do país (individualismo está explicado aqui: https://www.hofstede-insights.com/models/national-culture/, e é a coluna IDV nos dados). Estamos interessados em inferir a partir dos dados desse estudo o que acontece na população em geral.

A metodologia que usaremos para esse estudo é Focando apenas no StackOverflow: Questão 1 a) Construa um modelo 1 com a variável responderam_prop com variável de resposta e fluência em inglês da população (EPI), produto interno bruto do país (GNI) e disponibilidade de internet (INTERNET) no país como variáveis de explicação. Comente esse modelo em termos dos coeficientes e do ajuste. Estamos interessados em fazer inferência sobre os coeficiente.

modelo1 = lm(dados_stack$responderam_prop~dados_stack$EPI+dados_stack$GNI+dados_stack$Internet)
summary(modelo1)

## 
## Call:
## lm(formula = dados_stack$responderam_prop ~ dados_stack$EPI + 
##     dados_stack$GNI + dados_stack$Internet)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.20363 -0.01939  0.01282  0.04330  0.09918 
## 
## Coefficients:
##                          Estimate   Std. Error t value Pr(>|t|)   
## (Intercept)          0.1855203961 0.0862009906   2.152  0.03732 * 
## dados_stack$EPI      0.0048060300 0.0017705206   2.714  0.00967 **
## dados_stack$GNI      0.0000006389 0.0000006437   0.993  0.32676   
## dados_stack$Internet 0.0007808396 0.0006085250   1.283  0.20664   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.0631 on 41 degrees of freedom
##   (24 observations deleted due to missingness)
## Multiple R-squared:  0.4811, Adjusted R-squared:  0.4431 
## F-statistic: 12.67 on 3 and 41 DF,  p-value: 0.000005335

responderam = 0,18 + 0,005 EPI + 0,000 GNI + 0,000 Internet

Para cada unidade de fluencia em ingles da população que cresce, aumenta em média 0,5% de pessoas que responderam com 1% de signifcância. Os outros coeficientes não foram significativos.

b) Construa um modelo 2 que além das variáveis do modelo 1 tem também o IDV. Esse é um modelo que considera uma variável de cultura. Comparando o modelo 2 com o modelo 1, o que podemos afirmar sobre o efeito do individualismo no comportamento das pessoas de diferentes países no stackoverflow? Há um efeito relevante (lembre de considerar a inferência para a população de onde vem os dados)? O modelo é mais explicativo do que sem a variável relacionada a cultura?

modelo2 = lm(dados_stack$responderam_prop~dados_stack$EPI+dados_stack$GNI+dados_stack$Internet+dados_stack$IDV)
summary(modelo2)

## 
## Call:
## lm(formula = dados_stack$responderam_prop ~ dados_stack$EPI + 
##     dados_stack$GNI + dados_stack$Internet + dados_stack$IDV)
## 
## Residuals:
##       Min        1Q    Median        3Q       Max 
## -0.156624 -0.022618  0.007396  0.032589  0.109432 
## 
## Coefficients:
##                          Estimate   Std. Error t value Pr(>|t|)   
## (Intercept)          0.2684192024 0.0852225374   3.150  0.00309 **
## dados_stack$EPI      0.0027050465 0.0018052836   1.498  0.14188   
## dados_stack$GNI      0.0000003812 0.0000006035   0.632  0.53123   
## dados_stack$Internet 0.0002934263 0.0005902852   0.497  0.62185   
## dados_stack$IDV      0.0016352979 0.0005867953   2.787  0.00810 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.05846 on 40 degrees of freedom
##   (24 observations deleted due to missingness)
## Multiple R-squared:  0.5655, Adjusted R-squared:  0.522 
## F-statistic: 13.01 on 4 and 40 DF,  p-value: 0.0000007092

Modelo1 responderam = 0,18 (.) + 0,005 x EPI (..) + 0,000 x GNI + 0,000 x Internet Modelo2 responderam = 0,26 (..) + 0,002 x EPI + 0,000 x GNI + 0,000 x Internet + 0,001 x IDV (..)

O que podemos afirmar sobre o efeito do individualismo no comportamento das pessoas de diferentes países no stackoverflow?

Existe um efeito, pois a cada unidade de IDV que é aumentado isso causa um incremento em médoa de 0,1% nas pessoas que responderam, com 1% de significância. Os outros coeficientes não foram significativos.

Há um efeito relevante (lembre de considerar a inferência para a população de onde vem os dados)?

Existe um efeito relevante, pois a cada unidade de IDV que é aumentado isso causa um incremento em médoa de 0,1% nas pessoas que responderam, com 1% de significância. Os outros coeficientes não foram significativos.

O modelo é mais explicativo do que sem a variável relacionada a cultura?

Sim o modelo é mais explicativo, analisando o R2 que é maior, antes 48% e agora 56%

Questão 2 c) Construa uma outra versão do modelo 2 usando agora os dados do SuperUser. Os resultados são consistentes com os do StackOverflow? Comente e mostre evidência que embase sua conclusão.

modelo2_2 = lm(dados_super$responderam_prop~dados_super$EPI+dados_super$GNI+dados_super$Internet+dados_super$IDV)
summary(modelo2_2)

## 
## Call:
## lm(formula = dados_super$responderam_prop ~ dados_super$EPI + 
##     dados_super$GNI + dados_super$Internet + dados_super$IDV)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.05631 -0.02394 -0.00310  0.01956  0.06272 
## 
## Coefficients:
##                           Estimate    Std. Error t value Pr(>|t|)  
## (Intercept)           0.0992264995  0.0621921828   1.595   0.1218  
## dados_super$EPI       0.0016448531  0.0012740537   1.291   0.2072  
## dados_super$GNI       0.0000007222  0.0000004017   1.798   0.0830 .
## dados_super$Internet -0.0000069515  0.0003981927  -0.017   0.9862  
## dados_super$IDV       0.0007280007  0.0004006296   1.817   0.0799 .
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.03406 on 28 degrees of freedom
##   (19 observations deleted due to missingness)
## Multiple R-squared:  0.6057, Adjusted R-squared:  0.5493 
## F-statistic: 10.75 on 4 and 28 DF,  p-value: 0.00002083

responderam_stack = 0,26 (..) + 0,002 x EPI + 0,000 x GNI + 0,000 x Internet + 0,001 x IDV (..)

responderam_super = 0,099 + 0,001 x EPI + 0,001 x GNI (.) - 0,000 Intenet + 0.0007 (.) x IDV

c) Construa uma outra versão do modelo 2 usando agora os dados do SuperUser. Os resultados são consistentes com os do StackOverflow? Comente e mostre evidência que embase sua conclusão.

O r2 é de 60% para o SuperUser, e 56% para o StackOverflow O modelo do SuperUser se ajusta mais aos dados de acordo com o R2. A cada uma unidade do GNI aumenta em média 0,1% das pessoas que responderam em média com 5% de significância, para o StackOverflow A cada uma unidade de IDV aumenta em 0,07% a taxa depessoas que responderam em média, com 5% de significância,para o stackOverflow. Para o SuperUser a cada unidade que aumenta o IDV aumenta em media 0,1%. Ou seja para o superUser o efeito do IDV é maior do que para o stackoverflow

Submeta sua resposta como um google docs que tenha as figuras e tabelas necessários para ser entendido. Nas figuras, atente para a legibilidade delas.