dados = read_csv(
here::here("data/participation-per-country.csv"),
col_types = cols(
.default = col_double(),
site = col_character(),
country = col_character(),
geo = col_character(),
four_regions = col_character(),
eight_regions = col_character(),
six_regions = col_character(),
`World bank income group 2017` = col_character()
)
) %>%
filter(usuarios > 200)
dados_stack = dados %>%
filter(site == "StackOverflow")
dados_super = dados %>%
filter(site == "SuperUser")
glimpse(dados)
## Rows: 121
## Columns: 21
## $ site <chr> "StackOverflow", "StackOverflow", "Stac~
## $ country <chr> "Argentina", "Australia", "Austria", "B~
## $ PDI <dbl> 49, 36, 11, 80, 65, 69, 70, 39, 63, 80,~
## $ IDV <dbl> 46, 90, 55, 20, 75, 38, 30, 80, 23, 20,~
## $ MAS <dbl> 56, 61, 79, 55, 54, 49, 40, 52, 28, 66,~
## $ UAI <dbl> 86, 51, 70, 60, 94, 76, 85, 48, 86, 30,~
## $ usuarios <dbl> 2798, 12313, 2518, 2558, 4275, 10717, 1~
## $ responderam_prop <dbl> 0.5357398, 0.6133355, 0.6310564, 0.3928~
## $ perguntaram_prop <dbl> 0.5210865, 0.5897832, 0.5933280, 0.4757~
## $ editaram_prop <dbl> 0.09256612, 0.14699911, 0.14932486, 0.0~
## $ comentaram_prop <dbl> 0.25339528, 0.33395598, 0.35027800, 0.1~
## $ GNI <dbl> NA, 59570, 48160, 840, 44990, 11630, 68~
## $ Internet <dbl> 51.0, 79.5, 79.8, 5.0, 78.0, 45.0, 51.0~
## $ EPI <dbl> 59.02, NA, 63.21, NA, 61.21, 49.96, NA,~
## $ geo <chr> "arg", "aus", "aut", "bgd", "bel", "bra~
## $ four_regions <chr> "americas", "asia", "europe", "asia", "~
## $ eight_regions <chr> "america_south", "east_asia_pacific", "~
## $ six_regions <chr> "america", "east_asia_pacific", "europe~
## $ Latitude <dbl> -34.00000, -25.00000, 47.33333, 24.0000~
## $ Longitude <dbl> -64.00000, 135.00000, 13.33333, 90.0000~
## $ `World bank income group 2017` <chr> "Upper middle income", "High income", "~
Nessa etapa do laboratório, estamos interessados em entender a relação da atuação de pessoas de diferentes países em responder perguntas no stackoverflow com características socioeconômicas e culturais dos países. Especificamente, queremos entender a relação da proporção de pessoas que responderam em um país com: fluência em inglês da população (EPI), produto interno bruto do país, disponibilidade de internet no país e grau de individualismo na cultura do país (individualismo está explicado aqui: https://www.hofstede-insights.com/models/national-culture/, e é a coluna IDV nos dados). Estamos interessados em inferir a partir dos dados desse estudo o que acontece na população em geral.
A metodologia que usaremos para esse estudo é Focando apenas no StackOverflow: Questão 1 a) Construa um modelo 1 com a variável responderam_prop com variável de resposta e fluência em inglês da população (EPI), produto interno bruto do país (GNI) e disponibilidade de internet (INTERNET) no país como variáveis de explicação. Comente esse modelo em termos dos coeficientes e do ajuste. Estamos interessados em fazer inferência sobre os coeficiente.
modelo1 = lm(dados_stack$responderam_prop~dados_stack$EPI+dados_stack$GNI+dados_stack$Internet)
summary(modelo1)
##
## Call:
## lm(formula = dados_stack$responderam_prop ~ dados_stack$EPI +
## dados_stack$GNI + dados_stack$Internet)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.20363 -0.01939 0.01282 0.04330 0.09918
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.1855203961 0.0862009906 2.152 0.03732 *
## dados_stack$EPI 0.0048060300 0.0017705206 2.714 0.00967 **
## dados_stack$GNI 0.0000006389 0.0000006437 0.993 0.32676
## dados_stack$Internet 0.0007808396 0.0006085250 1.283 0.20664
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.0631 on 41 degrees of freedom
## (24 observations deleted due to missingness)
## Multiple R-squared: 0.4811, Adjusted R-squared: 0.4431
## F-statistic: 12.67 on 3 and 41 DF, p-value: 0.000005335
responderam = 0,18 + 0,005 EPI + 0,000 GNI + 0,000 Internet
Para cada unidade de fluencia em ingles da população que cresce, aumenta em média 0,5% de pessoas que responderam com 1% de signifcância. Os outros coeficientes não foram significativos.
b) Construa um modelo 2 que além das variáveis do modelo 1 tem também o IDV. Esse é um modelo que considera uma variável de cultura. Comparando o modelo 2 com o modelo 1, o que podemos afirmar sobre o efeito do individualismo no comportamento das pessoas de diferentes países no stackoverflow? Há um efeito relevante (lembre de considerar a inferência para a população de onde vem os dados)? O modelo é mais explicativo do que sem a variável relacionada a cultura?
modelo2 = lm(dados_stack$responderam_prop~dados_stack$EPI+dados_stack$GNI+dados_stack$Internet+dados_stack$IDV)
summary(modelo2)
##
## Call:
## lm(formula = dados_stack$responderam_prop ~ dados_stack$EPI +
## dados_stack$GNI + dados_stack$Internet + dados_stack$IDV)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.156624 -0.022618 0.007396 0.032589 0.109432
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.2684192024 0.0852225374 3.150 0.00309 **
## dados_stack$EPI 0.0027050465 0.0018052836 1.498 0.14188
## dados_stack$GNI 0.0000003812 0.0000006035 0.632 0.53123
## dados_stack$Internet 0.0002934263 0.0005902852 0.497 0.62185
## dados_stack$IDV 0.0016352979 0.0005867953 2.787 0.00810 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.05846 on 40 degrees of freedom
## (24 observations deleted due to missingness)
## Multiple R-squared: 0.5655, Adjusted R-squared: 0.522
## F-statistic: 13.01 on 4 and 40 DF, p-value: 0.0000007092
Modelo1 responderam = 0,18 (.) + 0,005 x EPI (..) + 0,000 x GNI + 0,000 x Internet Modelo2 responderam = 0,26 (..) + 0,002 x EPI + 0,000 x GNI + 0,000 x Internet + 0,001 x IDV (..)
O que podemos afirmar sobre o efeito do individualismo no comportamento das pessoas de diferentes países no stackoverflow?
Existe um efeito, pois a cada unidade de IDV que é aumentado isso causa um incremento em médoa de 0,1% nas pessoas que responderam, com 1% de significância. Os outros coeficientes não foram significativos.
Há um efeito relevante (lembre de considerar a inferência para a população de onde vem os dados)?
Existe um efeito relevante, pois a cada unidade de IDV que é aumentado isso causa um incremento em médoa de 0,1% nas pessoas que responderam, com 1% de significância. Os outros coeficientes não foram significativos.
O modelo é mais explicativo do que sem a variável relacionada a cultura?
Sim o modelo é mais explicativo, analisando o R2 que é maior, antes 48% e agora 56%
Questão 2 c) Construa uma outra versão do modelo 2 usando agora os dados do SuperUser. Os resultados são consistentes com os do StackOverflow? Comente e mostre evidência que embase sua conclusão.
modelo2_2 = lm(dados_super$responderam_prop~dados_super$EPI+dados_super$GNI+dados_super$Internet+dados_super$IDV)
summary(modelo2_2)
##
## Call:
## lm(formula = dados_super$responderam_prop ~ dados_super$EPI +
## dados_super$GNI + dados_super$Internet + dados_super$IDV)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.05631 -0.02394 -0.00310 0.01956 0.06272
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.0992264995 0.0621921828 1.595 0.1218
## dados_super$EPI 0.0016448531 0.0012740537 1.291 0.2072
## dados_super$GNI 0.0000007222 0.0000004017 1.798 0.0830 .
## dados_super$Internet -0.0000069515 0.0003981927 -0.017 0.9862
## dados_super$IDV 0.0007280007 0.0004006296 1.817 0.0799 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.03406 on 28 degrees of freedom
## (19 observations deleted due to missingness)
## Multiple R-squared: 0.6057, Adjusted R-squared: 0.5493
## F-statistic: 10.75 on 4 and 28 DF, p-value: 0.00002083
responderam_stack = 0,26 (..) + 0,002 x EPI + 0,000 x GNI + 0,000 x Internet + 0,001 x IDV (..)
responderam_super = 0,099 + 0,001 x EPI + 0,001 x GNI (.) - 0,000 Intenet + 0.0007 (.) x IDV
c) Construa uma outra versão do modelo 2 usando agora os dados do SuperUser. Os resultados são consistentes com os do StackOverflow? Comente e mostre evidência que embase sua conclusão.
O r2 é de 60% para o SuperUser, e 56% para o StackOverflow O modelo do SuperUser se ajusta mais aos dados de acordo com o R2. A cada uma unidade do GNI aumenta em média 0,1% das pessoas que responderam em média com 5% de significância, para o StackOverflow A cada uma unidade de IDV aumenta em 0,07% a taxa depessoas que responderam em média, com 5% de significância,para o stackOverflow. Para o SuperUser a cada unidade que aumenta o IDV aumenta em media 0,1%. Ou seja para o superUser o efeito do IDV é maior do que para o stackoverflow
Submeta sua resposta como um google docs que tenha as figuras e tabelas necessários para ser entendido. Nas figuras, atente para a legibilidade delas.