Vivemos em uma era onde a tecnologia e o uso constante de dispositivos conectados à internet moldam o nosso cotidiano. O estilo de vida digital, caracterizado pelo uso intensivo de redes sociais, streaming, jogos online e outras formas de entretenimento digital, tem transformado significamente os hábitos de consumo e o bem-estar dos indivíduos. Enquanto o acesso facilitado à informação, ao entretenimento e à conectividade oferece benefícios, como conveniência e maior interação social, também há desafios, como fadiga digital, impactos na qualidade do sono, aumento da ansiedade e mudanças nas preferências de consumo.
Este projeto tem como objetivo analisar o comportamento digital, baseado na faixa etária de idade dos entrevistados a partir de um dataset abrangente que contém informações sobre o tempo gasto em diferentes atividades digitais, padrões de sono, nível de atividade física, consumo de mídia e outras variáveis relevantes. A pesquisa permitirá entender como esses fatores se relacionam e quais padrões emergem da análise dos dados.
Para abordar essa questão, utilizaremos o dataset
"social_media_entertainment_data" que é um dataset que está
disponível no Kaggle. Esse é um dataset estruturado que inclui variáveis
como tempo diário em redes sociais, plataformas de streaming, jogos
online, consumo de notícias, nível de interação com anúncios, qualidade
do sono, nível de atividade física e percepção de isolamento social. O
primeiro passo será realizar um pré-processamento dos dados, tratando
valores ausentes, padronizando as informações e explorando possíveis
correlações entre diferentes variáveis.
A análise será conduzida de forma a examinar como diferentes faixas etárias interagem com o ambiente digital, explorando padrões de uso de redes sociais, preferências de entretenimento e hábitos online. Buscaremos identificar correlações entre tempo de tela, qualidade do sono e nível de atividade física, além de compreender como o consumo de conteúdo e a escolha de plataformas variam entre gerações. Além disso, expandiremos a investigação para comparar esses padrões entre diferentes nacionalidades, proporcionando uma visão mais ampla sobre o impacto da cultura no comportamento digital.
Os insights gerados por este estudo poderão ser úteis para diferentes setores, incluindo empresas de tecnologia, profissionais de saúde, pesquisadores e até consumidores que desejam compreender melhor o impacto do uso digital em sua vida. Além disso, a análise pode contribuir para estratégias voltadas ao bem-ester digital, sugerindo práticas mais saudáveis de consumo tecnológico e fornencendo dados concretos sobre os desafios e benefícios do estilo de vida digital. Com tudo isso, conseguiremos por exemplo, observar a cultura de uma região ou país espeficio referente a preferencia de consumo específica para entretenimento.
Os seguintes pacotes são necessários:
| Pacote | Função Principal |
|---|---|
ggplot2 |
Criação de gráficos e visualizações |
dplyr |
Manipulação e transformação de dados |
knitr |
Renderização de gráficos e tabelas no relatório |
reshape2 |
Manipulação e transformação de dados |
rmdformats |
Estilização do documento com tema ‘material’ |
Os dados utilizados neste projeto são provenientes de um dataset abrangente que reúne informações detalhadas sobre hábitos digitais e seu impacto no bem-estar e no consumo. Este conjunto de dados contém 300 mil registros e 40 categorias diferentes, incluindo variáveis essenciais como idade, gênero, nacionalidade, horas diárias gastas (mídia, entretenimento, jogos, etc), estado civil, quantidades de plataformas usadas, plataforma preferida, horas medias de sono, horas de atividades físicas, principais objetivos da mídia social, conteúdo preferido e etc.
Link para o dataset: https://drive.google.com/drive/folders/1tyq26FgxF3yVDzZqUu4HLDXHO5c9x08Q?usp=sharing
O objetivo original desse dataset é fornecer uma visão ampla sobre como o estilo de vida digital influencia diversos aspectos da vida cotidiana, permitindo uma análise detalhada das correlações entre comportamento online e indicadores de bem-estar.
Coletado recentemente, o dataset contém variáveis-chave como horas
diárias de mídia social( Daily.Social.Media.Time..hrs),
horas diárias de entretenimento
(Daily.Entertainment.Time..hrs), plataformas de mídias
sociais usadas (Social.Media.Platforms.Used), plataforma
primária (Primary.Plataform), ocupação
(Ocuppation), estado civil (Marital.Status),
horas médias de sono (Average.Sleep.Time..hrs), horas de
atividade física (Physical.Activity.Time..hrs) entre outras
chaves. Além disso, há informações sobre o impacto do consumo digital
nas preferências de compra, na percepção da fadiga digital e no tempo
dedicado ao aprendizado online.
Uma caracteristica notável dos dados de origem é a diversidade dos perfis de usuários incluídos, o que permite fazer uma análise segmentada por fatores como faixa etária, nacionalidade, ocupação, estado civil e etc.
o dataset original é composto apenas um um arquivo, arquivo esse
"social_media_entertainment_data". Esse é um dataset
estruturado, mas é bom por garantia nós checarmos se existem valores
ausentes.
# Carrega o dataset
social_media_entertainment <- read.csv("C:/Users/Alexandre/Meu RCurso/Projeto 2 VA - CPAD 2024.2/social_media_entertainment_data.csv")
# Checando e exibindo na tela a quantidades de Nas
print(sum(is.na(social_media_entertainment)))## [1] 0
Uma das categorias existentes no data set é a categoria
Country, categoria essa que é referente a nacionalidade das
pessoas entrevistadas. Com isso nós conseguimos fazer um filtro para
conseguir separar esse grupo em subgrupos, assim facilitando em uma
possível análise da cultura de consumismo dos mesmos.
## [1] "Australia" "Canada" "Germany" "India" "UK" "USA"
# Subgrupo dos indivíduos da Austrália
australia_sme <- social_media_entertainment %>%
filter(Country == "Australia")
# Quantidade de pessoas entrevistadas
nrow(australia_sme)## [1] 49921
## User.ID Age Gender Country
## 1 17 28 Male Australia
## 2 18 40 Other Australia
## 3 31 44 Other Australia
## 4 36 55 Other Australia
## 5 39 48 Other Australia
## 6 40 35 Other Australia
# Subgrupo dos indivíduos do Canadá
canada_sme <- social_media_entertainment %>%
filter(Country == "Canada")
# Quantidade de pessoas entrevistadas
nrow(canada_sme)## [1] 49910
## User.ID Age Gender Country
## 1 6 21 Male Canada
## 2 15 22 Female Canada
## 3 22 20 Male Canada
## 4 23 28 Male Canada
## 5 34 62 Other Canada
## 6 38 18 Female Canada
# Subgrupo dos indivíduos da Germany
germany_sme <- social_media_entertainment %>%
filter(Country == "Germany")
# Quantidade de pessoas entrevistadas
nrow(germany_sme)## [1] 50060
## User.ID Age Gender Country
## 1 1 32 Other Germany
## 2 5 21 Other Germany
## 3 7 16 Male Germany
## 4 9 44 Other Germany
## 5 12 63 Other Germany
## 6 14 24 Male Germany
# Subgrupo dos indivíduos da índia
india_sme <- social_media_entertainment %>%
filter(Country == "India")
# Quantidade de pessoas entrevistadas
nrow(india_sme)## [1] 49924
## User.ID Age Gender Country
## 1 2 62 Other India
## 2 4 44 Female India
## 3 10 49 Other India
## 4 26 53 Male India
## 5 28 39 Female India
## 6 29 43 Other India
# Subgrupo dos indivíduos do Reino Unido
uk_sme <- social_media_entertainment %>%
filter(Country == "UK")
# Quantidade de pessoas entrevistadas
nrow(uk_sme)## [1] 50040
## User.ID Age Gender Country
## 1 11 14 Male UK
## 2 13 56 Male UK
## 3 21 44 Male UK
## 4 27 23 Other UK
## 5 33 16 Other UK
## 6 37 28 Other UK
# Subgrupo dos indivíduos do USA
usa_sme <- social_media_entertainment %>%
filter(Country == "USA")
# Quantidade de pessoas entrevistadas
nrow(usa_sme)## [1] 50145
## User.ID Age Gender Country
## 1 3 51 Female USA
## 2 8 58 Female USA
## 3 24 32 Female USA
## 4 25 36 Female USA
## 5 32 21 Male USA
## 6 45 26 Female USA
Antes de qualquer coisa, fazendo uma breve pesquisa, acabei observando que normalmente pela faixa de idade das pessoas, conseguimos imaginar em que fase da vida ela se encontra.Sendo assim, vamos adicionar uma nova categoria, chamada “Faixa_Etaria”, onde nós iremos incluir nessa nova categoria, em que divisão cada entrevistado se encontra.
Explicação das Faixas Etárias:
# Adicionar a coluna Faixa_Etaria com novas divisões coerentes
social_media_entertainment <- social_media_entertainment %>%
mutate(Faixa_Etaria = cut(Age,
breaks = c(13, 17, 24, 34, 44, 54, 65),
labels = c("13-17", "18-24", "25-34", "35-44", "45-54", "55-65"),
include.lowest = TRUE))
#Exibindo na tela
head(social_media_entertainment %>% select(User.ID,Age,Country,Faixa_Etaria))## User.ID Age Country Faixa_Etaria
## 1 1 32 Germany 25-34
## 2 2 62 India 55-65
## 3 3 51 USA 45-54
## 4 4 44 India 35-44
## 5 5 21 Germany 18-24
## 6 6 21 Canada 18-24
# Criar a faixa de tempo gasto em mídias sociais
social_media_entertainment <- social_media_entertainment %>%
mutate(Faixa_Tempo_Social = cut(Daily.Social.Media.Time..hrs.,
breaks = seq(0, 8, by = 1),
labels = c("0-1 hora", "1-2 horas", "2-3 horas", "3-4 horas",
"4-5 horas", "5-6 horas", "6-7 horas", "7-8 horas"),
include.lowest = TRUE))
head(social_media_entertainment %>% select(User.ID,Age,Country,Daily.Social.Media.Time..hrs.,Faixa_Tempo_Social))## User.ID Age Country Daily.Social.Media.Time..hrs. Faixa_Tempo_Social
## 1 1 32 Germany 4.35 4-5 horas
## 2 2 62 India 4.96 4-5 horas
## 3 3 51 USA 6.78 6-7 horas
## 4 4 44 India 5.06 5-6 horas
## 5 5 21 Germany 2.57 2-3 horas
## 6 6 21 Canada 4.69 4-5 horas
Abaixo nós temos alguns dos valores únicos das colunas de relevância, que fornecem uma melhor visão das categorias de dados disponíveis:
| Variável | Valores Únicos |
|---|---|
Gender |
Female, Male e Other |
Country |
Australia, Canada, Germany, India, UK e USA |
Primary.Platform |
Facebook, Instagram, TikTok, Twitter e YouTube |
Occupation |
Professional, Retired, Student e Unemployed |
Marital.Status |
Divorced, Married, Single e Widowed |
Device.Type |
PC, Smartphone e Tablet |
Preferred.Content.Type |
Movies, News, Series e Short Videos |
Primary.Social.Media.Goal |
Education, Entertainment, Networking e News |
Preferred.Entertainment.Platform |
Amazon Prime, Netflix, Spotify e YouTube |
Preferred.Device.for.Entertainment |
PC, Smart TV, Smartphone e Tablet |
Digital.Well.being.Awareness |
High, Low e Moderate |
Esses valores únicos mostram as diferentes categorias e níveis que estão disponíveis no dataset, ajudando a entender a variedade e a abrangência dos dados.
Abaixo, segue um resumo das principais variáveis no dataset:
| Variável | Descrição |
|---|---|
Gender |
Esta variável é referente aos gêneros das pessoas entrevistadas. |
Country |
Indica a Nacionalidade. |
Primary.Platform |
Informa a plataforma primária, a sua plataforma mais utilizada. |
Occupation |
Referente a sua ocupação. |
Marital.Status |
Esta variável é referente ao seu estado civil. |
Device.Type |
Indica o tipo de dispositivo utilizado. |
Preferred.Content.Type |
Informa o tipo de conteúdo que é de sua preferência. |
Primary.Social.Media.Goal |
É referente a sua meta principal de mídia social, o que você mais consome. |
Preferred.Entertainment.Platform |
Indica a plataforma de entretenimento preferida. |
Preferred.Device.for.Entertainment |
Referente aos tipo de dispositivo que você utiliza para fazer consumo de entretenimento. |
Digital.Well.being.Awareness |
Questão da sua consciêntização sobre a questão da saúde digital. |
# Contar a quantidade de pessoas por faixa etária
faixa_etaria_count <- as.data.frame(table(social_media_entertainment$Faixa_Etaria))
#Calcular as porcentagens
faixa_etaria_count$Percentage <- round(faixa_etaria_count$Freq / sum(faixa_etaria_count$Freq) * 100, 1)
#Criar um rótulo que combina faixa etária, a porcentagem e a quantidade de pessoas
faixa_etaria_count$Label <- paste0(faixa_etaria_count$Var1, " (", faixa_etaria_count$Freq, " pessoas, ", faixa_etaria_count$Percentage, "%)")
# Criar o gráfico de pizza com porcentagens e quantidades nos rótulos da legenda
ggplot(faixa_etaria_count, aes(x = "", y = Freq, fill = Label)) +
geom_bar(width = 1, stat = "identity") +
coord_polar("y") +
labs(title = "Distribuição de Pessoas por Faixa Etária") +
theme_void() + # Remove o plano de fundo e os eixos para um gráfico de pizza puro
theme(legend.title = element_blank()) # Remove o título da legenda para clarezaDessa forma, conseguimos ver que em alguns casos, o quantitativo pode fazer com que mediante a análise, fique um pouco desproporcional. Levando isso em consideração, é claro a necessidade de nós fazermos uma normalização para assim conseguir facilitar na hora de tomarmos alguma conclusão.
# Criar o mapa de calor normalizado
ggplot(dados_normalizados_faixaetaria_tempogasto, aes(x = Faixa_Tempo_Social, y = Faixa_Etaria, fill = Proporcao)) +
geom_tile() +
scale_fill_gradient(low = "lightblue", high = "darkblue") +
labs(title = "Mapa de Calor: Uso de Redes Sociais Normalizado",
x = "Faixa de Tempo Gasto",
y = "Faixa Etária",
fill = "Proporção (%)") +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1))Este mapa de calor representa a distribuição do tempo gasto em redes sociais por diferentes faixas etárias.
Eixo Y (vertical): Faixas etárias dos entrevistados (13 a 65 anos).
Eixo X (horizontal): Tempo gasto diariamente em redes sociais (de 0 a 8 horas).
Escala de cores:
Os dados revelam que a maioria das pessoas utiliza redes sociais entre 3 e 6 horas por dia, sendo esse o intervalo onde há maior concentração de usuários. Esse padrão é mais evidente na faixa etária de 25 a 44 anos, sugerindo que adultos jovens e de meia-idade possuem um consumo digital mais intenso.
Em contrapartida, o tempo de uso entre adolescentes e jovens adultos (13 a 24 anos) apresenta uma distribuição mais espalhada, indicando que esses grupos possuem hábitos variados, mas ainda assim passam uma quantidade significativa de tempo conectados. Já nas faixas etárias superiores (45 a 65 anos), a presença no meio digital ainda é expressiva, mas sem picos tão acentuados quanto nos grupos mais jovens, sugerindo um uso mais equilibrado dessas plataformas.
Outro dado relevante é que a faixa de 0 a 1 hora por dia apresenta um tom mais claro, evidenciando que apenas uma pequena parcela dos entrevistados passa tão pouco tempo nas redes sociais. Isso reforça a ideia de que o consumo digital já está amplamente enraizado na rotina da maioria das pessoas.
Por fim, o tempo máximo de uso (7 a 8 horas diárias) não apresenta grandes concentrações, sugerindo que poucos usuários permanecem conectados por tantas horas. Esse padrão pode estar relacionado a grupos específicos, como criadores de conteúdo digital ou indivíduos com um alto nível de dependência tecnológica.
O gráfico acima apresenta um mapa de calor que ilustra a distribuição do tempo gasto em mídias sociais por diferentes faixas etárias. Esse tipo de visualização permite identificar padrões de uso ao longo das diferentes idades e compreender quais grupos etários mais utilizam redes sociais ao longo do dia.
# Criar a tabela de contagem automática
tabela_contagem <- as.data.frame(table(social_media_entertainment$Faixa_Etaria,
social_media_entertainment$Social.Media.Platforms.Used))
# Renomear colunas
colnames(tabela_contagem) <- c("Faixa_Etaria", "Social_Media_Platforms_Used", "Quantidade")
# Converter Social_Media_Platforms_Used para numérico
tabela_contagem$Social_Media_Platforms_Used <- as.numeric(as.character(tabela_contagem$Social_Media_Platforms_Used))
# Normalizar os dados dentro de cada Faixa Etária
dados_normalizados_qtdplataform_faixaetaria <- tabela_contagem %>%
group_by(Faixa_Etaria) %>%
mutate(Proporcao = (Quantidade / sum(Quantidade)) * 100)
# Criar o heatmap
ggplot(dados_normalizados_qtdplataform_faixaetaria, aes(x = as.factor(Social_Media_Platforms_Used),
y = Faixa_Etaria, fill = Proporcao)) +
geom_tile() +
scale_fill_gradient(low = "lightblue", high = "darkblue") +
labs(title = "Mapa de Calor: Quantidade de Plataformas Usadas por Faixa Etária",
x = "Número de Plataformas Usadas",
y = "Faixa Etária",
fill = "Proporção (%)") +
theme_minimal()O gráfico de calor representa a distribuição da quantidade de plataformas de mídias sociais utilizadas por diferentes faixas etárias. As tonalidades mais escuras indicam uma maior concentração de indivíduos utilizando determinada quantidade de plataformas, enquanto as cores mais claras representam menor uso relativo.
A análise revela que a faixa etária de 35 a 44 anos tem um pico de uso em duas plataformas, o que sugere uma preferência consolidada por esse número específico. Esse dado pode indicar que esse grupo etário mantém um uso moderado e seletivo das redes sociais, possivelmente equilibrando sua vida digital com outras atividades.
Já os grupos mais jovens (13-17 anos e 18-24 anos) apresentam uma distribuição mais homogênea, sem um número de plataformas dominante. Isso pode indicar que essas faixas etárias experimentam diferentes redes sociais de forma mais variada, sem um padrão rígido de uso.
Por outro lado, os usuários mais velhos (55-65 anos) tendem a se concentrar no uso de apenas uma plataforma, o que sugere uma menor diversidade no consumo de mídias sociais, possivelmente devido a menor familiaridade com a tecnologia ou preferência por redes mais específicas.
No geral, o mapa de calor destaca diferenças geracionais no consumo de redes sociais, sugerindo que a quantidade de plataformas utilizadas está diretamente ligada a fatores como interesse, tempo disponível e familiaridade com o ambiente digital.
# Criar a nova categoria Faixa_Entretenimento
social_media_entertainment <- social_media_entertainment %>%
mutate(Faixa_Entretenimento = cut(Daily.Entertainment.Time..hrs.,
breaks = c(0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10),
labels = c("0-1 hora", "1-2 horas", "2-3 horas",
"3-4 horas", "4-5 horas", "5-6 horas",
"6-7 horas", "7-8 horas", "8-9 horas", "9-10 horas"),
include.lowest = TRUE))
# Criar tabela de contagem
tabela_contagem_faixaetaria_e_entretenimento <- social_media_entertainment %>%
count(Faixa_Etaria, Faixa_Entretenimento) %>%
group_by(Faixa_Etaria) %>%
mutate(Proporcao_entretenimento = n / sum(n) * 100) # Normalizar dentro de cada faixa etária
# Criar o mapa de calor
ggplot(tabela_contagem_faixaetaria_e_entretenimento, aes(x = Faixa_Entretenimento, y = Faixa_Etaria, fill = Proporcao_entretenimento)) +
geom_tile() +
geom_text(aes(label = sprintf("%.1f%%", Proporcao_entretenimento)), color = "white", size = 2) + # Adiciona porcentagem
scale_fill_gradient(low = "lightblue", high = "darkblue") +
labs(title = "Mapa de Calor: Tempo Diário de Entretenimento por Faixa Etária",
x = "Faixa de Tempo de Entretenimento",
y = "Faixa Etária",
fill = "Proporção (%)") +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1))1. Predominância de consumo curto (0-1 hora/dia) em todas as faixas etárias
2. Faixa de 13-17 anos apresenta distribuição mais equilibrada
3. Faixa de 18-24 e 25-34 anos mostram um leve aumento no consumo diário
4. Faixa de 35-44 anos com picos em diferentes categorias
5. Faixas de 45-54 e 55-65 anos com baixo consumo prolongado
# Contar a frequência de cada plataforma preferida por faixa etária
df_summary <- social_media_entertainment %>%
group_by(Faixa_Etaria, Preferred.Entertainment.Platform) %>%
summarise(Count = n(), .groups = "drop")
# Normalizar os dados dentro de cada Faixa Etária
df_summary <- df_summary %>%
group_by(Faixa_Etaria) %>%
mutate(Proportion = Count / sum(Count) * 100)
# Transformar os dados para o formato adequado para o ggplot
df_heatmap <- dcast(df_summary, Faixa_Etaria ~ Preferred.Entertainment.Platform, value.var = "Proportion", fill = 0)
# Converter para formato longo para ggplot
df_long <- melt(df_heatmap, id.vars = "Faixa_Etaria")
# Criar o mapa de calor
ggplot(df_long, aes(x = variable, y = Faixa_Etaria, fill = value)) +
geom_tile() +
geom_text(aes(label = sprintf("%.1f%%", value)), color = "white", size = 4) + # Adiciona porcentagem
scale_fill_gradient(low = "lightblue", high = "darkblue", name = "Proporção (%)") +
labs(
title = "Mapa de Calor: Plataforma Preferida por Faixa Etária",
x = "Plataforma Preferida",
y = "Faixa Etária"
) +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1))O gráfico de calor apresenta um panorama da preferência de plataformas de entretenimento entre diferentes faixas etárias. As plataformas analisadas foram Amazon Prime, Netflix, Spotify e YouTube, e os dados foram normalizados para que cada faixa etária tenha proporções relativas comparáveis.
1. Destaque da faixa etária de 25-34 anos para Netflix:
2. Amazon Prime e YouTube são mais relevantes para os extremos etários:
3. Spotify apresenta uma distribuição relativamente equilibrada:
4. Faixa etária de 45-54 anos mostra equilíbrio entre todas as plataformas:
No dataset tem 3 categorias que conseguimos ter uma breve noção referente a quantidade de horas diárias que são gastas com mensagem, vídeos e jogos. Observem abaixo os gráficos de calor referente a esse cenário para cada faixa etária de idade específica;
# Criar a nova categoria de Faixa de Mensagem Diária
social_media_entertainment <- social_media_entertainment %>%
mutate(Faixa_Mensagem_Diaria = case_when(
Daily.Messaging.Time..hrs. >= 0 & Daily.Messaging.Time..hrs. < 1 ~ "0-1 hora",
Daily.Messaging.Time..hrs. >= 1 & Daily.Messaging.Time..hrs. < 2 ~ "1-2 horas",
Daily.Messaging.Time..hrs. >= 2 & Daily.Messaging.Time..hrs. < 3 ~ "2-3 horas",
Daily.Messaging.Time..hrs. >= 3 & Daily.Messaging.Time..hrs. < 4 ~ "3-4 horas",
Daily.Messaging.Time..hrs. >= 4 & Daily.Messaging.Time..hrs. <= 5 ~ "4-5 horas"
))
# Criar a tabela de contagem para análise cruzada
tabela_mensagem <- social_media_entertainment %>%
count(Faixa_Etaria, Faixa_Mensagem_Diaria) %>%
group_by(Faixa_Etaria) %>%
mutate(Proporcao_mensagem = n / sum(n) * 100)
# Gerar o mapa de calor
ggplot(tabela_mensagem, aes(x = Faixa_Mensagem_Diaria, y = Faixa_Etaria, fill = Proporcao_mensagem)) +
geom_tile() +
geom_text(aes(label = sprintf("%.1f%%", Proporcao_mensagem)), color = "white", size = 4) + # Adiciona porcentagem
scale_fill_gradient(low = "lightblue", high = "darkblue", name = "Proporção (%)") +
labs(title = "Mapa de Calor: Tempo Diário com Mensagens por Faixa Etária",
x = "Faixa de Tempo com Mensagens",
y = "Faixa Etária") +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1))# Criar a nova categoria "Media_sono"
social_media_entertainment <- social_media_entertainment %>%
mutate(Media_sono = case_when(
Average.Sleep.Time..hrs. >= 4 & Average.Sleep.Time..hrs. < 5 ~ "4-5 horas",
Average.Sleep.Time..hrs. >= 5 & Average.Sleep.Time..hrs. < 6 ~ "5-6 horas",
Average.Sleep.Time..hrs. >= 6 & Average.Sleep.Time..hrs. < 7 ~ "6-7 horas",
Average.Sleep.Time..hrs. >= 7 & Average.Sleep.Time..hrs. < 8 ~ "7-8 horas",
Average.Sleep.Time..hrs. >= 8 & Average.Sleep.Time..hrs. <= 9 ~ "8-9 horas"
))
# Criar a tabela de contagem para análise cruzada
tabela_sono <- social_media_entertainment %>%
count(Faixa_Etaria, Media_sono) %>%
group_by(Faixa_Etaria) %>%
mutate(Proporcao_sono = n / sum(n) * 100)
# Gerar o mapa de calor
ggplot(tabela_sono, aes(x = Media_sono, y = Faixa_Etaria, fill = Proporcao_sono)) +
geom_tile() +
scale_fill_gradient(low = "lightblue", high = "darkblue", name = "Proporção (%)") +
labs(title = "Mapa de Calor: Média de Sono por Faixa Etária",
x = "Média de Sono",
y = "Faixa Etária") +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1))A análise do gráfico revela padrões interessantes sobre a média de sono por faixa etária, evidenciando como os hábitos de descanso variam ao longo da vida. Observa-se que adolescentes entre 13 e 17 anos tendem a dormir mais, com um pico de proporção na faixa de 7-8 horas, o que está alinhado com recomendações médicas para um desenvolvimento saudável. Já na faixa 18-24 anos, há uma leve redução no tempo médio de sono, com uma distribuição entre 6-7 e 7-8 horas, refletindo possíveis mudanças no estilo de vida, como estudos universitários e trabalho. Ao avançarmos para o grupo de 25-34 anos, nota-se uma queda ainda maior na quantidade de sono, tendo uma establidade entre a faixa de 4-6 horas e uma presença significativa de indivíduos na faixa de 7-9 horas. Esse comportamento pode ser atribuído ao aumento das responsabilidades profissionais e familiares, além do impacto do consumo digital. Para as faixas 35-44 e 45-54 anos, essa tendência de redução no tempo de descanso se mantém, com uma distribuição mais evidente entre 5-6 e 6-7 horas, indicando que a rotina intensa e o estresse ocupacional podem estar afetando a qualidade do sono.
Na população mais velha, representada pela faixa 55-65 anos, o padrão de sono se estabiliza, com a maioria dormindo entre 5-6 e 6-7 horas, um fenômeno comum devido a mudanças fisiológicas que tornam o sono mais leve e fragmentado com o avanço da idade. Esse comportamento reflete a adaptação do organismo ao longo do tempo, consolidando um padrão de descanso mais curto.
Os dados analisados indicam que, conforme a idade avança, a quantidade de horas dormidas tende a diminuir, com os adolescentes registrando o maior tempo de sono e os adultos e idosos apresentando uma redução gradual. Esse fenômeno pode estar relacionado a fatores como estresse, carga de trabalho, uso excessivo de tecnologia e mudanças biológicas naturais. Compreender essa relação é essencial para avaliar o impacto da rotina moderna na qualidade de vida e no bem-estar geral, além de possibilitar estratégias para a promoção de hábitos saudáveis de descanso.
# Criando a nova categoria "Media_atividade_fisica"
social_media_entertainment <- social_media_entertainment %>%
mutate(Media_atividade_fisica = case_when(
Physical.Activity.Time..hrs. == 0.00 ~ "Não faz",
Physical.Activity.Time..hrs. > 0.00 & Physical.Activity.Time..hrs. <= 0.50 ~ "Até 30 minutos",
Physical.Activity.Time..hrs. > 0.50 & Physical.Activity.Time..hrs. <= 1.00 ~ "30m - 1h",
Physical.Activity.Time..hrs. > 1.00 & Physical.Activity.Time..hrs. <= 1.50 ~ "1h - 1h30",
Physical.Activity.Time..hrs. > 1.50 & Physical.Activity.Time..hrs. <= 2.00 ~ "1h30 - 2h",
Physical.Activity.Time..hrs. > 2.00 & Physical.Activity.Time..hrs. <= 3.00 ~ "Mais de 2 horas"
))
# Transformando em fator para ordenar as categorias no gráfico
social_media_entertainment <- social_media_entertainment %>%
mutate(Media_atividade_fisica = factor(
Media_atividade_fisica,
levels = c("Não faz", "Até 30 minutos", "30m - 1h", "1h - 1h30", "1h30 - 2h", "Mais de 2 horas")
))
# Criando a tabela de contagem e calculando a proporção corretamente por faixa etária
tabela_atividadeFisica <- social_media_entertainment %>%
count(Faixa_Etaria, Media_atividade_fisica) %>%
group_by(Faixa_Etaria) %>%
mutate(Proporcao_atividadeFisica = (n / sum(n)) * 100)
# Criando o mapa de calor
ggplot(tabela_atividadeFisica, aes(x = Media_atividade_fisica, y = Faixa_Etaria, fill = Proporcao_atividadeFisica)) +
geom_tile() +
geom_text(aes(label = sprintf("%.1f%%", Proporcao_atividadeFisica)), color = "white", size = 4) + # Adiciona porcentagem
scale_fill_gradient(low = "lightblue", high = "darkblue") +
labs(
title = "Mapa de Calor: Média de Atividade Física por Faixa Etária",
x = "Média de Atividade Física",
y = "Faixa Etária",
fill = "Proporção (%)"
) +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1))A análise do Mapa de Calor: Média de Atividade Física por Faixa Etária nos permite identificar padrões de prática de atividades físicas ao longo das diferentes faixas etárias. A distribuição percentual dentro de cada faixa etária parece equilibrada, mas há alguns pontos que merecem destaque.
1. Proporção relativamente constante entre as faixas intermediárias
2. Faixa “Mais de 2 horas” apresenta a maior proporção
3. A categoria “Não faz” é muito baixa (0.2%) em todas as idades
4. Pequenas variações entre as faixas etárias
Então pelo resultado que tivemos anterior, faz com que nós pensemos que a quantidade das pessoas entrevistadas que pertencem a uma faixa etária mais jovens, provavelmente seria menor para ter obtido esse resultado, então mediante a esse questionamento vamos observar o gráfico abaixo a seguir:
# Criando a tabela de contagem para análise cruzada
tabela_conteudo <- social_media_entertainment %>%
count(Faixa_Etaria, Preferred.Content.Type) %>%
group_by(Faixa_Etaria) %>%
mutate(Proporcao_conteudo = (n / sum(n)) * 100)
# Criando o mapa de calor
ggplot(tabela_conteudo, aes(x = Preferred.Content.Type, y = Faixa_Etaria, fill = Proporcao_conteudo)) +
geom_tile() +
geom_text(aes(label = sprintf("%.1f%%", Proporcao_conteudo)), color = "white", size = 4) + # Adiciona porcentagem
scale_fill_gradient(low = "lightblue", high = "darkblue", name = "Proporção (%)") +
labs(
title = "Mapa de Calor: Tipo de Conteúdo Preferido por Faixa Etária",
x = "Tipo de Conteúdo",
y = "Faixa Etária"
) +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1))O gráfico apresenta a distribuição percentual das preferências de tipo de conteúdo por faixa etária. As categorias analisadas são Movies (Filmes), News (Notícias), Series (Séries) e Short Videos (Vídeos Curtos), e cada célula representa a proporção de pessoas em cada faixa etária que prefere determinado tipo de conteúdo.
1. Distribuição equilibrada
2. Short Videos e Faixa 13-17 anos
3. Movies e Faixa 45-54 anos
4. News mantém uma proporção estável
5. Séries são as menos preferidas no geral
# Criando a tabela de contagem para análise cruzada
tabela_objetivo <- social_media_entertainment %>%
count(Faixa_Etaria, Primary.Social.Media.Goal) %>%
group_by(Faixa_Etaria) %>%
mutate(Proporcao_objetivo = (n / sum(n)) * 100)
# Criando o mapa de calor
ggplot(tabela_objetivo, aes(x = Primary.Social.Media.Goal, y = Faixa_Etaria, fill = Proporcao_objetivo)) +
geom_tile() +
geom_text(aes(label = sprintf("%.1f%%", Proporcao_objetivo)), color = "white", size = 4) + # Adiciona porcentagem
scale_fill_gradient(low = "lightblue", high = "darkblue", name = "Proporção (%)") +
labs(
title = "Mapa de Calor: Objetivo do Uso das Mídias Sociais por Faixa Etária",
x = "Objetivo do Uso das Mídias Sociais",
y = "Faixa Etária"
) +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1))O consumo de mídias sociais é multifuncional para todas as faixas etárias, sem um objetivo dominante em nenhum grupo. Jovens (18-24 anos) tendem a focar mais em “Educação” e “Entretenimento”, possivelmente por meio de plataformas como YouTube, TikTok e Instagram. Pessoas mais velhas (55-65 anos) utilizam as redes principalmente para consumir notícias, o que pode estar relacionado ao uso de Facebook, Twitter ou portais de notícias online. Networking mantém uma proporção estável em todas as faixas etárias, sugerindo que a conexão com outras pessoas é um fator relevante independentemente da idade.
Esse tipo de análise pode ajudar a compreender o comportamento digital das diferentes gerações e até influenciar estratégias de marketing digital, criação de conteúdo e desenvolvimento de plataformas focadas no público-alvo correto.
Antes de realizar qualquer comparação, é essencial verificar a distribuição da quantidade de entrevistados por faixa etária em cada país. Se houver um desequilíbrio muito grande, isso pode impactar as análises posteriores.
Um gráfico de barras empilhadas é uma ótima opção para visualizar essa distribuição.
# Criar gráfico de barras empilhadas para visualizar a distribuição de entrevistados por faixa etária em cada país
ggplot(social_media_entertainment, aes(x = Country, fill = Faixa_Etaria)) +
geom_bar(position = "dodge") +
labs(
title = "Distribuição de Entrevistados por Faixa Etária e País",
x = "País",
y = "Quantidade de Entrevistados",
fill = "Faixa Etária"
) +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1))
A análise da distribuição de entrevistados por faixa etária em cada país
revela um equilíbrio consistente entre os grupos etários em todas as
regiões analisadas. O gráfico indica que nenhuma faixa etária está
significativamente sub-representada ou super-representada dentro de um
país em comparação com os demais.
Esse resultado é positivo para a continuidade das análises, pois significa que a comparação entre países poderá ser feita sem a necessidade de normalizar os dados com relação à proporção de respondentes por idade. Assim, os insights extraídos refletirão mais fielmente as diferenças nos hábitos digitais entre nacionalidades, sem viés causado por desequilíbrios amostrais.
Com essa base bem distribuída, podemos prosseguir para investigações mais detalhadas sobre padrões de comportamento digital em cada país e identificar possíveis variações culturais e regionais. 🚀
Vamos utilizar o mapa de calor semelhante ao que vimos, mas agora iremos segmentar também a categoria Country.
# Criando a tabela de contagem para análise cruzada entre Faixa Etária, Objetivo e País
tabela_objetivo_pais <- social_media_entertainment %>%
count(Country, Faixa_Etaria, Primary.Social.Media.Goal) %>%
group_by(Country, Faixa_Etaria) %>%
mutate(Proporcao = (n / sum(n)) * 100)
# Criando o mapa de calor
ggplot(tabela_objetivo_pais, aes(x = Primary.Social.Media.Goal, y = Faixa_Etaria, fill = Proporcao)) +
geom_tile() +
geom_text(aes(label = sprintf("%.1f%%", Proporcao)), color = "white", size = 2) +
scale_fill_gradient(low = "lightblue", high = "darkblue", name = "Proporção (%)") +
facet_wrap(~Country) + # Separar os gráficos por país
labs(
title = "Mapa de Calor: Objetivo do Uso das Mídias Sociais por Faixa Etária e País",
x = "Objetivo do Uso",
y = "Faixa Etária"
) +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1))# Criando a tabela de contagem para análise cruzada entre Faixa Etária, Tipo de Conteúdo e País
tabela_conteudo_pais <- social_media_entertainment %>%
count(Country, Faixa_Etaria, Preferred.Content.Type) %>%
group_by(Country, Faixa_Etaria) %>%
mutate(Proporcao_conteudo = (n / sum(n)) * 100)
# Criando o mapa de calor
ggplot(tabela_conteudo_pais, aes(x = Preferred.Content.Type, y = Faixa_Etaria, fill = Proporcao_conteudo)) +
geom_tile() +
geom_text(aes(label = sprintf("%.1f%%", Proporcao_conteudo)), color = "white", size = 2) +
scale_fill_gradient(low = "lightblue", high = "darkblue", name = "Proporção (%)") +
facet_wrap(~Country) + # Separar os gráficos por país
labs(
title = "Mapa de Calor: Tipo de Conteúdo Preferido por Faixa Etária e País",
x = "Tipo de Conteúdo",
y = "Faixa Etária"
) +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1))Dessa maneira conseguimos verificar se países diferentes têm impactos distintos dda qualidade do sono das pessoas, mediante ao tempo de tela.
# Criar uma tabela de contagem cruzada entre as categorias
tabela_entretenimento <- social_media_entertainment %>%
count(Country, Faixa_Etaria, Preferred.Entertainment.Platform, Preferred.Device.for.Entertainment) %>%
group_by(Country, Faixa_Etaria) %>%
mutate(Proporcao = (n / sum(n)) * 100)
# Criar um gráfico de facetamento por País e Faixa Etária
ggplot(tabela_entretenimento, aes(x = Preferred.Entertainment.Platform, y = Preferred.Device.for.Entertainment, fill = Proporcao)) +
geom_tile() +
geom_text(aes(label = sprintf("%.1f%%", Proporcao)), color = "white", size = 1) + # Adiciona os valores
scale_fill_gradient(low = "lightblue", high = "darkblue", name = "Proporção (%)") +
labs(
title = "Preferência de Entretenimento por Plataforma e Dispositivo",
x = "Plataforma de Entretenimento",
y = "Dispositivo Preferido"
) +
theme_minimal() +
theme(axis.text.x = element_text(angle = 90, hjust = 1)) +
facet_grid(Country ~ Faixa_Etaria) # Separar por País e Faixa Etária1️⃣Smartphones dominam o consumo de entretenimento, especialmente entre os mais jovens: Em praticamente todos os países, os jovens entre 13-17 e 18-24 anos apresentam uma preferência maior por Smartphones. Isso sugere que essa faixa etária prioriza mobilidade e acessibilidade, favorecendo plataformas como YouTube e Spotify, que são amplamente utilizados em dispositivos móveis.
2️⃣Smart TVs e PCs são mais utilizados por faixas etárias mais altas: A partir dos 35 anos, há um aumento na utilização de Smart TVs para consumir plataformas como Netflix e Amazon Prime, o que pode indicar um consumo mais voltado para o entretenimento doméstico. O PC também se torna mais relevante em algumas faixas etárias, especialmente para quem pode estar trabalhando e consumindo entretenimento simultaneamente (exemplo: ouvir música no Spotify enquanto trabalha).
3️⃣Diferenças Culturais no Consumo de Entretenimento: Índia tem uma forte presença de Smartphones em todas as faixas etárias, sugerindo que o mobile-first é uma realidade nesse país, possivelmente devido ao menor custo de dispositivos móveis em relação a Smart TVs e PCs. Países como Alemanha, Canadá e Austrália mostram maior uso de Smart TVs e PCs para consumo de plataformas como Amazon Prime e Netflix, indicando um padrão mais voltado ao entretenimento doméstico. Spotify tem maior destaque em países ocidentais como Reino Unido, EUA e Canadá, enquanto plataformas de vídeo como YouTube e Netflix dominam em outros mercados.
4️⃣Amazon Prime tem menor representatividade em relação a Netflix e YouTube: O YouTube e a Netflix aparecem como as plataformas mais amplamente utilizadas em praticamente todas as categorias. Amazon Prime tem presença mais modesta, sugerindo que não é a primeira escolha para muitas faixas etárias ou países, podendo ser um reflexo da concorrência de outros serviços de streaming.
O objetivo desta análise foi compreender as correlações entre tempo médio de tela, qualidade do sono, nacionalidade e faixa etária, entre outras categorias, além de investigar como diferentes grupos demográficos consomem entretenimento digital em distintas plataformas e dispositivos. Em um contexto onde a tecnologia e o consumo de mídia digital estão cada vez mais presentes no cotidiano, sempre é bom buscar fornecer uma visão detalhada sobre os padrões de uso e seus possíveis impactos no bem-estar.
Para abordar essa questão, utilizamos o dataset “social_media_entertainment”, que contém informações detalhadas sobre hábitos digitais de diversos públicos. Aplicamos técnicas para conseguir filtrar esses dados e utilizamos da visualização de dados para identificar padrões entre o tempo de tela diário, a qualidade do sono, a influência da idade, localização geográfica, entre outros critérios. Além disso, analisamos como diferentes faixas etárias em distintos países preferem consumir entretenimento e em quais dispositivos preferidos por cada grupo.
📌 Para profissionais da saúde e do bem-estar digital: Os dados mostram uma correlação direta entre tempo de tela e qualidade do sono, especialmente em populações mais jovens. Isso pode indicar a necessidade de campanhas educativas sobre o impacto do uso excessivo de telas no bem-estar.
📌 Para empresas de tecnologia e entretenimento: O consumo de mídia varia significativamente por faixa etária e região. Empresas de streaming podem utilizar esses insights para adaptar seus conteúdos e melhorar suas estratégias de distribuição, focando em dispositivos mais usados por cada grupo demográfico.
📌 Para formuladores de políticas públicas: Os dados revelam como o uso excessivo de tecnologia pode impactar o bem-estar da população. Políticas voltadas para educação digital e limites no uso de telas para crianças e adolescentes podem ser consideradas para mitigar os efeitos negativos do consumo exagerado de mídia.
ggplot2: Utilizado para a criação de gráficos e visualizações. Hadley Wickham (2016). ggplot2: Elegant Graphics for Data Analysis. Springer-Verlag New York. Available at: https://ggplot2.tidyverse.org
dplyr: Empregado na manipulação e transformação de dados. Hadley Wickham, Romain François, Lionel Henry and Kirill Müller (2020). dplyr: A Grammar of Data Manipulation. R package version 1.0.2. Available at: https://dplyr.tidyverse.org
knitr: Usado para renderizar gráficos e tabelas nos relatórios. Yihui Xie (2021). knitr: A General-Purpose Package for Dynamic Report Generation in R. R package version 1.33. Available at: https://yihui.org/knitr/
rmdformats: Utilizado para a estilização do documento com o tema ‘material’. Julien Barnier (2021). rmdformats: HTML Output Formats and Templates for ‘rmarkdown’ Documents. R package version 1.0. Available at: https://github.com/juba/rmdformats
Entretenimento e mídias sociais, disponível no link do drive: https://drive.google.com/drive/folders/1tyq26FgxF3yVDzZqUu4HLDXHO5c9x08Q?usp=sharing