Introdução

Declaração do problema

Vivemos em uma era onde a tecnologia e o uso constante de dispositivos conectados à internet moldam o nosso cotidiano. O estilo de vida digital, caracterizado pelo uso intensivo de redes sociais, streaming, jogos online e outras formas de entretenimento digital, tem transformado significamente os hábitos de consumo e o bem-estar dos indivíduos. Enquanto o acesso facilitado à informação, ao entretenimento e à conectividade oferece benefícios, como conveniência e maior interação social, também há desafios, como fadiga digital, impactos na qualidade do sono, aumento da ansiedade e mudanças nas preferências de consumo.

Este projeto tem como objetivo analisar o comportamento digital, baseado na faixa etária de idade dos entrevistados a partir de um dataset abrangente que contém informações sobre o tempo gasto em diferentes atividades digitais, padrões de sono, nível de atividade física, consumo de mídia e outras variáveis relevantes. A pesquisa permitirá entender como esses fatores se relacionam e quais padrões emergem da análise dos dados.

Abordagem metodológica

Para abordar essa questão, utilizaremos o dataset "social_media_entertainment_data" que é um dataset que está disponível no Kaggle. Esse é um dataset estruturado que inclui variáveis como tempo diário em redes sociais, plataformas de streaming, jogos online, consumo de notícias, nível de interação com anúncios, qualidade do sono, nível de atividade física e percepção de isolamento social. O primeiro passo será realizar um pré-processamento dos dados, tratando valores ausentes, padronizando as informações e explorando possíveis correlações entre diferentes variáveis.

Abordagem proposta

A análise será conduzida de forma a examinar como diferentes faixas etárias interagem com o ambiente digital, explorando padrões de uso de redes sociais, preferências de entretenimento e hábitos online. Buscaremos identificar correlações entre tempo de tela, qualidade do sono e nível de atividade física, além de compreender como o consumo de conteúdo e a escolha de plataformas variam entre gerações. Além disso, expandiremos a investigação para comparar esses padrões entre diferentes nacionalidades, proporcionando uma visão mais ampla sobre o impacto da cultura no comportamento digital.

Benefícios da análise

Os insights gerados por este estudo poderão ser úteis para diferentes setores, incluindo empresas de tecnologia, profissionais de saúde, pesquisadores e até consumidores que desejam compreender melhor o impacto do uso digital em sua vida. Além disso, a análise pode contribuir para estratégias voltadas ao bem-ester digital, sugerindo práticas mais saudáveis de consumo tecnológico e fornencendo dados concretos sobre os desafios e benefícios do estilo de vida digital. Com tudo isso, conseguiremos por exemplo, observar a cultura de uma região ou país espeficio referente a preferencia de consumo específica para entretenimento.

Pacotes utilizados

Os seguintes pacotes são necessários:

Pacote	Função Principal
`ggplot2`	Criação de gráficos e visualizações
`dplyr`	Manipulação e transformação de dados
`knitr`	Renderização de gráficos e tabelas no relatório
`reshape2`	Manipulação e transformação de dados
`rmdformats`	Estilização do documento com tema ‘material’

Tratamento inicial dos dados

Fonte dos dados

Os dados utilizados neste projeto são provenientes de um dataset abrangente que reúne informações detalhadas sobre hábitos digitais e seu impacto no bem-estar e no consumo. Este conjunto de dados contém 300 mil registros e 40 categorias diferentes, incluindo variáveis essenciais como idade, gênero, nacionalidade, horas diárias gastas (mídia, entretenimento, jogos, etc), estado civil, quantidades de plataformas usadas, plataforma preferida, horas medias de sono, horas de atividades físicas, principais objetivos da mídia social, conteúdo preferido e etc.

Link para o dataset: https://drive.google.com/drive/folders/1tyq26FgxF3yVDzZqUu4HLDXHO5c9x08Q?usp=sharing

O objetivo original desse dataset é fornecer uma visão ampla sobre como o estilo de vida digital influencia diversos aspectos da vida cotidiana, permitindo uma análise detalhada das correlações entre comportamento online e indicadores de bem-estar.

Coletado recentemente, o dataset contém variáveis-chave como horas diárias de mídia social( Daily.Social.Media.Time..hrs), horas diárias de entretenimento (Daily.Entertainment.Time..hrs), plataformas de mídias sociais usadas (Social.Media.Platforms.Used), plataforma primária (Primary.Plataform), ocupação (Ocuppation), estado civil (Marital.Status), horas médias de sono (Average.Sleep.Time..hrs), horas de atividade física (Physical.Activity.Time..hrs) entre outras chaves. Além disso, há informações sobre o impacto do consumo digital nas preferências de compra, na percepção da fadiga digital e no tempo dedicado ao aprendizado online.

Uma caracteristica notável dos dados de origem é a diversidade dos perfis de usuários incluídos, o que permite fazer uma análise segmentada por fatores como faixa etária, nacionalidade, ocupação, estado civil e etc.

Explicação do tratamento de dados

o dataset original é composto apenas um um arquivo, arquivo esse "social_media_entertainment_data". Esse é um dataset estruturado, mas é bom por garantia nós checarmos se existem valores ausentes.

# Carrega o dataset
social_media_entertainment <- read.csv("C:/Users/Alexandre/Meu RCurso/Projeto 2 VA - CPAD 2024.2/social_media_entertainment_data.csv")

# Checando e exibindo na tela a quantidades de Nas
print(sum(is.na(social_media_entertainment)))

## [1] 0

Filtrando por região

Uma das categorias existentes no data set é a categoria Country, categoria essa que é referente a nacionalidade das pessoas entrevistadas. Com isso nós conseguimos fazer um filtro para conseguir separar esse grupo em subgrupos, assim facilitando em uma possível análise da cultura de consumismo dos mesmos.

# Observando as nacionalidades existentes
sort(unique(social_media_entertainment$Country))

## [1] "Australia" "Canada"    "Germany"   "India"     "UK"        "USA"

Austrália

# Subgrupo dos indivíduos da Austrália
australia_sme <- social_media_entertainment %>%
  filter(Country == "Australia")

# Quantidade de pessoas entrevistadas
nrow(australia_sme)

## [1] 49921

# Exibir os 6 primeiros
australia_sme %>%
  select(1:4) %>%
  slice_head(n = 6)

##   User.ID Age Gender   Country
## 1      17  28   Male Australia
## 2      18  40  Other Australia
## 3      31  44  Other Australia
## 4      36  55  Other Australia
## 5      39  48  Other Australia
## 6      40  35  Other Australia

Canadá

# Subgrupo dos indivíduos do Canadá
canada_sme <- social_media_entertainment %>%
  filter(Country == "Canada")

# Quantidade de pessoas entrevistadas
nrow(canada_sme)

## [1] 49910

# Exibir os 6 primeiros
canada_sme %>%
  select(1:4) %>%
  slice_head(n = 6)

##   User.ID Age Gender Country
## 1       6  21   Male  Canada
## 2      15  22 Female  Canada
## 3      22  20   Male  Canada
## 4      23  28   Male  Canada
## 5      34  62  Other  Canada
## 6      38  18 Female  Canada

Germany

# Subgrupo dos indivíduos da Germany
germany_sme <- social_media_entertainment %>%
  filter(Country == "Germany")

# Quantidade de pessoas entrevistadas
nrow(germany_sme)

## [1] 50060

# Exibir os 6 primeiros
germany_sme %>%
  select(1:4) %>%
  slice_head(n = 6)

##   User.ID Age Gender Country
## 1       1  32  Other Germany
## 2       5  21  Other Germany
## 3       7  16   Male Germany
## 4       9  44  Other Germany
## 5      12  63  Other Germany
## 6      14  24   Male Germany

Índia

# Subgrupo dos indivíduos da índia
india_sme <- social_media_entertainment %>%
  filter(Country == "India")

# Quantidade de pessoas entrevistadas
nrow(india_sme)

## [1] 49924

# Exibir os 6 primeiros
india_sme %>%
  select(1:4) %>%
  slice_head(n = 6)

##   User.ID Age Gender Country
## 1       2  62  Other   India
## 2       4  44 Female   India
## 3      10  49  Other   India
## 4      26  53   Male   India
## 5      28  39 Female   India
## 6      29  43  Other   India

UK

# Subgrupo dos indivíduos do Reino Unido
uk_sme <- social_media_entertainment %>%
  filter(Country == "UK")

# Quantidade de pessoas entrevistadas
nrow(uk_sme)

## [1] 50040

# Exibir os 6 primeiros
uk_sme %>%
  select(1:4) %>%
  slice_head(n = 6)

##   User.ID Age Gender Country
## 1      11  14   Male      UK
## 2      13  56   Male      UK
## 3      21  44   Male      UK
## 4      27  23  Other      UK
## 5      33  16  Other      UK
## 6      37  28  Other      UK

USA

# Subgrupo dos indivíduos do USA
usa_sme <- social_media_entertainment %>%
  filter(Country == "USA")

# Quantidade de pessoas entrevistadas
nrow(usa_sme)

## [1] 50145

# Exibir os 6 primeiros
usa_sme %>%
  select(1:4) %>%
  slice_head(n = 6)

##   User.ID Age Gender Country
## 1       3  51 Female     USA
## 2       8  58 Female     USA
## 3      24  32 Female     USA
## 4      25  36 Female     USA
## 5      32  21   Male     USA
## 6      45  26 Female     USA

Adicionando colunas

Antes de qualquer coisa, fazendo uma breve pesquisa, acabei observando que normalmente pela faixa de idade das pessoas, conseguimos imaginar em que fase da vida ela se encontra.Sendo assim, vamos adicionar uma nova categoria, chamada “Faixa_Etaria”, onde nós iremos incluir nessa nova categoria, em que divisão cada entrevistado se encontra.

Explicação das Faixas Etárias:

13-17 anos (Adolescentes) -> Esta faixa reúne os jovens que estão na fase de adolescência, com a maioria ainda cursando o ensino médio.
18-24 anos (Jovens adultos iniciantes) -> A fase onde as pessoas estão começando a entrar no mercado de trabalho ou indo para a faculdade.
25-34 anos (Adultos jovens) -> Pessoas que estão firmando suas carreiras com uma fase de vida mais estável, em relação à sua formação e objetivos profissionais.
35-44 anos (Adultos Meia-idade) -> Aqui, muitos já têm famílias, com uma fase de vida mais madura em termos de carreira e responsabilidades pessoais.
45-54 anos (Adultos experientes) -> Pessoas que estão no auge de suas carreiras, com bastante experiência, mas ainda com uma boa expectativa de vida e saúde.
55-65 anos (Pré-Aposentadoria) -> Fase de preparação para aposentadoria.

# Adicionar a coluna Faixa_Etaria com novas divisões coerentes
social_media_entertainment <- social_media_entertainment %>%
  mutate(Faixa_Etaria = cut(Age, 
                            breaks = c(13, 17, 24, 34, 44, 54, 65), 
                            labels = c("13-17", "18-24", "25-34", "35-44", "45-54", "55-65"),
                            include.lowest = TRUE))

#Exibindo na tela
head(social_media_entertainment %>% select(User.ID,Age,Country,Faixa_Etaria))

##   User.ID Age Country Faixa_Etaria
## 1       1  32 Germany        25-34
## 2       2  62   India        55-65
## 3       3  51     USA        45-54
## 4       4  44   India        35-44
## 5       5  21 Germany        18-24
## 6       6  21  Canada        18-24

# Criar a faixa de tempo gasto em mídias sociais
social_media_entertainment <- social_media_entertainment %>%
  mutate(Faixa_Tempo_Social = cut(Daily.Social.Media.Time..hrs., 
                                  breaks = seq(0, 8, by = 1), 
                                  labels = c("0-1 hora", "1-2 horas", "2-3 horas", "3-4 horas", 
                                             "4-5 horas", "5-6 horas", "6-7 horas", "7-8 horas"),
                                  include.lowest = TRUE))
head(social_media_entertainment %>% select(User.ID,Age,Country,Daily.Social.Media.Time..hrs.,Faixa_Tempo_Social))

##   User.ID Age Country Daily.Social.Media.Time..hrs. Faixa_Tempo_Social
## 1       1  32 Germany                          4.35          4-5 horas
## 2       2  62   India                          4.96          4-5 horas
## 3       3  51     USA                          6.78          6-7 horas
## 4       4  44   India                          5.06          5-6 horas
## 5       5  21 Germany                          2.57          2-3 horas
## 6       6  21  Canada                          4.69          4-5 horas

Informações resumidas das variáveis de interesses

Abaixo nós temos alguns dos valores únicos das colunas de relevância, que fornecem uma melhor visão das categorias de dados disponíveis:

Variável	Valores Únicos
`Gender`	Female, Male e Other
`Country`	Australia, Canada, Germany, India, UK e USA
`Primary.Platform`	Facebook, Instagram, TikTok, Twitter e YouTube
`Occupation`	Professional, Retired, Student e Unemployed
`Marital.Status`	Divorced, Married, Single e Widowed
`Device.Type`	PC, Smartphone e Tablet
`Preferred.Content.Type`	Movies, News, Series e Short Videos
`Primary.Social.Media.Goal`	Education, Entertainment, Networking e News
`Preferred.Entertainment.Platform`	Amazon Prime, Netflix, Spotify e YouTube
`Preferred.Device.for.Entertainment`	PC, Smart TV, Smartphone e Tablet
`Digital.Well.being.Awareness`	High, Low e Moderate

Esses valores únicos mostram as diferentes categorias e níveis que estão disponíveis no dataset, ajudando a entender a variedade e a abrangência dos dados.

Abaixo, segue um resumo das principais variáveis no dataset:

Variável	Descrição
`Gender`	Esta variável é referente aos gêneros das pessoas entrevistadas.
`Country`	Indica a Nacionalidade.
`Primary.Platform`	Informa a plataforma primária, a sua plataforma mais utilizada.
`Occupation`	Referente a sua ocupação.
`Marital.Status`	Esta variável é referente ao seu estado civil.
`Device.Type`	Indica o tipo de dispositivo utilizado.
`Preferred.Content.Type`	Informa o tipo de conteúdo que é de sua preferência.
`Primary.Social.Media.Goal`	É referente a sua meta principal de mídia social, o que você mais consome.
`Preferred.Entertainment.Platform`	Indica a plataforma de entretenimento preferida.
`Preferred.Device.for.Entertainment`	Referente aos tipo de dispositivo que você utiliza para fazer consumo de entretenimento.
`Digital.Well.being.Awareness`	Questão da sua consciêntização sobre a questão da saúde digital.

Análise do Dataset

1. Caracterização da população

1.1 Visão geral quantitativa por faixa etária

# Contar a quantidade de pessoas por faixa etária
faixa_etaria_count <- as.data.frame(table(social_media_entertainment$Faixa_Etaria))

#Calcular as porcentagens
faixa_etaria_count$Percentage <- round(faixa_etaria_count$Freq / sum(faixa_etaria_count$Freq) * 100, 1)

#Criar um rótulo que combina faixa etária, a porcentagem e a quantidade de pessoas
faixa_etaria_count$Label <- paste0(faixa_etaria_count$Var1, " (", faixa_etaria_count$Freq, " pessoas, ", faixa_etaria_count$Percentage, "%)")


# Criar o gráfico de pizza com porcentagens e quantidades nos rótulos da legenda
ggplot(faixa_etaria_count, aes(x = "", y = Freq, fill = Label)) +
  geom_bar(width = 1, stat = "identity") +
  coord_polar("y") +  
  labs(title = "Distribuição de Pessoas por Faixa Etária") +
  theme_void() +  # Remove o plano de fundo e os eixos para um gráfico de pizza puro
  theme(legend.title = element_blank()) # Remove o título da legenda para clareza

Dessa forma, conseguimos ver que em alguns casos, o quantitativo pode fazer com que mediante a análise, fique um pouco desproporcional. Levando isso em consideração, é claro a necessidade de nós fazermos uma normalização para assim conseguir facilitar na hora de tomarmos alguma conclusão.

Exemplo sem normalização

Com normalização

2. Padrões de uso das mídias sociais

2.1 Tempo gasto em redes sociais por faixa etária

# Criar o mapa de calor normalizado
ggplot(dados_normalizados_faixaetaria_tempogasto, aes(x = Faixa_Tempo_Social, y = Faixa_Etaria, fill = Proporcao)) +
  geom_tile() +
  scale_fill_gradient(low = "lightblue", high = "darkblue") +
  labs(title = "Mapa de Calor: Uso de Redes Sociais Normalizado",
       x = "Faixa de Tempo Gasto",
       y = "Faixa Etária",
       fill = "Proporção (%)") +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

Este mapa de calor representa a distribuição do tempo gasto em redes sociais por diferentes faixas etárias.

Eixo Y (vertical): Faixas etárias dos entrevistados (13 a 65 anos).

Eixo X (horizontal): Tempo gasto diariamente em redes sociais (de 0 a 8 horas).

Escala de cores:

Tons escuros = maior concentração de usuários naquela combinação de idade e tempo de uso.
Tons claros = menor concentração de usuários naquele tempo específico.

Padrões identificados

Os dados revelam que a maioria das pessoas utiliza redes sociais entre 3 e 6 horas por dia, sendo esse o intervalo onde há maior concentração de usuários. Esse padrão é mais evidente na faixa etária de 25 a 44 anos, sugerindo que adultos jovens e de meia-idade possuem um consumo digital mais intenso.

Em contrapartida, o tempo de uso entre adolescentes e jovens adultos (13 a 24 anos) apresenta uma distribuição mais espalhada, indicando que esses grupos possuem hábitos variados, mas ainda assim passam uma quantidade significativa de tempo conectados. Já nas faixas etárias superiores (45 a 65 anos), a presença no meio digital ainda é expressiva, mas sem picos tão acentuados quanto nos grupos mais jovens, sugerindo um uso mais equilibrado dessas plataformas.

Outro dado relevante é que a faixa de 0 a 1 hora por dia apresenta um tom mais claro, evidenciando que apenas uma pequena parcela dos entrevistados passa tão pouco tempo nas redes sociais. Isso reforça a ideia de que o consumo digital já está amplamente enraizado na rotina da maioria das pessoas.

Por fim, o tempo máximo de uso (7 a 8 horas diárias) não apresenta grandes concentrações, sugerindo que poucos usuários permanecem conectados por tantas horas. Esse padrão pode estar relacionado a grupos específicos, como criadores de conteúdo digital ou indivíduos com um alto nível de dependência tecnológica.

O gráfico acima apresenta um mapa de calor que ilustra a distribuição do tempo gasto em mídias sociais por diferentes faixas etárias. Esse tipo de visualização permite identificar padrões de uso ao longo das diferentes idades e compreender quais grupos etários mais utilizam redes sociais ao longo do dia.

2.2 Número de plataformas utilizadas por faixa etária

# Criar a tabela de contagem automática
tabela_contagem <- as.data.frame(table(social_media_entertainment$Faixa_Etaria, 
                                       social_media_entertainment$Social.Media.Platforms.Used))

# Renomear colunas
colnames(tabela_contagem) <- c("Faixa_Etaria", "Social_Media_Platforms_Used", "Quantidade")

# Converter Social_Media_Platforms_Used para numérico
tabela_contagem$Social_Media_Platforms_Used <- as.numeric(as.character(tabela_contagem$Social_Media_Platforms_Used))

# Normalizar os dados dentro de cada Faixa Etária
dados_normalizados_qtdplataform_faixaetaria <- tabela_contagem %>%
  group_by(Faixa_Etaria) %>%
  mutate(Proporcao = (Quantidade / sum(Quantidade)) * 100)

# Criar o heatmap
ggplot(dados_normalizados_qtdplataform_faixaetaria, aes(x = as.factor(Social_Media_Platforms_Used), 
                               y = Faixa_Etaria, fill = Proporcao)) +
  geom_tile() +
  scale_fill_gradient(low = "lightblue", high = "darkblue") +
  labs(title = "Mapa de Calor: Quantidade de Plataformas Usadas por Faixa Etária",
       x = "Número de Plataformas Usadas",
       y = "Faixa Etária",
       fill = "Proporção (%)") +
  theme_minimal()

O gráfico de calor representa a distribuição da quantidade de plataformas de mídias sociais utilizadas por diferentes faixas etárias. As tonalidades mais escuras indicam uma maior concentração de indivíduos utilizando determinada quantidade de plataformas, enquanto as cores mais claras representam menor uso relativo.

A análise revela que a faixa etária de 35 a 44 anos tem um pico de uso em duas plataformas, o que sugere uma preferência consolidada por esse número específico. Esse dado pode indicar que esse grupo etário mantém um uso moderado e seletivo das redes sociais, possivelmente equilibrando sua vida digital com outras atividades.

Já os grupos mais jovens (13-17 anos e 18-24 anos) apresentam uma distribuição mais homogênea, sem um número de plataformas dominante. Isso pode indicar que essas faixas etárias experimentam diferentes redes sociais de forma mais variada, sem um padrão rígido de uso.

Por outro lado, os usuários mais velhos (55-65 anos) tendem a se concentrar no uso de apenas uma plataforma, o que sugere uma menor diversidade no consumo de mídias sociais, possivelmente devido a menor familiaridade com a tecnologia ou preferência por redes mais específicas.

No geral, o mapa de calor destaca diferenças geracionais no consumo de redes sociais, sugerindo que a quantidade de plataformas utilizadas está diretamente ligada a fatores como interesse, tempo disponível e familiaridade com o ambiente digital.

2.3 Principal plataforma de mídia social por faixa etária

# Criar tabela de contagem cruzada (quantidade de usuários por Faixa_Etaria e Primary.Platform)
tabela_contagem_etaria_primary_plataform <- table(social_media_entertainment$Faixa_Etaria, social_media_entertainment$Primary.Platform)

# Converter para dataframe
df <- as.data.frame(tabela_contagem_etaria_primary_plataform)
colnames(df) <- c("Faixa_Etaria", "Primary_Platform", "Contagem")

# Normalizar os dados dentro de cada faixa etária (proporção percentual)
df <- df %>%
  group_by(Faixa_Etaria) %>%
  mutate(Proporcao_primary_plataform = Contagem / sum(Contagem) * 100)

# Criar o gráfico de calor
ggplot(df, aes(x = Primary_Platform, y = Faixa_Etaria, fill = Proporcao_primary_plataform)) +
  geom_tile() +
  scale_fill_gradient(low = "lightblue", high = "darkblue", name = "Proporção (%)") +
  labs(title = "Mapa de Calor: Plataforma Principal por Faixa Etária",
       x = "Plataforma Principal",
       y = "Faixa Etária") +
  theme_minimal()

O uso das redes sociais varia de acordo com a idade dos usuários, refletindo padrões distintos de comportamento digital. O gráfico analisado mostra a relação entre faixa etária e a plataforma principal utilizada, permitindo identificar quais redes sociais são mais populares em cada grupo de idade.

Principais descobertas

TikTok é a plataforma mais utilizada por usuários entre 35-44 anos. A predominância do TikTok nesse grupo indica um crescimento da plataforma entre adultos que buscam conteúdos curtos, interativos e dinâmicos.
O YouTube tem presença significativa na faixa de 35-44 anos, mas com menor intensidade. Isso sugere que essa faixa etária ainda consome vídeos mais longos, mas não de forma tão dominante.
Usuários de 18-24 anos demonstram um uso mais equilibrado entre diferentes plataformas. Essa faixa etária não apresenta uma única rede social dominante, indicando que os jovens transitam entre plataformas dependendo do tipo de conteúdo.
Facebook continua sendo relevante para usuários mais velhos (45-65 anos). A plataforma ainda é popular entre os mais velhos, que tendem a manter o uso de redes sociais tradicionais.
Twitter apresenta um uso uniforme entre todas as faixas etárias. Nenhum grupo se destaca como o principal usuário da plataforma, indicando que seu uso pode estar mais relacionado ao tipo de conteúdo consumido (notícias, discussões) do que à idade dos usuários.

3. Comportamento relacionado ao entretenimento digital

3.1 Tempo gasto com entretenimento por faixa etária

# Criar a nova categoria Faixa_Entretenimento
social_media_entertainment <- social_media_entertainment %>%
  mutate(Faixa_Entretenimento = cut(Daily.Entertainment.Time..hrs.,
                                    breaks = c(0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10),
                                    labels = c("0-1 hora", "1-2 horas", "2-3 horas", 
                                               "3-4 horas", "4-5 horas", "5-6 horas", 
                                               "6-7 horas", "7-8 horas", "8-9 horas", "9-10 horas"),
                                    include.lowest = TRUE))

# Criar tabela de contagem
tabela_contagem_faixaetaria_e_entretenimento <- social_media_entertainment %>%
  count(Faixa_Etaria, Faixa_Entretenimento) %>%
  group_by(Faixa_Etaria) %>%
  mutate(Proporcao_entretenimento = n / sum(n) * 100)  # Normalizar dentro de cada faixa etária

# Criar o mapa de calor
ggplot(tabela_contagem_faixaetaria_e_entretenimento, aes(x = Faixa_Entretenimento, y = Faixa_Etaria, fill = Proporcao_entretenimento)) +
  geom_tile() +
  geom_text(aes(label = sprintf("%.1f%%", Proporcao_entretenimento)), color = "white", size = 2) + # Adiciona porcentagem
  scale_fill_gradient(low = "lightblue", high = "darkblue") +
  labs(title = "Mapa de Calor: Tempo Diário de Entretenimento por Faixa Etária",
       x = "Faixa de Tempo de Entretenimento",
       y = "Faixa Etária",
       fill = "Proporção (%)") +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

Principais observações

1. Predominância de consumo curto (0-1 hora/dia) em todas as faixas etárias

Observa-se um tom mais claro na coluna correspondente ao intervalo “0-1 hora”, indicando que essa categoria concentra a maior proporção de indivíduos em todas as faixas etárias. Isso sugere que um número significativo de pessoas mantém um tempo relativamente baixo de entretenimento diário.

2. Faixa de 13-17 anos apresenta distribuição mais equilibrada

Embora ainda haja um percentual relevante de jovens consumindo menos tempo de entretenimento, a distribuição parece mais diversificada. Algumas áreas de tom mais escuro indicam que há uma parcela desse público que consome quantidades mais elevadas de entretenimento digital.

3. Faixa de 18-24 e 25-34 anos mostram um leve aumento no consumo diário

Nessa faixa etária, observa-se uma leve intensificação do consumo diário em categorias superiores a 4 horas. Esse comportamento pode estar associado a maior flexibilidade de tempo livre, uso de entretenimento digital para lazer e até consumo de plataformas de streaming, redes sociais e jogos eletrônicos.

4. Faixa de 35-44 anos com picos em diferentes categorias

Há uma concentração perceptível de consumo entre 2-3 horas e 5-6 horas diárias, indicando um padrão de uso mais segmentado. Pode-se inferir que esse público tende a dividir seu tempo de entretenimento entre momentos específicos do dia, como após o expediente ou durante períodos de descanso.

5. Faixas de 45-54 e 55-65 anos com baixo consumo prolongado

O consumo de entretenimento tende a ser menor em comparação com as faixas mais jovens. Apesar disso, a distribuição é relativamente homogênea, sem grandes concentrações em categorias mais longas de tempo. Isso pode indicar um uso mais moderado e segmentado ao longo do dia, possivelmente focado em conteúdos como notícias, redes sociais e vídeos curtos.

3.2 Plataforma preferida para entretenimento por faixa etária

# Contar a frequência de cada plataforma preferida por faixa etária
df_summary <- social_media_entertainment %>%
  group_by(Faixa_Etaria, Preferred.Entertainment.Platform) %>%
  summarise(Count = n(), .groups = "drop")

# Normalizar os dados dentro de cada Faixa Etária
df_summary <- df_summary %>%
  group_by(Faixa_Etaria) %>%
  mutate(Proportion = Count / sum(Count) * 100)

# Transformar os dados para o formato adequado para o ggplot
df_heatmap <- dcast(df_summary, Faixa_Etaria ~ Preferred.Entertainment.Platform, value.var = "Proportion", fill = 0)

# Converter para formato longo para ggplot
df_long <- melt(df_heatmap, id.vars = "Faixa_Etaria")

# Criar o mapa de calor
ggplot(df_long, aes(x = variable, y = Faixa_Etaria, fill = value)) +
  geom_tile() +
  geom_text(aes(label = sprintf("%.1f%%", value)), color = "white", size = 4) + # Adiciona porcentagem
  scale_fill_gradient(low = "lightblue", high = "darkblue", name = "Proporção (%)") +
  labs(
    title = "Mapa de Calor: Plataforma Preferida por Faixa Etária",
    x = "Plataforma Preferida",
    y = "Faixa Etária"
  ) +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

O gráfico de calor apresenta um panorama da preferência de plataformas de entretenimento entre diferentes faixas etárias. As plataformas analisadas foram Amazon Prime, Netflix, Spotify e YouTube, e os dados foram normalizados para que cada faixa etária tenha proporções relativas comparáveis.

1. Destaque da faixa etária de 25-34 anos para Netflix:

A maior intensidade da coloração azul escura indica que essa faixa etária tem uma preferência significativamente maior pelo Netflix em comparação às demais plataformas. Isso sugere que o streaming de filmes e séries é uma forma predominante de entretenimento para esse grupo.

2. Amazon Prime e YouTube são mais relevantes para os extremos etários:

As faixas 13-17 anos e 55-65 anos apresentam tons mais claros para Amazon Prime, sugerindo que essa plataforma é mais popular nesses grupos, mas sem uma dominância clara.
No caso do YouTube, percebe-se que as faixas mais jovens (13-17 anos) e 25-34 anos apresentam maior engajamento, evidenciado pelos tons mais escuros, possivelmente pela diversidade de conteúdos e acesso gratuito.

3. Spotify apresenta uma distribuição relativamente equilibrada:

Diferente de outras plataformas que mostram picos específicos por idade, Spotify aparece com tons intermediários ao longo de todas as faixas etárias, indicando que sua popularidade está bem distribuída entre os grupos etários.
Isso pode sugerir que o consumo de áudio, como música e podcasts, é uma atividade regular e menos dependente da idade em comparação ao consumo de vídeos.

4. Faixa etária de 45-54 anos mostra equilíbrio entre todas as plataformas:

A ausência de tons muito escuros ou muito claros nessa faixa sugere que não há uma preferência absoluta por nenhuma plataforma. Esse grupo pode estar distribuindo seu tempo de entretenimento de forma mais equilibrada entre vídeo sob demanda, música e outras formas de mídia.

4. Hábitos digitais e estilo de vida

4.1 Horas gastas com mensagem, vídeos e jogos por faixa etária

No dataset tem 3 categorias que conseguimos ter uma breve noção referente a quantidade de horas diárias que são gastas com mensagem, vídeos e jogos. Observem abaixo os gráficos de calor referente a esse cenário para cada faixa etária de idade específica;

# Criar a nova categoria de Faixa de Mensagem Diária
social_media_entertainment <- social_media_entertainment %>%
  mutate(Faixa_Mensagem_Diaria = case_when(
    Daily.Messaging.Time..hrs. >= 0 & Daily.Messaging.Time..hrs. < 1 ~ "0-1 hora",
    Daily.Messaging.Time..hrs. >= 1 & Daily.Messaging.Time..hrs. < 2 ~ "1-2 horas",
    Daily.Messaging.Time..hrs. >= 2 & Daily.Messaging.Time..hrs. < 3 ~ "2-3 horas",
    Daily.Messaging.Time..hrs. >= 3 & Daily.Messaging.Time..hrs. < 4 ~ "3-4 horas",
    Daily.Messaging.Time..hrs. >= 4 & Daily.Messaging.Time..hrs. <= 5 ~ "4-5 horas"
  ))

# Criar a tabela de contagem para análise cruzada
tabela_mensagem <- social_media_entertainment %>%
  count(Faixa_Etaria, Faixa_Mensagem_Diaria) %>%
  group_by(Faixa_Etaria) %>%
  mutate(Proporcao_mensagem = n / sum(n) * 100)

# Gerar o mapa de calor
ggplot(tabela_mensagem, aes(x = Faixa_Mensagem_Diaria, y = Faixa_Etaria, fill = Proporcao_mensagem)) +
  geom_tile() +
  geom_text(aes(label = sprintf("%.1f%%", Proporcao_mensagem)), color = "white", size = 4) + # Adiciona porcentagem
  scale_fill_gradient(low = "lightblue", high = "darkblue", name = "Proporção (%)") +
  labs(title = "Mapa de Calor: Tempo Diário com Mensagens por Faixa Etária",
       x = "Faixa de Tempo com Mensagens",
       y = "Faixa Etária") +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

4.2 Média de horas dormidas por faixa etária

# Criar a nova categoria "Media_sono"
social_media_entertainment <- social_media_entertainment %>%
  mutate(Media_sono = case_when(
    Average.Sleep.Time..hrs. >= 4 & Average.Sleep.Time..hrs. < 5 ~ "4-5 horas",
    Average.Sleep.Time..hrs. >= 5 & Average.Sleep.Time..hrs. < 6 ~ "5-6 horas",
    Average.Sleep.Time..hrs. >= 6 & Average.Sleep.Time..hrs. < 7 ~ "6-7 horas",
    Average.Sleep.Time..hrs. >= 7 & Average.Sleep.Time..hrs. < 8 ~ "7-8 horas",
    Average.Sleep.Time..hrs. >= 8 & Average.Sleep.Time..hrs. <= 9 ~ "8-9 horas"
  ))

# Criar a tabela de contagem para análise cruzada
tabela_sono <- social_media_entertainment %>%
  count(Faixa_Etaria, Media_sono) %>%
  group_by(Faixa_Etaria) %>%
  mutate(Proporcao_sono = n / sum(n) * 100)

# Gerar o mapa de calor
ggplot(tabela_sono, aes(x = Media_sono, y = Faixa_Etaria, fill = Proporcao_sono)) +
  geom_tile() +
  scale_fill_gradient(low = "lightblue", high = "darkblue", name = "Proporção (%)") +
  labs(title = "Mapa de Calor: Média de Sono por Faixa Etária",
       x = "Média de Sono",
       y = "Faixa Etária") +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

A análise do gráfico revela padrões interessantes sobre a média de sono por faixa etária, evidenciando como os hábitos de descanso variam ao longo da vida. Observa-se que adolescentes entre 13 e 17 anos tendem a dormir mais, com um pico de proporção na faixa de 7-8 horas, o que está alinhado com recomendações médicas para um desenvolvimento saudável. Já na faixa 18-24 anos, há uma leve redução no tempo médio de sono, com uma distribuição entre 6-7 e 7-8 horas, refletindo possíveis mudanças no estilo de vida, como estudos universitários e trabalho. Ao avançarmos para o grupo de 25-34 anos, nota-se uma queda ainda maior na quantidade de sono, tendo uma establidade entre a faixa de 4-6 horas e uma presença significativa de indivíduos na faixa de 7-9 horas. Esse comportamento pode ser atribuído ao aumento das responsabilidades profissionais e familiares, além do impacto do consumo digital. Para as faixas 35-44 e 45-54 anos, essa tendência de redução no tempo de descanso se mantém, com uma distribuição mais evidente entre 5-6 e 6-7 horas, indicando que a rotina intensa e o estresse ocupacional podem estar afetando a qualidade do sono.

Na população mais velha, representada pela faixa 55-65 anos, o padrão de sono se estabiliza, com a maioria dormindo entre 5-6 e 6-7 horas, um fenômeno comum devido a mudanças fisiológicas que tornam o sono mais leve e fragmentado com o avanço da idade. Esse comportamento reflete a adaptação do organismo ao longo do tempo, consolidando um padrão de descanso mais curto.

Os dados analisados indicam que, conforme a idade avança, a quantidade de horas dormidas tende a diminuir, com os adolescentes registrando o maior tempo de sono e os adultos e idosos apresentando uma redução gradual. Esse fenômeno pode estar relacionado a fatores como estresse, carga de trabalho, uso excessivo de tecnologia e mudanças biológicas naturais. Compreender essa relação é essencial para avaliar o impacto da rotina moderna na qualidade de vida e no bem-estar geral, além de possibilitar estratégias para a promoção de hábitos saudáveis de descanso.

4.3 Média de atividade física por faixa etária

# Criando a nova categoria "Media_atividade_fisica"
social_media_entertainment <- social_media_entertainment %>%
  mutate(Media_atividade_fisica = case_when(
    Physical.Activity.Time..hrs. == 0.00 ~ "Não faz",
    Physical.Activity.Time..hrs. > 0.00 & Physical.Activity.Time..hrs. <= 0.50 ~ "Até 30 minutos",
    Physical.Activity.Time..hrs. > 0.50 & Physical.Activity.Time..hrs. <= 1.00 ~ "30m - 1h",
    Physical.Activity.Time..hrs. > 1.00 & Physical.Activity.Time..hrs. <= 1.50 ~ "1h - 1h30",
    Physical.Activity.Time..hrs. > 1.50 & Physical.Activity.Time..hrs. <= 2.00 ~ "1h30 - 2h",
    Physical.Activity.Time..hrs. > 2.00 & Physical.Activity.Time..hrs. <= 3.00 ~ "Mais de 2 horas"
  ))

# Transformando em fator para ordenar as categorias no gráfico
social_media_entertainment <- social_media_entertainment %>%
  mutate(Media_atividade_fisica = factor(
    Media_atividade_fisica,
    levels = c("Não faz", "Até 30 minutos", "30m - 1h", "1h - 1h30", "1h30 - 2h", "Mais de 2 horas")
  ))

# Criando a tabela de contagem e calculando a proporção corretamente por faixa etária
tabela_atividadeFisica <- social_media_entertainment %>%
  count(Faixa_Etaria, Media_atividade_fisica) %>%
  group_by(Faixa_Etaria) %>%
  mutate(Proporcao_atividadeFisica = (n / sum(n)) * 100)

# Criando o mapa de calor
ggplot(tabela_atividadeFisica, aes(x = Media_atividade_fisica, y = Faixa_Etaria, fill = Proporcao_atividadeFisica)) +
  geom_tile() +
  geom_text(aes(label = sprintf("%.1f%%", Proporcao_atividadeFisica)), color = "white", size = 4) + # Adiciona porcentagem
  scale_fill_gradient(low = "lightblue", high = "darkblue") +
  labs(
    title = "Mapa de Calor: Média de Atividade Física por Faixa Etária",
    x = "Média de Atividade Física",
    y = "Faixa Etária",
    fill = "Proporção (%)"
  ) +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

A análise do Mapa de Calor: Média de Atividade Física por Faixa Etária nos permite identificar padrões de prática de atividades físicas ao longo das diferentes faixas etárias. A distribuição percentual dentro de cada faixa etária parece equilibrada, mas há alguns pontos que merecem destaque.

Principais observações:

1. Proporção relativamente constante entre as faixas intermediárias

As categorias de tempo de atividade física entre “Até 30 minutos” e “1h30 - 2h” possuem distribuições muito próximas dentro de cada faixa etária, variando entre 16.3% e 16.9%
Isso sugere que, independentemente da idade, há uma distribuição semelhante entre aqueles que praticam alguma quantidade de atividade física.

2. Faixa “Mais de 2 horas” apresenta a maior proporção

Em todas as faixas etárias, o grupo que pratica “Mais de 2 horas” de atividade física diariamente representa cerca de 33% do total.
Esse valor é significativamente maior do que qualquer outra categoria, sugerindo que há uma parcela consistente da população que se dedica fortemente à atividade física.

3. A categoria “Não faz” é muito baixa (0.2%) em todas as idades

O grupo de pessoas que não realiza nenhuma atividade física é quase insignificante na amostra, o que pode indicar uma possível sub-representação dessa categoria ou um viés na coleta de dados.

4. Pequenas variações entre as faixas etárias

Não há uma tendência clara de aumento ou redução do tempo médio de atividade física conforme a idade avança.
Todas as idades apresentam padrões muito semelhantes, sem grandes diferenças que poderiam indicar mudanças nos hábitos de exercício ao longo da vida.

Então pelo resultado que tivemos anterior, faz com que nós pensemos que a quantidade das pessoas entrevistadas que pertencem a uma faixa etária mais jovens, provavelmente seria menor para ter obtido esse resultado, então mediante a esse questionamento vamos observar o gráfico abaixo a seguir:

5. Interesses e objetivos no uso das redes sociais

5.1 Tipo de conteúdo preferido por faixa etária

# Criando a tabela de contagem para análise cruzada
tabela_conteudo <- social_media_entertainment %>%
  count(Faixa_Etaria, Preferred.Content.Type) %>%
  group_by(Faixa_Etaria) %>%
  mutate(Proporcao_conteudo = (n / sum(n)) * 100)

# Criando o mapa de calor
ggplot(tabela_conteudo, aes(x = Preferred.Content.Type, y = Faixa_Etaria, fill = Proporcao_conteudo)) +
  geom_tile() +
  geom_text(aes(label = sprintf("%.1f%%", Proporcao_conteudo)), color = "white", size = 4) + # Adiciona porcentagem
  scale_fill_gradient(low = "lightblue", high = "darkblue", name = "Proporção (%)") +
  labs(
    title = "Mapa de Calor: Tipo de Conteúdo Preferido por Faixa Etária",
    x = "Tipo de Conteúdo",
    y = "Faixa Etária"
  ) +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

O gráfico apresenta a distribuição percentual das preferências de tipo de conteúdo por faixa etária. As categorias analisadas são Movies (Filmes), News (Notícias), Series (Séries) e Short Videos (Vídeos Curtos), e cada célula representa a proporção de pessoas em cada faixa etária que prefere determinado tipo de conteúdo.

Principais observações

1. Distribuição equilibrada

Os valores de cada categoria estão muito próximas, varianda entre aproximadamente 24.6%¨e 25.3%.
Essa distribuição quase uniforme sugere que não há uma preferência expressiva por um tipo de conteúdo específico dentro de cada faixa etária.

2. Short Videos e Faixa 13-17 anos

A categoria Short Videos (Vídeos Curtos) apresenta um leve destaque entre os mais jovens (13-17 anos), com 25.3%.
sse resultado condiz com tendências observadas no consumo digital, onde adolescentes consomem mais vídeos curtos, como no TikTok e Reels.

3. Movies e Faixa 45-54 anos

A categoria Movies (Filmes) é ligeiramente mais popular entre o grupo 45-54 anos, atingindo 25.3%, o maior valor dessa categoria.
Esse padrão pode indicar que adultos nessa faixa etária ainda preferem filmes em vez de conteúdos mais curtos.

4. News mantém uma proporção estável

O consumo de notícias (News) mantém-se próximo a 25% em todas as faixas etárias, indicando que há um interesse geral por esse tipo de conteúdo sem grandes variações entre idades.

5. Séries são as menos preferidas no geral

A categoria Series (Séries) apresenta valores ligeiramente inferiores aos outros conteúdos, com proporções entre 24.6% e 25.1%.
Isso pode indicar que séries exigem um compromisso de tempo maior, o que pode impactar sua preferência entre os usuários.

5.2 Principal objetivo no uso das redes sociais por faixa etária

# Criando a tabela de contagem para análise cruzada
tabela_objetivo <- social_media_entertainment %>%
  count(Faixa_Etaria, Primary.Social.Media.Goal) %>%
  group_by(Faixa_Etaria) %>%
  mutate(Proporcao_objetivo = (n / sum(n)) * 100)

# Criando o mapa de calor
ggplot(tabela_objetivo, aes(x = Primary.Social.Media.Goal, y = Faixa_Etaria, fill = Proporcao_objetivo)) +
  geom_tile() +
  geom_text(aes(label = sprintf("%.1f%%", Proporcao_objetivo)), color = "white", size = 4) +  # Adiciona porcentagem
  scale_fill_gradient(low = "lightblue", high = "darkblue", name = "Proporção (%)") +
  labs(
    title = "Mapa de Calor: Objetivo do Uso das Mídias Sociais por Faixa Etária",
    x = "Objetivo do Uso das Mídias Sociais",
    y = "Faixa Etária"
  ) +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

Principais observações

O consumo de mídias sociais é multifuncional para todas as faixas etárias, sem um objetivo dominante em nenhum grupo. Jovens (18-24 anos) tendem a focar mais em “Educação” e “Entretenimento”, possivelmente por meio de plataformas como YouTube, TikTok e Instagram. Pessoas mais velhas (55-65 anos) utilizam as redes principalmente para consumir notícias, o que pode estar relacionado ao uso de Facebook, Twitter ou portais de notícias online. Networking mantém uma proporção estável em todas as faixas etárias, sugerindo que a conexão com outras pessoas é um fator relevante independentemente da idade.

Esse tipo de análise pode ajudar a compreender o comportamento digital das diferentes gerações e até influenciar estratégias de marketing digital, criação de conteúdo e desenvolvimento de plataformas focadas no público-alvo correto.

Análise Dataset Paises

Antes de realizar qualquer comparação, é essencial verificar a distribuição da quantidade de entrevistados por faixa etária em cada país. Se houver um desequilíbrio muito grande, isso pode impactar as análises posteriores.

Um gráfico de barras empilhadas é uma ótima opção para visualizar essa distribuição.

# Criar gráfico de barras empilhadas para visualizar a distribuição de entrevistados por faixa etária em cada país
ggplot(social_media_entertainment, aes(x = Country, fill = Faixa_Etaria)) +
  geom_bar(position = "dodge") +
  labs(
    title = "Distribuição de Entrevistados por Faixa Etária e País",
    x = "País",
    y = "Quantidade de Entrevistados",
    fill = "Faixa Etária"
  ) +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

A análise da distribuição de entrevistados por faixa etária em cada país revela um equilíbrio consistente entre os grupos etários em todas as regiões analisadas. O gráfico indica que nenhuma faixa etária está significativamente sub-representada ou super-representada dentro de um país em comparação com os demais.

Esse resultado é positivo para a continuidade das análises, pois significa que a comparação entre países poderá ser feita sem a necessidade de normalizar os dados com relação à proporção de respondentes por idade. Assim, os insights extraídos refletirão mais fielmente as diferenças nos hábitos digitais entre nacionalidades, sem viés causado por desequilíbrios amostrais.

Com essa base bem distribuída, podemos prosseguir para investigações mais detalhadas sobre padrões de comportamento digital em cada país e identificar possíveis variações culturais e regionais. 🚀

Comparação de objetivos das mídias sociais por País

Vamos utilizar o mapa de calor semelhante ao que vimos, mas agora iremos segmentar também a categoria Country.

# Criando a tabela de contagem para análise cruzada entre Faixa Etária, Objetivo e País
tabela_objetivo_pais <- social_media_entertainment %>%
  count(Country, Faixa_Etaria, Primary.Social.Media.Goal) %>%
  group_by(Country, Faixa_Etaria) %>%
  mutate(Proporcao = (n / sum(n)) * 100)

# Criando o mapa de calor
ggplot(tabela_objetivo_pais, aes(x = Primary.Social.Media.Goal, y = Faixa_Etaria, fill = Proporcao)) +
  geom_tile() +
  geom_text(aes(label = sprintf("%.1f%%", Proporcao)), color = "white", size = 2) +
  scale_fill_gradient(low = "lightblue", high = "darkblue", name = "Proporção (%)") +
  facet_wrap(~Country) +  # Separar os gráficos por país
  labs(
    title = "Mapa de Calor: Objetivo do Uso das Mídias Sociais por Faixa Etária e País",
    x = "Objetivo do Uso",
    y = "Faixa Etária"
  ) +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

Comparação de tipo de conteúdo preferido por País

# Criando a tabela de contagem para análise cruzada entre Faixa Etária, Tipo de Conteúdo e País
tabela_conteudo_pais <- social_media_entertainment %>%
  count(Country, Faixa_Etaria, Preferred.Content.Type) %>%
  group_by(Country, Faixa_Etaria) %>%
  mutate(Proporcao_conteudo = (n / sum(n)) * 100)

# Criando o mapa de calor
ggplot(tabela_conteudo_pais, aes(x = Preferred.Content.Type, y = Faixa_Etaria, fill = Proporcao_conteudo)) +
  geom_tile() +
  geom_text(aes(label = sprintf("%.1f%%", Proporcao_conteudo)), color = "white", size = 2) +
  scale_fill_gradient(low = "lightblue", high = "darkblue", name = "Proporção (%)") +
  facet_wrap(~Country) +  # Separar os gráficos por país
  labs(
    title = "Mapa de Calor: Tipo de Conteúdo Preferido por Faixa Etária e País",
    x = "Tipo de Conteúdo",
    y = "Faixa Etária"
  ) +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

Análise de comportamento de consumo de entretenimento por nacionalidade e faixa etária

Dessa maneira conseguimos verificar se países diferentes têm impactos distintos dda qualidade do sono das pessoas, mediante ao tempo de tela.

# Criar uma tabela de contagem cruzada entre as categorias
tabela_entretenimento <- social_media_entertainment %>%
  count(Country, Faixa_Etaria, Preferred.Entertainment.Platform, Preferred.Device.for.Entertainment) %>%
  group_by(Country, Faixa_Etaria) %>%
  mutate(Proporcao = (n / sum(n)) * 100)

# Criar um gráfico de facetamento por País e Faixa Etária
ggplot(tabela_entretenimento, aes(x = Preferred.Entertainment.Platform, y = Preferred.Device.for.Entertainment, fill = Proporcao)) +
  geom_tile() +
  geom_text(aes(label = sprintf("%.1f%%", Proporcao)), color = "white", size = 1) + # Adiciona os valores
  scale_fill_gradient(low = "lightblue", high = "darkblue", name = "Proporção (%)") +
  labs(
    title = "Preferência de Entretenimento por Plataforma e Dispositivo",
    x = "Plataforma de Entretenimento",
    y = "Dispositivo Preferido"
  ) +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 90, hjust = 1)) +
  facet_grid(Country ~ Faixa_Etaria) # Separar por País e Faixa Etária

Principais insights extraídos

1️⃣Smartphones dominam o consumo de entretenimento, especialmente entre os mais jovens: Em praticamente todos os países, os jovens entre 13-17 e 18-24 anos apresentam uma preferência maior por Smartphones. Isso sugere que essa faixa etária prioriza mobilidade e acessibilidade, favorecendo plataformas como YouTube e Spotify, que são amplamente utilizados em dispositivos móveis.

2️⃣Smart TVs e PCs são mais utilizados por faixas etárias mais altas: A partir dos 35 anos, há um aumento na utilização de Smart TVs para consumir plataformas como Netflix e Amazon Prime, o que pode indicar um consumo mais voltado para o entretenimento doméstico. O PC também se torna mais relevante em algumas faixas etárias, especialmente para quem pode estar trabalhando e consumindo entretenimento simultaneamente (exemplo: ouvir música no Spotify enquanto trabalha).

3️⃣Diferenças Culturais no Consumo de Entretenimento: Índia tem uma forte presença de Smartphones em todas as faixas etárias, sugerindo que o mobile-first é uma realidade nesse país, possivelmente devido ao menor custo de dispositivos móveis em relação a Smart TVs e PCs. Países como Alemanha, Canadá e Austrália mostram maior uso de Smart TVs e PCs para consumo de plataformas como Amazon Prime e Netflix, indicando um padrão mais voltado ao entretenimento doméstico. Spotify tem maior destaque em países ocidentais como Reino Unido, EUA e Canadá, enquanto plataformas de vídeo como YouTube e Netflix dominam em outros mercados.

4️⃣Amazon Prime tem menor representatividade em relação a Netflix e YouTube: O YouTube e a Netflix aparecem como as plataformas mais amplamente utilizadas em praticamente todas as categorias. Amazon Prime tem presença mais modesta, sugerindo que não é a primeira escolha para muitas faixas etárias ou países, podendo ser um reflexo da concorrência de outros serviços de streaming.

Conclusão💭

Conclusão final

O objetivo desta análise foi compreender as correlações entre tempo médio de tela, qualidade do sono, nacionalidade e faixa etária, entre outras categorias, além de investigar como diferentes grupos demográficos consomem entretenimento digital em distintas plataformas e dispositivos. Em um contexto onde a tecnologia e o consumo de mídia digital estão cada vez mais presentes no cotidiano, sempre é bom buscar fornecer uma visão detalhada sobre os padrões de uso e seus possíveis impactos no bem-estar.

Para abordar essa questão, utilizamos o dataset “social_media_entertainment”, que contém informações detalhadas sobre hábitos digitais de diversos públicos. Aplicamos técnicas para conseguir filtrar esses dados e utilizamos da visualização de dados para identificar padrões entre o tempo de tela diário, a qualidade do sono, a influência da idade, localização geográfica, entre outros critérios. Além disso, analisamos como diferentes faixas etárias em distintos países preferem consumir entretenimento e em quais dispositivos preferidos por cada grupo.

📌 Implicações e aplicações práticas

📌 Para profissionais da saúde e do bem-estar digital: Os dados mostram uma correlação direta entre tempo de tela e qualidade do sono, especialmente em populações mais jovens. Isso pode indicar a necessidade de campanhas educativas sobre o impacto do uso excessivo de telas no bem-estar.

📌 Para empresas de tecnologia e entretenimento: O consumo de mídia varia significativamente por faixa etária e região. Empresas de streaming podem utilizar esses insights para adaptar seus conteúdos e melhorar suas estratégias de distribuição, focando em dispositivos mais usados por cada grupo demográfico.

📌 Para formuladores de políticas públicas: Os dados revelam como o uso excessivo de tecnologia pode impactar o bem-estar da população. Políticas voltadas para educação digital e limites no uso de telas para crianças e adolescentes podem ser consideradas para mitigar os efeitos negativos do consumo exagerado de mídia.

Referências📚

ggplot2: Utilizado para a criação de gráficos e visualizações. Hadley Wickham (2016). ggplot2: Elegant Graphics for Data Analysis. Springer-Verlag New York. Available at: https://ggplot2.tidyverse.org
dplyr: Empregado na manipulação e transformação de dados. Hadley Wickham, Romain François, Lionel Henry and Kirill Müller (2020). dplyr: A Grammar of Data Manipulation. R package version 1.0.2. Available at: https://dplyr.tidyverse.org
knitr: Usado para renderizar gráficos e tabelas nos relatórios. Yihui Xie (2021). knitr: A General-Purpose Package for Dynamic Report Generation in R. R package version 1.33. Available at: https://yihui.org/knitr/
rmdformats: Utilizado para a estilização do documento com o tema ‘material’. Julien Barnier (2021). rmdformats: HTML Output Formats and Templates for ‘rmarkdown’ Documents. R package version 1.0. Available at: https://github.com/juba/rmdformats
Entretenimento e mídias sociais, disponível no link do drive: https://drive.google.com/drive/folders/1tyq26FgxF3yVDzZqUu4HLDXHO5c9x08Q?usp=sharing

Análise do comportamento digital: Um estudo baseado em faixa etária

Alexandre Vitor Rocha de Souza

2025-02-26

Introdução

Declaração do problema

Abordagem metodológica

Abordagem proposta

Benefícios da análise

Pacotes utilizados

Tratamento inicial dos dados

Fonte dos dados

Explicação do tratamento de dados

Filtrando por região

Austrália

Canadá

Germany

Índia

UK

USA

Adicionando colunas

Informações resumidas das variáveis de interesses

Análise do Dataset

1. Caracterização da população

1.1 Visão geral quantitativa por faixa etária

Exemplo sem normalização

Com normalização

2. Padrões de uso das mídias sociais

2.1 Tempo gasto em redes sociais por faixa etária

Padrões identificados

2.2 Número de plataformas utilizadas por faixa etária

2.3 Principal plataforma de mídia social por faixa etária

Principais descobertas

3. Comportamento relacionado ao entretenimento digital

3.1 Tempo gasto com entretenimento por faixa etária

Principais observações

3.2 Plataforma preferida para entretenimento por faixa etária

4. Hábitos digitais e estilo de vida

4.1 Horas gastas com mensagem, vídeos e jogos por faixa etária

4.2 Média de horas dormidas por faixa etária

4.3 Média de atividade física por faixa etária

Principais observações:

5. Interesses e objetivos no uso das redes sociais

5.1 Tipo de conteúdo preferido por faixa etária

Principais observações

5.2 Principal objetivo no uso das redes sociais por faixa etária

Principais observações

Análise Dataset Paises

Comparação de objetivos das mídias sociais por País

Comparação de tipo de conteúdo preferido por País

Análise de comportamento de consumo de entretenimento por nacionalidade e faixa etária

Principais insights extraídos

Conclusão💭

Conclusão final

📌 Implicações e aplicações práticas

Referências📚