Estatística Descritiva

Análise Univariada

Karoline R. R. Campos

05 de outubro de 2023


O Problema abordado é uma situação hipotética para fins de aprendizagem.

O Problema

Uma empresa do setor varejista possui um programa de fidelidade que coleta informações essenciais sobre seus clientes, incluindo identificação, idade, gênero, renda anual e pontuação de gastos. A pontuação de gastos é uma métrica atribuída pela empresa, baseada no comportamento de compra do cliente e na natureza dos gastos. O objetivo deste projeto é realizar uma análise estatística abrangente desses dados com o propósito de obter insights valiosos que possam aprimorar o entendimento dos clientes e subsidiar decisões estratégicas da empresa.

Fonte dataset: https://www.kaggle.com/datasets/kandij/mall-customers


Detecção de Outliers

A detecção e remoção de outliers desempenham um papel crucial na garantia da qualidade dos dados e na precisão das análises em Ciência de Dados, contribuindo para resultados mais confiáveis e modelos mais robustos.

Tabela 1: Resumo Estatístico
age annual_income spending_score
Min. :18.00 Min. : 15.00 Min. : 1.00
1st Qu.:28.75 1st Qu.: 41.50 1st Qu.:34.75
Median :36.00 Median : 61.50 Median :50.00
Mean :38.85 Mean : 60.56 Mean :50.20
3rd Qu.:49.00 3rd Qu.: 78.00 3rd Qu.:73.00
Max. :70.00 Max. :137.00 Max. :99.00

Com os dados obtidos com a tabela acima, apliquei a regra IQR (Intervalo Interquartil) em cada variável acima e qualquer valor fora dos limites superiores e inferiores, são considerados outliers. Os cálculos são dados pela fórmula abaixo:

IQR = 3rd Qu. - 1st Qu.
Limite inferior = 1st Qu. - 1.5IQR
Limite superior = 3rd Qu. - 1.5IQR

Tabela 2: Limites Superiores e Inferiores
var lower upper
Age -1.625 79.375
Annual Income -13.25 132.75
Spending Score -22.625 130.375


Estatística Descritiva Univariada

  • Medidas de posição e dispersão

A tabela ao lado mostra os resultados das medidas de posição e dispersão para grupos feminino e masculino em três diferentes aspectos: idade, renda anual e pontuação de gastos.

Tabela 3: Análise Estatística
Statistical Measures
Age
Annual Income
Spending Score
Female Male Female Male Female Male
count 112 88 112 88 112 88
mean 38.10 39.81 59.25 60.51 51.53 48.51
median 35 37 60 62 50 50
quantile_1 29.00 27.75 39.75 45.50 35.0 24.5
quantile_3 47.5 50.5 77.25 77.25 73 70
minima 18 18 16 15 5 1
maxima 68 70 126 126 99 97
amplitude 50 52 110 111 94 96
variance 159.87 240.71 676.62 578.11 581.53 778.23
standard_deviation 12.64 15.51 26.01 24.04 24.11 27.90
standard_error 1.19 1.65 2.46 2.56 2.28 2.97
coef_variation 33.19% 38.97% 43.90% 39.74% 46.80% 57.51%
  • Idade:

Ao analisar as idades dos grupos feminino e masculino, observamos que ambos têm médias de valores próximos, com 38.10 anos para as mulheres e 39.81 anos para os homens. No entanto, há diferenças notáveis em relação à variabilidade. O grupo masculino apresenta uma variabilidade um pouco maior, como indicado pelo coeficiente de variação (CV) de aproximadamente 38.97%, em comparação com o CV de aproximadamente 33.19% para o grupo feminino. Isso sugere que as idades dos homens tendem a se dispersar um pouco mais em relação à média do que as idades das mulheres.

  • Renda Anual:

Após analisar as informações sobre a renda anual nos grupos feminino e masculino, podemos observar que, em média, os homens têm uma renda ligeiramente superior à das mulheres, com médias de aproximadamente 60.51 unidades monetárias para os homens e 59.25 unidades monetárias para as mulheres. No entanto, ambas as distribuições de renda exibem uma variabilidade moderada em relação às médias, como indicado pelos coeficientes de variação (CV) de aproximadamente 39.74% para os homens e 43.90% para as mulheres.

Além disso, ao analisar os quartis, percebemos que os grupos compartilham valores semelhantes no terceiro quartil (Q3), sugerindo que uma porção significativa de ambos os grupos tem renda relativamente alta. A diferença na mediana é relativamente pequena, o que indica que a renda está centralizada em torno de valores semelhantes para ambos os gêneros.

  • Pontuação de Gastos:

Ao analisar as pontuações de gastos nos grupos feminino e masculino, observamos diferenças marcantes nos resultados. O grupo feminino apresenta uma média de pontuação de aproximadamente 51.53, enquanto o grupo masculino tem uma média ligeiramente menor, aproximadamente 48.51. A mediana para ambos os grupos é de 50, o que sugere que a maioria dos clientes em ambos os grupos possui pontuações próximas à média.

No entanto, é notável que o grupo masculino exiba uma variabilidade mais significativa em relação à média, conforme indicado pelo coeficiente de variação (CV) de cerca de 57.51%, em comparação com o CV de aproximadamente 46.80% para o grupo feminino. Isso indica que as pontuações de gastos dos homens têm uma dispersão maior em relação à média, o que pode resultar em uma distribuição de pontuações mais ampla.

Além disso, a amplitude das pontuações dos homens é maior, com 96 unidades de diferença entre a pontuação máxima e mínima, em comparação com uma amplitude de 94 unidades para o grupo feminino.


Distribuição de Frequência e Visualização dos Dados

  • Tabela de distribuição de frequências para dados contínuos

A tabela de frequência para análise de dados revela padrões interessantes em relação às faixas etárias, renda anual e score de gastos dos clientes de uma empresa varejista.

Tabela 4: Distribuibuição de Frequência - Faixa Etária
Classes Freq FreqRel FreqAcum FreqRelAcum
[18,23.8] 31 15.5% 31 15.5%
(23.8,29.6] 24 12% 55 27.5%
(29.6,35.3] 43 21.5% 98 49%
(35.3,41.1] 26 13% 124 62%
(41.1,46.9] 13 6.5% 137 68.5%
(46.9,52.7] 27 13.5% 164 82%
(52.7,58.4] 12 6% 176 88%
(58.4,64.2] 10 5% 186 93%
(64.2,70] 14 7% 200 100%

No que diz respeito à faixa etária, observou-se que a faixa [29.6,35.3] emergiu como a mais frequente, abrangendo 21.5% dos clientes. Essa concentração sugere várias hipóteses, incluindo a influência do mercado de trabalho, planejamento familiar e diversificação das necessidades de consumo. Clientes nessa faixa etária podem estar passando pelo período de estabelecimento de carreiras, entrando na vida familiar e buscando conveniência em suas compras. No entanto, é importante destacar que essas são hipóteses iniciais que precisam de análises mais detalhadas dos dados e do comportamento do cliente.

Analisando a renda anual dos clientes, a faixa [52,64.3] foi identificada como a mais frequente, representando 21% dos clientes. Isso pode estar relacionado a fatores como estabilidade financeira, planejamento familiar, poder de compra e preferências de estilo de vida. Clientes com renda mais alta tendem a ter flexibilidade financeira para realizar compras frequentes, adquirir produtos de maior valor e responder a promoções e ofertas. No entanto, como nas análises anteriores, essas são hipóteses gerais que necessitam de uma investigação mais profunda.

Tabela 5: Distribuibuição de Frequência - Faixa de Renda
Classes Freq FreqRel FreqAcum FreqRelAcum
[15,27.3] 24 12% 24 12%
(27.3,39.7] 22 11% 46 23%
(39.7,52] 28 14% 74 37%
(52,64.3] 42 21% 116 58%
(64.3,76.7] 30 15% 146 73%
(76.7,89] 34 17% 180 90%
(89,101] 10 5% 190 95%
(101,114] 6 3% 196 98%
(114,126] 4 2% 200 100%

No que se refere ao score de gastos, a faixa [43.7,54.3] destacou-se como a mais frequente, representando 18.5% dos clientes. Essa frequência pode ser influenciada por diversos fatores, como a interseção entre renda, estilo de vida, hábitos de consumo e poder de compra. Os clientes com score de gastos mais alto parecem ter flexibilidade financeira para realizar compras frequentes e responder a promoções e ofertas.

Tabela 6: Distribuibuição de Frequência - Faixa de Pontuação
Classes Freq FreqRel FreqAcum FreqRelAcum
[1,11.7] 17 8.5% 17 8.5%
(11.7,22.3] 20 10% 37 18.5%
(22.3,33] 12 6% 49 24.5%
(33,43.7] 29 14.5% 78 39%
(43.7,54.3] 37 18.5% 115 57.5%
(54.3,65] 27 13.5% 142 71%
(65,75.7] 20 10% 162 81%
(75.7,86.3] 16 8% 178 89%
(86.3,97] 20 10% 198 99%

Em resumo, as tabelas de frequência oferecem uma visão inicial sobre os padrões de faixa etária, renda anual e score de gastos dos clientes, mas é crucial enfatizar que essas análises são baseadas em hipóteses gerais. Uma análise mais aprofundada dos dados da empresa e do comportamento do cliente é necessária para compreender com precisão as motivações por trás desses padrões e adaptar estratégias de marketing e produtos de acordo com as necessidades e preferências específicas de cada grupo demográfico. Coletar dados adicionais e conduzir pesquisas de mercado específicas são passos fundamentais para obter insights mais precisos.