O Problema abordado é uma situação hipotética para fins de aprendizagem.
Uma empresa do setor varejista possui um programa de fidelidade que coleta informações essenciais sobre seus clientes, incluindo identificação, idade, gênero, renda anual e pontuação de gastos. A pontuação de gastos é uma métrica atribuída pela empresa, baseada no comportamento de compra do cliente e na natureza dos gastos. O objetivo deste projeto é realizar uma análise estatística abrangente desses dados com o propósito de obter insights valiosos que possam aprimorar o entendimento dos clientes e subsidiar decisões estratégicas da empresa.
Fonte dataset: https://www.kaggle.com/datasets/kandij/mall-customers
A detecção e remoção de outliers desempenham um papel crucial na garantia da qualidade dos dados e na precisão das análises em Ciência de Dados, contribuindo para resultados mais confiáveis e modelos mais robustos.
| age | annual_income | spending_score | |
|---|---|---|---|
| Min. :18.00 | Min. : 15.00 | Min. : 1.00 | |
| 1st Qu.:28.75 | 1st Qu.: 41.50 | 1st Qu.:34.75 | |
| Median :36.00 | Median : 61.50 | Median :50.00 | |
| Mean :38.85 | Mean : 60.56 | Mean :50.20 | |
| 3rd Qu.:49.00 | 3rd Qu.: 78.00 | 3rd Qu.:73.00 | |
| Max. :70.00 | Max. :137.00 | Max. :99.00 |
Com os dados obtidos com a tabela acima, apliquei a regra IQR (Intervalo Interquartil) em cada variável acima e qualquer valor fora dos limites superiores e inferiores, são considerados outliers. Os cálculos são dados pela fórmula abaixo:
IQR
= 3rd Qu. - 1st Qu.
Limite inferior = 1st Qu. - 1.5IQR
Limite superior = 3rd Qu. - 1.5IQR
| var | lower | upper |
|---|---|---|
| Age | -1.625 | 79.375 |
| Annual Income | -13.25 | 132.75 |
| Spending Score | -22.625 | 130.375 |
A tabela ao lado mostra os resultados das medidas de posição e dispersão para grupos feminino e masculino em três diferentes aspectos: idade, renda anual e pontuação de gastos.
|
Statistical Measures
|
Age
|
Annual Income
|
Spending Score
|
|||
|---|---|---|---|---|---|---|
| Female | Male | Female | Male | Female | Male | |
| count | 112 | 88 | 112 | 88 | 112 | 88 |
| mean | 38.10 | 39.81 | 59.25 | 60.51 | 51.53 | 48.51 |
| median | 35 | 37 | 60 | 62 | 50 | 50 |
| quantile_1 | 29.00 | 27.75 | 39.75 | 45.50 | 35.0 | 24.5 |
| quantile_3 | 47.5 | 50.5 | 77.25 | 77.25 | 73 | 70 |
| minima | 18 | 18 | 16 | 15 | 5 | 1 |
| maxima | 68 | 70 | 126 | 126 | 99 | 97 |
| amplitude | 50 | 52 | 110 | 111 | 94 | 96 |
| variance | 159.87 | 240.71 | 676.62 | 578.11 | 581.53 | 778.23 |
| standard_deviation | 12.64 | 15.51 | 26.01 | 24.04 | 24.11 | 27.90 |
| standard_error | 1.19 | 1.65 | 2.46 | 2.56 | 2.28 | 2.97 |
| coef_variation | 33.19% | 38.97% | 43.90% | 39.74% | 46.80% | 57.51% |
- Idade:
Ao analisar as idades dos grupos feminino e masculino, observamos que ambos têm médias de valores próximos, com 38.10 anos para as mulheres e 39.81 anos para os homens. No entanto, há diferenças notáveis em relação à variabilidade. O grupo masculino apresenta uma variabilidade um pouco maior, como indicado pelo coeficiente de variação (CV) de aproximadamente 38.97%, em comparação com o CV de aproximadamente 33.19% para o grupo feminino. Isso sugere que as idades dos homens tendem a se dispersar um pouco mais em relação à média do que as idades das mulheres.
- Renda Anual:
Após analisar as informações sobre a renda anual nos grupos feminino e masculino, podemos observar que, em média, os homens têm uma renda ligeiramente superior à das mulheres, com médias de aproximadamente 60.51 unidades monetárias para os homens e 59.25 unidades monetárias para as mulheres. No entanto, ambas as distribuições de renda exibem uma variabilidade moderada em relação às médias, como indicado pelos coeficientes de variação (CV) de aproximadamente 39.74% para os homens e 43.90% para as mulheres.
Além disso, ao analisar os quartis, percebemos que os grupos compartilham valores semelhantes no terceiro quartil (Q3), sugerindo que uma porção significativa de ambos os grupos tem renda relativamente alta. A diferença na mediana é relativamente pequena, o que indica que a renda está centralizada em torno de valores semelhantes para ambos os gêneros.
- Pontuação de Gastos:
Ao analisar as pontuações de gastos nos grupos feminino e masculino, observamos diferenças marcantes nos resultados. O grupo feminino apresenta uma média de pontuação de aproximadamente 51.53, enquanto o grupo masculino tem uma média ligeiramente menor, aproximadamente 48.51. A mediana para ambos os grupos é de 50, o que sugere que a maioria dos clientes em ambos os grupos possui pontuações próximas à média.
No entanto, é notável que o grupo masculino exiba uma variabilidade mais significativa em relação à média, conforme indicado pelo coeficiente de variação (CV) de cerca de 57.51%, em comparação com o CV de aproximadamente 46.80% para o grupo feminino. Isso indica que as pontuações de gastos dos homens têm uma dispersão maior em relação à média, o que pode resultar em uma distribuição de pontuações mais ampla.
Além disso, a amplitude das pontuações dos homens é maior, com 96 unidades de diferença entre a pontuação máxima e mínima, em comparação com uma amplitude de 94 unidades para o grupo feminino.
A tabela de frequência para análise de dados revela padrões interessantes em relação às faixas etárias, renda anual e score de gastos dos clientes de uma empresa varejista.
| Classes | Freq | FreqRel | FreqAcum | FreqRelAcum |
|---|---|---|---|---|
| [18,23.8] | 31 | 15.5% | 31 | 15.5% |
| (23.8,29.6] | 24 | 12% | 55 | 27.5% |
| (29.6,35.3] | 43 | 21.5% | 98 | 49% |
| (35.3,41.1] | 26 | 13% | 124 | 62% |
| (41.1,46.9] | 13 | 6.5% | 137 | 68.5% |
| (46.9,52.7] | 27 | 13.5% | 164 | 82% |
| (52.7,58.4] | 12 | 6% | 176 | 88% |
| (58.4,64.2] | 10 | 5% | 186 | 93% |
| (64.2,70] | 14 | 7% | 200 | 100% |
No que diz respeito à faixa etária, observou-se que a faixa [29.6,35.3] emergiu como a mais frequente, abrangendo 21.5% dos clientes. Essa concentração sugere várias hipóteses, incluindo a influência do mercado de trabalho, planejamento familiar e diversificação das necessidades de consumo. Clientes nessa faixa etária podem estar passando pelo período de estabelecimento de carreiras, entrando na vida familiar e buscando conveniência em suas compras. No entanto, é importante destacar que essas são hipóteses iniciais que precisam de análises mais detalhadas dos dados e do comportamento do cliente.
Analisando a renda anual dos clientes, a faixa [52,64.3] foi identificada como a mais frequente, representando 21% dos clientes. Isso pode estar relacionado a fatores como estabilidade financeira, planejamento familiar, poder de compra e preferências de estilo de vida. Clientes com renda mais alta tendem a ter flexibilidade financeira para realizar compras frequentes, adquirir produtos de maior valor e responder a promoções e ofertas. No entanto, como nas análises anteriores, essas são hipóteses gerais que necessitam de uma investigação mais profunda.
| Classes | Freq | FreqRel | FreqAcum | FreqRelAcum |
|---|---|---|---|---|
| [15,27.3] | 24 | 12% | 24 | 12% |
| (27.3,39.7] | 22 | 11% | 46 | 23% |
| (39.7,52] | 28 | 14% | 74 | 37% |
| (52,64.3] | 42 | 21% | 116 | 58% |
| (64.3,76.7] | 30 | 15% | 146 | 73% |
| (76.7,89] | 34 | 17% | 180 | 90% |
| (89,101] | 10 | 5% | 190 | 95% |
| (101,114] | 6 | 3% | 196 | 98% |
| (114,126] | 4 | 2% | 200 | 100% |
No que se refere ao score de gastos, a faixa [43.7,54.3] destacou-se como a mais frequente, representando 18.5% dos clientes. Essa frequência pode ser influenciada por diversos fatores, como a interseção entre renda, estilo de vida, hábitos de consumo e poder de compra. Os clientes com score de gastos mais alto parecem ter flexibilidade financeira para realizar compras frequentes e responder a promoções e ofertas.
| Classes | Freq | FreqRel | FreqAcum | FreqRelAcum |
|---|---|---|---|---|
| [1,11.7] | 17 | 8.5% | 17 | 8.5% |
| (11.7,22.3] | 20 | 10% | 37 | 18.5% |
| (22.3,33] | 12 | 6% | 49 | 24.5% |
| (33,43.7] | 29 | 14.5% | 78 | 39% |
| (43.7,54.3] | 37 | 18.5% | 115 | 57.5% |
| (54.3,65] | 27 | 13.5% | 142 | 71% |
| (65,75.7] | 20 | 10% | 162 | 81% |
| (75.7,86.3] | 16 | 8% | 178 | 89% |
| (86.3,97] | 20 | 10% | 198 | 99% |
Em resumo, as tabelas de frequência oferecem uma visão inicial sobre os padrões de faixa etária, renda anual e score de gastos dos clientes, mas é crucial enfatizar que essas análises são baseadas em hipóteses gerais. Uma análise mais aprofundada dos dados da empresa e do comportamento do cliente é necessária para compreender com precisão as motivações por trás desses padrões e adaptar estratégias de marketing e produtos de acordo com as necessidades e preferências específicas de cada grupo demográfico. Coletar dados adicionais e conduzir pesquisas de mercado específicas são passos fundamentais para obter insights mais precisos.