Análise Exploratória de Dados: Desempenho Acadêmico de Estudantes


Introdução e Objetivos


Introdução

Neste trabalho, vamos realizar uma Análise Exploratória de Dados (EDA) utilizando um conjunto de dados sobre o desempenho acadêmico de estudantes. O dataset contém informações detalhadas sobre várias características dos alunos, incluindo gênero, grupo étnico, nível de escolaridade dos pais, tipo de almoço recebido e participação em curso de preparação para testes. Além disso, estão disponíveis as notas dos alunos em matemática, leitura e escrita. A análise exploratória nos permitirá identificar padrões e relações significativas entre essas variáveis. Através desta análise, pretendemos fornecer insights valiosos que possam contribuir para o desenvolvimento de estratégias educacionais mais eficazes.


Objetivos

Os principais objetivos deste trabalho são:

1. Entender a Distribuição das Variáveis

  • Distribuição de Gênero: Analisar a proporção de meninos e meninas no dataset.

  • Distribuição da Etnia: Examinar como os diferentes grupos étnicos estão distribuídos.

  • Distribuição do Nível de Educação dos Pais: Avaliar o nível educacional dos pais dos estudantes.

  • Distribuição dos Tipos de Almoço: Identificar quantos alunos recebem almoço gratuito/reduzido versus padrão.

  • Distribuição do Curso de Preparação para o Teste: Verificar quantos alunos completaram o curso de preparação para testes.

  • Distribuição das Notas de Matemática: Observar como as notas de matemática estão distribuídas entre os estudantes.

  • Distribuição das Notas de Leitura: Analisar a distribuição das notas de leitura.

  • Distribuição das Notas de Escrita: Examinar a distribuição das notas de escrita.

2. Explorar Relações Entre as Variáveis

  • Desempenho por Gênero: Explorar como o desempenho em matemática, leitura e escrita varia entre meninos e meninas.

  • Existe Impacto do Nível de Educação dos Pais no desempenho dos alunos ? Investigar como o nível de educação dos pais influencia o desempenho acadêmico dos alunos.

  • Impacto do Tipo de Almoço: Avaliar se alunos que recebem almoço gratuito/reduzido têm desempenho diferente daqueles que recebem almoço padrão.

  • Impacto do Curso de Preparação para o Teste: Analisar se os alunos que completaram o curso de preparação para o teste tiveram melhor desempenho.

  • Etnia e Desempenho Acadêmico: Como as notas de matemática, leitura e escrita variam entre os diferentes grupos étnicos?

  • Relação entre Notas de Matemática e Leitura: Existe uma relação significativa entre as notas de matemática e leitura dos alunos?

  • Relação entre Notas de Matemática e Escrita: Há uma relação significativa entre as notas de matemática e escrita dos alunos?

  • Relação entre Notas de Leitura e Escrita: Existe uma relação significativa entre as notas de leitura e escrita dos alunos?

3. Análise de Outliers:

  • Identificar possíveis outliers nas notas.

4. Probabilidade (Extra)

  • Análise de Probabilidades com Base no Desempenho por Gênero.

  • Análise de Probabilidades com Base no Desempenho por Curso Preparatório.

  • Análise de Probabilidades com Base no Desempenho pelo tipo de escolaridade dos pais.

  • Análise de Probabilidades com Base no Desempenho pelo tipo de almoço.


Informações sobre os dados:

Variáveis:

  • gender: Categórica

  • race/ethnicity: Categórica

  • parental level of education: Categórica

  • lunch: Categórica

  • test preparation course: Categórica

  • math score: Numérica

  • reading score: Numérica

  • writing score: Numérica


Exibindo as primeiras linhas do dataset:
##   gender race.ethnicity parental.level.of.education        lunch
## 1 female        group B           bachelor's degree     standard
## 2 female        group C                some college     standard
## 3 female        group B             master's degree     standard
## 4   male        group A          associate's degree free/reduced
## 5   male        group C                some college     standard
## 6 female        group B          associate's degree     standard
##   test.preparation.course math.score reading.score writing.score
## 1                    none         72            72            74
## 2               completed         69            90            88
## 3                    none         90            95            93
## 4                    none         47            57            44
## 5                    none         76            78            75
## 6                    none         71            83            78
Verificando as características das variáveis:
## 'data.frame':    1000 obs. of  8 variables:
##  $ gender                     : chr  "female" "female" "female" "male" ...
##  $ race.ethnicity             : chr  "group B" "group C" "group B" "group A" ...
##  $ parental.level.of.education: chr  "bachelor's degree" "some college" "master's degree" "associate's degree" ...
##  $ lunch                      : chr  "standard" "standard" "standard" "free/reduced" ...
##  $ test.preparation.course    : chr  "none" "completed" "none" "none" ...
##  $ math.score                 : int  72 69 90 47 76 71 88 40 64 38 ...
##  $ reading.score              : int  72 90 95 57 78 83 95 43 64 60 ...
##  $ writing.score              : int  74 88 93 44 75 78 92 39 67 50 ...

Investigação Detalhada dos Dados

Nesta seção, damos início para a análise exploratória detalhada do conjunto de dados sobre o desempenho acadêmico dos estudantes. Vamos focar em explorar relações entre várias características, como gênero, etnia, nível de educação dos pais, tipo de almoço recebido e participação em cursos de preparação para testes, e como essas características influenciam o desempenho dos alunos em matemática, leitura e escrita. Através dessa investigação, buscamos identificar padrões, tendências e insights significativos que possam contribuir para uma melhor compreensão dos fatores que impactam o desempenho acadêmico.


1. Distribuição de Gênero

Tabela de informações sobre a distribuição:
## # A tibble: 2 × 3
##   Genero    Quantidade Frequencia_relativa
##   <fct>          <int>               <dbl>
## 1 feminino         518               0.518
## 2 masculino        482               0.482

Comentários: Observa-se que há uma maior proporção de mulheres entre os alunos, com 51,8% (518 alunas) em comparação a 48,2% de homens (482 alunos).


2. Distribuição da Etnia

Tabela de informações sobre a distribuição:
## # A tibble: 5 × 3
##   Etnia   Quantidade Frequencia_relativa
##   <fct>        <int>               <dbl>
## 1 grupo C        319               0.319
## 2 grupo D        262               0.262
## 3 grupo B        190               0.19 
## 4 grupo E        140               0.14 
## 5 grupo A         89               0.089

Comentários: Podemos observar que o Grupo C tem a maior quantidade de alunos, com 31,9% do total, seguido pelo Grupo D, com 26,2%. O Grupo A tem a menor quantidade de alunos, com uma representação de apenas 8,9%. Isso indica que há uma distribuição desigual entre os grupos étnicos, onde alguns grupos possuem uma representatividade maior que outros.