Os dados

Os dados aqui analisados são referentes a um conjunto de 7 cursos que foram ministrados no período de 2013 até 2014 da Open University (OULAD), os dados estão anônimos. Eles contém dados sobre cursos, alunos e suas interações com Ambiente Virtual de Aprendizagem (AVA), um conjunto de 32.593 alunos. O conjunto de dados consiste em tabelas conectadas por meio de identificadores exclusivos. As principais tabelas trabalhadas aqui foram:

Estrutura da tabela:

##  code_module        code_presentation    id_student         gender         
##  Length:32593       Length:32593       Min.   :   3733   Length:32593      
##  Class :character   Class :character   1st Qu.: 508573   Class :character  
##  Mode  :character   Mode  :character   Median : 590310   Mode  :character  
##                                        Mean   : 706688                     
##                                        3rd Qu.: 644453                     
##                                        Max.   :2716795                     
##     region          highest_education    imd_band           age_band        
##  Length:32593       Length:32593       Length:32593       Length:32593      
##  Class :character   Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character   Mode  :character  
##                                                                             
##                                                                             
##                                                                             
##  num_of_prev_attempts studied_credits   disability        final_result      
##  Min.   :0.0000       Min.   : 30.00   Length:32593       Length:32593      
##  1st Qu.:0.0000       1st Qu.: 60.00   Class :character   Class :character  
##  Median :0.0000       Median : 60.00   Mode  :character   Mode  :character  
##  Mean   :0.1632       Mean   : 79.76                                        
##  3rd Qu.:0.0000       3rd Qu.:120.00                                        
##  Max.   :6.0000       Max.   :655.00
##  code_module        code_presentation  module_presentation_length
##  Length:22          Length:22          Min.   :234.0             
##  Class :character   Class :character   1st Qu.:241.0             
##  Mode  :character   Mode  :character   Median :261.5             
##                                        Mean   :255.5             
##                                        3rd Qu.:268.0             
##                                        Max.   :269.0
##  code_module        code_presentation    id_student      date_registration
##  Length:32593       Length:32593       Min.   :   3733   Min.   :-322.00  
##  Class :character   Class :character   1st Qu.: 508573   1st Qu.:-100.00  
##  Mode  :character   Mode  :character   Median : 590310   Median : -57.00  
##                                        Mean   : 706688   Mean   : -69.41  
##                                        3rd Qu.: 644453   3rd Qu.: -29.00  
##                                        Max.   :2716795   Max.   : 167.00  
##                                                          NA's   :45       
##  date_unregistration
##  Min.   :-365.00    
##  1st Qu.:  -2.00    
##  Median :  27.00    
##  Mean   :  49.76    
##  3rd Qu.: 109.00    
##  Max.   : 444.00    
##  NA's   :22521

Especificação dos atributos:

studentInfo

  • code_module - código de identificação do módulo.
  • code_presentation - código de identificação da apresentação.
  • id_student - número de identificação único para o aluno.
  • gênero - gênero do aluno.
  • região - região geográfica onde o aluno morou.
  • most_education - nível mais alto de educação do aluno.
  • imd_band - especifica a faixa do Índice onde o aluno morou.
  • age_band - faixa de idade do aluno.
  • num_of_prev_attempts - o número de vezes que o aluno tentou este módulo.
  • stud_credits - número total de créditos dos módulos que o aluno está estudando.
  • deficiência - indica se o aluno declarou deficiência.
  • final_result - resultado final do aluno na apresentação do módulo.

courses

  • code_module - nome do código do módulo, que serve como identificador.
  • code_presentation - codinome da apresentação. Consiste no ano e “B” para a apresentação a partir de fevereiro e “J” para a apresentação a partir de outubro.
  • comprimento - duração da apresentação do módulo em dias.

studentRegistration

  • code_module - código de identificação para um módulo.
  • code_presentation - código de identificação da apresentação.
  • id_student - um número de identificação único para o aluno.
  • date_registration - data de registro do aluno na apresentação do módulo.
  • date_unregistration - data de cancelamento da inscrição do aluno na apresentação do módulo.

Tipo dos dados:

studentInfo

  • code_module - Discreta.
  • code_presentation - Nominal.
  • id_student - Discreta.
  • gênero - Nominal.
  • região - Nominal.
  • most_education - Discreta.
  • imd_band - Discreta.
  • age_band - Nominal.
  • num_of_prev_attempts - Nominal.
  • stud_credits - Discreta.
  • deficiência - Nominal.
  • final_result - Nominal.

courses

  • code_module - Discreta.
  • code_presentation - Nominal.
  • comprimento - Discreta.

studentRegistration

  • code_module - Nominal.
  • code_presentation - Nominal.
  • id_student - Discreta.
  • date_registration - Discreta.
  • date_unregistration - Discreta.

Levantamento por variável:

Código do Curso

## # A tibble: 7 x 3
##   code_module contador  perc
##   <chr>          <int> <dbl>
## 1 AAA              748  2.29
## 2 BBB             7909 24.3 
## 3 CCC             4434 13.6 
## 4 DDD             6272 19.2 
## 5 EEE             2934  9.00
## 6 FFF             7762 23.8 
## 7 GGG             2534  7.77

Região

## # A tibble: 13 x 3
##    region               contador  perc
##    <chr>                   <int> <dbl>
##  1 East Anglian Region      3340 10.2 
##  2 East Midlands Region     2365  7.26
##  3 Ireland                  1184  3.63
##  4 London Region            3216  9.87
##  5 North Region             1823  5.59
##  6 North Western Region     2906  8.92
##  7 Scotland                 3446 10.6 
##  8 South East Region        2111  6.48
##  9 South Region             3092  9.49
## 10 South West Region        2436  7.47
## 11 Wales                    2086  6.40
## 12 West Midlands Region     2582  7.92
## 13 Yorkshire Region         2006  6.15

Escolaridade

## # A tibble: 5 x 3
##   highest_education           contador   perc
##   <chr>                          <int>  <dbl>
## 1 A Level or Equivalent          14045 43.1  
## 2 HE Qualification                4730 14.5  
## 3 Lower Than A Level             13158 40.4  
## 4 No Formal quals                  347  1.06 
## 5 Post Graduate Qualification      313  0.960

Sexo

## # A tibble: 2 x 3
##   gender contador  perc
##   <chr>     <int> <dbl>
## 1 F         14718  45.2
## 2 M         17875  54.8

Idade

## # A tibble: 3 x 3
##   age_band contador   perc
##   <chr>       <int>  <dbl>
## 1 0-35        22944 70.4  
## 2 35-55        9433 28.9  
## 3 55<=          216  0.663

Índice do local de morada do aluno

## # A tibble: 11 x 3
##    imd_band contador  perc
##    <chr>       <int> <dbl>
##  1 0-10%        3311 10.2 
##  2 10-20        3516 10.8 
##  3 20-30%       3654 11.2 
##  4 30-40%       3539 10.9 
##  5 40-50%       3256  9.99
##  6 50-60%       3124  9.58
##  7 60-70%       2905  8.91
##  8 70-80%       2879  8.83
##  9 80-90%       2762  8.47
## 10 90-100%      2536  7.78
## 11 <NA>         1111  3.41

Número de tentativas

## # A tibble: 7 x 3
##   num_of_prev_attempts contador    perc
##                  <dbl>    <int>   <dbl>
## 1                    0    28421 87.2   
## 2                    1     3299 10.1   
## 3                    2      675  2.07  
## 4                    3      142  0.436 
## 5                    4       39  0.120 
## 6                    5       13  0.0399
## 7                    6        4  0.0123

Deficiência

## # A tibble: 2 x 3
##   disability contador  perc
##   <chr>         <int> <dbl>
## 1 N             29429 90.3 
## 2 Y              3164  9.71

Resultado Final

## # A tibble: 4 x 3
##   final_result contador  perc
##   <chr>           <int> <dbl>
## 1 Distinction      3024  9.28
## 2 Fail             7052 21.6 
## 3 Pass            12361 37.9 
## 4 Withdrawn       10156 31.2

Relacionamento entre variáveis

## # A tibble: 32,593 x 5
##    code_module   ano semestre highest_education           final_result
##    <chr>       <int> <chr>    <chr>                       <chr>       
##  1 AAA          2013 J        HE Qualification            Pass        
##  2 AAA          2013 J        HE Qualification            Pass        
##  3 AAA          2013 J        A Level or Equivalent       Withdrawn   
##  4 AAA          2013 J        A Level or Equivalent       Pass        
##  5 AAA          2013 J        Lower Than A Level          Pass        
##  6 AAA          2013 J        A Level or Equivalent       Pass        
##  7 AAA          2013 J        HE Qualification            Pass        
##  8 AAA          2013 J        A Level or Equivalent       Pass        
##  9 AAA          2013 J        A Level or Equivalent       Pass        
## 10 AAA          2013 J        Post Graduate Qualification Pass        
## # ... with 32,583 more rows

Levantamento por variável, tabela studentRegistration:

Matriculas realizadas antes e depois do início do curso

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
## -322.00 -100.00  -57.00  -69.41  -29.00  167.00      45
## Warning: Removed 45 rows containing missing values (geom_point).

Matriculas realizadas antes e depois do início do curso - 2013

## # A tibble: 13,529 x 2
##    code_module date_registration
##    <chr>                   <dbl>
##  1 AAA                      -159
##  2 AAA                       -53
##  3 AAA                       -92
##  4 AAA                       -52
##  5 AAA                      -176
##  6 AAA                      -110
##  7 AAA                       -67
##  8 AAA                       -29
##  9 AAA                       -33
## 10 AAA                      -179
## # ... with 13,519 more rows
## Warning: Removed 18 rows containing missing values (geom_point).

Matriculas realizadas antes e depois do início do curso - 2014

## # A tibble: 19,064 x 2
##    code_module date_registration
##    <chr>                   <dbl>
##  1 AAA                       -52
##  2 AAA                       -18
##  3 AAA                       -38
##  4 AAA                      -130
##  5 AAA                       -52
##  6 AAA                       -74
##  7 AAA                       -22
##  8 AAA                       -87
##  9 AAA                       -72
## 10 AAA                       -80
## # ... with 19,054 more rows
## Warning: Removed 27 rows containing missing values (geom_point).