Introducción

El siguiente trabajo tiene por objetivo analizar los resultados obtenidos durante en la Prueba de Selección Universitaria (PSU) año 2016. La PSU es un test estandarizado escrito el que se utiliza para el proceso de admisión a la educacion universitaria en Chile. El origen de los datos fue la web https://es.datachile.io/geo/chile#education .

Al analizar los datos, mediante herramientas estadisticas y de analisis, se espera encontrar alguna relacion entre notas, puntaje PSU, tipo de colegio o ubicacion geografica.

Descripción de los datos

Los datos fueron descargados en formato csv. Tras su descarga, se traspaso a formato xslx. Estan agrupados por region,comuna, tipo de administracion del colegio, promedio notas enseñanza media y promedio psu

Obtencion

Procesamiento

Antes de cargar los datos en R, se necesita preparar los datos y transformar el formato de archivo csv a xlsx

Datos en Formato CSV

Datos en Formato CSV

Se separan los datos (que venian separados por coma)

Separacion de datos en columnas

Separacion de datos en columnas

Se limpian los datos de tipo texto (region, comuna, administracion), eliminando caracteres extraños (al convertir a CSV se pierden los tildes y la Ñ no es reconocida)

Limpieza de datos

Limpieza de datos

Se normalizan los datos de tipo numerico, el puntaje psu debe ser un valor entero de 3 digitos, el promedio de notas de enseñanza media (NEM) debe ser un valor decimal con precision de 2 digitos decimales, el numero de alumnos (records) debe ser normalizado a un valor entero.

Normalizacion de datos

Normalizacion de datos

## [1] "C:/Users/d_loyola/OneDrive/Documentos/Universidad/Semestre 6/ACI777 - ANALISIS DE DATOS/TRABAJO/PSU vs NEM"
Importacion de Datos

Importacion de Datos

Visualizacion de Datos

Visualizacion de Datos

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   360.0   433.0   462.0   476.4   503.0   690.0
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   4.900   5.490   5.590   5.617   5.730   6.400
## Classes 'tbl_df', 'tbl' and 'data.frame':    673 obs. of  9 variables:
##  $ ID Region        : num  1 1 1 1 1 1 1 1 1 1 ...
##  $ Region           : chr  "Tarapaca" "Tarapaca" "Tarapaca" "Tarapaca" ...
##  $ ID Comuna        : num  5 5 58 108 108 113 113 113 113 217 ...
##  $ Comuna           : chr  "Alto Hospicio" "Alto Hospicio" "Colchane" "Huara" ...
##  $ ID Administration: num  1 2 1 1 2 1 2 3 4 1 ...
##  $ Administration   : chr  "Municipal" "Particular Subvencionado" "Municipal" "Municipal" ...
##  $ Average PSU      : num  459 455 370 378 462 445 514 580 432 443 ...
##  $ Average NEM      : num  5.55 5.54 5.49 5.62 5.38 5.56 5.68 5.98 5.36 5.65 ...
##  $ Number of records: num  76 1289 3 15 1 ...

Visualizar Nombres de Columnas

## [1] "ID Region"         "Region"            "ID Comuna"        
## [4] "Comuna"            "ID Administration" "Administration"   
## [7] "Average PSU"       "Average NEM"       "Number of records"

Modifico Nombres de Columnas

## [1] "ID Region"           "Region"              "ID Comuna"          
## [4] "Comuna"              "ID Administracion"   "Tipo Administracion"
## [7] "Prom PSU"            "Prom NEM"            "Total Alumnos"

Validacion de Datos No Validos

##           ID Region              Region           ID Comuna              Comuna 
##                   0                   0                   0                   0 
##   ID Administracion Tipo Administracion            Prom PSU            Prom NEM 
##                   0                   0                   0                   0 
##       Total Alumnos 
##                   0

Estadisticas

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   360.0   433.0   462.0   476.4   503.0   690.0
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   4.900   5.490   5.590   5.617   5.730   6.400
##    ID Region         Region            ID Comuna        Comuna         
##  Min.   : 1.000   Length:673         Min.   :  1.0   Length:673        
##  1st Qu.: 6.000   Class :character   1st Qu.: 85.0   Class :character  
##  Median : 8.000   Mode  :character   Median :172.0   Mode  :character  
##  Mean   : 8.505                      Mean   :173.5                     
##  3rd Qu.:13.000                      3rd Qu.:262.0                     
##  Max.   :15.000                      Max.   :346.0                     
##  ID Administracion Tipo Administracion    Prom PSU        Prom NEM    
##  Min.   :1.000     Length:673          Min.   :360.0   Min.   :4.900  
##  1st Qu.:1.000     Class :character    1st Qu.:433.0   1st Qu.:5.490  
##  Median :2.000     Mode  :character    Median :462.0   Median :5.590  
##  Mean   :1.756                         Mean   :476.4   Mean   :5.617  
##  3rd Qu.:2.000                         3rd Qu.:503.0   3rd Qu.:5.730  
##  Max.   :4.000                         Max.   :690.0   Max.   :6.400  
##  Total Alumnos   
##  Min.   :   1.0  
##  1st Qu.:  63.0  
##  Median : 143.0  
##  Mean   : 431.3  
##  3rd Qu.: 397.0  
##  Max.   :7354.0

Graficos

Analisis de Datos por Tipo de Administracion de Colegio

## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
## [1] "ID.Region"           "Region"              "ID.Comuna"          
## [4] "Comuna"              "ID.Administracion"   "Tipo.Administracion"
## [7] "Prom.PSU"            "Prom.NEM"            "Total.Alumnos"