Este ejercicio se refiere al conjunto de datos College, que se puede encontrar en el archivo College.csv. Contiene una serie de variables para 777 diferentes universidades y escuelas superiores de los EE.UU.. Las variables son:

Utilizar la función read.csv () para leer los datos en R.

library(readr)
College <- read_delim("../College.csv", ";", escape_double = FALSE, trim_ws = TRUE)
cols(
  X1 = col_character(),
  Private = col_character(),
  Apps = col_integer(),
  Accept = col_integer(),
  Enroll = col_integer(),
  Top10perc = col_integer(),
  Top25perc = col_integer(),
  F.Undergrad = col_integer(),
  P.Undergrad = col_integer(),
  Outstate = col_integer(),
  Room.Board = col_integer(),
  Books = col_integer(),
  Personal = col_integer(),
  PhD = col_integer(),
  Terminal = col_integer(),
  S.F.Ratio = col_number(),
  perc.alumni = col_integer(),
  Expend = col_integer(),
  Grad.Rate = col_integer()
)

Nota: He decidio usar la libreria readr, pues me parece un poco mas eficiente para esta labor. Carga las columnas con los valores esperados, y ademas se puede personalizar el nombre de cada una.

Utilice summary() para producir un resumen numérico de las variables del conjunto de datos.

summary (College)
      X1              Private               Apps           Accept          Enroll       Top10perc    
 Length:777         Length:777         Min.   :   81   Min.   :   72   Min.   :  35   Min.   : 1.00  
 Class :character   Class :character   1st Qu.:  776   1st Qu.:  604   1st Qu.: 242   1st Qu.:15.00  
 Mode  :character   Mode  :character   Median : 1558   Median : 1110   Median : 434   Median :23.00  
                                       Mean   : 3002   Mean   : 2019   Mean   : 780   Mean   :27.56  
                                       3rd Qu.: 3624   3rd Qu.: 2424   3rd Qu.: 902   3rd Qu.:35.00  
                                       Max.   :48094   Max.   :26330   Max.   :6392   Max.   :96.00  
   Top25perc      F.Undergrad     P.Undergrad         Outstate       Room.Board       Books       
 Min.   :  9.0   Min.   :  139   Min.   :    1.0   Min.   : 2340   Min.   :1780   Min.   :  96.0  
 1st Qu.: 41.0   1st Qu.:  992   1st Qu.:   95.0   1st Qu.: 7320   1st Qu.:3597   1st Qu.: 470.0  
 Median : 54.0   Median : 1707   Median :  353.0   Median : 9990   Median :4200   Median : 500.0  
 Mean   : 55.8   Mean   : 3700   Mean   :  855.3   Mean   :10441   Mean   :4358   Mean   : 549.4  
 3rd Qu.: 69.0   3rd Qu.: 4005   3rd Qu.:  967.0   3rd Qu.:12925   3rd Qu.:5050   3rd Qu.: 600.0  
 Max.   :100.0   Max.   :31643   Max.   :21836.0   Max.   :21700   Max.   :8124   Max.   :2340.0  
    Personal         PhD            Terminal       S.F.Ratio      perc.alumni        Expend     
 Min.   : 250   Min.   :  8.00   Min.   : 24.0   Min.   :  5.0   Min.   : 0.00   Min.   : 3186  
 1st Qu.: 850   1st Qu.: 62.00   1st Qu.: 71.0   1st Qu.:107.0   1st Qu.:13.00   1st Qu.: 6751  
 Median :1200   Median : 75.00   Median : 82.0   Median :132.0   Median :21.00   Median : 8377  
 Mean   :1341   Mean   : 72.66   Mean   : 79.7   Mean   :129.2   Mean   :22.74   Mean   : 9660  
 3rd Qu.:1700   3rd Qu.: 85.00   3rd Qu.: 92.0   3rd Qu.:161.0   3rd Qu.:31.00   3rd Qu.:10830  
 Max.   :6800   Max.   :103.00   Max.   :100.0   Max.   :398.0   Max.   :64.00   Max.   :56233  
   Grad.Rate     
 Min.   : 10.00  
 1st Qu.: 53.00  
 Median : 65.00  
 Mean   : 65.46  
 3rd Qu.: 78.00  
 Max.   :118.00  

Usa pairs() para producir una matriz de dispersión de las primeros diez columnas.

pairs(College[, 3:12])

Utilice la función plot() para producir gráficos de caja de lado a lado de Outstate vs Private.

boxplot(College$Outstate ~ College$Private)

Crear una nueva variable cualitativa, llamada “Elite”, para tratar la variable Top10perc.

Vamos a dividir las universidades en dos grupos en función de si o no la proporción de los estudiantes que vienen del 10% superior de su escuela secundaria supera el 50%.

Elite = rep ("No",nrow(College ))
Elite [College$Top10perc >50]="Yes"
Elite = as.factor (Elite)
College = data.frame(College, Elite)

Utilice summary() para ver que existen muchas universidades de élite.

summary(Elite)
 No Yes 
699  78 

Ahora usa la función plot() para producir de lado a lado los diagramas de caja de Outstate vs Elite.

boxplot(College$Outstate ~ College$Elite)

Se puede concluir que las universidades de Elite, suelen tener mayor cantidad de estudiantes foraneos.

Utilizar la función hist() para producir algunos histogramas.

hist(College$App)

hist(College$Accept)

hist(College$Enroll)

hist(College$Outstate)

Nota: Como muestro el informe en forma de Notebook, no es necesario realizar la division del area grafica.

Continuar explorando los datos, y proporcionar un breve resumen de lo que se descubre.

Creare dos DataFrames separados para cada valor de la nueva columna Elite. Es esta manera, puedo realizar comparaciones directamente sobre la data. Quiero explorar las diferencias entre las Universidades de elite y las regulares.

College_Elite <- College[College$Elite == 'Yes',]
College_Non_Elite <- College[College$Elite == 'No',]

Ahora, comparare la cantidad de estudiantes foraneos en las universidades de elite vs las regulares. Esta vez usando histogramas. Usare los mismos limites en X y Y.

hist(College_Elite$Outstate, xlim=c(2000, 22000), breaks=seq(2000, 22000, 1000))

hist(College_Non_Elite$Outstate, xlim=c(2000, 22000), breaks=seq(2000, 22000, 1000))

Comparare este valor, con la cantidad de estudiantes aceptados en general:

hist(College_Elite$Accept, xlim=c(0, 30000), ylim = c(0, 500))

hist(College_Non_Elite$Accept, xlim=c(0, 30000), ylim = c(0, 500))

LS0tDQp0aXRsZTogIlRhcmVhIDEgLSBMZW9uZWwgQXRlbmNpbyAtIERNIg0Kb3V0cHV0OiBodG1sX25vdGVib29rDQotLS0NCg0KRXN0ZSBlamVyY2ljaW8gc2UgcmVmaWVyZSBhbCBjb25qdW50byBkZSBkYXRvcyBDb2xsZWdlLCBxdWUgc2UgcHVlZGUgZW5jb250cmFyDQplbiBlbCBhcmNoaXZvIENvbGxlZ2UuY3N2LiBDb250aWVuZSB1bmEgc2VyaWUgZGUgdmFyaWFibGVzIHBhcmEgNzc3IGRpZmVyZW50ZXMNCnVuaXZlcnNpZGFkZXMgeSBlc2N1ZWxhcyBzdXBlcmlvcmVzIGRlIGxvcyBFRS5VVS4uIExhcyB2YXJpYWJsZXMgc29uOg0KDQotIFByaXZhdGU6IEluZGljYWRvciBww7pibGljbyAvIHByaXZhZG8NCi0gQXBwOiBOw7ptZXJvIGRlIHNvbGljaXR1ZGVzIHJlY2liaWRhcw0KLSBBY2NlcHQ6IE7Dum1lcm8gZGUgc29saWNpdGFudGVzIGFjZXB0YWRvcw0KLSBFbnJvbGw6IE7Dum1lcm8gZGUgbnVldm9zIGFsdW1ub3MgbWF0cmljdWxhZG9zDQotIFRvcDEwIHBlcmM6IEVzdHVkaWFudGVzIG51ZXZvcyBjb3JyZXNwb25kaWVudGUgYWwgZGlleiBwb3IgY2llbnRvIHN1cGVyaW9yIGRlbCDigJxoaWdoIHNjaG9vbOKAnQ0KLSBUb3AyNSBwZXJjOiBFc3R1ZGlhbnRlcyBudWV2b3MgY29ycmVzcG9uZGllbnRlIGFsIHZlaW50aWNpbmNvIHBvciBjaWVudG8gc3VwZXJpb3IgZGVsIOKAnGhpZ2ggc2Nob29s4oCdDQotIEYuVW5kZXJncmFkOiBOw7ptZXJvIGRlIGVzdHVkaWFudGVzIGRlIHRpZW1wbyBjb21wbGV0bw0KLSBQLlVuZGVyZ3JhZDogTsO6bWVybyBkZSBlc3R1ZGlhbnRlcyBhIHRpZW1wbyBwYXJjaWFsDQotIFJvb20uQm9hcmQ6IGxvcyBjb3N0b3MgZGUgcGVuc2nDs24NCi0gT3V0c3RhdGU6IGNhbnRpZGFkIGRlIGVzdHVkaWFudGVzIGV4dHJhbmplcm9zLg0KLSBCb29rczogbG9zIGNvc3RvcyBlc3RpbWFkb3MgZGUgbGlicm9zDQotIFBlcnNvbmFsOiBTZSBlc3RpbWEgcXVlIGVsIGdhc3RvIHBlcnNvbmFsDQotIFBoZDogUG9yY2VudGFqZSBkZSBwcm9mZXNvcmVzIGNvbiBkb2N0b3JhZG9zDQotIFRlcm1pbmFsOiBQb3JjZW50YWplIGRlIHByb2Zlc29yZXMgY29uIGdyYWRvIGRlIHRlcm1pbmFsZXMNCi0gUy5GLlJhdGlvOiBQcm9wb3JjacOzbiBkZSBlc3R1ZGlhbnRlcyAvIHByb2Zlc29yZXMNCi0gcGVyYy5hbHVtbmk6IFBvcmNlbnRhamUgZGUgYWx1bW5vcyBxdWUgZG9uYW4NCi0gRXhwZW5kOiBMb3MgZ2FzdG9zIGRlIGluc3RydWNjacOzbiBwb3IgZXN0dWRpYW50ZQ0KLSBHcmFkLlJhdGU6IFBvcmNlbnRhamUgZGUgZ3JhZHVhY2nDs24NCiAgDQojIyMgVXRpbGl6YXIgbGEgZnVuY2nDs24gYHJlYWQuY3N2ICgpYCBwYXJhIGxlZXIgbG9zIGRhdG9zIGVuIFIuDQpgYGB7cn0NCmxpYnJhcnkocmVhZHIpDQpDb2xsZWdlIDwtIHJlYWRfZGVsaW0oIi4uL0NvbGxlZ2UuY3N2IiwgIjsiLCBlc2NhcGVfZG91YmxlID0gRkFMU0UsIHRyaW1fd3MgPSBUUlVFKQ0KY29scygNCiAgWDEgPSBjb2xfY2hhcmFjdGVyKCksDQogIFByaXZhdGUgPSBjb2xfY2hhcmFjdGVyKCksDQogIEFwcHMgPSBjb2xfaW50ZWdlcigpLA0KICBBY2NlcHQgPSBjb2xfaW50ZWdlcigpLA0KICBFbnJvbGwgPSBjb2xfaW50ZWdlcigpLA0KICBUb3AxMHBlcmMgPSBjb2xfaW50ZWdlcigpLA0KICBUb3AyNXBlcmMgPSBjb2xfaW50ZWdlcigpLA0KICBGLlVuZGVyZ3JhZCA9IGNvbF9pbnRlZ2VyKCksDQogIFAuVW5kZXJncmFkID0gY29sX2ludGVnZXIoKSwNCiAgT3V0c3RhdGUgPSBjb2xfaW50ZWdlcigpLA0KICBSb29tLkJvYXJkID0gY29sX2ludGVnZXIoKSwNCiAgQm9va3MgPSBjb2xfaW50ZWdlcigpLA0KICBQZXJzb25hbCA9IGNvbF9pbnRlZ2VyKCksDQogIFBoRCA9IGNvbF9pbnRlZ2VyKCksDQogIFRlcm1pbmFsID0gY29sX2ludGVnZXIoKSwNCiAgUy5GLlJhdGlvID0gY29sX251bWJlcigpLA0KICBwZXJjLmFsdW1uaSA9IGNvbF9pbnRlZ2VyKCksDQogIEV4cGVuZCA9IGNvbF9pbnRlZ2VyKCksDQogIEdyYWQuUmF0ZSA9IGNvbF9pbnRlZ2VyKCkNCikNCmBgYA0KKk5vdGE6KiBIZSBkZWNpZGlvIHVzYXIgbGEgbGlicmVyaWEgYHJlYWRyYCwgcHVlcyBtZSBwYXJlY2UgdW4gcG9jbyBtYXMgZWZpY2llbnRlIHBhcmEgZXN0YSBsYWJvci4gQ2FyZ2EgbGFzIGNvbHVtbmFzIGNvbiBsb3MgdmFsb3JlcyBlc3BlcmFkb3MsIHkgYWRlbWFzIHNlIHB1ZWRlIHBlcnNvbmFsaXphciBlbCBub21icmUgZGUgY2FkYSB1bmEuDQoNCiMjIyBVdGlsaWNlIGBzdW1tYXJ5KClgIHBhcmEgcHJvZHVjaXIgdW4gcmVzdW1lbiBudW3DqXJpY28gZGUgbGFzIHZhcmlhYmxlcyBkZWwgY29uanVudG8gZGUgZGF0b3MuDQpgYGB7cn0NCnN1bW1hcnkgKENvbGxlZ2UpDQpgYGANCg0KIyMjIFVzYSBgcGFpcnMoKWAgcGFyYSBwcm9kdWNpciB1bmEgbWF0cml6IGRlIGRpc3BlcnNpw7NuIGRlIGxhcyBwcmltZXJvcyBkaWV6IGNvbHVtbmFzLg0KYGBge3J9DQpwYWlycyhDb2xsZWdlWywgMzoxMl0pDQpgYGANCg0KIyMjIFV0aWxpY2UgbGEgZnVuY2nDs24gYHBsb3QoKWAgcGFyYSBwcm9kdWNpciBncsOhZmljb3MgZGUgY2FqYSBkZSBsYWRvIGEgbGFkbyBkZSBPdXRzdGF0ZSB2cyBQcml2YXRlLg0KYGBge3J9DQpib3hwbG90KENvbGxlZ2UkT3V0c3RhdGUgfiBDb2xsZWdlJFByaXZhdGUpDQpgYGANCg0KIyMjIENyZWFyIHVuYSBudWV2YSB2YXJpYWJsZSBjdWFsaXRhdGl2YSwgbGxhbWFkYSDigJxFbGl0ZeKAnSwgcGFyYSB0cmF0YXIgbGEgdmFyaWFibGUgVG9wMTBwZXJjLg0KVmFtb3MgYSBkaXZpZGlyIGxhcyB1bml2ZXJzaWRhZGVzIGVuIGRvcyBncnVwb3MgZW4gZnVuY2nDs24NCmRlIHNpIG8gbm8gbGEgcHJvcG9yY2nDs24gZGUgbG9zIGVzdHVkaWFudGVzIHF1ZSB2aWVuZW4gZGVsIDEwJSBzdXBlcmlvciBkZSBzdSBlc2N1ZWxhDQpzZWN1bmRhcmlhIHN1cGVyYSBlbCA1MCUuDQpgYGB7cn0NCkVsaXRlID0gcmVwICgiTm8iLG5yb3coQ29sbGVnZSApKQ0KRWxpdGUgW0NvbGxlZ2UkVG9wMTBwZXJjID41MF09IlllcyINCkVsaXRlID0gYXMuZmFjdG9yIChFbGl0ZSkNCkNvbGxlZ2UgPSBkYXRhLmZyYW1lKENvbGxlZ2UsIEVsaXRlKQ0KYGBgDQoNCiMjIyBVdGlsaWNlIGBzdW1tYXJ5KClgIHBhcmEgdmVyIHF1ZSBleGlzdGVuIG11Y2hhcyB1bml2ZXJzaWRhZGVzIGRlIMOpbGl0ZS4NCmBgYHtyfQ0Kc3VtbWFyeShFbGl0ZSkNCmBgYA0KDQojIyMgQWhvcmEgdXNhIGxhIGZ1bmNpw7NuIGBwbG90KClgIHBhcmEgcHJvZHVjaXIgZGUgbGFkbyBhIGxhZG8gbG9zIGRpYWdyYW1hcyBkZSBjYWphIGRlIE91dHN0YXRlIHZzIEVsaXRlLg0KYGBge3J9DQpib3hwbG90KENvbGxlZ2UkT3V0c3RhdGUgfiBDb2xsZWdlJEVsaXRlKQ0KYGBgDQpTZSBwdWVkZSBjb25jbHVpciBxdWUgbGFzIHVuaXZlcnNpZGFkZXMgZGUgRWxpdGUsIHN1ZWxlbiB0ZW5lciBtYXlvciBjYW50aWRhZCBkZSBlc3R1ZGlhbnRlcyBmb3JhbmVvcy4NCg0KIyMjIFV0aWxpemFyIGxhIGZ1bmNpw7NuIGBoaXN0KClgIHBhcmEgcHJvZHVjaXIgYWxndW5vcyBoaXN0b2dyYW1hcy4NCmBgYHtyfQ0KaGlzdChDb2xsZWdlJEFwcCkNCmhpc3QoQ29sbGVnZSRBY2NlcHQpDQpoaXN0KENvbGxlZ2UkRW5yb2xsKQ0KaGlzdChDb2xsZWdlJE91dHN0YXRlKQ0KYGBgDQoqTm90YToqIENvbW8gbXVlc3RybyBlbCBpbmZvcm1lIGVuIGZvcm1hIGRlIE5vdGVib29rLCBubyBlcyBuZWNlc2FyaW8gcmVhbGl6YXIgbGEgZGl2aXNpb24gZGVsIGFyZWEgZ3JhZmljYS4NCg0KIyMjIENvbnRpbnVhciBleHBsb3JhbmRvIGxvcyBkYXRvcywgeSBwcm9wb3JjaW9uYXIgdW4gYnJldmUgcmVzdW1lbiBkZSBsbyBxdWUgc2UgZGVzY3VicmUuDQpDcmVhcmUgZG9zIERhdGFGcmFtZXMgc2VwYXJhZG9zIHBhcmEgY2FkYSB2YWxvciBkZSBsYSBudWV2YSBjb2x1bW5hIGBFbGl0ZWAuIEVzIGVzdGEgbWFuZXJhLCBwdWVkbyByZWFsaXphciBjb21wYXJhY2lvbmVzIGRpcmVjdGFtZW50ZSBzb2JyZSBsYSBkYXRhLiBRdWllcm8gZXhwbG9yYXIgbGFzIGRpZmVyZW5jaWFzIGVudHJlIGxhcyBVbml2ZXJzaWRhZGVzIGRlIGVsaXRlIHkgbGFzIHJlZ3VsYXJlcy4NCg0KYGBge3J9DQpDb2xsZWdlX0VsaXRlIDwtIENvbGxlZ2VbQ29sbGVnZSRFbGl0ZSA9PSAnWWVzJyxdDQpDb2xsZWdlX05vbl9FbGl0ZSA8LSBDb2xsZWdlW0NvbGxlZ2UkRWxpdGUgPT0gJ05vJyxdDQpgYGANCg0KQWhvcmEsIGNvbXBhcmFyZSBsYSBjYW50aWRhZCBkZSBlc3R1ZGlhbnRlcyBmb3JhbmVvcyBlbiBsYXMgdW5pdmVyc2lkYWRlcyBkZSBlbGl0ZSB2cyBsYXMgcmVndWxhcmVzLiBFc3RhIHZleiB1c2FuZG8gaGlzdG9ncmFtYXMuIFVzYXJlIGxvcyBtaXNtb3MgbGltaXRlcyBlbiBgWGAgeSBgWWAuDQoNCmBgYHtyfQ0KaGlzdChDb2xsZWdlX0VsaXRlJE91dHN0YXRlLCB4bGltPWMoMjAwMCwgMjIwMDApLCBicmVha3M9c2VxKDIwMDAsIDIyMDAwLCAxMDAwKSkNCmhpc3QoQ29sbGVnZV9Ob25fRWxpdGUkT3V0c3RhdGUsIHhsaW09YygyMDAwLCAyMjAwMCksIGJyZWFrcz1zZXEoMjAwMCwgMjIwMDAsIDEwMDApKQ0KYGBgDQoNCkNvbXBhcmFyZSBlc3RlIHZhbG9yLCBjb24gbGEgY2FudGlkYWQgZGUgZXN0dWRpYW50ZXMgYWNlcHRhZG9zIGVuIGdlbmVyYWw6DQoNCmBgYHtyfQ0KaGlzdChDb2xsZWdlX0VsaXRlJEFjY2VwdCwgeGxpbT1jKDAsIDMwMDAwKSwgeWxpbSA9IGMoMCwgNTAwKSkNCmhpc3QoQ29sbGVnZV9Ob25fRWxpdGUkQWNjZXB0LCB4bGltPWMoMCwgMzAwMDApLCB5bGltID0gYygwLCA1MDApKQ0KYGBgDQoNCg==