Este ejercicio se refiere al conjunto de datos College, que se puede encontrar en el archivo College.csv. Contiene una serie de variables para 777 diferentes universidades y escuelas superiores de los EE.UU.. Las variables son:
- Private: Indicador público / privado
- App: Número de solicitudes recibidas
- Accept: Número de solicitantes aceptados
- Enroll: Número de nuevos alumnos matriculados
- Top10 perc: Estudiantes nuevos correspondiente al diez por ciento superior del “high school”
- Top25 perc: Estudiantes nuevos correspondiente al veinticinco por ciento superior del “high school”
- F.Undergrad: Número de estudiantes de tiempo completo
- P.Undergrad: Número de estudiantes a tiempo parcial
- Room.Board: los costos de pensión
- Outstate: cantidad de estudiantes extranjeros.
- Books: los costos estimados de libros
- Personal: Se estima que el gasto personal
- Phd: Porcentaje de profesores con doctorados
- Terminal: Porcentaje de profesores con grado de terminales
- S.F.Ratio: Proporción de estudiantes / profesores
- perc.alumni: Porcentaje de alumnos que donan
- Expend: Los gastos de instrucción por estudiante
- Grad.Rate: Porcentaje de graduación
Utilizar la función read.csv () para leer los datos en R.
library(readr)
College <- read_delim("../College.csv", ";", escape_double = FALSE, trim_ws = TRUE)
cols(
X1 = col_character(),
Private = col_character(),
Apps = col_integer(),
Accept = col_integer(),
Enroll = col_integer(),
Top10perc = col_integer(),
Top25perc = col_integer(),
F.Undergrad = col_integer(),
P.Undergrad = col_integer(),
Outstate = col_integer(),
Room.Board = col_integer(),
Books = col_integer(),
Personal = col_integer(),
PhD = col_integer(),
Terminal = col_integer(),
S.F.Ratio = col_number(),
perc.alumni = col_integer(),
Expend = col_integer(),
Grad.Rate = col_integer()
)
Nota: He decidio usar la libreria readr, pues me parece un poco mas eficiente para esta labor. Carga las columnas con los valores esperados, y ademas se puede personalizar el nombre de cada una.
Utilice summary() para producir un resumen numérico de las variables del conjunto de datos.
summary (College)
X1 Private Apps Accept Enroll Top10perc
Length:777 Length:777 Min. : 81 Min. : 72 Min. : 35 Min. : 1.00
Class :character Class :character 1st Qu.: 776 1st Qu.: 604 1st Qu.: 242 1st Qu.:15.00
Mode :character Mode :character Median : 1558 Median : 1110 Median : 434 Median :23.00
Mean : 3002 Mean : 2019 Mean : 780 Mean :27.56
3rd Qu.: 3624 3rd Qu.: 2424 3rd Qu.: 902 3rd Qu.:35.00
Max. :48094 Max. :26330 Max. :6392 Max. :96.00
Top25perc F.Undergrad P.Undergrad Outstate Room.Board Books
Min. : 9.0 Min. : 139 Min. : 1.0 Min. : 2340 Min. :1780 Min. : 96.0
1st Qu.: 41.0 1st Qu.: 992 1st Qu.: 95.0 1st Qu.: 7320 1st Qu.:3597 1st Qu.: 470.0
Median : 54.0 Median : 1707 Median : 353.0 Median : 9990 Median :4200 Median : 500.0
Mean : 55.8 Mean : 3700 Mean : 855.3 Mean :10441 Mean :4358 Mean : 549.4
3rd Qu.: 69.0 3rd Qu.: 4005 3rd Qu.: 967.0 3rd Qu.:12925 3rd Qu.:5050 3rd Qu.: 600.0
Max. :100.0 Max. :31643 Max. :21836.0 Max. :21700 Max. :8124 Max. :2340.0
Personal PhD Terminal S.F.Ratio perc.alumni Expend
Min. : 250 Min. : 8.00 Min. : 24.0 Min. : 5.0 Min. : 0.00 Min. : 3186
1st Qu.: 850 1st Qu.: 62.00 1st Qu.: 71.0 1st Qu.:107.0 1st Qu.:13.00 1st Qu.: 6751
Median :1200 Median : 75.00 Median : 82.0 Median :132.0 Median :21.00 Median : 8377
Mean :1341 Mean : 72.66 Mean : 79.7 Mean :129.2 Mean :22.74 Mean : 9660
3rd Qu.:1700 3rd Qu.: 85.00 3rd Qu.: 92.0 3rd Qu.:161.0 3rd Qu.:31.00 3rd Qu.:10830
Max. :6800 Max. :103.00 Max. :100.0 Max. :398.0 Max. :64.00 Max. :56233
Grad.Rate
Min. : 10.00
1st Qu.: 53.00
Median : 65.00
Mean : 65.46
3rd Qu.: 78.00
Max. :118.00
Usa pairs() para producir una matriz de dispersión de las primeros diez columnas.
pairs(College[, 3:12])

Utilice la función plot() para producir gráficos de caja de lado a lado de Outstate vs Private.
boxplot(College$Outstate ~ College$Private)

Crear una nueva variable cualitativa, llamada “Elite”, para tratar la variable Top10perc.
Vamos a dividir las universidades en dos grupos en función de si o no la proporción de los estudiantes que vienen del 10% superior de su escuela secundaria supera el 50%.
Elite = rep ("No",nrow(College ))
Elite [College$Top10perc >50]="Yes"
Elite = as.factor (Elite)
College = data.frame(College, Elite)
Utilice summary() para ver que existen muchas universidades de élite.
summary(Elite)
No Yes
699 78
Ahora usa la función plot() para producir de lado a lado los diagramas de caja de Outstate vs Elite.
boxplot(College$Outstate ~ College$Elite)

Se puede concluir que las universidades de Elite, suelen tener mayor cantidad de estudiantes foraneos.
Utilizar la función hist() para producir algunos histogramas.
hist(College$App)

hist(College$Accept)

hist(College$Enroll)

hist(College$Outstate)

Nota: Como muestro el informe en forma de Notebook, no es necesario realizar la division del area grafica.
Continuar explorando los datos, y proporcionar un breve resumen de lo que se descubre.
Creare dos DataFrames separados para cada valor de la nueva columna Elite. Es esta manera, puedo realizar comparaciones directamente sobre la data. Quiero explorar las diferencias entre las Universidades de elite y las regulares.
College_Elite <- College[College$Elite == 'Yes',]
College_Non_Elite <- College[College$Elite == 'No',]
Ahora, comparare la cantidad de estudiantes foraneos en las universidades de elite vs las regulares. Esta vez usando histogramas. Usare los mismos limites en X y Y.
hist(College_Elite$Outstate, xlim=c(2000, 22000), breaks=seq(2000, 22000, 1000))

hist(College_Non_Elite$Outstate, xlim=c(2000, 22000), breaks=seq(2000, 22000, 1000))

Comparare este valor, con la cantidad de estudiantes aceptados en general:
hist(College_Elite$Accept, xlim=c(0, 30000), ylim = c(0, 500))

hist(College_Non_Elite$Accept, xlim=c(0, 30000), ylim = c(0, 500))

LS0tDQp0aXRsZTogIlRhcmVhIDEgLSBMZW9uZWwgQXRlbmNpbyAtIERNIg0Kb3V0cHV0OiBodG1sX25vdGVib29rDQotLS0NCg0KRXN0ZSBlamVyY2ljaW8gc2UgcmVmaWVyZSBhbCBjb25qdW50byBkZSBkYXRvcyBDb2xsZWdlLCBxdWUgc2UgcHVlZGUgZW5jb250cmFyDQplbiBlbCBhcmNoaXZvIENvbGxlZ2UuY3N2LiBDb250aWVuZSB1bmEgc2VyaWUgZGUgdmFyaWFibGVzIHBhcmEgNzc3IGRpZmVyZW50ZXMNCnVuaXZlcnNpZGFkZXMgeSBlc2N1ZWxhcyBzdXBlcmlvcmVzIGRlIGxvcyBFRS5VVS4uIExhcyB2YXJpYWJsZXMgc29uOg0KDQotIFByaXZhdGU6IEluZGljYWRvciBww7pibGljbyAvIHByaXZhZG8NCi0gQXBwOiBOw7ptZXJvIGRlIHNvbGljaXR1ZGVzIHJlY2liaWRhcw0KLSBBY2NlcHQ6IE7Dum1lcm8gZGUgc29saWNpdGFudGVzIGFjZXB0YWRvcw0KLSBFbnJvbGw6IE7Dum1lcm8gZGUgbnVldm9zIGFsdW1ub3MgbWF0cmljdWxhZG9zDQotIFRvcDEwIHBlcmM6IEVzdHVkaWFudGVzIG51ZXZvcyBjb3JyZXNwb25kaWVudGUgYWwgZGlleiBwb3IgY2llbnRvIHN1cGVyaW9yIGRlbCDigJxoaWdoIHNjaG9vbOKAnQ0KLSBUb3AyNSBwZXJjOiBFc3R1ZGlhbnRlcyBudWV2b3MgY29ycmVzcG9uZGllbnRlIGFsIHZlaW50aWNpbmNvIHBvciBjaWVudG8gc3VwZXJpb3IgZGVsIOKAnGhpZ2ggc2Nob29s4oCdDQotIEYuVW5kZXJncmFkOiBOw7ptZXJvIGRlIGVzdHVkaWFudGVzIGRlIHRpZW1wbyBjb21wbGV0bw0KLSBQLlVuZGVyZ3JhZDogTsO6bWVybyBkZSBlc3R1ZGlhbnRlcyBhIHRpZW1wbyBwYXJjaWFsDQotIFJvb20uQm9hcmQ6IGxvcyBjb3N0b3MgZGUgcGVuc2nDs24NCi0gT3V0c3RhdGU6IGNhbnRpZGFkIGRlIGVzdHVkaWFudGVzIGV4dHJhbmplcm9zLg0KLSBCb29rczogbG9zIGNvc3RvcyBlc3RpbWFkb3MgZGUgbGlicm9zDQotIFBlcnNvbmFsOiBTZSBlc3RpbWEgcXVlIGVsIGdhc3RvIHBlcnNvbmFsDQotIFBoZDogUG9yY2VudGFqZSBkZSBwcm9mZXNvcmVzIGNvbiBkb2N0b3JhZG9zDQotIFRlcm1pbmFsOiBQb3JjZW50YWplIGRlIHByb2Zlc29yZXMgY29uIGdyYWRvIGRlIHRlcm1pbmFsZXMNCi0gUy5GLlJhdGlvOiBQcm9wb3JjacOzbiBkZSBlc3R1ZGlhbnRlcyAvIHByb2Zlc29yZXMNCi0gcGVyYy5hbHVtbmk6IFBvcmNlbnRhamUgZGUgYWx1bW5vcyBxdWUgZG9uYW4NCi0gRXhwZW5kOiBMb3MgZ2FzdG9zIGRlIGluc3RydWNjacOzbiBwb3IgZXN0dWRpYW50ZQ0KLSBHcmFkLlJhdGU6IFBvcmNlbnRhamUgZGUgZ3JhZHVhY2nDs24NCiAgDQojIyMgVXRpbGl6YXIgbGEgZnVuY2nDs24gYHJlYWQuY3N2ICgpYCBwYXJhIGxlZXIgbG9zIGRhdG9zIGVuIFIuDQpgYGB7cn0NCmxpYnJhcnkocmVhZHIpDQpDb2xsZWdlIDwtIHJlYWRfZGVsaW0oIi4uL0NvbGxlZ2UuY3N2IiwgIjsiLCBlc2NhcGVfZG91YmxlID0gRkFMU0UsIHRyaW1fd3MgPSBUUlVFKQ0KY29scygNCiAgWDEgPSBjb2xfY2hhcmFjdGVyKCksDQogIFByaXZhdGUgPSBjb2xfY2hhcmFjdGVyKCksDQogIEFwcHMgPSBjb2xfaW50ZWdlcigpLA0KICBBY2NlcHQgPSBjb2xfaW50ZWdlcigpLA0KICBFbnJvbGwgPSBjb2xfaW50ZWdlcigpLA0KICBUb3AxMHBlcmMgPSBjb2xfaW50ZWdlcigpLA0KICBUb3AyNXBlcmMgPSBjb2xfaW50ZWdlcigpLA0KICBGLlVuZGVyZ3JhZCA9IGNvbF9pbnRlZ2VyKCksDQogIFAuVW5kZXJncmFkID0gY29sX2ludGVnZXIoKSwNCiAgT3V0c3RhdGUgPSBjb2xfaW50ZWdlcigpLA0KICBSb29tLkJvYXJkID0gY29sX2ludGVnZXIoKSwNCiAgQm9va3MgPSBjb2xfaW50ZWdlcigpLA0KICBQZXJzb25hbCA9IGNvbF9pbnRlZ2VyKCksDQogIFBoRCA9IGNvbF9pbnRlZ2VyKCksDQogIFRlcm1pbmFsID0gY29sX2ludGVnZXIoKSwNCiAgUy5GLlJhdGlvID0gY29sX251bWJlcigpLA0KICBwZXJjLmFsdW1uaSA9IGNvbF9pbnRlZ2VyKCksDQogIEV4cGVuZCA9IGNvbF9pbnRlZ2VyKCksDQogIEdyYWQuUmF0ZSA9IGNvbF9pbnRlZ2VyKCkNCikNCmBgYA0KKk5vdGE6KiBIZSBkZWNpZGlvIHVzYXIgbGEgbGlicmVyaWEgYHJlYWRyYCwgcHVlcyBtZSBwYXJlY2UgdW4gcG9jbyBtYXMgZWZpY2llbnRlIHBhcmEgZXN0YSBsYWJvci4gQ2FyZ2EgbGFzIGNvbHVtbmFzIGNvbiBsb3MgdmFsb3JlcyBlc3BlcmFkb3MsIHkgYWRlbWFzIHNlIHB1ZWRlIHBlcnNvbmFsaXphciBlbCBub21icmUgZGUgY2FkYSB1bmEuDQoNCiMjIyBVdGlsaWNlIGBzdW1tYXJ5KClgIHBhcmEgcHJvZHVjaXIgdW4gcmVzdW1lbiBudW3DqXJpY28gZGUgbGFzIHZhcmlhYmxlcyBkZWwgY29uanVudG8gZGUgZGF0b3MuDQpgYGB7cn0NCnN1bW1hcnkgKENvbGxlZ2UpDQpgYGANCg0KIyMjIFVzYSBgcGFpcnMoKWAgcGFyYSBwcm9kdWNpciB1bmEgbWF0cml6IGRlIGRpc3BlcnNpw7NuIGRlIGxhcyBwcmltZXJvcyBkaWV6IGNvbHVtbmFzLg0KYGBge3J9DQpwYWlycyhDb2xsZWdlWywgMzoxMl0pDQpgYGANCg0KIyMjIFV0aWxpY2UgbGEgZnVuY2nDs24gYHBsb3QoKWAgcGFyYSBwcm9kdWNpciBncsOhZmljb3MgZGUgY2FqYSBkZSBsYWRvIGEgbGFkbyBkZSBPdXRzdGF0ZSB2cyBQcml2YXRlLg0KYGBge3J9DQpib3hwbG90KENvbGxlZ2UkT3V0c3RhdGUgfiBDb2xsZWdlJFByaXZhdGUpDQpgYGANCg0KIyMjIENyZWFyIHVuYSBudWV2YSB2YXJpYWJsZSBjdWFsaXRhdGl2YSwgbGxhbWFkYSDigJxFbGl0ZeKAnSwgcGFyYSB0cmF0YXIgbGEgdmFyaWFibGUgVG9wMTBwZXJjLg0KVmFtb3MgYSBkaXZpZGlyIGxhcyB1bml2ZXJzaWRhZGVzIGVuIGRvcyBncnVwb3MgZW4gZnVuY2nDs24NCmRlIHNpIG8gbm8gbGEgcHJvcG9yY2nDs24gZGUgbG9zIGVzdHVkaWFudGVzIHF1ZSB2aWVuZW4gZGVsIDEwJSBzdXBlcmlvciBkZSBzdSBlc2N1ZWxhDQpzZWN1bmRhcmlhIHN1cGVyYSBlbCA1MCUuDQpgYGB7cn0NCkVsaXRlID0gcmVwICgiTm8iLG5yb3coQ29sbGVnZSApKQ0KRWxpdGUgW0NvbGxlZ2UkVG9wMTBwZXJjID41MF09IlllcyINCkVsaXRlID0gYXMuZmFjdG9yIChFbGl0ZSkNCkNvbGxlZ2UgPSBkYXRhLmZyYW1lKENvbGxlZ2UsIEVsaXRlKQ0KYGBgDQoNCiMjIyBVdGlsaWNlIGBzdW1tYXJ5KClgIHBhcmEgdmVyIHF1ZSBleGlzdGVuIG11Y2hhcyB1bml2ZXJzaWRhZGVzIGRlIMOpbGl0ZS4NCmBgYHtyfQ0Kc3VtbWFyeShFbGl0ZSkNCmBgYA0KDQojIyMgQWhvcmEgdXNhIGxhIGZ1bmNpw7NuIGBwbG90KClgIHBhcmEgcHJvZHVjaXIgZGUgbGFkbyBhIGxhZG8gbG9zIGRpYWdyYW1hcyBkZSBjYWphIGRlIE91dHN0YXRlIHZzIEVsaXRlLg0KYGBge3J9DQpib3hwbG90KENvbGxlZ2UkT3V0c3RhdGUgfiBDb2xsZWdlJEVsaXRlKQ0KYGBgDQpTZSBwdWVkZSBjb25jbHVpciBxdWUgbGFzIHVuaXZlcnNpZGFkZXMgZGUgRWxpdGUsIHN1ZWxlbiB0ZW5lciBtYXlvciBjYW50aWRhZCBkZSBlc3R1ZGlhbnRlcyBmb3JhbmVvcy4NCg0KIyMjIFV0aWxpemFyIGxhIGZ1bmNpw7NuIGBoaXN0KClgIHBhcmEgcHJvZHVjaXIgYWxndW5vcyBoaXN0b2dyYW1hcy4NCmBgYHtyfQ0KaGlzdChDb2xsZWdlJEFwcCkNCmhpc3QoQ29sbGVnZSRBY2NlcHQpDQpoaXN0KENvbGxlZ2UkRW5yb2xsKQ0KaGlzdChDb2xsZWdlJE91dHN0YXRlKQ0KYGBgDQoqTm90YToqIENvbW8gbXVlc3RybyBlbCBpbmZvcm1lIGVuIGZvcm1hIGRlIE5vdGVib29rLCBubyBlcyBuZWNlc2FyaW8gcmVhbGl6YXIgbGEgZGl2aXNpb24gZGVsIGFyZWEgZ3JhZmljYS4NCg0KIyMjIENvbnRpbnVhciBleHBsb3JhbmRvIGxvcyBkYXRvcywgeSBwcm9wb3JjaW9uYXIgdW4gYnJldmUgcmVzdW1lbiBkZSBsbyBxdWUgc2UgZGVzY3VicmUuDQpDcmVhcmUgZG9zIERhdGFGcmFtZXMgc2VwYXJhZG9zIHBhcmEgY2FkYSB2YWxvciBkZSBsYSBudWV2YSBjb2x1bW5hIGBFbGl0ZWAuIEVzIGVzdGEgbWFuZXJhLCBwdWVkbyByZWFsaXphciBjb21wYXJhY2lvbmVzIGRpcmVjdGFtZW50ZSBzb2JyZSBsYSBkYXRhLiBRdWllcm8gZXhwbG9yYXIgbGFzIGRpZmVyZW5jaWFzIGVudHJlIGxhcyBVbml2ZXJzaWRhZGVzIGRlIGVsaXRlIHkgbGFzIHJlZ3VsYXJlcy4NCg0KYGBge3J9DQpDb2xsZWdlX0VsaXRlIDwtIENvbGxlZ2VbQ29sbGVnZSRFbGl0ZSA9PSAnWWVzJyxdDQpDb2xsZWdlX05vbl9FbGl0ZSA8LSBDb2xsZWdlW0NvbGxlZ2UkRWxpdGUgPT0gJ05vJyxdDQpgYGANCg0KQWhvcmEsIGNvbXBhcmFyZSBsYSBjYW50aWRhZCBkZSBlc3R1ZGlhbnRlcyBmb3JhbmVvcyBlbiBsYXMgdW5pdmVyc2lkYWRlcyBkZSBlbGl0ZSB2cyBsYXMgcmVndWxhcmVzLiBFc3RhIHZleiB1c2FuZG8gaGlzdG9ncmFtYXMuIFVzYXJlIGxvcyBtaXNtb3MgbGltaXRlcyBlbiBgWGAgeSBgWWAuDQoNCmBgYHtyfQ0KaGlzdChDb2xsZWdlX0VsaXRlJE91dHN0YXRlLCB4bGltPWMoMjAwMCwgMjIwMDApLCBicmVha3M9c2VxKDIwMDAsIDIyMDAwLCAxMDAwKSkNCmhpc3QoQ29sbGVnZV9Ob25fRWxpdGUkT3V0c3RhdGUsIHhsaW09YygyMDAwLCAyMjAwMCksIGJyZWFrcz1zZXEoMjAwMCwgMjIwMDAsIDEwMDApKQ0KYGBgDQoNCkNvbXBhcmFyZSBlc3RlIHZhbG9yLCBjb24gbGEgY2FudGlkYWQgZGUgZXN0dWRpYW50ZXMgYWNlcHRhZG9zIGVuIGdlbmVyYWw6DQoNCmBgYHtyfQ0KaGlzdChDb2xsZWdlX0VsaXRlJEFjY2VwdCwgeGxpbT1jKDAsIDMwMDAwKSwgeWxpbSA9IGMoMCwgNTAwKSkNCmhpc3QoQ29sbGVnZV9Ob25fRWxpdGUkQWNjZXB0LCB4bGltPWMoMCwgMzAwMDApLCB5bGltID0gYygwLCA1MDApKQ0KYGBgDQoNCg==