“Un simple gráfico ha brindado más información a la mente del analista de datos que cualquier otro dispositivo.”
Para iniciar la clase de Introducción a RStudio:
Descargamos RStudio en el siguiente link.
Instalamos RStudio en nuestras computadoras.
\[\sqrt{23^3+10}-\dfrac{2}{3}+ \ln(1) - e^3\]
Podemos darle énfasis al texto con estilo negritas o
itálicas. En clase, utilizamos el conjunto de datos
profesores.
Para incluir una imagen:
Para agregar las medidas en una imagen:
Para incluir una imagen con tags HTML:
Para centrar una imagen con tags HTML:
Este curso nos da una introducción práctica a la manipulación de
datos y a las herramientas que provee el entorno tidyverse,
puedes leer más en R para Ciencia de Datos de Wickham & Grolemund (2017). Si deseas
aprender más acerca de la teoría subyacente, puede que te guste el
artículo Tidy Data de Wickham (2014)
publicado en la revista Journal of Statistical
Software.
Para crear un chink utilizamos el atajo de teclado Ctrl+Alt+i.
Código que NO se ve, SI se evalúa, pero NO se muestran resultados: Incluye este chunk al inicio del texto, luego del encabezado YAML, con los siguientes argumentos {r configuracion, echo=FALSE, eval=TRUE, include=FALSE}. Vamos a crear el chunck de configuración:
Código que SI se ve, SI se evalúa: Incluye este chunk al final
con los siguientes argumentos {r trans1, echo=TRUE, eval=TRUE}. Vamos a
cargar el conjunto de datos profesores.
## cargamos el conjunto de datos profesores2
profesores <- read_excel("data/EXCELprofesores.xlsx")
profesores <- rename(profesores,
instruccion=instrucción, cod=id)
profesores <- profesores %>%
mutate(salario = case_when(nivel == "BASICO" ~ round(400+(tiempo*35)+(alumnos*0.01)),
nivel == "INTERMEDIO" ~ round(600+(tiempo*30)+(alumnos*0.01)),
nivel == "SUPERIOR" ~ round(1676+(tiempo*80))))
paleta_simpson <- c("#FED439", "#709AE1", "#FD7446",
"#D5E4A2", "#197EC0", "#46732E",
"#71D0F5", "#370335", "#075149",
"#C80813","#1A9993", "#FD8CC1", "#8A9197")
## # A tibble: 3 × 5
## `Nivel que imparte docencia` Profesores Estudiantes `Tiempo docencia Promedio`
## <chr> <int> <dbl> <dbl>
## 1 BASICO 98 3148 8
## 2 INTERMEDIO 42 1398 11
## 3 SUPERIOR 35 1138 7
## # ℹ 1 more variable: `Edad Promedio` <dbl>
profesores %>%
group_by(nivel) %>%
summarise(Profesores = n(),
Estudiantes = sum(alumnos),
'Tiempo docencia Promedio' = round(mean(tiempo)),
'Edad Promedio' = round(mean(edad)))%>%
rename("Nivel que imparte docencia"=nivel)
| Nombre 1 Derecha | Nombre 2 Izquierda | Nombre 3 | Nombre 4 |
|---|---|---|---|
| 12 | 12 | 12 | 12 |
| 123 | 123 | 123 | 123 |
| 1 | 1 | 1 | 1 |
| Nivel que imparte docencia | Profesores | Estudiantes | Tiempo docencia Promedio | Edad Promedio |
|---|---|---|---|---|
| BASICO | 98 | 3148 | 8 | 36 |
| INTERMEDIO | 42 | 1398 | 11 | 42 |
| SUPERIOR | 35 | 1138 | 7 | 36 |
library(ggthemes)
# visualizar a los profesores que más ganan por nivel
mas_ganan <- profesores %>%
group_by(nivel) %>%
filter(row_number(desc(salario))==1)
## gráfico de dispersión
profesores %>%
ggplot(aes(x = edad, y = tiempo, size = salario, color = sexo)) +
geom_point(alpha = 0.5) +
geom_text(data = mas_ganan, aes(label = paste("Codigo: ", cod, "- Salario: $", salario)),
size = 3, nudge_x = -3, color = "black") +
geom_point(data = mas_ganan, shape = 21, color = "black", stroke = 1.2) +
scale_size( #modifica la escala de la variable salario
breaks = floor(seq(500, 4500, length.out = 5)), #los límites del 500 al 4500, lo divide en 5 grupos
limits = c(200, 4700), #los límites de los valores
range = c(2, 10)) + #radio de los puntos
scale_color_manual(values = paleta_simpson) +
labs(x = "Edad del Profesor", y = "Tiempo de Docencia",
title = "Edad vs Tiempo de docencia de los Profesores",
subtitle = "Gráfico de Dispersión",
color = "Sexo del Profesor", size = "Salario del Profesor") +
theme_pander() +
theme(legend.position = "bottom", legend.box = "vertical")