1 Título 1

1.1 Subtítulo 1.1

1.2 Subtítulo 1.2

1.2.1 Subsubtítulo 1.2.1

2 Título 2

3 Título 3

4 Formateo de texto

4.1 Listas

4.1.1 Listas ordenadas

Item 1
Item 2
1. Item 2a
2. Item 2b
Item 2

4.1.2 Listas no ordenadas

Item 1
Item 2
- Item 2a
- Item 2b

4.2 Citas

“Un simple gráfico ha brindado más información a la mente del analista de datos que cualquier otro dispositivo.”
— John Tukey

4.3 Links

Para iniciar la clase de Introducción a RStudio:

Descargamos RStudio en el siguiente link.
Instalamos RStudio en nuestras computadoras.

4.4 Expresiones matemáticas

En R podemos calcular: $\sqrt{23^3+10}-\dfrac{2}{3}+ \ln(1) - e^3$

\[\sqrt{23^3+10}-\dfrac{2}{3}+ \ln(1) - e^3\]

4.5 Énfasis

Podemos darle énfasis al texto con estilo negritas o itálicas. En clase, utilizamos el conjunto de datos profesores.

4.6 Imágenes

Para incluir una imagen:

$Insertar imagen$

Insertar imagen

Para agregar las medidas en una imagen:

$Insertar imagen$

Insertar imagen

Para incluir una imagen con tags HTML:

Para centrar una imagen con tags HTML:

4.7 Incluir Bibliografía

Este curso nos da una introducción práctica a la manipulación de datos y a las herramientas que provee el entorno tidyverse, puedes leer más en R para Ciencia de Datos de Wickham & Grolemund (2017). Si deseas aprender más acerca de la teoría subyacente, puede que te guste el artículo Tidy Data de Wickham (2014) publicado en la revista Journal of Statistical Software.

5 Chunks

Para crear un chink utilizamos el atajo de teclado Ctrl+Alt+i.

Código que NO se ve, SI se evalúa, pero NO se muestran resultados: Incluye este chunk al inicio del texto, luego del encabezado YAML, con los siguientes argumentos {r configuracion, echo=FALSE, eval=TRUE, include=FALSE}. Vamos a crear el chunck de configuración:
Código que SI se ve, SI se evalúa: Incluye este chunk al final con los siguientes argumentos {r trans1, echo=TRUE, eval=TRUE}. Vamos a cargar el conjunto de datos profesores.

## cargamos el conjunto de datos profesores2
profesores <- read_excel("data/EXCELprofesores.xlsx")

profesores <- rename(profesores,
                     instruccion=instrucción, cod=id)

profesores <- profesores %>%
    mutate(salario = case_when(nivel == "BASICO" ~ round(400+(tiempo*35)+(alumnos*0.01)),
                               nivel == "INTERMEDIO" ~ round(600+(tiempo*30)+(alumnos*0.01)),
                               nivel == "SUPERIOR" ~ round(1676+(tiempo*80))))

paleta_simpson <- c("#FED439", "#709AE1", "#FD7446", 
                    "#D5E4A2", "#197EC0", "#46732E", 
                    "#71D0F5", "#370335", "#075149", 
                    "#C80813","#1A9993", "#FD8CC1", "#8A9197")

Código que NO se ve, SI se evalúa: Incluye este chunk con los siguientes argumentos {r indicadores, echo=FALSE, eval=TRUE}. Vamos a reproducir una tabla que generamos en días anteriores

## # A tibble: 3 × 5
##   `Nivel que imparte docencia` Profesores Estudiantes `Tiempo docencia Promedio`
##   <chr>                             <int>       <dbl>                      <dbl>
## 1 BASICO                               98        3148                          8
## 2 INTERMEDIO                           42        1398                         11
## 3 SUPERIOR                             35        1138                          7
## # ℹ 1 more variable: `Edad Promedio` <dbl>

Código que SI se ve, NO se evalúa: Incluye el mismo chunk anterior pero con los siguientes argumentos {r indicadores2, echo=TRUE, eval=FALSE}:

profesores %>% 
    group_by(nivel) %>% 
    summarise(Profesores = n(),
              Estudiantes = sum(alumnos),
              'Tiempo docencia Promedio' = round(mean(tiempo)),
              'Edad Promedio' = round(mean(edad)))%>% 
    rename("Nivel que imparte docencia"=nivel)

6 Tablas

Podemos crear la tbla:

Nombre 1 Derecha	Nombre 2 Izquierda	Nombre 3	Nombre 4
12	12	12	12
123	123	123	123
1	1	1	1

Con chunks

Tabla 1. Indicadores según la encuesta XYZ
Nivel que imparte docencia	Profesores	Estudiantes	Tiempo docencia Promedio	Edad Promedio
BASICO	98	3148	8	36
INTERMEDIO	42	1398	11	42
SUPERIOR	35	1138	7	36

7 Gráficos

library(ggthemes)

# visualizar a los profesores que más ganan por nivel
mas_ganan <- profesores %>%
    group_by(nivel) %>% 
    filter(row_number(desc(salario))==1)

## gráfico de dispersión
profesores %>% 
    ggplot(aes(x = edad, y = tiempo, size = salario, color = sexo)) +
    geom_point(alpha = 0.5) +
    geom_text(data = mas_ganan, aes(label = paste("Codigo: ", cod, "- Salario: $", salario)),
              size = 3, nudge_x = -3, color = "black") +
    geom_point(data = mas_ganan, shape = 21, color = "black", stroke = 1.2) +
    scale_size(                                      #modifica la escala de la variable salario
        breaks = floor(seq(500, 4500, length.out = 5)), #los límites del 500 al 4500, lo divide en 5 grupos
        limits = c(200, 4700),                          #los límites de los valores
        range = c(2, 10)) +                            #radio de los puntos
    scale_color_manual(values = paleta_simpson) +
    labs(x = "Edad del Profesor", y = "Tiempo de Docencia",
         title = "Edad vs Tiempo de docencia de los Profesores",
         subtitle = "Gráfico de Dispersión",
         color = "Sexo del Profesor", size = "Salario del Profesor") +
    theme_pander() +
    theme(legend.position = "bottom", legend.box = "vertical")

Bibliografía

Wickham, H. (2014). Tidy data. Journal of Statistical Software, 59(10), 1–23. https://doi.org/10.18637/jss.v059.i10

Wickham, H., & Grolemund, G. (2017). R for data science (2e). O’Reilly.

Resumen de R para el Manejo de Datos

CURSO DE MANEJO DE DATOS Y REPORTERÍA CON R

Linda Cabrera

2024-04-02