Este documento contiene un resumen del módulo de Manejo de Software del Programa Internacional de Estadística Aplicada a la Investigación Científica que se fue construyendo con los estudiantes para el aprendizaje de rmarkdown.

1 Profesoras

Gabriela Castro Centeno y Linda Cabrera Orellana son las profesoras que impartieron el módulo.

1.1 Gabriela Castro

1.1.1 Sociedad Ecuatoriana de Estadística

1.1.1.1 Directora Ejecutiva

1.2 Linda Cabrera

1.2.1 R-Ladies Guayaquil

1.2.1.1 Co-organizadora

2 Contenido del módulo

El módulo inició el lunes 3 de octubre de 2022 y finalizará el jueves 20 de octubre de 2022, abarcó los siguientes temas:

Introducción a R
Introducción a R Commander
Introducción a SPSS
RStudio
1. Introducción a RStudio
2. Importación y orden de los datos en R
3. Manipulación de datos en R
4. Análisis exploratorio de datos
5. Comunicando resultados en R

El módulo tiene una duración de 25 horas y en cada capítulo de Rstudio se profundizaron temas relevantes para el contenido del Programa Internacional de Estadística Aplicada a la Investigación Científica. Por ejemplo en el capítulo de Importación y orden de los datos en R se revisaron los siguientes temas:

Calidad de los datos
Importar datos
- Importar archivos .csv
- Importar desde Excel
- Importar desde SPSS y STATA
Estructuras de datos
- Vectores
- Data.frames (Tibbles)
- Funciones básicas
Tipos de datos
- Numéricos
- Cadena de caracteres
- Factores
- Fechas y Horas

Horario del módulo:

Hora	Contenido
19:00 a 19:45	Bloque 1
19:45 a 20:50	Receso 1
20:50 a 20:35	Bloque 2
20:35 a 20:45	Receso 2
20:45 a 21:30	Bloque 3

3 RStudio

En la introducción de la parte de RStudio recordamos una frase de Hadley Wickhman para recordar que aprender R es aprender un nuevo idioma por lo que necesita práctica y paciencia:

“Cuando comienzas a programar, es fácil sentirte realmente frustrado… Es solo una parte natural de la programación, le sucede a todos y se vuelve cada vez menos con el tiempo. No te culpes. Solo tómate un descanso, haz algo divertido y luego regresa e inténtalo de nuevo más tarde.”
Hadley Wickham

3.1 Introducción a RStudio

Descargamos RStudio en el siguiente link RStudio Team (2015).
Instalamos RStudio en nuestras computadoras
Conocimos el entorno de RStudio
Aprendimos a instalar y cargar paquetes
Es posible usar R como una calculadora, donde podemos hacer operaciones desde muy sencillas a muy complicadas. Por ejemplo puedo calcular sin problema: \[\sqrt{23^3+10}-\dfrac{2}{3}+ \ln(1) - e^3\]
Aprendimos a crear objetos mediante asignaciones <- cuyo atajo de teclado es Alt+-.
Aprendimos qué es una función en R y que nos ahorran cálculos en nuestro análisis. R tiene funciones para casi todo lo que deseemos hacer en nuestros trabajos. Por ejemplo, para calcular la integral de una función puedo utilizar la función integrate(), en lugar de hacer el cálculo matemático paso a paso. Vamos a realizar el cálculo de una integral definida de forma analítica y a través de R:

Ejercicio: Calcular \({\displaystyle \int_{1}^{3} (x^2 + 4) \, dx}\)

Recordemos el Teorema Fundamental del Cálculo:

Teorema Sea \({\displaystyle f}\) una función integrable en el intervalo \({\displaystyle [a,b]}\) y \({\displaystyle f=g'}\) para alguna función \({\displaystyle g}\) entonces:

\[{\displaystyle \int_{a}^{b} f(x) \, dx = g(b) - g(a)}\] Resolvemos la integral definida:

\[ \left.\begin{array}{lcl} {\displaystyle \int_{1}^{3} (x^2 + 4) \, dx} & = & \left| \dfrac{x^3}{3} + 4x \right|_{1}^{3}\\ & = & \left( \dfrac{3^3}{3} + 4(3) \right) - \left( \dfrac{1^3}{3} + 4(1) \right)\\ & = & 9 + 12 - \frac{1}{3} - 4\\ & = & 17 - \frac{1}{3} = \frac{50}{3} = 16.67 \end{array}\right. \]

Ahora utilizamos la función integrate() en R para calcular la misma integral. Si consultamos ?integrate en la consola podemos observar que necesitamos 3 argumentos que son la función function(x), el límite inferior lower y el límite superior upper:

integrate(function(x) (x^2 + 4), lower =1, upper = 3)

## 16.66667 with absolute error < 1.9e-13

El material de este capítulo se encuentra en Introducción a RStudio

3.2 Importación y orden de los datos en R

En este capítulo necesitamos instalar algunos paquetes:

Paquetes instalados en el capítulo 2 del Módulo

Imagen con tamaño definido:

Imagen centrada con tamaño definido y caption:

Paquetes instalados en el capítulo 2 del Módulo

El material de este capítulo se encuentra en Importación y Orden de los Datos en R

3.3 Manipulación de datos en R

Este capítulo nos da una introducción práctica a los datos ordenados (o tidy data) y a las herramientas que provee el paquete tidyr, puedes leer más en R para Ciencia de Datos de Wickham & Grolemund (2017). Si deseas aprender más acerca de la teoría subyacente, puede que te guste el artículo Tidy Data de Wickham (2014) publicado en la revista Journal of Statistical Software, http://www.jstatsoft.org/v59/i10/paper.

Vamos a cargar el conjunto de datos limpio que trabajamos en este capítulo:

profesores <- read_excel("data/r_profesores.xlsx")

Aprendimos funciones de transformación del paquete dplyr y funciones de orden del paquete tidyr, al final hicimos una práctica para construir la siguiente tabla:

Tabla 1. Resumen de indicadores
Nivel que imparte docencia	Profesores	Estudiantes	Estudiantes Promedio	Edad Promedio
Educación infantil, primaria o básica	98	3148	32	36
Educación secundaria y bachillerato	42	1398	33	42
Educación superior	35	1138	33	36

## # A tibble: 3 × 5
##   `Nivel que imparte d…` Profesores Estudiantes `Estudiantes P…` `Edad Promedio`
##   <chr>                       <int>       <dbl>            <dbl>           <dbl>
## 1 Educación infantil, p…         98        3148               32              36
## 2 Educación secundaria …         42        1398               33              42
## 3 Educación superior             35        1138               33              36

Logrando construir el siguiente código:

profesores %>% 
    group_by(niveldocencia) %>% 
    summarise(Profesores = n(),
              Estudiantes = sum(alumnos),
              'Estudiantes Promedio' = round(Estudiantes/Profesores),
              'Edad Promedio' = round(mean(edad)))%>% 
    rename("Nivel que imparte docencia"=niveldocencia)

El material de este capítulo se encuentra en Manipulación de Datos en R

3.4 Análisis exploratorio de datos

diamantes %>% ggplot(aes(x = corte, 
                         fill=corte)) +
    geom_bar(alpha=0.8) +
    scale_fill_brewer(palette = "Dark2") +
    geom_text(aes(label=..count..), 
              stat = 'count',
              vjust=-0.5) +
    theme_minimal() +
    theme(legend.position = "bottom") +
    labs(x = "Corte del diamante",
         y = "Cantidad de diamantes",
         title = "La cantidad de diamantes por tipo de corte",
         subtitle = "Mayor cantidad de diamantes de corte ideal",
         caption = "Datos de R.com",
         fill = "Tipo de corte")

El material de este capítulo se encuentra en Análisis Exploratorio de Datos

Referencias

RStudio Team. (2015). RStudio: Integrated development environment for r. RStudio, Inc. http://www.rstudio.com/

Wickham, H. (2014). Tidy data. Journal of Statistical Software, 59(10), 1–23. https://doi.org/10.18637/jss.v059.i10

Wickham, H., & Grolemund, G. (2017). R for data science (2e). O’Reilly.

Módulo de Manejo de Software

Linda Cabrera

2022-10-17