Este documento contiene un resumen del módulo de Manejo de Software
del Programa Internacional de Estadística Aplicada a la Investigación
Científica que se fue construyendo con los estudiantes para el
aprendizaje de rmarkdown.
Gabriela Castro Centeno y Linda Cabrera Orellana son las profesoras que impartieron el módulo.
El módulo inició el lunes 3 de octubre de 2022 y finalizará el jueves 20 de octubre de 2022, abarcó los siguientes temas:
El módulo tiene una duración de 25 horas y en cada capítulo de Rstudio se profundizaron temas relevantes para el contenido del Programa Internacional de Estadística Aplicada a la Investigación Científica. Por ejemplo en el capítulo de Importación y orden de los datos en R se revisaron los siguientes temas:
.csvHorario del módulo:
| Hora | Contenido |
|---|---|
| 19:00 a 19:45 | Bloque 1 |
| 19:45 a 20:50 | Receso 1 |
| 20:50 a 20:35 | Bloque 2 |
| 20:35 a 20:45 | Receso 2 |
| 20:45 a 21:30 | Bloque 3 |
En la introducción de la parte de RStudio recordamos una frase de Hadley Wickhman para recordar que aprender R es aprender un nuevo idioma por lo que necesita práctica y paciencia:
“Cuando comienzas a programar, es fácil sentirte realmente frustrado… Es solo una parte natural de la programación, le sucede a todos y se vuelve cada vez menos con el tiempo. No te culpes. Solo tómate un descanso, haz algo divertido y luego regresa e inténtalo de nuevo más tarde.”
Descargamos RStudio en el siguiente link RStudio Team (2015).
Instalamos RStudio en nuestras computadoras
Conocimos el entorno de RStudio
Aprendimos a instalar y cargar paquetes
Es posible usar R como una calculadora, donde podemos hacer operaciones desde muy sencillas a muy complicadas. Por ejemplo puedo calcular sin problema: \[\sqrt{23^3+10}-\dfrac{2}{3}+ \ln(1) - e^3\]
Aprendimos a crear objetos mediante asignaciones
<- cuyo atajo de teclado es Alt+-.
Aprendimos qué es una función en R y que nos ahorran cálculos en
nuestro análisis. R tiene funciones para casi todo lo que deseemos hacer
en nuestros trabajos. Por ejemplo, para calcular la integral de una
función puedo utilizar la función integrate(), en lugar de
hacer el cálculo matemático paso a paso. Vamos a realizar el cálculo de
una integral definida de forma analítica y a través de R:
Ejercicio: Calcular \({\displaystyle \int_{1}^{3} (x^2 + 4) \, dx}\)
Recordemos el Teorema Fundamental del Cálculo:
Teorema Sea \({\displaystyle f}\) una función integrable en el intervalo \({\displaystyle [a,b]}\) y \({\displaystyle f=g'}\) para alguna función \({\displaystyle g}\) entonces:
\[{\displaystyle \int_{a}^{b} f(x) \, dx = g(b) - g(a)}\] Resolvemos la integral definida:
\[ \left.\begin{array}{lcl} {\displaystyle \int_{1}^{3} (x^2 + 4) \, dx} & = & \left| \dfrac{x^3}{3} + 4x \right|_{1}^{3}\\ & = & \left( \dfrac{3^3}{3} + 4(3) \right) - \left( \dfrac{1^3}{3} + 4(1) \right)\\ & = & 9 + 12 - \frac{1}{3} - 4\\ & = & 17 - \frac{1}{3} = \frac{50}{3} = 16.67 \end{array}\right. \]
Ahora utilizamos la función integrate() en R para
calcular la misma integral. Si consultamos ?integrate en la
consola podemos observar que necesitamos 3 argumentos que son la función
function(x), el límite inferior lower y el
límite superior upper:
integrate(function(x) (x^2 + 4), lower =1, upper = 3)## 16.66667 with absolute error < 1.9e-13
El material de este capítulo se encuentra en Introducción a RStudio
Paquetes instalados en el capítulo 2 del Módulo
El material de este capítulo se encuentra en Importación y Orden de los Datos en R
Este capítulo nos da una introducción práctica a los datos ordenados
(o tidy data) y a las herramientas que provee el paquete
tidyr, puedes leer más en R para Ciencia de Datos
de Wickham & Grolemund (2017). Si
deseas aprender más acerca de la teoría subyacente, puede que te guste
el artículo Tidy Data de Wickham (2014)
publicado en la revista Journal of Statistical Software, http://www.jstatsoft.org/v59/i10/paper.
Vamos a cargar el conjunto de datos limpio que trabajamos en este capítulo:
profesores <- read_excel("data/r_profesores.xlsx")Aprendimos funciones de transformación del paquete dplyr
y funciones de orden del paquete tidyr, al final hicimos
una práctica para construir la siguiente tabla:
| Nivel que imparte docencia | Profesores | Estudiantes | Estudiantes Promedio | Edad Promedio |
|---|---|---|---|---|
| Educación infantil, primaria o básica | 98 | 3148 | 32 | 36 |
| Educación secundaria y bachillerato | 42 | 1398 | 33 | 42 |
| Educación superior | 35 | 1138 | 33 | 36 |
## # A tibble: 3 × 5
## `Nivel que imparte d…` Profesores Estudiantes `Estudiantes P…` `Edad Promedio`
## <chr> <int> <dbl> <dbl> <dbl>
## 1 Educación infantil, p… 98 3148 32 36
## 2 Educación secundaria … 42 1398 33 42
## 3 Educación superior 35 1138 33 36
Logrando construir el siguiente código:
profesores %>%
group_by(niveldocencia) %>%
summarise(Profesores = n(),
Estudiantes = sum(alumnos),
'Estudiantes Promedio' = round(Estudiantes/Profesores),
'Edad Promedio' = round(mean(edad)))%>%
rename("Nivel que imparte docencia"=niveldocencia)El material de este capítulo se encuentra en Manipulación de Datos en R
diamantes %>% ggplot(aes(x = corte,
fill=corte)) +
geom_bar(alpha=0.8) +
scale_fill_brewer(palette = "Dark2") +
geom_text(aes(label=..count..),
stat = 'count',
vjust=-0.5) +
theme_minimal() +
theme(legend.position = "bottom") +
labs(x = "Corte del diamante",
y = "Cantidad de diamantes",
title = "La cantidad de diamantes por tipo de corte",
subtitle = "Mayor cantidad de diamantes de corte ideal",
caption = "Datos de R.com",
fill = "Tipo de corte")El material de este capítulo se encuentra en Análisis Exploratorio de Datos