R para ciencia de datos de salud

de Ewen Harrison y Riinu Pius

Published

August 25, 2022

Prefacio

Consejos

Recursos de HealthyR: healthyr.surgicalinformatics.org

Los conjuntos de datos de ejemplo utilizados en el libro se pueden descargar aquí .

Versión 1.0.1

Tiene licencia Creative Commons Attribution-NonCommercial-NoDerivs 3.0 United States License .

Por qué leer este libro

Nos estamos ahogando en información pero hambrientos de conocimiento.
Juan Naisbitt

En esta era de la información, la manipulación, análisis e interpretación de datos se han convertido en una parte fundamental de la vida profesional. En ninguna parte más que en la prestación de atención médica. Desde la comprensión de la enfermedad y el desarrollo de nuevos tratamientos, hasta el diagnóstico y manejo de pacientes individuales, el uso de datos y tecnología son ahora una parte integral del negocio de la atención médica.

Quienes trabajan en el cuidado de la salud interactúan a diario con los datos, a menudo sin darse cuenta. La conversión de esta avalancha de información en conocimiento útil es esencial para una atención al paciente de alta calidad. Una parte importante de esta revolución de la información es la oportunidad para que todos se involucren en el análisis de datos. Esta democratización está impulsada en parte por el movimiento del software de código abierto: ya no necesitamos un costoso software especializado para hacer esto.

El lenguaje de programación estadística, R, está firmemente en el corazón de esto.

Este libro llevará a una persona con poca o ninguna experiencia en ciencia de datos hasta la ejecución de análisis sofisticados. Hacemos hincapié en la importancia de comprender verdaderamente los datos subyacentes con el uso liberal de gráficos, en lugar de depender de pruebas estadísticas opacas y posiblemente mal entendidas. Se incluyen numerosos ejemplos que se pueden adaptar a sus propios datos, junto con nuestros propios paquetes R con funciones fáciles de usar.

Nos divertimos mucho enseñando este curso y nos enfocamos en hacer que el material sea lo más accesible posible. Limitamos las ecuaciones al mínimo a favor del código y usamos ejemplos en lugar de largas explicaciones. Agradecemos a las muchas personas y estudiantes que ayudaron a perfeccionar este libro y agradecemos las sugerencias y los informes de errores a través de https://github.com/SurgicalInformatics .

Colaboradores

Estamos en deuda con las siguientes personas que han contribuido generosamente con su tiempo y material para este libro: Katie Connor, Tom Drake, Cameron Fairfield, Peter Hall, Stephen Knight, Kenneth McLean, Lisa Norman, Einar Pius, Michael Ramage, Katie Shaw y Olivia. Cisne.

Sobre los autores

Ewen Harrison es cirujano y Riinu Pius es físico. Y ambos también son científicos de datos. Incursionan en algunos lenguajes de programación y generalmente se dedican a la tecnología. Están más entusiasmados con el lenguaje de programación estadística R y tienen una experiencia combinada de 25 años usándolo. Trabajan en la Universidad de Edimburgo y han enseñado R a cientos de profesionales de la salud e investigadores.

Creen que una primera introducción a R y la programación estadística debería estar relativamente libre de jerga y orientada a los resultados (obtenga esos gráficos bonitos). La comprensión de conceptos complicados vendrá con el tiempo con la práctica y la experiencia, no a través de un recuento de la historia de la computación bit por byte, o con la inclusión de las ecuaciones subyacentes para cada prueba estadística (aunque Ewen ha colado algunas ecuaciones en).

En general, esperan que el texto sea divertido y accesible. Como ellos.

(PARTE) Manejo y visualización de datos

Por qué amamos a R

Gracias por elegir este libro sobre el uso de R para el análisis de datos de salud. Incluso si ya está familiarizado con el lenguaje R, esperamos que encuentre algunos enfoques nuevos aquí, ya que aprovechamos al máximo las herramientas R más recientes, incluidas algunas que hemos desarrollado nosotros mismos. Se anima a aquellos que ya están familiarizados con R a seguir hojeando los primeros capítulos para familiarizarse con el estilo de R que recomendamos.

R se puede usar para todas las aplicaciones de ciencia de datos de salud que se nos ocurran. Desde la bioinformática y la biología computacional hasta el análisis de datos administrativos y el procesamiento del lenguaje natural, pasando por el internet de las cosas y los datos portátiles, hasta el aprendizaje automático y la inteligencia artificial, e incluso la salud pública y la epidemiología. R lo tiene todo.

Estas son las principales razones por las que amamos a R:

R es versátil y potente: utilícelo para
- gráficos;
- todas las pruebas estadísticas con las que puedas soñar;
- aprendizaje automático y aprendizaje profundo;
- informes automatizados;
- sitios web;
- e incluso libros (sí, este libro fue escrito completamente en R).
Los scripts R se pueden reutilizar: le brinda eficiencia y reproducibilidad.
Es de uso gratuito para cualquier persona, en cualquier lugar.

Ayuda, ¿qué es un script?

ndex{RStudio@ xtbf{RStudio}!script}

Un script es una lista de instrucciones. Es solo un archivo de texto y no se requiere ningún software especial para verlo. En la Figura @ ref(fig:chap01-fig-rscript) se muestra un script R de ejemplo.

¡No entrar en pánico! Lo único que debe comprender en este punto es que lo que está viendo es una lista de instrucciones escritas en lenguaje R.

índice{comentarios} También debe notar que algunas partes del guión se ven como un inglés normal. Estas son las líneas que comienzan con un # y se llaman “comentarios”. Podemos (y debemos) incluir estos comentarios en todo lo que hacemos. Estas son notas de lo que estábamos haciendo, tanto para los colegas como para nosotros mismos en el futuro.

FIGURA 1.1: Un script R de ejemplo de RStudio.

Las líneas que no comienzan con # son código R. Aquí es donde realmente sucede el cálculo numérico. Cubriremos los detalles de este código R en los próximos capítulos. El propósito de este capítulo es describir parte de la terminología, así como la interfaz y las herramientas que utilizamos.

Para los impacientes:

Interconectamos R usando RStudio
Usamos los paquetes tidyverse que son una extensión sustancial de la funcionalidad básica de R (repetimos: extensión, no reemplazo)

Aunque R es un lenguaje, no crea que después de leer este libro debería poder abrir un archivo en blanco y comenzar a escribir el código R como un malvado genio informático de una película. Así no es como se ve la programación del mundo real.

En primer lugar, debe copiar, pegar y adaptar ejemplos de código R existentes, ya sea de este libro, Internet o más adelante de su trabajo existente. Reescribir todo desde cero no es eficiente. Sí, comprenderá y eventualmente recordará gran parte de ella, pero dedicar tiempo a memorizar funciones específicas que se pueden buscar y copiar fácilmente simplemente no es necesario.

En segundo lugar, R es un lenguaje interactivo. Lo que significa que “ejecutamos” el código R línea por línea y obtenemos comentarios inmediatos. No escribimos un guión completo sin probar cada parte a medida que avanzamos.

En tercer lugar, no se preocupe por cometer errores. ¡Celébralos! El punto central de R y la reproducibilidad es que las manipulaciones no se aplican directamente en un conjunto de datos, sino en una copia del mismo. Todo está en un guión, así que no puedes hacer nada malo. Si comete un error, como sobrescribir accidentalmente sus datos, podemos volver a cargarlos, volver a ejecutar los pasos que funcionaron bien y continuar averiguando qué salió mal al final. Y dado que todos estos pasos están escritos en un script, R rehará todo con solo presionar un botón. No tiene que repetir una serie de clics del mouse desde los menús desplegables como en otros paquetes estadísticos, lo que rápidamente se convierte en una bendición.

¿Qué es RStudio?

índice{RStudio}

RStudio es un programa gratuito que facilita el trabajo con R. En la Figura @ ref(fig:chap01-fig-rstudio) se muestra una captura de pantalla de ejemplo de RStudio. Ya presentamos lo que se encuentra en el panel superior izquierdo: Script

Ahora, mire los pequeños botones Ejecutar y Fuente en la esquina superior derecha del panel de secuencias de comandos. Al hacer clic en Ejecutar se ejecuta una línea de código R. Al hacer clic en Fuente se ejecutan todas las líneas de código R en el script (esencialmente es ‘Ejecutar todas las líneas’). Cuando ejecuta el código R, se envía a la Consola , que es el panel inferior izquierdo. Aquí es donde R realmente vive.

Atajos de teclado!
Ejecutar línea: Control+Intro
Ejecutar todas las líneas (Fuente): Control+Shift+Enter
(En una Mac, tanto el Control como el Comando funcionan) La Consola es donde R nos habla. Cuando tenemos suerte, obtenemos resultados allí; en este ejemplo, los resultados de una prueba t (última línea del script). Cuando tenemos menos suerte, aquí también aparecen los Errores o Advertencias.

¡Los errores R dan mucho menos miedo de lo que parecen! Sí, si está utilizando un programa de computadora normal en el que todo lo que hace es hacer clic en algunos botones, entonces obtener un error rojo adecuado que detiene todo es bastante inusual. Pero en programación, los errores son solo una forma en que R se comunica con nosotros.

Vemos errores en nuestro propio trabajo todos los días, son muy normales y no significan que todo esté mal o que debas rendirte. Trate de reformular la palabra Error para que signifique “retroalimentación”, como en “Hola, soy R. No puedo continuar, esta es la retroalimentación que le estoy dando”. Los errores más comunes que verá son similares a “Error: algo no encontrado”. Esto casi siempre significa que hay un error tipográfico o que has escrito algo mal. Además, R distingue entre mayúsculas y minúsculas, por lo que las mayúsculas son importantes (el nombre de la variable lifeExp no es lo mismo que lifeexp ).

La consola solo puede imprimir texto, por lo que cualquier gráfico que cree en su secuencia de comandos aparecerá en el panel Gráficos (abajo a la derecha).

De manera similar, los conjuntos de datos que cargó o creó aparecen en la pestaña Entorno . Cuando hace clic en un conjunto de datos, aparece en un bonito visor que es rápido incluso cuando hay muchos datos. Esto significa que puede echar un vistazo y desplazarse por sus filas y columnas, de la misma manera que lo haría con una hoja de cálculo.

1.3 Primeros pasos

Para comenzar a usar R, debe hacer estas dos cosas:

Instale R (desde https://www.r-project.org/)
Instale RStudio Desktop (desde https://www.rstudio.com/)

Cuando abra RStudio por primera vez, también querrá instalar algunos paquetes adicionales para ampliar la funcionalidad básica de R. Puede hacerlo en la pestaña Paquetes (junto a la pestaña Gráficos en la parte inferior derecha de la Figura @ ref(fig:chap01-fig-rstudio)).

Un paquete es solo una colección de funciones (comandos) que no están incluidas en la instalación estándar de R, llamada base-R.

Gran parte de la funcionalidad presentada en este libro proviene de la familia tidyverse de paquetes R (http://tidyverse.org @ tidyverse2019 ). Entonces, cuando vaya a Paquetes, haga clic en Instalar , escriba tidyverse y se instalará toda una colección de paquetes útiles y modernos.

Aunque haya instalado los paquetes tidyverse , aún deberá decirle a R cuando esté a punto de usarlos. Incluimos library(tidyverse) en la parte superior de cada script que escribimos:

library(tidyverse)

── Attaching packages ─────────────────────────────────────── tidyverse 1.3.2 ──
✔ ggplot2 3.3.6     ✔ purrr   0.3.4
✔ tibble  3.1.8     ✔ dplyr   1.0.9
✔ tidyr   1.2.0     ✔ stringr 1.4.0
✔ readr   2.1.2     ✔ forcats 0.5.1
── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
✖ dplyr::filter() masks stats::filter()
✖ dplyr::lag()    masks stats::lag()

Podemos ver que ha cargado 8 paquetes (ggplot2, tibble,tidyr,readr,purrr, dplyr,stringr,forcats), el nÃºmero detrÃ¡s del nombre de un paquete es su versiÃ³n.

Se espera el mensaje “Conflictos” y se puede ignorar con seguridad [^1].

Hay algunos otros paquetes de R que usamos y no son parte del tidyverse, pero los presentaremos a medida que avanzamos. Si tiene mucha curiosidad, dirÃjase a la secciÃ³n Recursos del sitio web de HealthyR, que es el mejor lugar para encontrar enlaces actualizados e instrucciones de instalaciÃ³n. Nuestras versiones R y del paquete tambiÃ©n se enumeran en el ApÃ©ndice.

Referencias

[^1] : Wickham, Hadley, Mara Averick, Jennifer Bryan, Winston Chang, Lucy McGowan, Romain FranÃ§ois, Garrett Grolemund, et al. 2019. “Welcome to the Tidyverse.” Journal of Open Source Software 4 (43): 1686. https://doi.org/10.21105/joss.01686

Simplemente significa que cuando usamos filtero lag, vendrÃ¡n del paquete dplyr en lugar del paquete stats . Nunca hemos necesitado usar filterand lagfrom stats , pero si lo hace, entonces use los dos puntos dobles, es decir, stats::filter()or stats::lag(), ya que solo filter()usarÃ¡ el dplyr one. â†©ï¸Ž

1.4 Obtener ayuda

La mejor manera de solucionar los errores de R es copiarlos y pegarlos en un motor de bÃºsqueda (por ejemplo, Google). Buscar en lÃnea tambiÃ©n es una excelente manera de aprender cÃ³mo hacer cosas nuevas especÃficas o encontrar ejemplos de cÃ³digo. Debe copiar y pegar soluciones en su secuencia de comandos R para luego modificarlas para que coincidan con lo que estÃ¡ tratando de hacer. Constantemente copiamos cÃ³digo de foros en lÃnea y nuestros propios scripts existentes.

Sin embargo, hay muchas maneras diferentes de lograr lo mismo en R. A veces, buscarÃ¡ ayuda y se encontrarÃ¡ con un cÃ³digo R que no se parece en nada a lo que ha visto en este libro. Los paquetes de tidyverse son relativamente nuevos y usan la tuberÃa ( %>% ) algo que veremos mÃ¡s adelante. Pero los motores de bÃºsqueda a menudo darÃ¡n prioridad a los resultados mÃ¡s antiguos que utilizan un enfoque mÃ¡s tradicional.

Por lo tanto, las soluciones mÃ¡s antiguas pueden aparecer en la parte superior. No se desanime si ve un cÃ³digo R que se ve completamente diferente a lo que esperaba. Simplemente siga desplazÃ¡ndose hacia abajo o haciendo clic en diferentes respuestas hasta que encuentre algo que le parezca un poco mÃ¡s familiar.

Si estÃ¡ trabajando sin conexiÃ³n, entonces la pestaÃ±a Ayuda integrada de RStudio es Ãºtil. Para usar la pestaÃ±a Ayuda, haga clic con el cursor en algo de su cÃ³digo (p. ej., read_csv()) y presione F1. Esto le mostrarÃ¡ la definiciÃ³n y algunos ejemplos. F1 puede ser difÃcil de encontrar en algunos teclados, una alternativa es escribir, por ejemplo, ?read_csv. Esto tambiÃ©n abrirÃ¡ la pestaÃ±a Ayuda para esta funciÃ³n.

Sin embargo, la pestaÃ±a Ayuda solo es Ãºtil si ya sabe lo que estÃ¡ buscando pero no puede recordar exactamente cÃ³mo funciona. Para encontrar ayuda sobre cosas que no ha usado antes, lo mejor es buscarlo en Google.

R tiene alrededor de 2 millones de usuarios, por lo que alguien en algÃºn lugar probablemente haya tenido la misma pregunta o problema.

RStudio tambiÃ©n tiene un menÃº desplegable de Ayuda en la parte superior (la misma fila donde encuentra “Archivo”, “Editar”, …). Las cosas mÃ¡s notables en el menÃº desplegable de Ayuda son las Cheatsheets. Estos dos pÃ¡ginas estrechamente empaquetados incluyen muchas de las funciones mÃ¡s Ãºtiles de los tidyversepaquetes. No son particularmente fÃ¡ciles de aprender, pero son invaluables como ayuda memoria .

1.5 Trabajar en un proyecto

Los archivos en su computadora estÃ¡n organizados en carpetas. Los proyectos de RStudio viven en las carpetas normales de su computadora: marcan el directorio de trabajo de cada proyecto de anÃ¡lisis. Estas carpetas de proyectos se pueden ver o mover de la misma manera que normalmente trabaja con archivos y carpetas en su computadora.

La esquina superior derecha de su RStudio nunca debe decir “Proyecto: (Ninguno)” . Si es asÃ, haga clic en Ã©l y cree un nuevo proyecto. DespuÃ©s de hacer clic en Nuevo proyecto, puede decidir si permite que RStudio cree un Nuevo directorio (carpeta) en su computadora. Alternativamente, si sus archivos de datos ya estÃ¡n organizados en una “carpeta existente”, use la Ãºltima opciÃ³n.

Cada conjunto de anÃ¡lisis en el que estÃ© trabajando debe tener su propia carpeta y proyecto RStudio. Esto le permite cambiar entre diferentes proyectos sin mezclar los datos, scripts o archivos de salida. Todo se lee o se guarda en el lugar correcto. No mÃ¡s exportar un grÃ¡fico y luego revisar los diversos documentos, etc., carpetas en su computadora tratando de averiguar dÃ³nde podrÃa haberse guardado su grÃ¡fico. Se guardÃ³ en la carpeta del proyecto.

1.6 Reiniciar R regularmente

Â¿Has probado a apagarlo y encenderlo de nuevo? Es vital reiniciar R regularmente. Reiniciar R ayuda a evitar el uso accidental de datos o funciones incorrectas almacenadas en el entorno. Â¡Reiniciar R solo lleva un segundo y lo hacemos varias veces al dÃa! Una vez que se acostumbre a guardar todo en un script, siempre estarÃ¡ feliz de reiniciar R. Esto lo ayudarÃ¡ a desarrollar habilidades de anÃ¡lisis de datos sÃ³lidas y reproducibles.

Puede reiniciar R haciendo clic en Session -> Restart R(menÃº superior).

AdemÃ¡s, RStudio tiene una configuraciÃ³n predeterminada que ya no se considera la mejor prÃ¡ctica (Figura 1.3 ). DespuÃ©s de instalar RStudio, debe cambiar dos cosas pequeÃ±as pero importantes en Tools -\> Global Options:

1.) Desmarque “Restaurar .RData en Workspace al inicio”

2.) Establezca “Guardar .RData al salir” en Nunca

Esto no significa que no pueda o no deba guardar su trabajo en .RData/.rda archivos. Pero lo mejor es hacerlo conscientemente y cargar exactamente lo que quieres cargar. Permitir que R guarde y cargue todo en silencio por usted tambiÃ©n puede incluir datos u objetos rotos.

1.7 NotaciÃ³n a lo largo de este libro

Cuando se mencionan en el texto, los nombres de los paquetes R estÃ¡n en negrita, por ejemplo, ggplot2 , mientras que las funciones, los objetos y las variables se imprimen con una fuente monoespaciada, por ejemplo filter(), mean(), lifeExp. Las funciones siempre van seguidas de corchetes: (), mientras que los objetos de datos o las variables no.

De lo contrario, el cÃ³digo R vive en las Ã¡reas grises conocidas como “fragmentos de cÃ³digo”. Las lÃneas de salida de R comienzan con un doble ##: estos serÃ¡n los nÃºmeros o el texto que R nos da despuÃ©s de ejecutar el cÃ³digo. R tambiÃ©n agrega un contador al comienzo de cada nueva lÃnea; mire los nÃºmeros entre corchetes [] a continuaciÃ³n:

# dos puntos entre dos nÃºmeros crea una secuencia
1001:1017

 [1] 1001 1002 1003 1004 1005 1006 1007 1008 1009 1010 1011 1012 1013 1014 1015
[16] 1016 1017

Recuerde, las lÃneas de cÃ³digo R que comienzan con # se denominan comentarios. Ya introdujimos los comentarios como notas sobre el cÃ³digo R anteriormente en este capÃtulo (SecciÃ³n 1.1 â€œAyuda, Â¿quÃ© es un script?â€), sin embargo, hay un segundo caso de uso para los comentarios.

Cuando haces que el cÃ³digo R sea un comentario, al agregar un # delante de Ã©l, se ‘comenta’. Por ejemplo, supongamos que su script R hace dos cosas, imprime nÃºmeros del 1 al 4 y luego nÃºmeros del 1001 al 1004:

# Escribamos nÃºmeros pequeÃ±os:
1:4

[1] 1 2 3 4

#Ahora estamos imprimiendo nÃºmeros mÃ¡s grandes:
1001:1004

[1] 1001 1002 1003 1004

Si decide ‘comentar’ la impresiÃ³n de nÃºmeros grandes, el cÃ³digo se verÃ¡ asÃ:

# Escribamos nÃºmeros pequeÃ±os:
1:4

[1] 1 2 3 4

# Ahora estamos imprimiendo nÃºmeros mÃ¡s grandes:
# 1001:1004

# Now commented out as not required any more
# Now we're printing bigger numbers:
# 1001:1004

Por supuesto, podrÃa eliminar la lÃnea por completo, pero comentar es Ãºtil, ya que es posible que desee incluir las lÃneas mÃ¡s tarde eliminando el # del comienzo de la lÃnea.

Atajo de teclado para comentar/comentar en varias lÃneas a la vez: Control+Shift+C (en una Mac, tanto Control como Command funcionan)