R para el procesamiento estadístico en investigaciones clínicas

Programa del curso

Author

Maicel Eugenio Monzón Pérez

Datos de contacto

e-mail:

maicel.monzon@gmail.com

maicel@infomed.sld.cu

telef: +53 54234317

Datos generales

COLECTIVO DE PROFESORES QUE IMPARTIRÁN EL CURSO

Nombre y apellidos Categoría docente
Maicel Eugenio Monzón Pérez Profesor auxiliar

MATRICULA PROPUESTA: 30

CENTRO ACREDITADO: Universidad de ciencias médicas de la Habana

ESPECIALIDAD QUE PROPONE: -

FECHA PROPUESTA: 06-13 de diciembre de 2021

LUGAR DONDE SE IMPARTIRÁ: ENSAP

DESARROLLADO A TIEMPO: Completo, en modalidad presencial

TOTAL DE HORAS: 120

NIVEL: Provincial

DIRIGIDO A: Profesionales y técnicos que laboran en investigaciones clínicas.

FUNDAMENTACIÓN

El uso de la estadística permite a los investigadores clínicos extraer inferencias razonables y precisas de la información recopilada y tomar decisiones acertadas ante la incertidumbre.

El lenguaje R, es una herramienta moderna y de alta calidad para abordar problemas de ciencias de datos y de procesamiento estadístico. La amplia gama de métodos estadísticos incluidos implementados, permite abordar casi cualquier problema de investigación relacionado con la investigación clinica y en epidemiología. Además, presenta una gran potencia para la representación gráfica y tabular. Como software de procesamiento de datos, es gratuito, de código abierto, independiente del sistema operativo y soporta paradigmas de programación como el orientado a objetos y la programación funcional. En la actualidad, R y Python son los dos lenguajes más populares para la ciencia de datos en el mundo. Esto favorece el interés por esta herramienta para profesionales que se desempeñan en el ámbito de la estadística.

Se oferta un curso que puede contribuir al desarrollo de habilidades en el manejo de datos (preprocesamiento) y análisis estadísticos a partir de datos rectangulares (datos ordenados), así como otras tareas comunes realizadas en durante el procesamiento estadístico de ensayos clínicos. Además, la herramienta propuesta no solo posee una gran calidad, sino que de código abierto y libre de costos por concepto de licencia de software lo que puede contribuir a la soberanía tecnológica de nuestro país.

En este curso se describen una gama de técnicas, implementadas en el entorno estadístico R y bajo el enfoque de “Datos ordenados -Tidyverse-” que permitirán al estudiante desarrollar habilidades para leer, ordenar y transformar datos para obtener un conjunto ordenado de datos. Además, se mostrará cómo realizar algunos análisis estadísticos básicos y cómo realizar la representación gráfica y tabular de los resultados a partir del paquete R y el paquete TidyTrial.

TidyTrial es una biblioteca implementada en R, por el autor de este curso para el trabajo de ensayos clínicos, alternativa a software comerciales como SAS y SPSS. Su implementación bajo el enfoque Tidyverse facilita su utilización, la interoperabilidad con otras librerías populares de este enfoque y un mejor ajuste a los requisitos demandados de nuestro contexto.

OBJETIVO GENERAL

Aplicar técnicas para desarrollar el procesamiento estadístico consistentes en:

  1. Importar datos desde ficheros con formato comunes (xls,csv,sav,dat, etc.).
  2. Ordenar datos.
  3. Realizar transformaciones.
  4. Representar de forma gráfica y tabular los resultados de análisis estadísticos.

PLAN TEMÁTICO

TEMA I: Generalidades del entorno y lenguaje R

Objetivos temáticos:

  • Conocer algunas características generales del lenguaje
  • Funcionamiento de R
  • Creación, listado y remoción de objetos en memoria
  • Objetos y tipos de datos
  • Obtener ayuda

Contenidos:

Introducción (Ventajas e inconvenientes, Obtención e instalación de R Paquetes, Documentación). Programación orientada a objetos en R. Estructura de datos en R (vectores). Funciones (estructura). Elementos de programación funcional en R.

H. Teóricas: 4 H. Prácticas: - H. Estudio Independiente: 8 H. Totales: 12

TEMA II: Introducción al universo ordenado (Tidyverse). Lectura, ordenamiento y transformación de datos.

Objetivos temáticos:

  • Importar datos desde ficheros con formato comunes (xls,csv,sav,dat, entre otros).
  • Ordenar datos.
  • Realizar transformaciones.

Contenidos:

Importar datos. Funciones para importar datos desde ficheros con formato comunes (xls,csv,sav,dat, etc.). Funciones de readr -Análisis de un vector. Ordenar datos. Funciones para Ordenar datos. Concepto de datos ordenados (Tidydata). Funciones para Reunir y Esparcir. Funciones para Separar y unir. Valores faltantes. Realizar transformaciones. Funciones para unir conjuntos de datos y Operaciones con conjuntos. Transformaciones de datos. Funciones básicas de la biblioteca dplyr. Filtrar filas. Comparaciones (Operadores lógicos). Re ordenar las filas. Seleccionar columnas. Añadir nuevas variables. Resúmenes agrupados. Combinación de múltiples operaciones con el pipe. Conteos. Funciones de resumen útiles. Transformaciones agrupadas (y filtros). Algunas rutinas de procedimientos estadísticos en Ensayos Clínicos con TidyTrials.

H. Teóricas: 20 H. Prácticas: - H. Estudio Independiente: 40 H. Totales: 60

TEMA III: Representación gráfica y tabular.

Objetivos temáticos:

Que los estudiantes sean capaces de:

  • Representar datos de forma tabular y gráfica
  • Confeccionar un informe final

Contenidos:

Creación de tablas con las Biblioteca TidyTrial. Visualización de resultados con las biblioteca ggplot. Creación de informes con en markdown.

H. Teóricas: 4 H. Prácticas: - H. Estudio Independiente: 8 H. Totales: 12

PLAN CALENDARIO

TEMA F.O.E. HORAS T.I. HORAS HORAS TOTALES PROFESOR
TEMA I: Generalidades del entorno y lenguaje R. Conferencia 4 8 12 Maicel Eugenio Monzón Pérez
TEMA II: Introducción al universo ordenado (Tidyverse) Conferencia 4 8 12 Maicel Eugenio Monzón Pérez
TEMA III: Representación gráfica y tabular Conferencia 4 8 12 Maicel Eugenio Monzón Pérez
Examen final
Total 24 36 60

TEMAS Y TOTAL DE HORAS A IMPARTIR POR PROFESOR

Profesores Horas de docencia
Maicel Eugenio Monzón Pérez 24
Total 60

ESTRATEGIA DOCENTE

El curso se realizará durante una semana a tiempo completo de forma presencial en el Centro Nacional Coordinador de Ensayos Clínicos (CENCEC). La actividad docente será estructurada por cuatro conferencias y una clase práctica, además de una evaluación final. La tabla que se muestra a continuación describe los detalles.

Horario Día 1 (lunes) Día 2 (martes) Día 3 (miércoles) Día 4 (jueves) Día 5 (viernes)
Mañana c1 (tema 1) 2h c3 (tema 2) 2h CP (tema 2) 4h TP 4h EF
Tarde c2 (tema 2) 2h c4 (tema 3) 2h sem (tema 3) 2h TP 4h EF

C conferencias CP clase práctica Sem Seminario EF Evaluación final

MEDIOS DE ENSEÑANZA

Como requisito indispensable todos los asistentes a curso deben llevar laptops, será necesario una PC con proyector y acceso a internet para el profesor. Si es posible acceso a internet para los estudiantes.

SISTEMA DE EVALUACIÓN

  • Evaluación formativa: Estará dada por preguntas de control orales y escritas que se desarrollarán sistemáticamente. La asistencia a las conferencias es obligatoria.
  • Evaluación final: El trabajo final es la resolución de un problema práctico que consiste en realizar un procesamiento estadístico a partir de una base de datos real. Esta deberá ser ordenada y transformada antes de realizar el análisis.

Al concluir el curso el estudiante recibirá un certificado si satisface las exigencias del programa. Las evaluaciones se expresarán con las calificaciones de Excelente (5), Bien (4), Aprobado (3) o Desaprobado (2).

BIBLIOGRAFÍA RECOMENDADA

  1. Grolemund G, H Wickham, R para Ciencia de Datos. disponible en: https://r4ds.had.co.nz/, O’ Reilly Media, 2017.
  2. de Jonge E, An introduction to data cleaning with R. disponible en: https://cran.r-project.org/doc/contrib/de_Jonge+van_der_Loo-Introduction_to_data_cleaning_with_R.pdf

MINICURRICULO DEL CLAUSTRO

  • Nombre(s) y apellidos: Dr. Maicel Eugenio Monzón Pérez
  • Categoría docente: Profesor auxiliar
  • Grado científico: MSc.
  • Categoría investigativa: -
  • Cargo y centro de trabajo: Responsable de Estadística, Centro Nacional Coordinador de Ensayos Clínicos
  • Años de experiencia profesional:17
  • Especialidad: Dr en medicina, Especialista de segundo grado en Bioestadística
  • Maestría: En Informática Medica
  • Número de postgrados recibidos: + 10
  • Número de postgrados impartidos: +10
  • Número de publicaciones: +10

Líneas investigativas en los últimos 5 años y títulos:

Ética en la investigación

Modelación de la propagación de epidemias

Ciencia de datos

Ensayos clínicos

Métodos estadísticos