R para el procesamiento estadístico en investigaciones clínicas
Programa del curso
Datos de contacto
e-mail:
maicel.monzon@gmail.com
maicel@infomed.sld.cu
telef: +53 54234317
Datos generales
COLECTIVO DE PROFESORES QUE IMPARTIRÁN EL CURSO
| Nombre y apellidos | Categoría docente |
|---|---|
| Maicel Eugenio Monzón Pérez | Profesor auxiliar |
MATRICULA PROPUESTA: 30
CENTRO ACREDITADO: Universidad de ciencias médicas de la Habana
ESPECIALIDAD QUE PROPONE: -
FECHA PROPUESTA: 06-13 de diciembre de 2021
LUGAR DONDE SE IMPARTIRÁ: ENSAP
DESARROLLADO A TIEMPO: Completo, en modalidad presencial
TOTAL DE HORAS: 120
NIVEL: Provincial
DIRIGIDO A: Profesionales y técnicos que laboran en investigaciones clínicas.
FUNDAMENTACIÓN
El uso de la estadística permite a los investigadores clínicos extraer inferencias razonables y precisas de la información recopilada y tomar decisiones acertadas ante la incertidumbre.
El lenguaje R, es una herramienta moderna y de alta calidad para abordar problemas de ciencias de datos y de procesamiento estadístico. La amplia gama de métodos estadísticos incluidos implementados, permite abordar casi cualquier problema de investigación relacionado con la investigación clinica y en epidemiología. Además, presenta una gran potencia para la representación gráfica y tabular. Como software de procesamiento de datos, es gratuito, de código abierto, independiente del sistema operativo y soporta paradigmas de programación como el orientado a objetos y la programación funcional. En la actualidad, R y Python son los dos lenguajes más populares para la ciencia de datos en el mundo. Esto favorece el interés por esta herramienta para profesionales que se desempeñan en el ámbito de la estadística.
Se oferta un curso que puede contribuir al desarrollo de habilidades en el manejo de datos (preprocesamiento) y análisis estadísticos a partir de datos rectangulares (datos ordenados), así como otras tareas comunes realizadas en durante el procesamiento estadístico de ensayos clínicos. Además, la herramienta propuesta no solo posee una gran calidad, sino que de código abierto y libre de costos por concepto de licencia de software lo que puede contribuir a la soberanía tecnológica de nuestro país.
En este curso se describen una gama de técnicas, implementadas en el entorno estadístico R y bajo el enfoque de “Datos ordenados -Tidyverse-” que permitirán al estudiante desarrollar habilidades para leer, ordenar y transformar datos para obtener un conjunto ordenado de datos. Además, se mostrará cómo realizar algunos análisis estadísticos básicos y cómo realizar la representación gráfica y tabular de los resultados a partir del paquete R y el paquete TidyTrial.
TidyTrial es una biblioteca implementada en R, por el autor de este curso para el trabajo de ensayos clínicos, alternativa a software comerciales como SAS y SPSS. Su implementación bajo el enfoque Tidyverse facilita su utilización, la interoperabilidad con otras librerías populares de este enfoque y un mejor ajuste a los requisitos demandados de nuestro contexto.
OBJETIVO GENERAL
Aplicar técnicas para desarrollar el procesamiento estadístico consistentes en:
- Importar datos desde ficheros con formato comunes (xls,csv,sav,dat, etc.).
- Ordenar datos.
- Realizar transformaciones.
- Representar de forma gráfica y tabular los resultados de análisis estadísticos.
PLAN TEMÁTICO
TEMA I: Generalidades del entorno y lenguaje R
Objetivos temáticos:
- Conocer algunas características generales del lenguaje
- Funcionamiento de R
- Creación, listado y remoción de objetos en memoria
- Objetos y tipos de datos
- Obtener ayuda
Contenidos:
Introducción (Ventajas e inconvenientes, Obtención e instalación de R Paquetes, Documentación). Programación orientada a objetos en R. Estructura de datos en R (vectores). Funciones (estructura). Elementos de programación funcional en R.
H. Teóricas: 4 H. Prácticas: - H. Estudio Independiente: 8 H. Totales: 12
TEMA II: Introducción al universo ordenado (Tidyverse). Lectura, ordenamiento y transformación de datos.
Objetivos temáticos:
- Importar datos desde ficheros con formato comunes (xls,csv,sav,dat, entre otros).
- Ordenar datos.
- Realizar transformaciones.
Contenidos:
Importar datos. Funciones para importar datos desde ficheros con formato comunes (xls,csv,sav,dat, etc.). Funciones de readr -Análisis de un vector. Ordenar datos. Funciones para Ordenar datos. Concepto de datos ordenados (Tidydata). Funciones para Reunir y Esparcir. Funciones para Separar y unir. Valores faltantes. Realizar transformaciones. Funciones para unir conjuntos de datos y Operaciones con conjuntos. Transformaciones de datos. Funciones básicas de la biblioteca dplyr. Filtrar filas. Comparaciones (Operadores lógicos). Re ordenar las filas. Seleccionar columnas. Añadir nuevas variables. Resúmenes agrupados. Combinación de múltiples operaciones con el pipe. Conteos. Funciones de resumen útiles. Transformaciones agrupadas (y filtros). Algunas rutinas de procedimientos estadísticos en Ensayos Clínicos con TidyTrials.
H. Teóricas: 20 H. Prácticas: - H. Estudio Independiente: 40 H. Totales: 60
TEMA III: Representación gráfica y tabular.
Objetivos temáticos:
Que los estudiantes sean capaces de:
- Representar datos de forma tabular y gráfica
- Confeccionar un informe final
Contenidos:
Creación de tablas con las Biblioteca TidyTrial. Visualización de resultados con las biblioteca ggplot. Creación de informes con en markdown.
H. Teóricas: 4 H. Prácticas: - H. Estudio Independiente: 8 H. Totales: 12
PLAN CALENDARIO
| TEMA | F.O.E. | HORAS | T.I. HORAS | HORAS TOTALES | PROFESOR |
|---|---|---|---|---|---|
| TEMA I: Generalidades del entorno y lenguaje R. | Conferencia | 4 | 8 | 12 | Maicel Eugenio Monzón Pérez |
| TEMA II: Introducción al universo ordenado (Tidyverse) | Conferencia | 4 | 8 | 12 | Maicel Eugenio Monzón Pérez |
| TEMA III: Representación gráfica y tabular | Conferencia | 4 | 8 | 12 | Maicel Eugenio Monzón Pérez |
| Examen final | |||||
| Total | 24 | 36 | 60 |
TEMAS Y TOTAL DE HORAS A IMPARTIR POR PROFESOR
| Profesores | Horas de docencia |
|---|---|
| Maicel Eugenio Monzón Pérez | 24 |
| Total | 60 |
ESTRATEGIA DOCENTE
El curso se realizará durante una semana a tiempo completo de forma presencial en el Centro Nacional Coordinador de Ensayos Clínicos (CENCEC). La actividad docente será estructurada por cuatro conferencias y una clase práctica, además de una evaluación final. La tabla que se muestra a continuación describe los detalles.
| Horario | Día 1 (lunes) | Día 2 (martes) | Día 3 (miércoles) | Día 4 (jueves) | Día 5 (viernes) |
|---|---|---|---|---|---|
| Mañana | c1 (tema 1) 2h | c3 (tema 2) 2h | CP (tema 2) 4h | TP 4h | EF |
| — | — | — | — | — | — |
| Tarde | c2 (tema 2) 2h | c4 (tema 3) 2h | sem (tema 3) 2h | TP 4h | EF |
C conferencias CP clase práctica Sem Seminario EF Evaluación final
MEDIOS DE ENSEÑANZA
Como requisito indispensable todos los asistentes a curso deben llevar laptops, será necesario una PC con proyector y acceso a internet para el profesor. Si es posible acceso a internet para los estudiantes.
SISTEMA DE EVALUACIÓN
- Evaluación formativa: Estará dada por preguntas de control orales y escritas que se desarrollarán sistemáticamente. La asistencia a las conferencias es obligatoria.
- Evaluación final: El trabajo final es la resolución de un problema práctico que consiste en realizar un procesamiento estadístico a partir de una base de datos real. Esta deberá ser ordenada y transformada antes de realizar el análisis.
Al concluir el curso el estudiante recibirá un certificado si satisface las exigencias del programa. Las evaluaciones se expresarán con las calificaciones de Excelente (5), Bien (4), Aprobado (3) o Desaprobado (2).
BIBLIOGRAFÍA RECOMENDADA
- Grolemund G, H Wickham, R para Ciencia de Datos. disponible en: https://r4ds.had.co.nz/, O’ Reilly Media, 2017.
- de Jonge E, An introduction to data cleaning with R. disponible en: https://cran.r-project.org/doc/contrib/de_Jonge+van_der_Loo-Introduction_to_data_cleaning_with_R.pdf
MINICURRICULO DEL CLAUSTRO
- Nombre(s) y apellidos: Dr. Maicel Eugenio Monzón Pérez
- Categoría docente: Profesor auxiliar
- Grado científico: MSc.
- Categoría investigativa: -
- Cargo y centro de trabajo: Responsable de Estadística, Centro Nacional Coordinador de Ensayos Clínicos
- Años de experiencia profesional:17
- Especialidad: Dr en medicina, Especialista de segundo grado en Bioestadística
- Maestría: En Informática Medica
- Número de postgrados recibidos: + 10
- Número de postgrados impartidos: +10
- Número de publicaciones: +10
Líneas investigativas en los últimos 5 años y títulos:
Ética en la investigación
Modelación de la propagación de epidemias
Ciencia de datos
Ensayos clínicos
Métodos estadísticos