Los comentarios emitidos por el Comité de Ética de Investigación son pertinentes, rigurosos y alineados con estándares internacionales de investigación en ciencias sociales, especialmente en contextos sensibles como los PDET (Programas de Desarrollo con Enfoque Territorial) en Montes de María.
En términos generales, las observaciones se agrupan en cuatro ejes fundamentales:
A continuación se presenta un análisis técnico y recomendaciones concretas.
El consentimiento informado debe garantizar:
Incluir explícitamente:
1. Propósito del estudio
2. Actividades que realizará el participante
3. Duración de la participación
4. Riesgos y beneficios
5. Derecho a retirarse
6. Firma del participante
7. Firma del investigador
8. Firma de un testigo independiente
Aquí el comité está señalando una debilidad metodológica clave:
No basta con decir “se entrevistarán actores”, se debe justificar cómo y por qué esos actores representan el fenómeno.
Definir claramente:
- Población objetivo (ej: actores comunitarios, institucionales, etc.)
- Criterios de inclusión (experiencia, rol, ubicación)
- Criterios de exclusión
- Tipo de muestreo:
- Intencional (muy común en cualitativo)
- Teórico
- Estratificado (si aplica componente cuantitativo)
Ejemplo:
Se utilizará un muestreo intencional, seleccionando actores clave de:
- Nivel comunitario
- Nivel institucional
- Organismos de control
Debe existir un plan de gestión de datos (Data Management Plan).
Incluir:
- Recolección:
- Audios → transcripción
- Almacenamiento:
- Carpeta protegida (ej: Google Drive institucional, repositorio seguro)
- Procesamiento:
- Codificación temática (Python, R, NVivo, etc.)
- Análisis:
- Cualitativo (clustering, categorías)
- Cuantitativo (si aplica)
- Eliminación o anonimización posterior
Este punto es crítico en estudios en zonas con conflicto o actores armados.
Definir un protocolo claro:
- No realizar entrevistas en zonas de riesgo sin validación local
- Uso de contactos comunitarios como mediadores
- No registrar información sensible en campo
- Suspensión inmediata ante percepción de riesgo
- Protección de identidad del investigador y participantes
Este es un principio clave de:
Anonimización fuerte vs. anonimización superficial
Ejemplo de riesgo:
Implementar:
- Codificación de participantes (Ej: P1, P2, Actor_Regional_1)
- Agrupación de variables sensibles
- Eliminación de detalles específicos de ubicación
- Reporte por categorías y no por individuo
Son técnicamente correctas
Reflejan alto estándar ético
Son especialmente relevantes para:
El comité no está rechazando el proyecto, sino fortaleciéndolo.
Ajustar el documento metodológico incorporando:
Reescribir el consentimiento informado
Clarificar el diseño muestral
Los comentarios del comité son fundamentales para garantizar:
Atender estas observaciones no solo permitirá la aprobación ética definitiva, sino que elevará significativamente la calidad académica de la tesis doctoral.
Desde una perspectiva académica y metodológica:
El proyecto es pertinente, pero requiere fortalecer su componente ético-operativo para estar a la altura de un estudio doctoral en contextos sensibles.
Le consulte a la IA sobre mi papel como estadístico en relación a los comentarios del comite de ética, considerando todo lo que hemos hecho, las primeras pruebas piloto, la manipulación de datos, y procesamientos estadísticos y el uso de la nube con Google Drive y Google Colab (Donde se escriben los código de Python y R) y estas son las sugerencias
Desde el rol de apoyo estadístico, procesamiento de datos y análisis (incluyendo notebooks en Python/R), tu intervención se centra en tres aspectos clave señalados por el comité:
El resto de observaciones (consentimiento, riesgos en campo) corresponden más al investigador principal.
El comité solicita claridad sobre:
“¿Cómo se manejarán los datos cualitativos y cuantitativos?”
Desde tu rol, este punto ya está parcialmente resuelto, pero debe ser explicado formalmente en la tesis.
Los datos recolectados (audios, transcripciones y bases de datos derivadas) serán gestionados mediante un sistema seguro de almacenamiento en la nube (Google Drive institucional), con acceso restringido únicamente al investigador principal y al equipo de análisis.
El procesamiento de la información se realizará mediante notebooks en Python y R, donde se desarrollan procedimientos de limpieza, transformación y análisis de datos cualitativos y cuantitativos.
Las transcripciones serán anonimizadas antes de su procesamiento, eliminando cualquier información que permita la identificación directa o indirecta de los participantes.
El comité no solo exige anonimización básica, sino:
Prevención de reidentificación por cruce de variables
Esto es un problema clásico en estadística y ciencia de datos:
Debes explicitar que aplicas:
- Pseudonimización (códigos tipo P1, P2)
- Generalización de variables sensibles
- Eliminación de identificadores indirectos
- Control del nivel de detalle en reportes
Con el fin de garantizar la confidencialidad, se implementará un proceso de anonimización robusta que incluye la codificación de participantes, la generalización de variables sensibles y la eliminación de cualquier información que, mediante el cruce de variables, pueda permitir la identificación indirecta de los participantes.
Los resultados se reportarán de manera agregada o categórica, evitando la presentación de perfiles individuales identificables.
Este es un punto fuerte que puedes destacar y que el tesista probablemente no ha desarrollado bien.
El procesamiento de la información se realizará mediante flujos de trabajo reproducibles implementados en notebooks (Python y R), lo que garantiza la trazabilidad, transparencia y replicabilidad del análisis.
Se aplicarán técnicas de análisis cualitativo asistido por herramientas computacionales (codificación temática, análisis de frecuencia, clustering semántico) y, cuando corresponda, análisis estadístico descriptivo e inferencial.
En estudios cualitativos (como este caso):
La muestra no es “representativa estadísticamente”, sino teóricamente pertinente.
El comité está pidiendo claridad, no necesariamente un muestreo probabilístico.
Puedes ayudar a:
La definición de la muestra se realizará mediante un enfoque intencional, orientado a la selección de actores clave relevantes para el fenómeno de estudio. En el componente cualitativo, el tamaño de la muestra estará determinado por el criterio de saturación teórica.
En caso de incorporarse elementos cuantitativos, se definirán criterios de estratificación y tamaño muestral acordes con los objetivos del estudio.
Desde el punto de vista estadístico y de gestión de datos:
No es que falte trabajo técnico, sino:
Falta explicitar metodológicamente lo que ya se está haciendo
Puedes decirle algo como:
Desde el componente estadístico y de procesamiento de datos, el proyecto está bien encaminado. Sin embargo, es necesario fortalecer la sección metodológica para explicar de manera explícita:
- Cómo se gestionan y procesan los datos
- Qué estrategias se usan para garantizar la confidencialidad
- Cómo se define la muestra en coherencia con el enfoque cualitativo
Los comentarios del comité son pertinentes y apuntan a mejorar la claridad metodológica más que a corregir errores de fondo.
Tu rol es clave en:
Y en este caso:
El trabajo técnico está bien, pero debe ser mejor explicado, formalizado y documentado en la tesis.
Le hice la pregunta si lo mencionado en la sección 7, ya estaban cubiertos y respondió:
Sí.
Todos los aspectos mencionados en la recomendación están
cubiertos técnicamente, pero con una precisión importante:
Están cubiertos operativamente (en la práctica), pero no necesariamente están documentados de forma explícita en la tesis, que es lo que el comité está solicitando.
✔ Sí, en la práctica.
❗ Formalización en el documento
Cubierto técnicamente, pero insuficientemente descrito metodológicamente.
✔ Parcialmente.
Cubierto a nivel básico, pero requiere fortalecimiento conceptual y redacción explícita.
⚠ Parcialmente / implícitamente
Existe una idea de muestra, pero no está formalizada metodológicamente.
| Componente | Estado técnico | Estado en documento |
|---|---|---|
| Gestión de datos | ✔ Correcto | ⚠ Débil |
| Confidencialidad | ⚠ Aceptable | ❗ Insuficiente |
| Procesamiento (notebooks) | ✔ Fuerte | ⚠ Poco explicado |
| Diseño muestral | ⚠ Implícito | ❗ Débil |
El comité no está diciendo:
“El proyecto está mal hecho”
El comité está diciendo:
“El proyecto no está suficientemente explicado en términos metodológicos y éticos”
Puedes decirle algo como:
Los aspectos que señala el comité sí están siendo cubiertos en la práctica, especialmente en lo relacionado con el manejo y procesamiento de datos.
Sin embargo, el problema no es técnico sino de formulación metodológica: estos procedimientos no están suficientemente explicados en el documento de la tesis.
En particular, es necesario hacer explícito:
- El flujo de gestión y procesamiento de datos
- Las estrategias de anonimización y control de confidencialidad más allá del acceso restringido
- La lógica de selección de la muestra en coherencia con el enfoque cualitativo
En síntesis, el proyecto está bien construido en la práctica, pero requiere una mejor formalización escrita para cumplir con los estándares del comité de ética.
Desde tu rol:
No necesitas cambiar lo que estás haciendo, sino ayudar a que eso quede bien documentado, justificado y visible en la tesis.
Ese es exactamente el nivel de ajuste que el comité está exigiendo.
Cómo podríamos explicitar:
Definir de manera explícita, técnica y defendible ante comité de ética las estrategias de:
Estas deben quedar como subsección metodológica en la tesis.
La pseudonimización consiste en reemplazar los identificadores directos por códigos artificiales que no permiten identificar al participante sin una clave adicional.
Se implementará un proceso de pseudonimización mediante la asignación de códigos únicos a cada participante (ej: P1, P2, P3). Estos códigos serán utilizados en todas las etapas del procesamiento, análisis y reporte de la información.
La correspondencia entre los códigos y la identidad real de los participantes (llave de identificación) será almacenada en un archivo separado, encriptado y con acceso restringido únicamente al investigador principal.
| ID real | Código |
|---|---|
| María Pérez | P1 |
| Juan Gómez | P2 |
Son variables que, aunque no identifican directamente, pueden hacerlo en combinación.
Ejemplos:
Edad → Rangos (30–40, 40–50)
Ubicación → Municipio (no vereda)
Rol → Categorías amplias (líder comunitario, funcionario)
Eliminar variables altamente identificables:
- Nombre de organizaciones pequeñas
- Eventos específicos únicos
Se realizará un proceso de anonimización de identificadores indirectos mediante la generalización y, cuando sea necesario, la supresión de variables que puedan facilitar la identificación de los participantes. Esto incluye la agrupación de variables sociodemográficas en rangos y la omisión de detalles geográficos o contextuales altamente específicos.
Incluso sin nombres, una combinación como:
Mujer + 52 años + líder + vereda X
puede identificar a una persona.
Evitar categorías con muy pocos casos:
No reportar grupos con n < 3
- Fusionar categorías raras
- Evitar perfiles únicos
- Resultados por grupos, no por individuo
- Uso de citas sin contexto identificable
Para prevenir la reidentificación por cruce de variables, se aplicarán técnicas de control de divulgación, tales como la agregación de categorías, la supresión de combinaciones únicas y la restricción de reportes con baja frecuencia.
Los resultados serán presentados de forma agregada, evitando la construcción de perfiles individuales que puedan permitir la identificación indirecta de los participantes.
# Ejemplo de pseudonimización
df["id_codigo"] = ["P" + str(i+1) for i in range(len(df))]
# Generalización de edad
df["edad_rango"] = pd.cut(df["edad"], bins=[20,30,40,50,60],
labels=["20-30","30-40","40-50","50-60"])
# Eliminación de variables sensibles
df = df.drop(columns=["nombre", "vereda"])
- Separar datos crudos y datos procesados
- No trabajar con datos identificables en análisis
- Versionado de notebooks
Puedes sugerir incluir un párrafo como este:
El estudio implementa un protocolo de anonimización y confidencialidad que incluye procesos de pseudonimización mediante la asignación de códigos a los participantes, la eliminación y generalización de identificadores directos e indirectos, y la aplicación de técnicas de control de divulgación para prevenir la reidentificación por cruce de variables.
El procesamiento de los datos se realiza exclusivamente sobre información anonimizada, garantizando que los resultados se presenten de forma agregada y sin posibilidad de identificación individual.
Con estos elementos:
Y muy importante:
Todo esto es coherente con lo que ya estás haciendo; solo se está formalizando y sistematizando.