UNIVERSIDAD DE SONORA


Proyecto Final de Bioinformática


Perfiles de Expresión Génica en el Cáncer de Mama


Licenciatura en Ciencias Genómicas


Almada Danna, Osuna Vanessa, García Christian y Esparza Ana


Mtro. Jesús Arturo Vázquez Espinoza


RESUMEN

El artículo aborda el complejo y heterogéneo cáncer de mama, destacando la influencia de diversos subtipos moleculares en su progresión y respuesta al tratamiento. La proteómica, como tecnología de alto rendimiento, ha sido fundamental para desentrañar el complejo panorama molecular de esta enfermedad. El Consorcio de Análisis de Tumores Proteómicos Clínicos (CPTAC) ha contribuido significativamente al campo mediante la generación de un extenso conjunto de datos de perfiles de proteomas iTRAQ, compuesto por 77 muestras de cáncer de mama.

ABSTRACT

INTRODUCCIÓN

El cáncer de mama, una enfermedad que se origina en las células del tejido glandular del seno, afecta tanto a mujeres como a hombres, siendo el cáncer más diagnosticado en mujeres a nivel global. Este tipo de cáncer presenta diversos factores de riesgo, desde la edad y antecedentes familiares hasta mutaciones genéticas, y se manifiesta a través de síntomas como bultos en el seno y cambios en su apariencia. La detección temprana, generalmente mediante mamografías, es esencial para un tratamiento efectivo, que puede incluir cirugía, radioterapia, quimioterapia y terapias dirigidas. Clasificado en etapas del 0 al IV, el cáncer de mama requiere enfoques de tratamiento adaptados a su extensión. Además, la concientización sobre la importancia de la detección temprana y la adopción de estilos de vida saludables son cruciales para la prevención. Cabe destacar que la diversidad de subtipos moleculares de este cáncer impulsa la investigación para desarrollar tratamientos más personalizados y efectivos.

Antes de comenzar con el análisis de los datos recopilados y obtenidos, nos parece importante disponer de un glosario para los diversos términos que se utilizarán a lo largo de este artículo:

  1. “Complete.TCGA.ID” - Identificación completa del TCGA
  2. “Gender” - Género
  3. “Age.at.Initial.Pathologic.Diagnosis” - Edad al Diagnóstico Patológico Inicial
  4. “ER.Status” - Estado del Receptor de Estrógeno (ER)
  5. “PR.Status” - Estado del Receptor de Progesterona (PR)
  6. “HER2.Final.Status” - Estado Final de HER2
  7. “Tumor” - Tumor
  8. “Tumor..T1.Coded” - Tumor, codificado como T1
  9. “Node” - Nodo
  10. “Node.Coded” - Nodo, codificado
  11. “Metastasis” - Metástasis
  12. “Metastasis.Coded” - Metástasis, codificada
  13. “AJCC.Stage” - Etapa AJCC
  14. “Converted.Stage” - Etapa Convertida
  15. “Survival.Data.Form” - Forma de Datos de Supervivencia
  16. “Vital.Status” - Estado Vital
  17. “Days.to.Date.of.Last.Contact” - Días hasta la Fecha del Último Contacto
  18. “Days.to.date.of.Death” - Días hasta la Fecha de Muerte
  19. “OS.event” - Evento de Supervivencia Global (OS)
  20. “OS.Time” - Tiempo de Supervivencia Global (OS)
  21. “PAM50.mRNA” - ARNm PAM50
  22. “SigClust.Unsupervised.mRNA” - ARNm Sin Supervisión de SigClust
  23. “SigClust.Intrinsic.mRNA” - ARNm Intrínseco de SigClust
  24. “miRNA.Clusters” - Agrupaciones de miARN
  25. “methylation.Clusters” - Agrupaciones de Metilación
  26. “RPPA.Clusters” - Agrupaciones de RPPA
  27. “CN.Clusters” - Agrupaciones de CN (Número de Copias)
  28. “Integrated.Clusters..with.PAM50.” - Agrupaciones Integradas con PAM50
  29. “Integrated.Clusters..no.exp.” - Agrupaciones Integradas sin Expresión
  30. “Integrated.Clusters..unsup.exp.” - Agrupaciones Integradas con Expresión No Supervisada

MÉTODOS

El conjunto de datos aquí analizado proporciona valores de expresión detallados para alrededor de 12,000 proteínas en cada muestra, ofreciendo una visión exhaustiva de las alteraciones proteómicas asociadas al cáncer de mama. Se destaca la presencia de valores faltantes, indicativos de proteínas no cuantificadas en muestras específicas.

Acompañando los datos proteómicos, se dispone de un conjunto de datos clínicos que clasifica las muestras según diversos métodos, siendo el sistema de clasificación PAM50 mRNA notablemente utilizado. La investigación previa del estudio, detallada en una publicación en Nature, exploró el impacto de las mutaciones de ADN en el panorama de expresión de proteínas en el cáncer de mama. Mediante el uso de K-means clustering en datos proteómicos, se identificaron subtipos distintos de pacientes, cada uno con una firma única de expresión de proteínas, proporcionando información valiosa sobre el comportamiento funcional del proteoma.

Para obtener buenos resultados, se realizaron diversos análisis y códigos:

  • Primero se cambió el directorio del archivo al deseado con la función setwd().
## [1] "/Users/dangyiseo/Downloads/PROYECTO FINAL - BIOINFORMÁTICA"
  • Se calcularon las filas (105) y columnas (20) que conforman a la base de datos.
dim(df)
## [1] 105  30
colnames(df)
##  [1] "Complete.TCGA.ID"                    "Gender"                             
##  [3] "Age.at.Initial.Pathologic.Diagnosis" "ER.Status"                          
##  [5] "PR.Status"                           "HER2.Final.Status"                  
##  [7] "Tumor"                               "Tumor..T1.Coded"                    
##  [9] "Node"                                "Node.Coded"                         
## [11] "Metastasis"                          "Metastasis.Coded"                   
## [13] "AJCC.Stage"                          "Converted.Stage"                    
## [15] "Survival.Data.Form"                  "Vital.Status"                       
## [17] "Days.to.Date.of.Last.Contact"        "Days.to.date.of.Death"              
## [19] "OS.event"                            "OS.Time"                            
## [21] "PAM50.mRNA"                          "SigClust.Unsupervised.mRNA"         
## [23] "SigClust.Intrinsic.mRNA"             "miRNA.Clusters"                     
## [25] "methylation.Clusters"                "RPPA.Clusters"                      
## [27] "CN.Clusters"                         "Integrated.Clusters..with.PAM50."   
## [29] "Integrated.Clusters..no.exp."        "Integrated.Clusters..unsup.exp."

Información importante para entender los términos médicos utilizados en el artículo:



  • Se realizó un gráfica para observar el estado vital de los pacientes que fueron parte de las estadísticas.
df %>% tabyl(Vital.Status) %>%
  ggplot(aes(x=Vital.Status,y=n,fill=Vital.Status)) +
  geom_col() +
  labs(x="Estado vital",y="Frecuencias",title="Estado vital de los pacientes") +
  geom_text(aes(label= sprintf("%.2f%%",100*percent)),vjust=1.5,col="white",fontface="bold")

  • Cantidad exacta de pacientes vivos y muertos:

Vital.Status

n

percent

DECEASED

11

10.5%

LIVING

94

89.5%

Total

105

100.0%

  • Asimismo, se analizó la clasificación de las metástasis en cáncer, lo que ayuda a los médicos a determinar la extensión del cáncer en el cuerpo y a planificar el tratamiento. Las letras “M0” y “M1” se utilizan para describir la presencia o ausencia de metástasis.

M0 indica que no hay evidencia de metástasis en el momento del diagnóstico, por lo que el cáncer está confinado a la ubicación original o al sitio primario, y M1, que indica la presencia de metástasis, lo que se refiere a que el cáncer se ha diseminado desde el sitio original a otras partes del cuerpo, a menudo a través del sistema linfático o del torrente sanguíneo.

Metastasis

n

percent

M0

103

98.1%

M1

2

1.9%

Total

105

100.0%

  • Otro punto muy importante a tomar en cuenta es la edad en la que la persona fue diagnosticada con cáncer de mamá, ya que el riesgo de desarrollar cáncer de mama aumenta con la edad, por lo que las mujeres mayores tienen una mayor probabilidad de ser diagnosticadas con cáncer de mama.
df %>% tabyl(Age.at.Initial.Pathologic.Diagnosis) %>%
  adorn_totals("row") %>%
  adorn_pct_formatting() %>%
  flextable() %>%
  fontsize(size=14) %>%
  autofit() %>%
  theme_box()

Age.at.Initial.Pathologic.Diagnosis

n

percent

30

1

1.0%

36

2

1.9%

37

1

1.0%

38

1

1.0%

39

1

1.0%

40

2

1.9%

41

3

2.9%

43

3

2.9%

44

1

1.0%

45

3

2.9%

46

2

1.9%

48

5

4.8%

49

2

1.9%

50

3

2.9%

51

2

1.9%

52

5

4.8%

53

3

2.9%

54

5

4.8%

55

3

2.9%

56

2

1.9%

57

2

1.9%

58

1

1.0%

59

3

2.9%

60

1

1.0%

61

3

2.9%

62

4

3.8%

63

3

2.9%

64

4

3.8%

65

2

1.9%

66

5

4.8%

67

3

2.9%

68

4

3.8%

69

2

1.9%

70

1

1.0%

72

1

1.0%

74

1

1.0%

76

2

1.9%

78

2

1.9%

79

2

1.9%

80

2

1.9%

81

1

1.0%

82

2

1.9%

84

2

1.9%

88

2

1.9%

Total

105

100.0%

  • Los niveles de los tumores de las pacientes indican el tamaño del tumor, lo que es algo muy importante a tomar en cuenta al realizar tratamientos.

T1, T2, T3, T4: Estas designaciones indican el tamaño y la extensión del tumor primario. A medida que el número aumenta, el tamaño y la invasión del tumor también aumentan.

Por ejemplo, T1 representa un tumor pequeño, mientras que T4 indica un tumor grande que puede haber invadido tejidos cercanos. Estos subtipos se utilizan para clasificar la etapa específica del cáncer de mama, lo que ayuda a los profesionales de la salud a determinar el tratamiento más adecuado y a prever el pronóstico del paciente.

df %>% tabyl(Tumor) %>%
  ggplot(aes(x=Tumor,y=n,fill=Tumor)) +
  geom_col() +
  labs(x="Tumor",y="Frecuencias",title="Nivel de los tumores en mujeres con cáncer de mama") +
  geom_text(aes(label= sprintf("%.2f%%",100*percent)),vjust=1.5,col="white",fontface="bold")



En la siguiente imagen se encuentran representados los niveles en los tumores y sus implicaciones:



También se analizaron los agrupamientos de metilaciones:

df %>% tabyl(methylation.Clusters) %>%
  ggplot(aes(x=methylation.Clusters,y=n,fill=methylation.Clusters)) +
  geom_col() +
  labs(x="Agrupaciones de metilaciones",y="Frecuencias",title="Metilaciones en pacientes con cáncer de mama") +
  geom_text(aes(label= sprintf("%.2f%%",100*percent)),vjust=1.5,col="white",fontface="bold")

La interpretación de los niveles en “methylation clusters” (grupos de metilación) en el contexto del cáncer se refiere a patrones específicos de metilación del ADN en regiones particulares del genoma.

RESULTADOS Y DISCUSIÓN

En esta sección se explicaran e interpretaran las gráficas obtenidas del análisis de la base de datos. El 89.52% de los pacientes que fueron parte del estudio se encuentran con vida, y por otro lado, el 10.48% lamentablemente fallecieron.

Se tomaron muestras de un total de 105 mujeres, de las cuales 103 (98.1%) no presentan metástasis, es decir, el cáncer de mamá no se diseminó del sitio original a otras partes del cuerpo, y por otro lado, 2 (1.9%) de estas mujeres sí presentaron metástasis, por lo que el cáncer se extendió a otras partes del cuerpo (no se mantuvo solo en el sitio primario). Es importante analirlo ya que la identificación de metástasis generalmente indica un cáncer en un estadio más avanzado.

Tomando en cuenta las dos clasificaciones anteriores, se observó que las dos pacientes M1 (que presentaron metástasis) fallecieron.

La edad de los pacientes con cáncer de mama es un factor fundamental que impacta en diversos aspectos relacionados con el diagnóstico, tratamiento y pronóstico. El riesgo de desarrollar cáncer de mama aumenta con la edad, siendo más frecuente en mujeres mayores. La edad también influye en las estrategias de detección y diagnóstico, como en el caso de la mamografía, cuyas pautas varían según la edad del paciente.

La biología del cáncer de mama puede diferir entre grupos de edad, con ciertos subtipos más prevalentes en mujeres jóvenes o mayores. La edad del paciente se considera al tomar decisiones de tratamiento, ya que la tolerancia a terapias como la quimioterapia puede variar. Además, la edad desempeña un papel en la determinación del pronóstico, afectando la respuesta al tratamiento y las tasas de supervivencia.

Las consideraciones psicosociales también son influenciadas por la edad, abordando preocupaciones específicas como la fertilidad en mujeres más jóvenes o la calidad de vida en pacientes mayores. Incluso en el caso menos común del cáncer de mama en hombres, la edad también afecta la incidencia y el manejo de la enfermedad.

Por otro lado, se estudió los patrones de metilación en las pacientes, lo que es un proceso epigenético que implica la adición de grupos metilo a las bases del ADN, lo que puede influir en la regulación génica y la expresión de genes. La hipermetilación o hipometilación de ciertas regiones del ADN puede tener implicaciones en el desarrollo y progresión del cáncer, así como en otras enfermedades. Es por esto que se encontraron patrones similares y se realizó una gráfica para comparar la similitud y agrupación entre las pacientes, donde el 31.43% tienen patrones similares (se indica con el número 4).

CONCLUSIONES

En conclusión, el presente estudio sobre el cáncer de mama ofrece una visión integral de la enfermedad, destacando su complejidad y heterogeneidad molecular. La combinación de datos proteómicos con información clínica en el conjunto “clinical_data_breast_cancer.csv,” clasificado según métodos como PAM50 mRNA, ha enriquecido la comprensión de la enfermedad.

La investigación previa, detallada en una publicación de Nature, ha revelado la influencia de las mutaciones de ADN en el panorama de expresión de proteínas, identificando subtipos distintos de cáncer de mama mediante K-means clustering. El aporte adicional de un investigador de doctorado, compartiendo análisis de aprendizaje automático en la comunidad de Kaggle, resalta el potencial de estos datos para investigaciones futuras. La sugerencia de explorar conjuntos alternativos de proteínas, en lugar del tradicional PAM50 basado en ARN, abre nuevas perspectivas para una clasificación más robusta de subtipos de cáncer de mama.

Este enfoque innovador no solo demuestra la utilidad continua de los datos existentes, sino que también invita a la comunidad científica a profundizar en la comprensión de la heterogeneidad del cáncer de mama a nivel de proteínas. En última instancia, este estudio no solo presenta descubrimientos actuales, sino que también cataliza futuras investigaciones que pueden llevar a avances significativos en la detección, clasificación y tratamiento personalizado del cáncer de mama.

AGRADECIMIENTOS

Queremos expresar nuestro sincero agradecimiento a todos los investigadores y científicos comprometidos en el estudio del cáncer de mama. Su dedicación incansable y contribuciones significativas han desempeñado un papel fundamental en aumentar nuestra comprensión de esta enfermedad compleja y heterogénea. Agradecemos especialmente al Consorcio de Análisis de Tumores Proteómicos Clínicos (CPTAC) del Instituto Nacional del Cáncer (NCI/NIH) por proporcionar el valioso conjunto de datos de perfiles de proteomas iTRAQ de 77 muestras de cáncer de mama.

Extendemos nuestro reconocimiento a los investigadores que llevaron a cabo la investigación previa, cuyos hallazgos, publicados en la revista Nature, han arrojado luz sobre la influencia de las mutaciones de ADN en el panorama de expresión de proteínas en el cáncer de mama. Su trabajo no solo impulsa el progreso científico, sino que también ofrece esperanza a miles de mujeres afectadas, marcando el camino hacia avances que pueden transformar la detección, clasificación y tratamiento de esta enfermedad.

REFERENCIAS

Base de datos extraída de Kaggle (https://www.kaggle.com/datasets/piotrgrabo/breastcancerproteomes). Por El Consorcio de Análisis de Tumores Proteómicos Clínicos (CPTAC).