UNIVERSIDAD DE SONORA


Proyecto Final de Bioinformática


Perfiles de Expresión Génica en el Cáncer de Mama


Licenciatura en Ciencias Genómicas


Almada Danna

Osuna Vanessa

García Christian

Esparza Ana Paula

Mtro. Jesús Arturo Vázquez Espinoza


RESUMEN

El artículo aborda el complejo y heterogéneo cáncer de mama, destacando la influencia de diversos subtipos moleculares en su progresión y respuesta al tratamiento. La proteómica, como tecnología de alto rendimiento, ha sido fundamental para desentrañar el complejo panorama molecular de esta enfermedad. El Consorcio de Análisis de Tumores Proteómicos Clínicos (CPTAC) ha contribuido significativamente al campo mediante la generación de un extenso conjunto de datos de perfiles de proteomas iTRAQ, compuesto por 105 muestras de cáncer de mama.

ABSTRACT

The article addresses the complex and heterogeneous breast cancer, highlighting the influence of various molecular subtypes on its progression and treatment response. Proteomics, as a high-throughput technology, has been crucial in unraveling the intricate molecular landscape of this disease. The Clinical Proteomic Tumor Analysis Consortium (CPTAC) has significantly contributed to the field by generating an extensive dataset of iTRAQ proteome profiles, consisting of 105 breast cancer samples.

INTRODUCCIÓN

El cáncer de mama, una enfermedad que se origina en las células del tejido glandular del seno, afecta tanto a mujeres como a hombres, siendo el cáncer más diagnosticado en mujeres a nivel global. Este tipo de cáncer presenta diversos factores de riesgo, desde la edad y antecedentes familiares hasta mutaciones genéticas, y se manifiesta a través de síntomas como bultos en el seno y cambios en su apariencia. La detección temprana, generalmente mediante mamografías, es esencial para un tratamiento efectivo, que puede incluir cirugía, radioterapia, quimioterapia y terapias dirigidas. Clasificado en etapas del 0 al IV, el cáncer de mama requiere enfoques de tratamiento adaptados a su extensión. Además, la concientización sobre la importancia de la detección temprana y la adopción de estilos de vida saludables son cruciales para la prevención. Cabe destacar que la diversidad de subtipos moleculares de este cáncer impulsa la investigación para desarrollar tratamientos más personalizados y efectivos.

GLOSARIO

Antes de comenzar con el análisis de los datos recopilados y obtenidos, nos parece importante disponer de un glosario para los diversos términos que se utilizarán a lo largo de este artículo:

  1. “Complete.TCGA.ID” - Identificación completa del TCGA
  2. “Gender” - Género
  3. “Age.at.Initial.Pathologic.Diagnosis” - Edad al Diagnóstico Patológico Inicial
  4. “ER.Status” - Estado del Receptor de Estrógeno (ER)
  5. “PR.Status” - Estado del Receptor de Progesterona (PR)
  6. “HER2.Final.Status” - Estado Final de HER2
  7. “Tumor” - Tumor
  8. “Tumor..T1.Coded” - Tumor, codificado como T1
  9. “Node” - Nodo
  10. “Node.Coded” - Nodo, codificado
  11. “Metastasis” - Metástasis
  12. “Metastasis.Coded” - Metástasis, codificada
  13. “AJCC.Stage” - Etapa AJCC
  14. “Converted.Stage” - Etapa Convertida
  15. “Survival.Data.Form” - Forma de Datos de Supervivencia
  16. “Vital.Status” - Estado Vital
  17. “Days.to.Date.of.Last.Contact” - Días hasta la Fecha del Último Contacto
  18. “Days.to.date.of.Death” - Días hasta la Fecha de Muerte
  19. “OS.event” - Evento de Supervivencia Global (OS)
  20. “OS.Time” - Tiempo de Supervivencia Global (OS)
  21. “PAM50.mRNA” - ARNm PAM50
  22. “SigClust.Unsupervised.mRNA” - ARNm Sin Supervisión de SigClust
  23. “SigClust.Intrinsic.mRNA” - ARNm Intrínseco de SigClust
  24. “miRNA.Clusters” - Agrupaciones de miARN
  25. “methylation.Clusters” - Agrupaciones de Metilación
  26. “RPPA.Clusters” - Agrupaciones de RPPA
  27. “CN.Clusters” - Agrupaciones de CN (Número de Copias)
  28. “Integrated.Clusters..with.PAM50.” - Agrupaciones Integradas con PAM50
  29. “Integrated.Clusters..no.exp.” - Agrupaciones Integradas sin Expresión
  30. “Integrated.Clusters..unsup.exp.” - Agrupaciones Integradas con Expresión No Supervisada

MÉTODOS

El conjunto de datos aquí analizado proporciona valores de expresión detallados para alrededor de 12,000 proteínas en cada muestra, ofreciendo una visión exhaustiva de las alteraciones proteómicas asociadas al cáncer de mama. Se destaca la presencia de valores faltantes, indicativos de proteínas no cuantificadas en muestras específicas.

Acompañando los datos proteómicos, se dispone de un conjunto de datos clínicos que clasifica las muestras según diversos métodos, siendo el sistema de clasificación PAM50 mRNA notablemente utilizado. La investigación previa del estudio, detallada en una publicación en Nature, exploró el impacto de las mutaciones de ADN en el panorama de expresión de proteínas en el cáncer de mama. Mediante el uso de K-means clustering en datos proteómicos, se identificaron subtipos distintos de pacientes, cada uno con una firma única de expresión de proteínas, proporcionando información valiosa sobre el comportamiento funcional del proteoma.

Para obtener buenos resultados, se realizaron diversos análisis y códigos:

I. CAMBIO DE DIRECTORIO

Primero se cambió el directorio del archivo al deseado con la función setwd().

## [1] "C:/Users/Nabor Osuna/Downloads/PROYECTO FINAL - BIOINFORMÁTICA 2/PROYECTO FINAL - BIOINFORMA╠üTICA"

II. FILAS Y COLUMNAS

Se calcularon las filas (105) y columnas (20) que conforman a la base de datos.

dim(df)
## [1] 105  30
colnames(df)
##  [1] "Complete.TCGA.ID"                    "Gender"                             
##  [3] "Age.at.Initial.Pathologic.Diagnosis" "ER.Status"                          
##  [5] "PR.Status"                           "HER2.Final.Status"                  
##  [7] "Tumor"                               "Tumor..T1.Coded"                    
##  [9] "Node"                                "Node.Coded"                         
## [11] "Metastasis"                          "Metastasis.Coded"                   
## [13] "AJCC.Stage"                          "Converted.Stage"                    
## [15] "Survival.Data.Form"                  "Vital.Status"                       
## [17] "Days.to.Date.of.Last.Contact"        "Days.to.date.of.Death"              
## [19] "OS.event"                            "OS.Time"                            
## [21] "PAM50.mRNA"                          "SigClust.Unsupervised.mRNA"         
## [23] "SigClust.Intrinsic.mRNA"             "miRNA.Clusters"                     
## [25] "methylation.Clusters"                "RPPA.Clusters"                      
## [27] "CN.Clusters"                         "Integrated.Clusters..with.PAM50."   
## [29] "Integrated.Clusters..no.exp."        "Integrated.Clusters..unsup.exp."

Información importante para entender los términos médicos utilizados en el artículo:



III. ESTADO VITAL

Se realizó un gráfica para observar el estado vital de los pacientes que fueron parte de las estadísticas.

df %>% tabyl(Vital.Status) %>%
  ggplot(aes(x=Vital.Status,y=n,fill=Vital.Status)) +
  geom_col() +
  labs(x="Estado vital",y="Frecuencias",title="Estado vital de los pacientes") +
  geom_text(aes(label= sprintf("%.2f%%",100*percent)),vjust=1.5,col="white",fontface="bold")

IV. PACIENTES VIVOS Y MUERTOS

Cantidad exacta de pacientes vivos y muertos:

Vital.Status

n

percent

DECEASED

11

10.5%

LIVING

94

89.5%

Total

105

100.0%

V. METÁSTASIS

Asimismo, se analizó la clasificación de las metástasis en cáncer, lo que ayuda a los médicos a determinar la extensión del cáncer en el cuerpo y a planificar el tratamiento. Las letras “M0” y “M1” se utilizan para describir la presencia o ausencia de metástasis.

M0 indica que no hay evidencia de metástasis en el momento del diagnóstico, por lo que el cáncer está confinado a la ubicación original o al sitio primario, y M1, que indica la presencia de metástasis, lo que se refiere a que el cáncer se ha diseminado desde el sitio original a otras partes del cuerpo, a menudo a través del sistema linfático o del torrente sanguíneo.

Metastasis

n

percent

M0

103

98.1%

M1

2

1.9%

Total

105

100.0%

VI. EDAD DE DIAGNÓSTICO

Otro punto muy importante a tomar en cuenta es la edad en la que la persona fue diagnosticada con cáncer de mamá, ya que el riesgo de desarrollar cáncer de mama aumenta con la edad, por lo que las mujeres mayores tienen una mayor probabilidad de ser diagnosticadas con cáncer de mama.

df %>% tabyl(Age.at.Initial.Pathologic.Diagnosis) %>%
  adorn_totals("row") %>%
  adorn_pct_formatting() %>%
  flextable() %>%
  fontsize(size=14) %>%
  autofit() %>%
  theme_box()

Age.at.Initial.Pathologic.Diagnosis

n

percent

30

1

1.0%

36

2

1.9%

37

1

1.0%

38

1

1.0%

39

1

1.0%

40

2

1.9%

41

3

2.9%

43

3

2.9%

44

1

1.0%

45

3

2.9%

46

2

1.9%

48

5

4.8%

49

2

1.9%

50

3

2.9%

51

2

1.9%

52

5

4.8%

53

3

2.9%

54

5

4.8%

55

3

2.9%

56

2

1.9%

57

2

1.9%

58

1

1.0%

59

3

2.9%

60

1

1.0%

61

3

2.9%

62

4

3.8%

63

3

2.9%

64

4

3.8%

65

2

1.9%

66

5

4.8%

67

3

2.9%

68

4

3.8%

69

2

1.9%

70

1

1.0%

72

1

1.0%

74

1

1.0%

76

2

1.9%

78

2

1.9%

79

2

1.9%

80

2

1.9%

81

1

1.0%

82

2

1.9%

84

2

1.9%

88

2

1.9%

Total

105

100.0%

Se han agrupado edades para mejor entendimiento de los datos.

# Adultos 26-40 edad[1]
# Adultos Mayores 41-60 edad[2]
# Tercera Edad 61+ edad[3]

A partir del análisis de la presente gráfica, se evidencia que el grupo más afectado corresponde a los adultos mayores (41-60 años). Se sugiere que esta incidencia podría atribuirse al hecho de que dentro de este grupo se encuentra la categoría de mayor riesgo, es decir, “mujeres de 50 años o más”, dado que la mayoría de los casos de cáncer de mama se diagnostican en mujeres mayores de 50 años.

No obstante, es imperativo resaltar que la vulnerabilidad y los factores de riesgo pueden ser influidos por una diversidad de elementos, tales como antecedentes familiares, predisposición genética, estilo de vida y exposición a hormonas, entre otros.

Adicionalmente, se observa una diferencia mínima en la presente gráfica entre el grupo de adultos mayores y el de adultos de la tercera edad. A partir de este análisis, se puede concluir que la mayoría de los casos se diagnostican en mujeres mayores de 50 años.

VII. TUMORES

Los niveles de los tumores de las pacientes indican el tamaño del tumor, lo que es algo muy importante a tomar en cuenta al realizar tratamientos.

T1, T2, T3, T4: Estas designaciones indican el tamaño y la extensión del tumor primario. A medida que el número aumenta, el tamaño y la invasión del tumor también aumentan.

Por ejemplo, T1 representa un tumor pequeño, mientras que T4 indica un tumor grande que puede haber invadido tejidos cercanos. Estos subtipos se utilizan para clasificar la etapa específica del cáncer de mama, lo que ayuda a los profesionales de la salud a determinar el tratamiento más adecuado y a prever el pronóstico del paciente.

df %>% tabyl(Tumor) %>%
  ggplot(aes(x=Tumor,y=n,fill=Tumor)) +
  geom_col() +
  labs(x="Tumor",y="Frecuencias",title="Nivel de los tumores en mujeres con cáncer de mama") +
  geom_text(aes(label= sprintf("%.2f%%",100*percent)),vjust=1.5,col="white",fontface="bold")



En la siguiente imagen se encuentran representados los niveles en los tumores y sus implicaciones:



VIII. METILACIONES

Se analizaron los agrupamientos de metilaciones:

df %>% tabyl(methylation.Clusters) %>%
  ggplot(aes(x=methylation.Clusters,y=n,fill=methylation.Clusters)) +
  geom_col() +
  labs(x="Agrupaciones de metilaciones",y="Frecuencias",title="Metilaciones en pacientes con cáncer de mama") +
  geom_text(aes(label= sprintf("%.2f%%",100*percent)),vjust=1.5,col="white",fontface="bold")

La interpretación de los niveles en “methylation clusters” (grupos de metilación) en el contexto del cáncer se refiere a patrones específicos de metilación del ADN en regiones particulares del genoma.

IX. miRNAs CLUSTERS

Al analizar los datos de expresión de proteínas en el cáncer de mama, los investigadores realizaron un proceso de agrupamiento (clustering) utilizando el método K-means.

Descubrieron que la mejor forma de agrupar a los pacientes con cáncer de mama fue utilizando tres clústeres distintos. Este enfoque permitió identificar subgrupos de pacientes con perfiles de expresión de proteínas similares dentro de la muestra estudiada.

df %>% tabyl(miRNA.Clusters) %>%
  ggplot(aes(x=miRNA.Clusters,y=n,fill=miRNA.Clusters)) +
  geom_col() +
  labs(x="miRNA clusters",y="Frecuencias",title="AGRUPACIONES miRNAs") +
  geom_text(aes(label= sprintf("%.2f%%",100*percent)),vjust=1.5,col="white",fontface="bold")

X. PAM50 (Prediction Analysis of Microarray 50)

Los genes PAM50 son un conjunto de 50 genes específicos que se utilizan en la clasificación molecular de los subtipos de cáncer de mama.

Estos genes son seleccionados porque su expresión puede proporcionar información valiosa sobre las características moleculares del cáncer de mama y ayudar a clasificar los tumores en subtipos distintos.

El análisis PAM50 se basa en la medición de la expresión génica, que es la cantidad relativa de ARN mensajero producido por cada uno de estos 50 genes en una muestra de tejido. El perfil PAM50 proporciona información sobre la biología subyacente del tumor de mama, ayudando a determinar su subtipo molecular.

Los subtipos de cáncer de mama identificados por PAM50 incluyen:

  • Luminal A
  • Luminal B
  • HER2-enriquecido
  • Basal-like.

Estos subtipos tienen diferentes perfiles moleculares y se asocian con diferentes pronósticos y respuestas al tratamiento.

df %>% tabyl(PAM50.mRNA) %>%
  ggplot(aes(x=PAM50.mRNA,y=n,fill=PAM50.mRNA)) +
  geom_col() +
  labs(x="mRNA PAM50",y="Frecuencias",title="Tipos de mRNA PAM50") +
  geom_text(aes(label= sprintf("%.2f%%",100*percent)),vjust=1,col="white",fontface="bold")

PAM50 es ampliamente utilizado para ayudar en la toma de decisiones terapéuticas y proporcionar información pronóstica en pacientes con cáncer de mama. Cada subtipo tiene implicaciones clínicas distintas.

XI. RPPA (Reverse Phase Protein Array)

RPPA implica la medición de la expresión de proteínas en muestras biológicas.

Los clusters generados mediante RPPA están basados en perfiles de expresión proteica. Cada cluster puede representar un conjunto de muestras que comparten perfiles de expresión de proteínas similares.

Aplicación: Los grupos de RPPA pueden proporcionar información sobre la variabilidad en la expresión de proteínas en diferentes subtipos de cáncer de mama u otras condiciones.

Los tumores luminales definidos por RPPA tienen una alta expresión de proteínas de: ER (Receptor de Estrógeno), PR (Receptor de Progesterona), AR, BCL2, GATA3, INPP4B.

Luminal A es el subtipo de expresión más común en el cáncer de mama.

Los cánceres luminales A: - Tienen tendencia a crecer más lentamente que otros cánceres - Tienen un buen pronóstico - Es probable que se beneficien de la terapia hormonal - También pueden beneficiarse de la quimioterapia - Los tumores luminales A representan aproximadamente el 40% de los cánceres de mama. Suelen tener el mejor pronóstico, con tasas de supervivencia elevadas y bajas tasas de recurrencia.

El grupo “Basal” Frecuentemente triple negativo (ER-negativo, PR-negativo, HER2-negativo). Se caracteriza por la expresión de genes típicamente asociados con las células basales de la glándula mamaria.

En cuanto al pronóstico; a menudo se asocia con un pronóstico más desafiante y mayor agresividad. Puede responder a diferentes tipos de tratamientos, incluyendo quimioterapia

XI. CLASIFICACIÓN AJCC (American Joint Committee on Cancer)

La clasificación AJCC (American Joint Committee on Cancer) es un sistema utilizado para determinar la etapa del cáncer. La clasificación AJCC incluye información sobre el tamaño del tumor, la afectación de ganglios linfáticos y la presencia de metástasis.

La etapa IIA, siendo la mas comun en el gráfico, se refiere a un tumor de tamaño moderado con afectación limitada de ganglios linfáticos o sin afectación.

RESULTADOS Y DISCUSIÓN

En esta sección se explicaran e interpretaran las gráficas obtenidas del análisis de la base de datos. El 89.52% de los pacientes que fueron parte del estudio se encuentran con vida, y por otro lado, el 10.48% lamentablemente fallecieron.

Se tomaron muestras de un total de 105 mujeres, de las cuales 103 (98.1%) no presentan metástasis, es decir, el cáncer de mamá no se diseminó del sitio original a otras partes del cuerpo, y por otro lado, 2 (1.9%) de estas mujeres sí presentaron metástasis, por lo que el cáncer se extendió a otras partes del cuerpo (no se mantuvo solo en el sitio primario). Es importante analizarlo ya que la identificación de metástasis generalmente indica un cáncer en un estadio más avanzado.

Tomando en cuenta las dos clasificaciones anteriores, se observó que las dos pacientes M1 (que presentaron metástasis) fallecieron.

La edad de los pacientes con cáncer de mama es un factor fundamental que impacta en diversos aspectos relacionados con el diagnóstico, tratamiento y pronóstico. El riesgo de desarrollar cáncer de mama aumenta con la edad, siendo más frecuente en mujeres mayores. La edad también influye en las estrategias de detección y diagnóstico, como en el caso de la mamografía, cuyas pautas varían según la edad del paciente.

La biología del cáncer de mama puede diferir entre grupos de edad, con ciertos subtipos más prevalentes en mujeres jóvenes o mayores. La edad del paciente se considera al tomar decisiones de tratamiento, ya que la tolerancia a terapias como la quimioterapia puede variar. Además, la edad desempeña un papel en la determinación del pronóstico, afectando la respuesta al tratamiento y las tasas de supervivencia.

Las consideraciones psicosociales también son influenciadas por la edad, abordando preocupaciones específicas como la fertilidad en mujeres más jóvenes o la calidad de vida en pacientes mayores. Incluso en el caso menos común del cáncer de mama en hombres, la edad también afecta la incidencia y el manejo de la enfermedad.

Por otro lado, se estudió los patrones de metilación en las pacientes, lo que es un proceso epigenético que implica la adición de grupos metilo a las bases del ADN, lo que puede influir en la regulación génica y la expresión de genes. La hipermetilación o hipometilación de ciertas regiones del ADN puede tener implicaciones en el desarrollo y progresión del cáncer, así como en otras enfermedades. Es por esto que se encontraron patrones similares y se realizó una gráfica para comparar la similitud y agrupación entre las pacientes, donde el 31.43% tienen patrones similares (se indica con el número 4).

En el análisis de agrupamiento llevado a cabo mediante la técnica PAM50, se observó que el subtipo Luminal B fue el más prevalente, registrándose en el 31.43% de las mujeres consideradas en este estudio, seguido por el subtipo Luminal A con un 27.62%.

En contraste, en el estudio RPPA, que implica la medición de la expresión de proteínas, se identificó que el grupo más frecuente fue el de cáncer basal, detectándose en el 27.62% de las mujeres examinadas, seguido por los subtipos Luminal A/B con un 29.95%.

Es notable que los resultados de frecuencia entre los estudios PAM50 (expresión génica) y RPPA (expresión proteica) difieren; mientras que en PAM50 Luminal B fue más frecuente, en RPPA el grupo “basal” fue predominante. Esta discrepancia podría atribuirse a la complejidad entre la expresión génica y la expresión proteica. La expresión de un gen, representada por la síntesis de ARNm, no siempre se traduce directamente en la expresión de proteínas debido a factores adicionales que pueden modular la síntesis proteica. Este desacuerdo en los resultados resalta la necesidad de considerar múltiples factores biológicos al interpretar los datos obtenidos de distintas plataformas de análisis molecular.

CONCLUSIONES

En conclusión, el presente estudio sobre el cáncer de mama ofrece una visión integral de la enfermedad, destacando su complejidad y heterogeneidad molecular. La combinación de datos proteómicos con información clínica en el conjunto “clinical_data_breast_cancer.csv,” clasificado según métodos como PAM50 mRNA, ha enriquecido la comprensión de la enfermedad.

La investigación previa, detallada en una publicación de Nature, ha revelado la influencia de las mutaciones de ADN en el panorama de expresión de proteínas, identificando subtipos distintos de cáncer de mama mediante K-means clustering. El aporte adicional de un investigador de doctorado, compartiendo análisis de aprendizaje automático en la comunidad de Kaggle, resalta el potencial de estos datos para investigaciones futuras. La sugerencia de explorar conjuntos alternativos de proteínas, en lugar del tradicional PAM50 basado en ARN, abre nuevas perspectivas para una clasificación más robusta de subtipos de cáncer de mama.

Este enfoque innovador no solo demuestra la utilidad continua de los datos existentes, sino que también invita a la comunidad científica a profundizar en la comprensión de la heterogeneidad del cáncer de mama a nivel de proteínas. En última instancia, este estudio no solo presenta descubrimientos actuales, sino que también cataliza futuras investigaciones que pueden llevar a avances significativos en la detección, clasificación y tratamiento personalizado del cáncer de mama.

AGRADECIMIENTOS

Queremos expresar nuestro sincero agradecimiento a todos los investigadores y científicos comprometidos en el estudio del cáncer de mama. Su dedicación incansable y contribuciones significativas han desempeñado un papel fundamental en aumentar nuestra comprensión de esta enfermedad compleja y heterogénea. Agradecemos especialmente al Consorcio de Análisis de Tumores Proteómicos Clínicos (CPTAC) del Instituto Nacional del Cáncer (NCI/NIH) por proporcionar el valioso conjunto de datos de perfiles de proteomas iTRAQ de 77 muestras de cáncer de mama.

Extendemos nuestro reconocimiento a los investigadores que llevaron a cabo la investigación previa, cuyos hallazgos, publicados en la revista Nature, han arrojado luz sobre la influencia de las mutaciones de ADN en el panorama de expresión de proteínas en el cáncer de mama. Su trabajo no solo impulsa el progreso científico, sino que también ofrece esperanza a miles de mujeres afectadas, marcando el camino hacia avances que pueden transformar la detección, clasificación y tratamiento de esta enfermedad.

REFERENCIAS

Base de datos extraída de Kaggle (https://www.kaggle.com/datasets/piotrgrabo/breastcancerproteomes). Por El Consorcio de Análisis de Tumores Proteómicos Clínicos (CPTAC).