El artículo aborda el complejo y heterogéneo cáncer de mama, destacando la influencia de diversos subtipos moleculares en su progresión y respuesta al tratamiento. La proteómica, como tecnología de alto rendimiento, ha sido fundamental para desentrañar el complejo panorama molecular de esta enfermedad. El Consorcio de Análisis de Tumores Proteómicos Clínicos (CPTAC) ha contribuido significativamente al campo mediante la generación de un extenso conjunto de datos de perfiles de proteomas iTRAQ, compuesto por 77 muestras de cáncer de mama.
El cáncer de mama, una enfermedad que se origina en las células del tejido glandular del seno, afecta tanto a mujeres como a hombres, siendo el cáncer más diagnosticado en mujeres a nivel global. Este tipo de cáncer presenta diversos factores de riesgo, desde la edad y antecedentes familiares hasta mutaciones genéticas, y se manifiesta a través de síntomas como bultos en el seno y cambios en su apariencia. La detección temprana, generalmente mediante mamografías, es esencial para un tratamiento efectivo, que puede incluir cirugía, radioterapia, quimioterapia y terapias dirigidas. Clasificado en etapas del 0 al IV, el cáncer de mama requiere enfoques de tratamiento adaptados a su extensión. Además, la concientización sobre la importancia de la detección temprana y la adopción de estilos de vida saludables son cruciales para la prevención. Cabe destacar que la diversidad de subtipos moleculares de este cáncer impulsa la investigación para desarrollar tratamientos más personalizados y efectivos.
Antes de comenzar con el análisis de los datos recopilados y obtenidos, nos parece importante disponer de un glosario para los diversos términos que se utilizarán a lo largo de este artículo:
El conjunto de datos aquí analizado proporciona valores de expresión
detallados para alrededor de 12,000 proteínas en cada muestra,
ofreciendo una visión exhaustiva de las alteraciones proteómicas
asociadas al cáncer de mama. Se destaca la presencia de valores
faltantes, indicativos de proteínas no cuantificadas en muestras
específicas.
Acompañando los datos proteómicos, se dispone de un conjunto de datos
clínicos que clasifica las muestras según diversos métodos, siendo el
sistema de clasificación PAM50 mRNA notablemente utilizado. La
investigación previa del estudio, detallada en una publicación en
Nature, exploró el impacto de las mutaciones de ADN en el panorama de
expresión de proteínas en el cáncer de mama. Mediante el uso de K-means
clustering en datos proteómicos, se identificaron subtipos distintos de
pacientes, cada uno con una firma única de expresión de proteínas,
proporcionando información valiosa sobre el comportamiento funcional del
proteoma.
Para obtener buenos resultados, se realizaron diversos análisis y códigos:
## [1] "/Users/dangyiseo/Downloads/PROYECTO FINAL - BIOINFORMÁTICA"
dim(df)
## [1] 105 30
colnames(df)
## [1] "Complete.TCGA.ID" "Gender"
## [3] "Age.at.Initial.Pathologic.Diagnosis" "ER.Status"
## [5] "PR.Status" "HER2.Final.Status"
## [7] "Tumor" "Tumor..T1.Coded"
## [9] "Node" "Node.Coded"
## [11] "Metastasis" "Metastasis.Coded"
## [13] "AJCC.Stage" "Converted.Stage"
## [15] "Survival.Data.Form" "Vital.Status"
## [17] "Days.to.Date.of.Last.Contact" "Days.to.date.of.Death"
## [19] "OS.event" "OS.Time"
## [21] "PAM50.mRNA" "SigClust.Unsupervised.mRNA"
## [23] "SigClust.Intrinsic.mRNA" "miRNA.Clusters"
## [25] "methylation.Clusters" "RPPA.Clusters"
## [27] "CN.Clusters" "Integrated.Clusters..with.PAM50."
## [29] "Integrated.Clusters..no.exp." "Integrated.Clusters..unsup.exp."
Información importante para entender los términos médicos utilizados en el artículo:
df %>% tabyl(Vital.Status) %>%
ggplot(aes(x=Vital.Status,y=n,fill=Vital.Status)) +
geom_col() +
labs(x="Estado vital",y="Frecuencias",title="Estado vital de los pacientes") +
geom_text(aes(label= sprintf("%.2f%%",100*percent)),vjust=1.5,col="white",fontface="bold")
Vital.Status | n | percent |
|---|---|---|
DECEASED | 11 | 10.5% |
LIVING | 94 | 89.5% |
Total | 105 | 100.0% |
M0 indica que no hay evidencia de metástasis en el momento del diagnóstico, por lo que el cáncer está confinado a la ubicación original o al sitio primario, y M1, que indica la presencia de metástasis, lo que se refiere a que el cáncer se ha diseminado desde el sitio original a otras partes del cuerpo, a menudo a través del sistema linfático o del torrente sanguíneo.
Metastasis | n | percent |
|---|---|---|
M0 | 103 | 98.1% |
M1 | 2 | 1.9% |
Total | 105 | 100.0% |
df %>% tabyl(Age.at.Initial.Pathologic.Diagnosis) %>%
adorn_totals("row") %>%
adorn_pct_formatting() %>%
flextable() %>%
fontsize(size=14) %>%
autofit() %>%
theme_box()
Age.at.Initial.Pathologic.Diagnosis | n | percent |
|---|---|---|
30 | 1 | 1.0% |
36 | 2 | 1.9% |
37 | 1 | 1.0% |
38 | 1 | 1.0% |
39 | 1 | 1.0% |
40 | 2 | 1.9% |
41 | 3 | 2.9% |
43 | 3 | 2.9% |
44 | 1 | 1.0% |
45 | 3 | 2.9% |
46 | 2 | 1.9% |
48 | 5 | 4.8% |
49 | 2 | 1.9% |
50 | 3 | 2.9% |
51 | 2 | 1.9% |
52 | 5 | 4.8% |
53 | 3 | 2.9% |
54 | 5 | 4.8% |
55 | 3 | 2.9% |
56 | 2 | 1.9% |
57 | 2 | 1.9% |
58 | 1 | 1.0% |
59 | 3 | 2.9% |
60 | 1 | 1.0% |
61 | 3 | 2.9% |
62 | 4 | 3.8% |
63 | 3 | 2.9% |
64 | 4 | 3.8% |
65 | 2 | 1.9% |
66 | 5 | 4.8% |
67 | 3 | 2.9% |
68 | 4 | 3.8% |
69 | 2 | 1.9% |
70 | 1 | 1.0% |
72 | 1 | 1.0% |
74 | 1 | 1.0% |
76 | 2 | 1.9% |
78 | 2 | 1.9% |
79 | 2 | 1.9% |
80 | 2 | 1.9% |
81 | 1 | 1.0% |
82 | 2 | 1.9% |
84 | 2 | 1.9% |
88 | 2 | 1.9% |
Total | 105 | 100.0% |
T1, T2, T3, T4: Estas designaciones indican el tamaño y la extensión del tumor primario. A medida que el número aumenta, el tamaño y la invasión del tumor también aumentan.
Por ejemplo, T1 representa un tumor pequeño, mientras que T4 indica un tumor grande que puede haber invadido tejidos cercanos. Estos subtipos se utilizan para clasificar la etapa específica del cáncer de mama, lo que ayuda a los profesionales de la salud a determinar el tratamiento más adecuado y a prever el pronóstico del paciente.
df %>% tabyl(Tumor) %>%
ggplot(aes(x=Tumor,y=n,fill=Tumor)) +
geom_col() +
labs(x="Tumor",y="Frecuencias",title="Nivel de los tumores en mujeres con cáncer de mama") +
geom_text(aes(label= sprintf("%.2f%%",100*percent)),vjust=1.5,col="white",fontface="bold")
En la siguiente imagen se encuentran representados los niveles en los tumores y sus implicaciones:
También se analizaron los agrupamientos de metilaciones:
df %>% tabyl(methylation.Clusters) %>%
ggplot(aes(x=methylation.Clusters,y=n,fill=methylation.Clusters)) +
geom_col() +
labs(x="Agrupaciones de metilaciones",y="Frecuencias",title="Metilaciones en pacientes con cáncer de mama") +
geom_text(aes(label= sprintf("%.2f%%",100*percent)),vjust=1.5,col="white",fontface="bold")
La interpretación de los niveles en “methylation clusters” (grupos de metilación) en el contexto del cáncer se refiere a patrones específicos de metilación del ADN en regiones particulares del genoma.
En esta sección se explicaran e interpretaran las gráficas obtenidas del análisis de la base de datos. El 89.52% de los pacientes que fueron parte del estudio se encuentran con vida, y por otro lado, el 10.48% lamentablemente fallecieron.
Se tomaron muestras de un total de 105 mujeres, de las cuales 103 (98.1%) no presentan metástasis, es decir, el cáncer de mamá no se diseminó del sitio original a otras partes del cuerpo, y por otro lado, 2 (1.9%) de estas mujeres sí presentaron metástasis, por lo que el cáncer se extendió a otras partes del cuerpo (no se mantuvo solo en el sitio primario). Es importante analirlo ya que la identificación de metástasis generalmente indica un cáncer en un estadio más avanzado.
Tomando en cuenta las dos clasificaciones anteriores, se observó que las dos pacientes M1 (que presentaron metástasis) fallecieron.
La edad de los pacientes con cáncer de mama es un factor fundamental que impacta en diversos aspectos relacionados con el diagnóstico, tratamiento y pronóstico. El riesgo de desarrollar cáncer de mama aumenta con la edad, siendo más frecuente en mujeres mayores. La edad también influye en las estrategias de detección y diagnóstico, como en el caso de la mamografía, cuyas pautas varían según la edad del paciente.
La biología del cáncer de mama puede diferir entre grupos de edad, con ciertos subtipos más prevalentes en mujeres jóvenes o mayores. La edad del paciente se considera al tomar decisiones de tratamiento, ya que la tolerancia a terapias como la quimioterapia puede variar. Además, la edad desempeña un papel en la determinación del pronóstico, afectando la respuesta al tratamiento y las tasas de supervivencia.
Las consideraciones psicosociales también son influenciadas por la edad, abordando preocupaciones específicas como la fertilidad en mujeres más jóvenes o la calidad de vida en pacientes mayores. Incluso en el caso menos común del cáncer de mama en hombres, la edad también afecta la incidencia y el manejo de la enfermedad.
Por otro lado, se estudió los patrones de metilación en las pacientes, lo que es un proceso epigenético que implica la adición de grupos metilo a las bases del ADN, lo que puede influir en la regulación génica y la expresión de genes. La hipermetilación o hipometilación de ciertas regiones del ADN puede tener implicaciones en el desarrollo y progresión del cáncer, así como en otras enfermedades. Es por esto que se encontraron patrones similares y se realizó una gráfica para comparar la similitud y agrupación entre las pacientes, donde el 31.43% tienen patrones similares (se indica con el número 4).
En conclusión, el presente estudio sobre el cáncer de mama ofrece una visión integral de la enfermedad, destacando su complejidad y heterogeneidad molecular. La combinación de datos proteómicos con información clínica en el conjunto “clinical_data_breast_cancer.csv,” clasificado según métodos como PAM50 mRNA, ha enriquecido la comprensión de la enfermedad.
La investigación previa, detallada en una publicación de Nature, ha revelado la influencia de las mutaciones de ADN en el panorama de expresión de proteínas, identificando subtipos distintos de cáncer de mama mediante K-means clustering. El aporte adicional de un investigador de doctorado, compartiendo análisis de aprendizaje automático en la comunidad de Kaggle, resalta el potencial de estos datos para investigaciones futuras. La sugerencia de explorar conjuntos alternativos de proteínas, en lugar del tradicional PAM50 basado en ARN, abre nuevas perspectivas para una clasificación más robusta de subtipos de cáncer de mama.
Este enfoque innovador no solo demuestra la utilidad continua de los datos existentes, sino que también invita a la comunidad científica a profundizar en la comprensión de la heterogeneidad del cáncer de mama a nivel de proteínas. En última instancia, este estudio no solo presenta descubrimientos actuales, sino que también cataliza futuras investigaciones que pueden llevar a avances significativos en la detección, clasificación y tratamiento personalizado del cáncer de mama.
Queremos expresar nuestro sincero agradecimiento a todos los investigadores y científicos comprometidos en el estudio del cáncer de mama. Su dedicación incansable y contribuciones significativas han desempeñado un papel fundamental en aumentar nuestra comprensión de esta enfermedad compleja y heterogénea. Agradecemos especialmente al Consorcio de Análisis de Tumores Proteómicos Clínicos (CPTAC) del Instituto Nacional del Cáncer (NCI/NIH) por proporcionar el valioso conjunto de datos de perfiles de proteomas iTRAQ de 77 muestras de cáncer de mama.
Extendemos nuestro reconocimiento a los investigadores que llevaron a cabo la investigación previa, cuyos hallazgos, publicados en la revista Nature, han arrojado luz sobre la influencia de las mutaciones de ADN en el panorama de expresión de proteínas en el cáncer de mama. Su trabajo no solo impulsa el progreso científico, sino que también ofrece esperanza a miles de mujeres afectadas, marcando el camino hacia avances que pueden transformar la detección, clasificación y tratamiento de esta enfermedad.
Base de datos extraída de Kaggle (https://www.kaggle.com/datasets/piotrgrabo/breastcancerproteomes). Por El Consorcio de Análisis de Tumores Proteómicos Clínicos (CPTAC).