El artículo aborda el complejo y heterogéneo cáncer de mama, destacando la influencia de diversos subtipos moleculares en su progresión y respuesta al tratamiento. La proteómica, como tecnología de alto rendimiento, ha sido fundamental para desentrañar el complejo panorama molecular de esta enfermedad. El Consorcio de Análisis de Tumores Proteómicos Clínicos (CPTAC) ha contribuido significativamente al campo mediante la generación de un extenso conjunto de datos de perfiles de proteomas iTRAQ, compuesto por 77 muestras de cáncer de mama.
El cáncer de mama, una enfermedad que se origina en las células del tejido glandular del seno, afecta tanto a mujeres como a hombres, siendo el cáncer más diagnosticado en mujeres a nivel global. Este tipo de cáncer presenta diversos factores de riesgo, desde la edad y antecedentes familiares hasta mutaciones genéticas, y se manifiesta a través de síntomas como bultos en el seno y cambios en su apariencia. La detección temprana, generalmente mediante mamografías, es esencial para un tratamiento efectivo, que puede incluir cirugía, radioterapia, quimioterapia y terapias dirigidas. Clasificado en etapas del 0 al IV, el cáncer de mama requiere enfoques de tratamiento adaptados a su extensión. Además, la concientización sobre la importancia de la detección temprana y la adopción de estilos de vida saludables son cruciales para la prevención. Cabe destacar que la diversidad de subtipos moleculares de este cáncer impulsa la investigación para desarrollar tratamientos más personalizados y efectivos.
Antes de comenzar con el análisis de los datos recopilados y obtenidos, nos parece importante disponer de un glosario para los diversos términos que se utilizarán a lo largo de este artículo:
El conjunto de datos aquí analizado proporciona valores de expresión
detallados para alrededor de 12,000 proteínas en cada muestra,
ofreciendo una visión exhaustiva de las alteraciones proteómicas
asociadas al cáncer de mama. Se destaca la presencia de valores
faltantes, indicativos de proteínas no cuantificadas en muestras
específicas.
Acompañando los datos proteómicos, se dispone de un conjunto de datos
clínicos que clasifica las muestras según diversos métodos, siendo el
sistema de clasificación PAM50 mRNA notablemente utilizado. La
investigación previa del estudio, detallada en una publicación en
Nature, exploró el impacto de las mutaciones de ADN en el panorama de
expresión de proteínas en el cáncer de mama. Mediante el uso de K-means
clustering en datos proteómicos, se identificaron subtipos distintos de
pacientes, cada uno con una firma única de expresión de proteínas,
proporcionando información valiosa sobre el comportamiento funcional del
proteoma.
Para obtener buenos resultados, se realizaron diversos análisis y códigos:
## [1] "/Users/dangyiseo/Downloads/PROYECTO FINAL - BIOINFORMÁTICA"
dim(df)
## [1] 105 30
colnames(df)
## [1] "Complete.TCGA.ID" "Gender"
## [3] "Age.at.Initial.Pathologic.Diagnosis" "ER.Status"
## [5] "PR.Status" "HER2.Final.Status"
## [7] "Tumor" "Tumor..T1.Coded"
## [9] "Node" "Node.Coded"
## [11] "Metastasis" "Metastasis.Coded"
## [13] "AJCC.Stage" "Converted.Stage"
## [15] "Survival.Data.Form" "Vital.Status"
## [17] "Days.to.Date.of.Last.Contact" "Days.to.date.of.Death"
## [19] "OS.event" "OS.Time"
## [21] "PAM50.mRNA" "SigClust.Unsupervised.mRNA"
## [23] "SigClust.Intrinsic.mRNA" "miRNA.Clusters"
## [25] "methylation.Clusters" "RPPA.Clusters"
## [27] "CN.Clusters" "Integrated.Clusters..with.PAM50."
## [29] "Integrated.Clusters..no.exp." "Integrated.Clusters..unsup.exp."
df %>% tabyl(Metastasis) %>%
adorn_totals("row") %>%
adorn_pct_formatting() %>%
flextable() %>%
fontsize(size=14) %>%
autofit() %>%
theme_box()
Metastasis | n | percent |
|---|---|---|
M0 | 103 | 98.1% |
M1 | 2 | 1.9% |
Total | 105 | 100.0% |
df %>% tabyl(Age.at.Initial.Pathologic.Diagnosis) %>%
adorn_totals("row") %>%
adorn_pct_formatting() %>%
flextable() %>%
fontsize(size=14) %>%
autofit() %>%
theme_box()
Age.at.Initial.Pathologic.Diagnosis | n | percent |
|---|---|---|
30 | 1 | 1.0% |
36 | 2 | 1.9% |
37 | 1 | 1.0% |
38 | 1 | 1.0% |
39 | 1 | 1.0% |
40 | 2 | 1.9% |
41 | 3 | 2.9% |
43 | 3 | 2.9% |
44 | 1 | 1.0% |
45 | 3 | 2.9% |
46 | 2 | 1.9% |
48 | 5 | 4.8% |
49 | 2 | 1.9% |
50 | 3 | 2.9% |
51 | 2 | 1.9% |
52 | 5 | 4.8% |
53 | 3 | 2.9% |
54 | 5 | 4.8% |
55 | 3 | 2.9% |
56 | 2 | 1.9% |
57 | 2 | 1.9% |
58 | 1 | 1.0% |
59 | 3 | 2.9% |
60 | 1 | 1.0% |
61 | 3 | 2.9% |
62 | 4 | 3.8% |
63 | 3 | 2.9% |
64 | 4 | 3.8% |
65 | 2 | 1.9% |
66 | 5 | 4.8% |
67 | 3 | 2.9% |
68 | 4 | 3.8% |
69 | 2 | 1.9% |
70 | 1 | 1.0% |
72 | 1 | 1.0% |
74 | 1 | 1.0% |
76 | 2 | 1.9% |
78 | 2 | 1.9% |
79 | 2 | 1.9% |
80 | 2 | 1.9% |
81 | 1 | 1.0% |
82 | 2 | 1.9% |
84 | 2 | 1.9% |
88 | 2 | 1.9% |
Total | 105 | 100.0% |
df %>% tabyl(Tumor) %>%
ggplot(aes(x=Tumor,y=n,fill=Tumor)) +
geom_col() +
labs(x="Tumor",y="Frecuencias",title="Nivel de los tumores en mujeres con cáncer de mama") +
geom_text(aes(label= sprintf("%.2f%%",100*percent)),vjust=1.5,col="white",fontface="bold")
df %>% tabyl(Vital.Status) %>%
ggplot(aes(x=Vital.Status,y=n,fill=Vital.Status)) +
geom_col() +
labs(x="Estado vital",y="Frecuencias",title="Estado vital de los pacientes") +
geom_text(aes(label= sprintf("%.2f%%",100*percent)),vjust=1.5,col="white",fontface="bold")
En esta sección se explicaran e interpretaran las gráficas obtenidas del análisis de la base de datos.
En conclusión, el presente estudio sobre el cáncer de mama ofrece una visión integral de la enfermedad, destacando su complejidad y heterogeneidad molecular. La combinación de datos proteómicos con información clínica en el conjunto “clinical_data_breast_cancer.csv,” clasificado según métodos como PAM50 mRNA, ha enriquecido la comprensión de la enfermedad.
La investigación previa, detallada en una publicación de Nature, ha revelado la influencia de las mutaciones de ADN en el panorama de expresión de proteínas, identificando subtipos distintos de cáncer de mama mediante K-means clustering. El aporte adicional de un investigador de doctorado, compartiendo análisis de aprendizaje automático en la comunidad de Kaggle, resalta el potencial de estos datos para investigaciones futuras. La sugerencia de explorar conjuntos alternativos de proteínas, en lugar del tradicional PAM50 basado en ARN, abre nuevas perspectivas para una clasificación más robusta de subtipos de cáncer de mama.
Este enfoque innovador no solo demuestra la utilidad continua de los datos existentes, sino que también invita a la comunidad científica a profundizar en la comprensión de la heterogeneidad del cáncer de mama a nivel de proteínas. En última instancia, este estudio no solo presenta descubrimientos actuales, sino que también cataliza futuras investigaciones que pueden llevar a avances significativos en la detección, clasificación y tratamiento personalizado del cáncer de mama.
Queremos expresar nuestro sincero agradecimiento a todos los investigadores y científicos comprometidos en el estudio del cáncer de mama. Su dedicación incansable y contribuciones significativas han desempeñado un papel fundamental en aumentar nuestra comprensión de esta enfermedad compleja y heterogénea. Agradecemos especialmente al Consorcio de Análisis de Tumores Proteómicos Clínicos (CPTAC) del Instituto Nacional del Cáncer (NCI/NIH) por proporcionar el valioso conjunto de datos de perfiles de proteomas iTRAQ de 77 muestras de cáncer de mama.
Extendemos nuestro reconocimiento a los investigadores que llevaron a cabo la investigación previa, cuyos hallazgos, publicados en la revista Nature, han arrojado luz sobre la influencia de las mutaciones de ADN en el panorama de expresión de proteínas en el cáncer de mama. Su trabajo no solo impulsa el progreso científico, sino que también ofrece esperanza a miles de mujeres afectadas, marcando el camino hacia avances que pueden transformar la detección, clasificación y tratamiento de esta enfermedad.
Base de datos extraída de Kaggle (https://www.kaggle.com/datasets/piotrgrabo/breastcancerproteomes). Por El Consorcio de Análisis de Tumores Proteómicos Clínicos (CPTAC).