HTML-BIST-proyecto.utf8

Indice

1. Introducción.

2. Documentación artículo estudiado.

3. Marco teórico: Protein Expression Analysis.

4. Análisis de datos de expresión proteica.

5. Ingeniería de Datos

5.1 Ajuste de modelo.
5.2 Normalización y estandarización de datos.

6. Modelos de predicción estsdísico para expresión proteica.

6.1 Modelo de predicción 1.
6.2 Modelo de predicción 2.

7. Conclusión.

8. Referencias.

1. Introducción.

A nivel mundial, la predominación del síndrome de Down es de 10 por cada 10.000 nacidos vivos. Sin embargo, existen diferencias claras entre países, y estas diferencias dependen principalmente de sus variables socioculturales. En países con abortos ilegales, como Irlanda o los Emiratos Árabes Unidos, la predominación es mayor: entre 17 y 31 por cada 10.000 nacidos vivos. Por otro lado, en Francia, la predominación se ha reducido a 7,5 por 10.000, lo que puede deberse a la alta tasa de abortos de fetos con síndrome de Down, que alcanza el 77%.Cifras En el presente proyecto enfocamos nuestro trabajo hacia un tema que se ve muy reflejado en nuestra cotidianidad que es la enfermedad o condición conocida como síndrome de Down y que ahora con la ayuda de nuevos métodos de investigación, así como también de plataformas virtuales podemos analizar con más detalle examinada bajo los métodos de la modelación de datos, la estandarización y/o normalización de estos, junto con las gráficas respectivas de los modelos propuestos.

En primer lugar, se empezará dando una breve explicación de los conceptos importantes y su implementación para así comprender mejor el trabajo descrito más adelante. El modelamiento de datos es una forma de estructurar y organizar datos para que las bases de datos realicen los procesos pertinentes de una manera más eficaz y rápida a través de mecanismos de machine learning, el modelamiento pretende un un pre procesamiento de los datos con el fin de conferirles una cualidad estructural más eficiente para el momento del procesamiento del dataset. En cierto modo, se trata básicamente del aspecto estetico que presenta el mismo. Los datos que se han modelado y preparado para este sistema se pueden identificar de varias formas, p. Ej. B. según su presentación o su relación con otros datos.

La idea general, anteriormente enunciada, es realizar un pre procesamiento de los datos para lograr un entendimiento mas efectivo con el entorno de trabajo, como es explica en la página de Modelado de datos.

Por otro lado, la estandarización y/o normalización consiste en la trasformación de la escala de distribución de una variable con el objetivo de poder hacer comparaciones respecto a conjuntos de elementos, eliminando las diferencias de unidades, es decir, la normalización son proporciones sin unidades de medida (adimensionales) que nos permiten poder comparar elementos de distintas variables y distintas unidades de medida, como es explica en la página de Normalizacion.

La estandarización es lo que ocurre cuando se pasa de una distribución normal a una distribución estándar a través de la siguiente formula:

\(x_new=(x- μ)/σ\)

Cuando realizamos esta operación a una variable y la aplicamos a cada uno de los datos, obtenemos una nueva variable cuya media es 0 y cuya desviación estándar es 1, además de que los datos originales mantienen el mismo comportamiento, pero los centra en 0 volviendo así la escala más comparable a otras variables.

En cuanto a la normalización la podemos hacer entre dos datos o números para que los datos se comporten entre dos números de alguna manera muy comparable, normalmente se realiza una normalización entre [0,1] aplicando la siguiente formula

\(x_n=(x- x_m)/〖x_M-x〗_m\)

2. Documentación artículo estudiado.

-Protein Expression Analysis

1. Resumen:

El conjunto de datos consta de los niveles de expresión de 77 proteínas / modificaciones de proteínas que produjeron señales detectables en la fracción nuclear de la corteza. Hay 38 ratones de control y 34 ratones trisómicos (síndrome de Down), para un total de 72 ratones. En los experimentos, se registraron 15 mediciones de cada proteína por muestra / ratón. El conjunto de datos contiene un total de 1080 mediciones por proteína. Cada medición se consideró como una muestra / ratón independiente.

Las ocho clases de ratones se describen en función de características como el genotipo, el comportamiento y el tratamiento. Según el genotipo, los ratones pueden ser control o trisómicos. Según el comportamiento, algunos ratones han sido estimulados para aprender (contexto-shock) y otros no (shock-contexto) y para evaluar el efecto del fármaco memantina en la recuperación de la capacidad de aprendizaje en ratones trisómicos, algunos ratones han sido inyectados con la droga y otros no.

2. Objetivo:

El propósito de este proyecto es intentar identificar subconjuntos de proteínas que son discriminantes para cada clase de raton trabajada y así mismo poder establecer el modelo mas adecuado de relacion y entendimiento de los datos, para ello se deben sentar bases y esclarecer conceptos fundamentales para el entendimiento y fin de este dataset, como son los que se presentarán más adelante.

3. Tipos de tratamiento:

·Memantine Drug: La memantina se usa para tratar los síntomas de la enfermedad de Alzheimer (Alzheimer’s Disease, AD; una enfermedad del cerebro que destruye lentamente la memoria y la capacidad para pensar, aprender, comunicarse y manejar las actividades diarias). La memantina pertenece a una clase de medicamentos llamados antagonistas del receptor de NMDA. Funciona al reducir la actividad anormal en el cerebro. La memantina puede mejorar la capacidad para pensar y recordar o puede desacelerar la pérdida de estas capacidades en las personas que tienen AD. Sin embargo, la memantina no curará la AD ni evitará la pérdida de estas capacidades en algún momento en el futuro.

Saline: La solución salina, también conocida como solución salina, es una mezcla de cloruro de sodio en agua y tiene varios usos en medicina. Aplicado en el área afectada, se usa para limpiar heridas, ayudar a quitar los lentes de contacto y ayudar con los ojos secos. Inyectado en una vena, se usa para tratar la deshidratación, como la de gastroenteritis y cetoacidosis diabética. También se utiliza para diluir otros medicamentos que se administrarán mediante inyección.

4. Tipos de datos

ID del ratón
Valores de los niveles de expresión de 77 proteínas; los nombres de las proteínas van seguidos de N, lo que indica que se midieron en la fracción nuclear. Por ejemplo: DYRK1A_n
Genotipo: control (c) o trisomía (t)
Tipo de tratamiento: memantina (m) o solución salina (s)
Comportamiento: contexto-choque (CS) o choque-contexto (SC)
Clase: c-CS-s, c-CS-m, c-SC-s, c-SC-m, t-CS-s, t-CS-m, t-SC-s, t-SC –metro

c-CS-s: ratones de control, estimulados para aprender, inyectados con solución salina (9 ratones)

c-CS-m: ratones de control, estimulados para aprender, inyectados con memantina (10 ratones)

c-SC-s: ratones de control, no estimulados para aprender, inyectados con solución salina (9 ratones)

c-SC-m: ratones de control, no estimulados para aprender, inyectados con memantina (10 ratones)

t-CS-s: ratones con trisomía, estimulados para aprender, inyectados con solución salina (7 ratones)

t-CS-m: ratones con trisomía, estimulados para aprender, inyectados con memantina (9 ratones)

t-SC-s: ratones con trisomía, no estimulados para aprender, inyectados con solución salina (9 ratones)

t-SC-m: ratones con trisomía, no estimulados para aprender, inyectados con memantina (9 ratones)

5. Glosario:

Receptor de NMDA: están asociados con los procesos de aprendizaje y memoria, el desarrollo y la plasticidad neural, así como con los estados de dolor agudo y crónico. Intervienen en el inicio y mantenimiento de la sensibilización central asociada a daño o inflamación de los tejidos periféricos.

AD: Alzheimer’s Disease – Enfermedad de Alzheimer

Genotipo: Conjunto de los genes que existen en el núcleo celular de cada individuo

Ratones Trisomicos: aquellos que poseen síndrome de Down

6. Bibliografía:

https://medlineplus.gov/spanish/druginfo/meds/a604006-es.html#:~:text=La%20memantina%20se%20usa%20para,y%20manejar%20las%20actividades%20diarias).

http://scielo.isciii.es/scielo.php?script=sci_arttext&pid=S1134-80462004000400005

2. Marco teórico: Protein Expression Analysis.

I.Sindrome de Down El Síndrome de Down no es una enfermedad, sino una alteración genética que se produce por la presencia de un cromosoma extra (los cromosomas con las estructuras que contienen el ADN, que es el principal constituyente del material genético de los seres vivos) o una parte de él. Las células del cuerpo humano tienen 46 cromosomas distribuidos en 23 pares. Las personas con síndrome de Down tienen tres cromosomas en el par 21 en lugar de los dos que existen habitualmente. Por eso, también se conoce como trisomía 21.

Afecta al desarrollo cerebral y del organismo y es la principal causa de discapacidad intelectual y también la alteración genética humana más común. También puede ocasionar problemas médicos, como trastornos digestivos o enfermedades cardiacas.

II.Descripcion de las Proteinas Para la realización de este proyecto escogimos 8 proteínas de las 77 utilizadas para el experimento, esto con el propósito de facilitar el análisis de datos, a continuación, se dará una breve explicación de la función de las 8 proteínas escogidas.

1. DYR1A Puede desempeñar un papel en una vía de señalización que regula las funciones nucleares de la proliferación celular. Tiene función pro-supervivencia y regula negativamente el proceso apoptótico. Promueve la supervivencia celular ante estrés genotóxico, Detectado en el cerebro (a nivel de proteínas). Se expresa en una variedad de tejidos embrionarios y adultos, así como también abundantemente en neuronas del cerebro, médula espinal y retina en embriones en desarrollo.
1. pMTOR_N es un regulador central del metabolismo celular, crecimiento y supervivencia en respuesta a hormonas, factores de crecimiento, nutrientes, energía y señales de estrés, se expresa principalmente en el epitelio cristalino los testículos y riñones.
1. pCAMKII_N esta proteína esta involucrada en la señalización celular, así como también de manera activa en procesos de aprendizaje y memoria, se expresa mas que todo en el lóbulo frontal adulto, en la corteza y cerebelo adultos.
1. pS6_N realiza el proceso de fosforilación y por esto está involucrada también en el proceso de regulación del tamaño celular y proliferación de la misma, se expresa mas que todo en la vejiga adulta del organismo
1. TIAM1 su función es controlar o modular la actividad de las y conectar las señales extracelulares con las actividades del citoesqueleto. Muy expresado en cerebro y testículos y en niveles bajos o moderados en casi todos los demás tejidos normales.
1. GluR4 funciona como canal iónico controlado por ligando en el sistema nervioso central y juega un papel importante en la transmisión sináptica excitadora, por lo tanto, convierte la señal química en un impulso eléctrico y se Expresa más que todo en cerebelo adulto y lóbulo frontal adulto
1. BRAF Está Involucrado en la transducción de señales mitogénicas desde la membrana celular al núcleo. Puede desempeñar un papel en las respuestas postsinápticas de las neuronas del hipocampo. se expresa más que todo en el cuerpo pineal, estriado dorsal e hipotálamo
1. CDK5 Esencial para la detención y diferenciación del ciclo celular neuronal y puede estar involucrada en la muerte celular apoptótica en enfermedades neuronales desencadenando la reentrada abortiva del ciclo celular, Regula varios procesos fisiológicos y de desarrollo neuronal Se expresa en la glándula submandibular, cerebro y corteza frontal principalmente.

III.Razon para escoger el articulo: Dentro de los 3 artículos que documentamos escogimos este artículo en específico para realizar el proyecto porque al ser el síndrome de Down una patología que afecta un gran numero de individuos a causa de de alteraciones genéticas que son muy usuales en nuestro planeta es necesario poder entenderlo, saber factores que potencien que ésta patología se exprese y comprender que sucede en el organismo, para en un futuro poder corregirla o eliminarla por completo por medio de la prevención, ya que Según los “Centros para el Control y la Prevención de Enfermedades” (CDC por sus siglas en inglés), en los Estados Unidos nacen aproximadamente 6.000 bebés con síndrome de Down cada año, es decir, que el síndrome afecta a alrededor de 1 de cada 691 nacimientos vivos, siendo así el síndrome de Down la causa más común de discapacidades intelectuales leves a moderadas por anormalidades cromosómicas, y este tipo de investigaciones al tener un nivel de complejidad óptimo para que usuarios no especializados como nosotros, pueda hacer uso y tratamiento de los datos para análisis estadístico básico es ideal para poder entender este tipo de patología que padecen personas en nuestro entorno o de nuestra vida cotidiana y que muy probablemente apliquemos en un futuro como ingenieros Biomédicos.

3. Análisis de datos de expresión proteica.

ggplot(datas, aes(class)) +
  geom_bar(aes(fill = class))+
  theme_light() +
  scale_fill_manual(values=c("#F4A582", "#92C5DE","#FDDBC7","7d98cf", "96c577", "#F4A582", "#d9b5b5","#2dafc2"))+
  ggtitle("        clasificación de ratones según el estudio seleccionado")

Gráfica 1 Para identificar los subconjuntos de las proteinas discriminantes en las muestras, se clasificaron a los ratones dependiendo del medicamento y del comportamiento que sería aplicado, así:

Clasificación dada en ratones de control.

c-CS-s: ratones de control, estimulados para aprender, inyectados con solución salina (9 ratones)
c-CS-m: ratones de control, estimulados para aprender, inyectados con memantina (10 ratones)
c-SC-s: ratones de control, no estimulados para aprender, inyectados con solución salina (9 ratones)
c-SC-m: ratones de control, no estimulados para aprender, inyectados con memantina (10 ratones)

Clasificación dada en ratones con trisomia.

t-CS-s: ratones con trisomía, estimulados para aprender, inyectados con solución salina (7 ratones)
t-CS-m: ratones con trisomía, estimulados para aprender, inyectados con memantina (9 ratones)
t-SC-s: ratones con trisomía, sin estimulación para aprender, inyectados con solución salina (9 ratones)
t-SC-m: ratones con trisomía, no estimulados para aprender, inyectados con memantina (9 ratones)

datas%>%
  count(class)

## # A tibble: 8 x 2
##   class      n
##   <chr>  <int>
## 1 c-CS-m   150
## 2 c-CS-s   135
## 3 c-SC-m   150
## 4 c-SC-s   135
## 5 t-CS-m   135
## 6 t-CS-s   105
## 7 t-SC-m   135
## 8 t-SC-s   135

set.seed(7)
muestras <- sample(2:77,5, replace = FALSE)
protein<-datas[,c(82,muestras) ]

protein%>%
  group_by(class)%>%
  summarise(pro1=mean(TIAM1_N), conteo=n(), suma=sum(TIAM1_N), pro1_1=min(TIAM1_N))%>%
  
  ggplot(aes(class, pro1, fill= class))+
  geom_col()+
  scale_fill_manual(values=c("#F4A582", "#92C5DE","#FDDBC7","7d98cf", "96c577", "#F4A582", "#d9b5b5","#2dafc2"))+
  ggtitle("        Niveles de expresión proteinca con respecto a la proteina TIAM1_N ")

## `summarise()` ungrouping output (override with `.groups` argument)

## Warning: Removed 1 rows containing missing values (position_stack).

protein%>%
  ggplot(aes(TIAM1_N, APP_N, col=class))+
  geom_point()+
  scale_fill_manual(values=c("#F4A582", "#92C5DE","#FDDBC7","7d98cf", "96c577", "#F4A582", "#d9b5b5","#2dafc2"))+
  facet_wrap(~class)

## Warning: Removed 3 rows containing missing values (geom_point).

Gráfico 1

La proteína TIAM1 es la Invasión del linfoma T y proteína inductora de metástasis 1 su función es controlar o modular la actividad de las proteínas de unión a Rho GTP y conecta las señales extracelulares con las actividades del citoesqueleto. Muy expresado en cerebro y testículos y en niveles bajos o moderados en casi todos los demás tejidos normales. Esta se encuentra en prácticamente todas las líneas de células tumorales, neuroblastomas , melanomas y carcinomas . Es por ello que como se observa en las gráficas, los valores de la proteina TIAM1 se optienen de la siguiente manera:

Para los ratones de clase c-CS-m que son aquellos que están estimulados para aprender y fueron inyectados con memantina encontramos que la proteína se expresa en un rango de 0,35-0.6 pero con una mayor proporción entre el 0,375 y 0,45 que equivale aproximadamente al 0,075 deduciendo así que esta proteína se expresa en su mayoría en niveles moderados para este tipo de tratamiento.
En los de clase c-CS-s que son los que también están estimulados para aprender, pero son inyectados con solución salina, la proteína TIAM1 en su mayoría se expresa en una proporción aproximadamente igual pero con un rango diferente ya que este va desde 0,35 hasta 0,7, pudiendo evidenciar que la proteína se sigue expresando la mayor parte entre el 0,375 y 0,45 lo que corresponde a tejidos normales del organismo.
Para aquellos ratones que pertenecen a la clase c-SC-m que son los que no están estimulados para aprender y fueron inyectados con memantina encontramos que la proteína se expresa en igual cantidad que los grupos anteriores, pero en un rango de 0.35 y 0.45 lo que indicaría que se esta expresando en los tejidos normales del organismo.
Para los de la clase c-SC-s que son estimulados para no aprender, pero inyectados con solución salina la proteína se expresa en un rango total de 0.25 y 0.5 aproximadamente, pero con una mayor concentración en 0.35 y 0.425 lo que equivaldría aproximadamente al 0.5, expresándose en una menor proporción que en las clases anteriores, pero en los mismos tejidos.
Los que pertenecen a la clase t-CS-m son estimulados para no aprender e inyectados con memantina, pero la diferencia con los ratones que tienen el mismo tratamiento es que estos tienen trisomía y para este caso la proteína se expresa en un rango total entre 0.275 y 0.575 con una mayor proporción en 0.35 y 0.4125 y continúa expresándose en los tejidos normales del organismo.
Los de la clase t-CS-s son estimulados para aprender e inyectados con solución salina, pero estos al igual que los anteriores tienen trisomía, en estos ratones la proteína se expresa en su mayoría en igual proporción que los de la clase c-CS-s, pero con un rango total diferente, ya que este se expresa desde 0.325 hasta 0.55 aproximadamente y se sigue expresando en los mismos tejidos que todas las clases anteriores.
Los ratones que pertenecen a la clase t-SC-m fueron estimulados para no aprender e inyectados con memantina y padecen trisomía y para este caso la proteína se expresa en un rango de 0.475 y 0.65 con una mayor concentración en 0.425 y 0.5 pero estos a diferencia de todos los anteriores podríamos decir que la proteína se expresa en los tejidos normales, testículos o cabeza de los individuos.
Para la última clase de ratones que expresan la proteína TIAM1 que son los que pertenecen a t-SC-s podemos decir, que es la clase en la que mayor proporción se expreso esta, ya que presenta un rango total de 0.3 a 0.725 y con una mayor concentración entre 0.375 y 0.5125 que equivaldría aproximadamente a 0.12916 siendo así la mayor concentración registrada para esta grafica y al igual que la clase anterior se está expresando mas que todo en tejidos normales así como también en testículos y el cerebro de los individuos.

Gráfica 2 Para el siguiente análisis proteico se estudiaron 8 proteinas escogidas por relevancia e importanica en la expressión dada en el comportamiento según el tratamiento aplicado al sujeto de investigación.

ggplot(datas, aes(x=pS6_N,Behavior,color="")) +
  geom_point(alpha=0.11)+
  scale_color_manual(values=c("#4393C3"))+
  facet_wrap(~class)

ggplot(datas, aes(x=pS6_N,Genotype,color="")) +
  geom_point(alpha=0.11)+
  scale_color_manual(values=c("#4393C3"))+
  facet_wrap(~class)

Gráfico 3

La proteina RPS6,es una proteina ribosomal, esta es el producto principal de las proteinas quinasas en el ribosoma, esto significa que relaliza fosforilación y por ende está involucrada en el proceso regulación del tamañano celular y en la proliferación de la misma. Es por ello que como se observa en las gráficas, los valores de la proteina RPS6_N se optienen de la siguiente manera:

Presentan mayor disperción en la clase “c-CS-s” en donde se aplicaron estímulas de aprendizaje, lo que indica que esta prteina en este tipo de tramamiento se expresade forma heterogenia, alcanzando niveles de expresión bajos y altos. Se deduce que los niveles de relugación de tamaño y proliferación celular son dispersos en ratones de control, inyectados con solución salina.
En el preceso “c-CS-m” se obtienen los datos resultantes en un rango pequeño (0.10-0.14) de expresión, lo que indica que para los ratones con estimulo de apredización inyectados con mematine, obtuvieron una regulación de tamaño y proliferación celular moderado.
En el proceso “c-SC-s” se obtuvo los niveles altos de expresión proteica de la proteina RPS6_N en ratones que no fueron estimulados para aprender y fueron inyectados con solución salina, los que indica que obtuvieron una regulación de tamaño y proliferación celular optima.
En el proceso “c-SC-m” se obtuvo los niveles altos de expresión proteica (0.13-0.15)de la proteina RPS6_N en ratones que no fueron estimulados para aprender y fueron inyectados con mematine, los que indica que obtuvieron una regulación de tamaño y proliferación celular optima.
En el proceso “t-CS-t” se obtuvo niveles intermedios de expresión prteica ribosomal en un rango de (0.10-0.12) en ratones con trisomía que dueron estimulados para aprender e inyectados con memantine. lo que indica que obtuvieron una regulación de tamaño y proliferación celular moderado.
En el proceso “t-CS-s” se obtinen los datos resultantes de niveles de expresión proteica ribosomal de la RPS6, en un rango ampliO de (0.08-0.15) en ratones con trisomía, estimulados para aprender e inyectados con solución salina. Lo que indica que en este tipo de ratones el tamaño y la proliferación celular es desigual.
En el proceso “t-CS-m” se obtuvo los niveles de expreción de la proteina ribosomal más altos e irregulares en un rango de (0.10-0.16) en ratones con trisomía, estimulados para aprender inyectados con memantine. Lo que indica que con este proceso se hhalan los niveles mas adecuados con respecto a el tamaño y la proliferación celular.

ggplot(datas, aes(x=DYRK1A_N,Behavior,color="")) +
  geom_point(alpha=0.1)+
  scale_color_manual(values=c("#F4A582"))+
  facet_wrap(~class)

## Warning: Removed 3 rows containing missing values (geom_point).

ggplot(datas, aes(x=DYRK1A_N,Genotype,color="")) +
  geom_point(alpha=0.1)+
  scale_color_manual(values=c("#F4A582"))+
  facet_wrap(~class)

## Warning: Removed 3 rows containing missing values (geom_point).

Gráfico 4

La proteina DYRK1A_N, de igual manera representa un grupo de quinansas, esta contiene una secuencia señal para el direccionamiento nuclear, es por ello que representa un papel importante en la señalización que regula la proliferación celular. Debido a la participación en señalización del sistema nervioso central y su localización en el cromosoma 21, interviene de manera directa en la patología del síndrome de down. Es por ello que como se observa en las gráficas, los valores de la proteina DYRK1A se optienen de la siguiente manera:

En el proceso “c-CS-s” se obtuvo niveles de expresión bajos en un rango de (0.2-0.75) en ratones de control, estimulados para aprender e inyectados con solución salina. Es de esperar estos resultados pues ninguno de los ratones en este esstudio posee el sindrome de down por ello se encuentra que la expresión de la proteina DYRK1A_N es baja.
En el proceso “c-CS-m” se obtuvo niveles de espresión bastantes dispersas, gran parte en niveles de expresión proteica bajos (0.3-0.6) en ratones de control estimulados para aprender e inyectados con memantine, sin embargo se encontraron valores de exresión bastante altos en un rango de (2.0-2.5) lo que indica esta dispersión puede ser causada por la solcuón inyectada.
En los procesos “c-SC-s” y “c-SC-m” los resultados arojaron niveles bastantes bajos (0.2-0.5)de expresión de la proteina DYRK1A_N en ratones de control, no estimulados para aprender e inyectados con solución salina y memantine respetivamente. Por lo que se deduce que la estimulación para aprender es un factor directo en la expresión del gen.
En los procesos de “t-CS-m” y “t-CS-s” se obtuvo un nivel de expresión los resultados arrojaron niveles altos en un rango de (0.5-1.2) en ratones con trisomía estimulados para aprender e inyectados con memantine y solución salina respetivamente. Lo que significa que con respetos a los otros sujetos de estudio los de estas clases poseen una expresión proteicxa más alto por poseer la patología.
Para el proceso “t-SC-m” los datos arrojaron niveles bajos de expresión proteica en un rango de (0.2-0.5) en ratones con trisomia no estimulados para aprender e inyectados con memantine, lo que indica que el tratamiento generado es optimo.

ggplot(datas, aes(x=pCAMKII_N ,Behavior,color="")) +
  geom_point(alpha=0.1)+
  scale_color_manual(values=c("#92C5DE"))+
  facet_wrap(~class)

## Warning: Removed 3 rows containing missing values (geom_point).

ggplot(datas, aes(x=pCAMKII_N ,Genotype,color="")) +
  geom_point(alpha=0.1)+
  scale_color_manual(values=c("#92C5DE"))+
  facet_wrap(~class)

## Warning: Removed 3 rows containing missing values (geom_point).

Gráfica 5 La proteina es una proteina pCAMKII_N quinasa que está involucrada en la señalización celular y de igual manera esta activa en procesos de aprendizaje y memoria. Es por ello que como se observa en las gráficas, los valores de la proteina pCAMKII_N se optienen de la siguiente manera:

En el proceso de “c-CS-m” se obtuvo datos de con niveles de expresión dispersos en un rango de (1.5-5) en ratones de control estimulados para aprender e inyectados con memantine, por ende se comprende que en este tratamiento no se estimula la proteina obteniendo niveles básicos de expresión.
En el proceso de “c-CS-s”en esta gráfica se observan valores de expresión menos dispersos en un rango de (2-5) en ratones de control estimulados para aprender e inyectados con solución salina. A partir de ello se de deduce que se encuentra en niveles normales de modo que el tratamiento es parcial dentro del estado de los sujetos de estudio.
En el proceso “c-SC-s” se obtienen valores altos de expresión proteica en un rango amplio (2-6) en ratones de control, no estimulados para aprender e inyectados con solución salina, lo que indica que la proteina pCAMKII_N se encuentra en nivelkes medios en este estudio.
En el proceso “t-CS-m” se arrojaron datos de todos los valores en un rango amplio (1-6) en ratones con trisomía, estimulados para aprender e inyectados con memantine, lo que indica que el tratamiento en este grupo de ratones no es claro debido a que unos presentan altos niveles de expresión y otros bajos niveles, esto mismo pasa en los otros tres tratamientos (“t-CS-s, t-SC-m, t-SC-s”), de ello se puede deducir que este fenómeno sucede en los ratones que poseen tisomía.

ggplot(datas, aes(x=pMTOR_N ,Behavior,color="")) +
  geom_point(alpha=0.1)+
  scale_color_manual(values=c("#8eef8a"))+
  facet_wrap(~class)

## Warning: Removed 3 rows containing missing values (geom_point).

ggplot(datas, aes(x=pMTOR_N ,Genotype,color="")) +
  geom_point(alpha=0.1)+
  scale_color_manual(values=c("#8eef8a"))+
  facet_wrap(~class)

## Warning: Removed 3 rows containing missing values (geom_point).

Gráfica 6

La proteina pMTOR_N interviene en los procesos de regulación de la síntesis y degradación de proteinas, es decir cuando esta se encuentra inestable, se producen eventos tales como evejecimiento prematuro, diabetes, cancer entre otros, todo ello debido a que se activa en la via de señalización cuando se desencadenan procesos tales como la sintesis de ADN, metabolismo de glucosa, inhibe la apoptosis y otros procesos fundamentales para el funcionamiento correto del sistema. Dadas las alteraciones de mTOR se puede producir una demencia similar a la enfermedad de alzheimer en sujetos con la patología del sindrome de Down. Como se observa en las gráficas, los valores de la proteina pmTOR_N se optienen de la siguiente manera:

En los dos primeros procesos llevados a cabo de la proteina “c-CS-m”, “c-CS-s”, se obtuvo valores en un rango de (0.6-0.9) en ratones de control, estimulados para aprender e inyectados con memantine y solución salina respetivamente, de esto se puede comprender que el tipo de solución inyectada no interviene en los resultados dados, es decir en dichos procesos se encuentran niveles intermedios de la expresión proteica, un regulación de síntesis y degradación celular optima.
En los procesos “c-SC-m”, “c-SC-s”, la gráfica muestra datos más dispersos en un rango dado entre (0.5-0.10) en ratones de conto, no estimulados para aprender e inyectados con memantine y solución salina respectivamente. A partir de ellos se observa que a los ratones los cuales se le aplicó solución salina poseen un desplazamiento ligeron de datos hacia valores menores de expresión proteica, por otro lado a los ratones que se le aplicó memantine, los datos poseen un breve desplazamiento a valores mayores de niveles de expresión.
En el proceso de “t-CS-m” se obtuvo valores de exprexión medios en un rango de (0.5-0.7) en ratones con trisomia, estimulados para aprender e inyectados con memantine, lo que indica que al arrojar los datos tan unidos se mantuvo los valores de expresión proteica en el tratamiento.
En el proceso de “t-CS-s” se arrojaron valores bajos de la expresión proteica en un rango de (0.1-0.5) en ratones con trisomía estimulados para aprender e inyectados con solución salina, lo que indica que con dicho tratamiento no se genera un balance en los niveles de expresión que es lo esperado para evitar el progreso de la patología.
En el proceso de “t-SC-m” se obtuvo valores regulados con tenddencia a niveles altos en un mismo rango entre (0.7-1) en ratones con trisomia, no estimulados para aprender e inyectados con memantine, a partir de ellos se deduce que los ratones en este proceso presetan mayor expresión proteica.
En el proceso de “t-SC-s” se obtinen valores con alteraciónes no uniformes ya que los niveles de expresión proteica para mTOR, oscilan entre (0.5-1.0) para ratones con trisomía, sin estimulación para aprender e inyectados son solución salina. Esto indica que en este tratamiento no se registran cambios con respecto a el comportamiento nomral de la expresión esta proteina por consiguiente se deduce que toma valores heterogéneos y distantas para cada uno de los sujetos de estudio.

ggplot(datas, aes(x=pBRAF_N ,Behavior,color="")) +
  geom_point(alpha=0.1)+
  scale_color_manual(values=c("#e99e03"))+
  facet_wrap(~class)

## Warning: Removed 3 rows containing missing values (geom_point).

ggplot(datas, aes(x=pBRAF_N ,Genotype,color="")) +
  geom_point(alpha=0.1)+
  scale_color_manual(values=c("#e99e03"))+
  facet_wrap(~class)

## Warning: Removed 3 rows containing missing values (geom_point).

Gráfica 7 • Proteína BRAF

Está Involucrado en la transducción de señales mitogénicas desde la membrana celular al núcleo. Fosforila MAP2K1 y, por lo tanto, activa la vía de transducción de señales de MAP quinasa. Puede desempeñar un papel en las respuestas postsinápticas de las neuronas del hipocampo. se expresa más que todo en el cuerpo pineal, estriado dorsal e hipotálamo.Con respecto a Los valores de la proteína BRAF_N obtenemos que:

Para el análisis de este grupo de graficas podemos deducir que uno de los cuatro organismos que presentan trisomía que son los que pertenece a la clase de t-CS-m tienen una mayor expresión de la proteína en comparación con los otros 3 organismos y que 2 de los 4 organismos de control presentan en igual proporción una mayor expresión de la misma, que son los de las clases c-CS-m y c-CS-s evidenciando así que estas tres clase de ratones en específico están todas estimuladas para aprender, concluyendo con esto que la proteína se expresa mejor en aquellos organismos que fueron estimulados para aprender .

ggplot(datas, aes(x=GluR4_N ,Behavior,color="")) +
  geom_point(alpha=0.1)+
  scale_color_manual(values=c("#2945d1"))+
  facet_wrap(~class)

ggplot(datas, aes(x=GluR4_N ,Genotype,color="")) +
  geom_point(alpha=0.1)+
  scale_color_manual(values=c("#2945d1"))+
  facet_wrap(~class)

Gráfica 8 • Proteína GluR4

Los receptores de glutamato son los receptores neurotransmisores excitadores predominantes en el cerebro de los mamíferos y se activan en una variedad de procesos neurofisiológicos normales. funciona como canal iónico controlado por ligando en el sistema nervioso central y como ya dijimos juega un papel importante en la transmisión sináptica excitadora, por lo tanto, convierte la señal química en un impulso eléctrico y se Expresa más que todo en cerebelo adulto y lóbulo frontal adulto. Los datos de la proteina GluR4_N se optienen de la siguiente manera:

Al realizar el análisis de las graficas correspondientes pudimos notar cierto patrón en el comportamiento de la expresión de la proteína ya que en todos los organismos, independientemente de que tuvieran o no trisomía, fueran estimulados para aprender o no e incluyo inyectados con diferentes soluciones como lo son la memantina y la solución salina, en todos tenía un comportamiento similar ya que se expresaba en un rango general de 0.5 para todos los organismos expresándose así en una cantidad aproximadamente igual en el cerebelo y lóbulo frontal de los mismos.

ggplot(datas, aes(x=CDK5_N ,Behavior,color="")) +
  geom_point(alpha=0.1)+
  scale_color_manual(values=c("#48271e"))+
  facet_wrap(~class)

ggplot(datas, aes(x=CDK5_N ,Genotype,color="")) +
  geom_point(alpha=0.1)+
  scale_color_manual(values=c("#48271e"))+
  facet_wrap(~class)

Gráfica 9 • Proteína CDK5

Esencial para la detención y diferenciación del ciclo celular neuronal y puede estar involucrada en la muerte celular apoptótica en enfermedades neuronales desencadenando la reentrada abortiva del ciclo celular, Regula varios procesos fisiológicos y de desarrollo neuronal, incluida la supervivencia, migración y diferenciación neuronal, crecimiento axonal y neurítico, sinaptogénesis, diferenciación de oligodendrocitos, plasticidad sináptica y neurotransmisión. Se expresa en glándula submandibular, cerebro y corteza frontal principalmente. Teniendo en cuenta la gráfica CDK5_N obtenemos los siguientes valores:

Al analizar estas graficas podemos decir que esta proteína se expresa dentro de un rango similar que va desde 0.2 a 0.4 para todas las clases de ratones, pero donde la mayor concentración o donde mejor se expresa la proteína es entre 0.25 y 0.35 equivalente al 0.05 de expresión en las clases en donde el organismo es de control, es decir que no presenta trisomía, mientras que en aquellos que si la presentan la proteína se expresa en una menor proporción equivalente al 0.025 aproximadamente pero en un rango desde 0.275 a 0.325

ggplot(datas, aes(x=TIAM1_N ,Behavior,color="")) +
  geom_point(alpha=0.1)+
  scale_color_manual(values=c("#273191"))+
  facet_wrap(~class)

## Warning: Removed 3 rows containing missing values (geom_point).

ggplot(datas, aes(x=TIAM1_N ,Genotype,color="")) +
  geom_point(alpha=0.1)+
  scale_color_manual(values=c("#273191"))+
  facet_wrap(~class)

## Warning: Removed 3 rows containing missing values (geom_point).

Gráfica 10 • Proteína TIAM1 La proteína TIAM1 es la Invasión del linfoma T y proteína inductora de metástasis 1 su función es controlar o modular la actividad de las proteínas de unión a Rho GTP y conecta las señales extracelulares con las actividades del citoesqueleto. Muy expresado en cerebro y testículos y en niveles bajos o moderados en casi todos los demás tejidos normales. Esta se encuentra en prácticamente todas las líneas de células tumorales, neuroblastomas , melanomas y carcinomas. De acuerdo con Los datos de la grafica de la proteína TIAM1_N obteneos que :

Para los ratones de clase c-CS-m que son aquellos que están estimulados para aprender y fueron inyectados con memantina encontramos que la proteína se expresa en un rango de 0,35-0.6 pero con una mayor proporción entre el 0,375 y 0,45 que equivale aproximadamente al 0,075 deduciendo así que esta proteína se expresa en su mayoría en niveles moderados para este tipo de tratamiento
Al igual que los ratones de la clase anterior, en los de clase c-CS-s que son los que también están estimulados para aprender, pero son inyectados con solución salina, la proteína TIAM1 en su mayoría se expresa en una proporción aproximadamente igual pero con un rango diferente ya que este va desde 0,35 hasta 0,7, pudiendo evidenciar que la proteína se sigue expresando la mayor parte entre el 0,375 y 0,45 lo que corresponde a tejidos normales del organismo Para aquellos ratones que pertenecen a la clase c-SC-m que son *los que no están estimulados para aprender y fueron inyectados con memantina encontramos que la proteína se expresa en igual cantidad que los grupos anteriores, pero en un rango de 0.35 y 0.45 lo que indicaría que se esta expresando en los tejidos normales del organismo
Para los de la clase c-SC-s que son estimulados para no aprender, pero inyectados con solución salina la proteína se expresa en un rango total de 0.25 y 0.5 aproximadamente, pero con una mayor concentración en 0.35 y 0.425 lo que equivaldría aproximadamente al 0.5, expresándose en una menor proporción que en las clases anteriores, pero en los mismos tejidos *Los que pertenecen a la clase t-CS-m son estimulados para no aprender e inyectados con memantina, pero la diferencia con los ratones que tienen el mismo tratamiento es que estos tienen trisomía y para este caso la proteína se expresa en un rango total entre 0.275 y 0.575 con una mayor proporción en 0.35 y 0.4125 y continúa expresándose en los tejidos normales del organismo
Los de la clase t-CS-s son estimulados para aprender e inyectados con solución salina, pero estos al igual que los anteriores tienen trisomía, en estos ratones la proteína se expresa en su mayoría en igual proporción que los de la clase c-CS-s, pero con un rango total diferente, ya que este se expresa desde 0.325 hasta 0.55 aproximadamente y se sigue expresando en los mismos tejidos que todas las clases anteriores
Los ratones que pertenecen a la clase t-SC-m fueron estimulados para no aprender e inyectados con memantina y padecen trisomía y para este caso la proteína se expresa en un rango de 0.475 y 0.65 con una mayor concentración en 0.425 y 0.5 pero estos a diferencia de todos los anteriores podríamos decir que la proteína se expresa en los tejidos normales, testículos o cabeza de los individuos.
Para la última clase de ratones que expresan la proteína TIAM1 que son los que pertenecen a t-SC-s podemos decir que es la clase en la que mayor proporción se expreso esta, ya que presenta un rango total de 0.3 a 0.725 y con una mayor concentración entre 0.375 y 0.5125 que equivaldría aproximadamente a 0.12916 siendo así la mayor concentración registrada para esta grafica y al igual que la clase anterior se está expresando mas que todo en tejidos normales así como también en testículos y el cerebro de los individuos.

Análsis de datos a apartir de un cuadro de correlación * Proceso de conversión de datos para realizar la gráfica

Gráfica 11

library(corrplot)

## corrplot 0.84 loaded

matriz=cor(datas[,2:6])
corrplot(matriz,type = "lower", order = "hclust", tl.col = "black", tl.srt = 45)

Gráfica 12

matriz<-cor(datas[,2:9])
corrplot(matriz,  method = "color",  type = "upper", 
         addCoef.col = "black",
         # Add coefficient of correlation
         tl.col = "black")

Gráfica 13

matriz<-cor(datas[,2:9])
corrplot.mixed(matriz, lower.col="black", number.cex = .8, upper="square")

Modelo de comparación de DYRK1A_N y ITSN1_N

ITSN1_N_VS_DYRK1A_N <- lm(ITSN1_N ~ DYRK1A_N, data = datas)
ITSN1_N_VS_DYRK1A_N %>% summary()

## 
## Call:
## lm(formula = ITSN1_N ~ DYRK1A_N, data = datas)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.50720 -0.04241 -0.00349  0.03941  0.35582 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 0.204800   0.004270   47.96   <2e-16 ***
## DYRK1A_N    0.968277   0.008657  111.85   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.07081 on 1078 degrees of freedom
## Multiple R-squared:  0.9207, Adjusted R-squared:  0.9206 
## F-statistic: 1.251e+04 on 1 and 1078 DF,  p-value: < 2.2e-16

ITSN1_N_VS_DYRK1A_N_XY <- ggplot(data = datas, aes(x = DYRK1A_N, y = ITSN1_N, 
    colour = class))
ITSN1_N_VS_DYRK1A_N_XY + geom_point(alpha = I(0.9), size = 0.8) + stat_smooth(method = "lm", 
    col = "black", size = 0.5) + labs(title = "ITSN1_N versus DYRK1A_N Protein Expression Scatter Plot", 
    y = "ITSN1_N", x = "DYRK1A_N") + theme(legend.title = element_blank(), axis.title = element_text(size = 8), 
    title = element_text(size = 9)) + annotate("text", x = 0.6, y = 1, label = "R Squared") + 
    annotate("text", x = 0.6, y = 1.15, label = format(summary(lm(ITSN1_N ~ 
        DYRK1A_N, data = datas))$r.squared, digits = 3))

## `geom_smooth()` using formula 'y ~ x'

Gráfica 11, 12, 13 y modelo de comparación

En las tres gráficas anteriores de correlación se evidencia de forma gráfica y numérica la relación que presentan los diferentes proteinas utilizadas para los análisis y desarrollo de los individuos estudiados, por ello, en la primera de las 3 gráficas, es decir, en la grafica 11 que es donde se ven solo correspondencias positivas de las primeras 5 proteínas estudiadas y en gran medida una relaciónes positivas, por ello se estudiara la más notable de estas relaciones, mas que todo apreciable en grupos protéicos consécutivos, donde resalta claramente la relación de los genes 1 y 2 que serian DYRK1A_N e ITSN1_N respectivamente con un 96% de afinidad entre si y que se aprecia en el modelo de comparación dependiendo del estado y clase del raton en la gráfica del modelo, esto se da ya que en la gran mayoria de casos DYR1A Puede desempeñar un papel en una vía de señalización que regula las funciones nucleares de la proliferación celular, además posee función pro-supervivencia y regula negativamente el proceso apoptótico. Promueve la supervivencia celular ante estrés genotóxico, Detectado en el cerebro (a nivel de proteínas). Se expresa en una variedad de tejidos embrionarios y adultos, así como también abundantemente en neuronas del cerebro, médula espinal y retina en embriones en desarrollo y se usa como modelo de ajuste en regresiones lineales para detectar la proteina ITSN1_N dado que en la mayoría de retones se presentan simultaneamente en procesos de señalización celular y hormonal.

Por otra parte en los diagramas 12 y 13 en los que podemos hayar más relaciones debido a que se usa un número mas amlplio de proteinas para determinar sus relaciones se alcanzan a apreciar relaciones de baja afinidad, e incluso algunas donde su correlación es negativa, como en el caso de nuevamente la proteina 1 DYR1A, que cómo ya vimos tiene un papel en una vía de señalización que regula las funciones nucleares de la proliferación celular, además posee función pro-supervivencia y regula negativamente el proceso apoptótico y las proteinas finales de nuestro estudio, que son el caso de pAKT_N y pCAMKII_n con una afinidad y corelación correspondiente de -18%, esto se da en este último caso, dado que esta proteína pCAMKII_N esta involucrada en la señalización celular, así como también de manera activa en procesos de aprendizaje y memoria, se expresa mas que todo en el lóbulo frontal adulto, en la corteza y cerebelo adultos, sin embargo aunque ambas proteinas se ven inmersas en procesos de señalización, se encuentran con procesos totalmente diferentes uno del otro, es por esto mismo que no se encuentran casi nunca enbebidas en el mismo sistema de manera simultanea; Poco más de esto se puede hablar de las otras relaciones protéicas. a pesar de que sus relaciones son en su mayoría positivas, dadeo que a pesar de que se encuentren en el mismo momento en los ratones, rara vez se involucran en los mismos procesos, bien pueden ser metabólicos, de señalización, o de desarrollo para alguna facultad, como la motora, de memoria o aprendizaje o demás, sin embargo, en cualquier caso, cuando alguna sufre de alteraciones es que se puede lograr apreciar la trisomia en los ratones de estudio seleccionado.

5. Ingeniería de datos Con el objetivo de obtener resultados optimos, se realizó un limpieza y organización de los datos estudiados. En primer lugar se ajustaron los datos del modelo generando un data set, sin espacios y sin datos que generen ruido al momento de realizar el análisis. Posterior a ello normalizaron y estandarizaron los datos para obtener uno resultados de nivel numérico homogeneos.

5.1 Ajuste del modelo.
5.2 Normalización y estandarización de datos.

#estandarizados
prot_est <- map_df(prot_cuanti,~((. - mean(.))/sd(.)))
view(prot_est)
#normalización
prot_norm <- map_df(prot_cuanti,~((.) - min(.))/(max(.)-min(.)))
view(prot_norm)

6. Modelos de predicción estadísico para expresión proteica.

6.1 Modelo de predicción 1.

Para realizar bl blablba Aprendizaje, memoria, desarrollo cerebral DATOSS ESTANDARIZADOS

indice_entren <-sample(1:nrow(prot_est),round(0.9*nrow(prot_est)), replace = FALSE)#se hace la muestra 
entren <- prot_est[indice_entren,]
prueba <- prot_est[-indice_entren,]

dim(entren)[1]+dim(prueba)[1]==dim(prot_est)[1]

## [1] TRUE

#APP_N
modelo_01 <- lm(formula = DYRK1A ~ APP, data = entren)
ggplot(entren, aes(`APP`,`DYRK1A`))+
  geom_point(color="#F4A582")+
  geom_smooth(method = "lm")

## `geom_smooth()` using formula 'y ~ x'

summary(modelo_01)

## 
## Call:
## lm(formula = DYRK1A ~ APP, data = entren)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -1.8499 -0.4156 -0.1863  0.1799  8.2123 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -0.02113    0.02860  -0.739     0.46    
## APP          0.32469    0.02861  11.348   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.8916 on 970 degrees of freedom
## Multiple R-squared:  0.1172, Adjusted R-squared:  0.1163 
## F-statistic: 128.8 on 1 and 970 DF,  p-value: < 2.2e-16

resul_01 <- sum(modelo_01$residuals^2)

pred_01<-predict(modelo_01, newdata = prueba)
prueba$pred_01 <- pred_01 


#SHH
modelo_02 <- lm(formula = `DYRK1A`~`SHH`, data = entren)
ggplot(entren, aes(`SHH`,`DYRK1A`))+
  geom_point(color = "#92C5DE")+
  geom_smooth(method = "lm")

## `geom_smooth()` using formula 'y ~ x'

summary(modelo_02)

## 
## Call:
## lm(formula = DYRK1A ~ SHH, data = entren)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -1.2339 -0.5248 -0.1567  0.2282  8.3871 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -0.01784    0.02986  -0.597     0.55    
## SHH         -0.18325    0.02967  -6.176 9.65e-10 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.9308 on 970 degrees of freedom
## Multiple R-squared:  0.03784,    Adjusted R-squared:  0.03684 
## F-statistic: 38.14 on 1 and 970 DF,  p-value: 9.654e-10

resul_02 <- sum(modelo_02$residuals^2)

pred_02<-predict(modelo_02, newdata = prueba)
prueba$pred_02 <- pred_02


#pNUMB
modelo_03 <- lm(formula = `DYRK1A`~`pNUMB`, data = entren)
ggplot(entren, aes(`pNUMB`,`DYRK1A`))+
  geom_point(color="7d98cf")+
  geom_smooth(method = "lm")

## `geom_smooth()` using formula 'y ~ x'

summary(modelo_03)

## 
## Call:
## lm(formula = DYRK1A ~ pNUMB, data = entren)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -1.0025 -0.4640 -0.2392  0.1650  8.2522 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -0.02024    0.02950  -0.686    0.493    
## pNUMB        0.23396    0.02964   7.893 7.96e-15 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.9199 on 970 degrees of freedom
## Multiple R-squared:  0.06035,    Adjusted R-squared:  0.05938 
## F-statistic:  62.3 on 1 and 970 DF,  p-value: 7.957e-15

resul_03 <- sum(modelo_03$residuals^2)

pred_03<-predict(modelo_03, newdata = prueba)
prueba$pred_03 <- pred_03


#pNR2B
modelo_04 <- lm(formula = `DYRK1A`~`pNR2B`, data = entren)
ggplot(entren, aes(`pNR2B`,`DYRK1A`))+
  geom_point(color ="96c577")+
  geom_smooth(method = "lm")

## `geom_smooth()` using formula 'y ~ x'

summary(modelo_04)

## 
## Call:
## lm(formula = DYRK1A ~ pNR2B, data = entren)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -0.9913 -0.5515 -0.2248  0.2450  8.1332 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -0.02288    0.02982  -0.767    0.443    
## pNR2B        0.19425    0.03045   6.378 2.77e-10 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.9297 on 970 degrees of freedom
## Multiple R-squared:  0.04025,    Adjusted R-squared:  0.03926 
## F-statistic: 40.68 on 1 and 970 DF,  p-value: 2.766e-10

resul_04 <- sum(modelo_04$residuals^2)

pred_04<-predict(modelo_04, newdata = prueba)
prueba$pred_04 <- pred_04


#AKT
modelo_05 <- lm(formula = `DYRK1A`~`AKT`, data = entren)
ggplot(entren, aes(`AKT`,`DYRK1A`))+
  geom_point(color="#d9b5b5")+
  geom_smooth(method = "lm")

## `geom_smooth()` using formula 'y ~ x'

summary(modelo_05)

## 
## Call:
## lm(formula = DYRK1A ~ AKT, data = entren)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -1.0126 -0.5462 -0.2120  0.2669  8.2699 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)   
## (Intercept) -0.02146    0.03032  -0.708  0.47928   
## AKT          0.08688    0.03054   2.845  0.00454 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.945 on 970 degrees of freedom
## Multiple R-squared:  0.008275,   Adjusted R-squared:  0.007253 
## F-statistic: 8.094 on 1 and 970 DF,  p-value: 0.004535

resul_05 <- sum(modelo_05$residuals^2)

pred_05<-predict(modelo_05, newdata = prueba)
prueba$pred_05 <- pred_05

resultados <- list(resul_01, resul_02, resul_03 ,resul_04 ,resul_05)
modelo_adecuado <- which.max(resultados)
print(modelo_adecuado)

## [1] 5

#MODELOS  DATOS NORMALIZADOS
indice_entrenn <-sample(1:nrow(prot_norm),round(0.9*nrow(prot_norm)), replace = FALSE)#se hace la muestra 
entrenn <- prot_norm[indice_entrenn,]
prueban <- prot_norm[-indice_entrenn,]
dim(entrenn)[1]+dim(prueban)[1]==dim(prot_norm)[1]

## [1] TRUE

#APP

modelo_01n <- lm(formula = `DYRK1A`~`APP`, data = entrenn)
ggplot(entrenn, aes(`APP`,`DYRK1A`))+
  geom_point(color="#F4A582")+
  geom_smooth(method = "lm", color= "red")

## `geom_smooth()` using formula 'y ~ x'

summary(modelo_01n)

## 
## Call:
## lm(formula = DYRK1A ~ APP, data = entrenn)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.19124 -0.04611 -0.02252  0.01823  0.86115 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 0.028231   0.009324   3.028  0.00253 ** 
## APP         0.211451   0.020506  10.312  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.09971 on 970 degrees of freedom
## Multiple R-squared:  0.09879,    Adjusted R-squared:  0.09786 
## F-statistic: 106.3 on 1 and 970 DF,  p-value: < 2.2e-16

resul_01n <- sum(modelo_01n$residuals^2)

pred_01n<-predict(modelo_01n, newdata = prueban)
prueba$pred_01n <- pred_01n


#SHH
modelo_02n <- lm(formula = `DYRK1A`~`SHH`, data = entrenn)
ggplot(entrenn, aes(`SHH`,`DYRK1A`))+
  geom_point(color = "#92C5DE")+
  geom_smooth(method = "lm", color= "red")

## `geom_smooth()` using formula 'y ~ x'

summary(modelo_02n)

## 
## Call:
## lm(formula = DYRK1A ~ SHH, data = entrenn)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.13226 -0.05725 -0.01826  0.02567  0.87872 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  0.167869   0.008769  19.143  < 2e-16 ***
## SHH         -0.141415   0.023285  -6.073  1.8e-09 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.1031 on 970 degrees of freedom
## Multiple R-squared:  0.03663,    Adjusted R-squared:  0.03564 
## F-statistic: 36.88 on 1 and 970 DF,  p-value: 1.798e-09

resul_02n<-sum(modelo_02n$residuals^2)

pred_02n<-predict(modelo_02n, newdata = prueban)
prueba$pred_02n <- pred_02n


#pNUMB
modelo_03n <- lm(formula = `DYRK1A`~`pNUMB`, data = entrenn)
ggplot(entrenn, aes(`pNUMB`,`DYRK1A`))+
  geom_point(color="7d98cf")+
  geom_smooth(method = "lm", color= "red")

## `geom_smooth()` using formula 'y ~ x'

summary(modelo_03n)

## 
## Call:
## lm(formula = DYRK1A ~ pNUMB, data = entrenn)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.10531 -0.05134 -0.02706  0.01575  0.86522 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 0.056378   0.009484   5.944 3.87e-09 ***
## pNUMB       0.162102   0.023198   6.988 5.19e-12 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.1025 on 970 degrees of freedom
## Multiple R-squared:  0.04793,    Adjusted R-squared:  0.04695 
## F-statistic: 48.83 on 1 and 970 DF,  p-value: 5.185e-12

resul_03n<-sum(modelo_03n$residuals^2)

pred_03n<-predict(modelo_03n, newdata = prueban)
prueba$pred_03n <- pred_03n


#pNR2B
modelo_04n <- lm(formula = `DYRK1A`~`pNR2B`, data = entrenn)
ggplot(entrenn, aes(`pNR2B`,`DYRK1A`))+
  geom_point(color ="96c577")+
  geom_smooth(method = "lm", color= "red")

## `geom_smooth()` using formula 'y ~ x'

summary(modelo_04n)

## 
## Call:
## lm(formula = DYRK1A ~ pNR2B, data = entrenn)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.10535 -0.06025 -0.02656  0.02477  0.85420 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  0.03254    0.01566   2.077   0.0381 *  
## pNR2B        0.16561    0.02948   5.618 2.52e-08 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.1034 on 970 degrees of freedom
## Multiple R-squared:  0.03151,    Adjusted R-squared:  0.03052 
## F-statistic: 31.56 on 1 and 970 DF,  p-value: 2.522e-08

resul_04n <-sum(modelo_04n$residuals^2)

pred_04n<-predict(modelo_04n, newdata = prueban)
prueba$pred_04n <- pred_04n

#`AKT`
modelo_05n <- lm(formula = `DYRK1A`~`AKT`, data = entrenn)
ggplot(entrenn, aes(`AKT`,`DYRK1A`))+
  geom_point(color="#d9b5b5")+
  geom_smooth(method = "lm", color= "red")

## `geom_smooth()` using formula 'y ~ x'

summary(modelo_05n)

## 
## Call:
## lm(formula = DYRK1A ~ AKT, data = entrenn)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.10795 -0.05964 -0.02419  0.02632  0.86797 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  0.08015    0.01664   4.817 1.69e-06 ***
## AKT          0.06961    0.02955   2.356   0.0187 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.1047 on 970 degrees of freedom
## Multiple R-squared:  0.00569,    Adjusted R-squared:  0.004665 
## F-statistic: 5.551 on 1 and 970 DF,  p-value: 0.01867

resul_05n <-sum(modelo_05n$residuals^2)

pred_05n<-predict(modelo_05n, newdata = prueban)
prueba$pred_05n <- pred_05n

resultados <- list(resul_01n, resul_02n, resul_03n ,resul_04n ,resul_05n)
modelo_adecuadon <- which.max(resultados)
view(modelo_adecuadon)

Análsis de datos de datos normalizados y estandarizados Para el análisis de esta parte del proyecto comenzaremos en primer lugar hablando sobre el gen con el cual establecimos las relaciones con cada proteína para luego especificar las funciones y codificaciones que realiza cada una de estas con el fin de entender y poder establecer finalmente un modelo adecuado; el análisis lo dividiremos en dos partes que son los datos estandarizados y los normalizados y finalmente daremos una conclusión o análisis final en el que diremos porque creemos que es mejor la normalización con respecto al otro método de análisis

El gen Dyrk1A codifica para una proteína cinasa cuya función es fosforilar otras proteínas, entre ellas algunas relevantes en procesos de memoria, aprendizaje o desarrollo cerebral, participa en el desarrollo neurológico, por lo que su efecto desregulado en adultos puede ser el resultado de trastornos del desarrollo neurológico no compensados. Debido a que el gen DYRK1A está involucrado en diversas estructuras y funciones del sistema nervioso central (SNC), puede desempeñar un papel importante en la patogenia del síndrome de Down, tanto durante el embarazo como en la vida adulta.
GRIN2B también conocida como receptor NMDAR2B o NR2B ), es una proteína que en los seres humanos está codificada por el gen GRIN2B , está involucrado en la potenciación a largo plazo , un aumento dependiente de la actividad en la eficiencia de la transmisión sináptica que se cree que subyace a ciertos tipos de memoria y aprendizaje.
NUMB es una proteína que Regula la endocitosis del receptor mediada por clatrina Desempeñando así un papel en el proceso de neurogénesis. Por eso es requerida a lo largo de la neurogénesis embrionaria para poder mantener las células progenitoras neurales También participa postnatalmente en la neurogénesis de la zona subventricular regulando la supervivencia de los neuroblastos de dicha zona y la integridad de la pared ependimaria. puede mediar en la reparación local del daño de la pared ventricular del cerebro
ITSN1 La proteína codificada por este gen es una proteína relacionada con la membrana citoplasmática de la célula, que puede coordinar indirectamente el transporte de la membrana endocítica a través del mecanismo de ensamblaje de actina. Además, puede regular la formación de vesículas recubiertas de clatrina y puede participar en la recuperación de vesículas sinápticas. Se expresa más que todo en el cerebro en partes como el hipotálamo estriado corteza cerebral entre otras.
El gen SHH proporciona instrucciones para producir una proteína llamada Sonic Hedgehog. Esta proteína sirve como señal química básica para el desarrollo del embrión. Desempeña un papel en el crecimiento celular, la especialización celular y la forma normal del cuerpo. Esta proteína es importante para el desarrollo del cerebro y la médula espinal (sistema nervioso central), los ojos, las extremidades y muchas otras partes del cuerpo.
La enzima de Akt es un tipo de proteína serina-treonina cinasa. También se llama proteína cinasa B. participa en varios procesos relacionados con el crecimiento y la supervivencia celular, también está involucrada en la inhibición de procesos apoptóticos, en la inducción de la vía de síntesis de proteínas y además es clave en la vía que guía a la hipertrofia del músculo esquelético (crecimiento de tejido).

Teniendo en cuenta los modelos planteados con los Datos estandarizados podemos decir que el modelo mas adecuado para este método es el número 5 que corresponde a la relación de el gen DYRK1A con la enzima AKT con lo cual podríamos concluir que con respecto a las otras graficas esta se comporta de una manera más uniforme, con la mayoría de los datos agrupados en un rango aproximado desde - 1.875 hasta 1.875 en el eje ‘x’ y entre -1 y 1 para el eje ‘y’, tomando así valores positivos y negativos, además de esto tiene una pendiente considerablemente más pequeña en comparación con las otras graficas y modelos.

En cuanto al análisis del modelo de los datos normalizados, obtuvimos el mismo resultado que en el método anterior pues el modelo adecuado también es el número 5 que de igual manera corresponde a la enzima AKT , y con el mismo grado de inclinación de la pendiente pero este a diferencia del primero se está expresándose en su mayoría en un rango aproximado entre 1.875 y 0.75 para el eje ‘x’ y desde 0.0 hasta 0.25 para el eje ‘y’ tomando así únicamente valores mayores y positivos, es por esto que consideramos este, el método de la normalización, como el mejor método para modelar datos.

6.2 Modelo de predicción 2. Para realizar el estudio de los ratones con distintos niveles de expresión proteinca cuando estos poseen trisomia, se debe estudiar las proteinas relacionadas con la discapacidad intelectual, que representa el elemeto fenotipico del sindrome de down, es por ello que apartir de la expresión proteina de “BDNF”, el cual codifica para un factor neurotófico, que tiene como función actuar como proteina de crecimineto nervioso. #Para conocer de manera cuantitativa el grado de relación con distintas proteinas que intervienen en factores de neurodegeneración, se realizó un modelo con el objetivo de predecir los valores de expresión proteica de preoteinas segundarias.

modelo_01a <- lm(formula = `BDNF`~`CREB`, data = entren)
ggplot(entren, aes(`CREB`,`BDNF`))+
  geom_point(color ="#96c577")+
  geom_smooth(method = "lm")

## `geom_smooth()` using formula 'y ~ x'

summary(modelo_01a)

## 
## Call:
## lm(formula = BDNF ~ CREB, data = entren)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.3739 -0.6103 -0.0893  0.5522  3.1813 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  0.01677    0.02917   0.575    0.566    
## CREB         0.40743    0.02898  14.059   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.9095 on 970 degrees of freedom
## Multiple R-squared:  0.1693, Adjusted R-squared:  0.1684 
## F-statistic: 197.7 on 1 and 970 DF,  p-value: < 2.2e-16

resul_01a <- sum(modelo_01a$residuals^2)

pred_01a<-predict(modelo_01a, newdata = prueba)
prueba$pred_01a <- pred_01a


modelo_02a <- lm(formula = `BDNF`~`ITSN1`, data = entren)
ggplot(entren, aes(`ITSN1`,`BDNF`))+
  geom_point(color ="#d9b5b5")+
  geom_smooth(method = "lm")

## `geom_smooth()` using formula 'y ~ x'

summary(modelo_02a)

## 
## Call:
## lm(formula = BDNF ~ ITSN1, data = entren)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.7492 -0.5686 -0.0268  0.5288  2.7059 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  0.02678    0.02830   0.946    0.344    
## ITSN1        0.47769    0.02903  16.454   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.8823 on 970 degrees of freedom
## Multiple R-squared:  0.2182, Adjusted R-squared:  0.2174 
## F-statistic: 270.7 on 1 and 970 DF,  p-value: < 2.2e-16

resul_02a <- sum(modelo_02a$residuals^2)

pred_02a<-predict(modelo_02a, newdata = prueba)
prueba$pred_02a <- pred_02a


modelo_03a <- lm(formula = `BDNF`~`DSCR1`, data = entren)
ggplot(entren, aes(`DSCR1`,`BDNF`))+
  geom_point(color ="#7d98cf")+
  geom_smooth(method = "lm")

## `geom_smooth()` using formula 'y ~ x'

summary(modelo_03a)

## 
## Call:
## lm(formula = BDNF ~ DSCR1, data = entren)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.7910 -0.6317 -0.0989  0.5053  2.8718 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  0.02189    0.02947   0.743    0.458    
## DSCR1        0.39089    0.02962  13.197   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.9188 on 970 degrees of freedom
## Multiple R-squared:  0.1522, Adjusted R-squared:  0.1513 
## F-statistic: 174.2 on 1 and 970 DF,  p-value: < 2.2e-16

resul_03a <- sum(modelo_03a$residuals^2)

pred_03a<-predict(modelo_03a, newdata = prueba)
prueba$pred_03a <- pred_03a

Analisis modelo de prediccion N°2 En el modelo de predicción numero 2 trabajamos proteínas diferentes en comparación con los 2 modelos anteriores. La primera de ellas es la BDNF, su función es Promover la supervivencia y diferenciación de poblaciones de neuronas seleccionadas en el nervio periférico y el sistema nervioso central. Interviene en el crecimiento de los axones, encontrando caminos y regulando el crecimiento y morfología de las dendritas. Es el principal regulador de la transmisión sináptica y la plasticidad en las sinapsis adultas en muchas regiones del sistema nervioso central; Esta fue la proteína utilizada para establecer la comparación con otras 3 que explicaremos a continuación.Proteína BDNF

El gen RCAN1 se encuentra en la región “Región crítica del síndrome de Down” (DSCR) en el cromosoma 21 humano. De hecho, el gen ha sido caracterizado y estudiado extensamente, y Originalmente se llamó DSCR1. Este gen codifica la proteína RCAN1, y su función es interactuar con otra proteína llamada calcineurina A e inhibir su importante función: hidrolizar y separar el grupo fosfato, y separarlo en diferentes órganos. Produce una serie de moléculas vitales para las funciones biológicas. Está involucrado en la liberación de neurotransmisores, el crecimiento de procesos neurales y la muerte de células neuronales en el cerebro. Dado que el gen RCAN1 existe en el cromosoma 21, se analizó el papel de la proteína RCAN1 en la degeneración neuronal observada en el síndrome de Down y la enfermedad de Alzheimer.DSCR1

CREB es una proteína que puede regular la plasticidad neuronal, también conocida como “renovación de la conexión cerebral”, que es la capacidad de cambiar temporal o permanentemente la forma en que las sinapsis se conectan y cambiar la ruta de interconexión entre neuronas en respuesta a estímulos externos. Esto es beneficioso para la formación del aprendizaje, la memoria y la formación de recuerdos, Cabe mencionar que durante el proceso de aprendizaje, las sinapsis cambian tanto funcional como anatómicamenteProteínaCREB

Por último tenemos nuevamente a la proteína ITSN1 que como ya lo habíamos mencionado en los modelos anteriores proporciona un vínculo entre el tráfico de la membrana endocítica y la maquinaria de ensamblaje de actina Además, puede regular la formación de vesículas recubiertas de clatrina y puede participar en la recuperación de vesículas sinápticas.

Teniendo en cuenta la información anteriormente expuesta podemos decir que la expresión de estas proteínas en relación con el gen propuesto afecta significativamente la vida del organismo que lo contenga, si hablamos de la proteína CREB por ejemplo, como lo dijimos previamente, esta potencia el aprendizaje en un primer momento, pero puede ser perjudicial para este proceso si la proteína se expresa en altas cantidades durante demasiado tiempo.

8. Conclusiones.

9. Referencias:

Lauretti E, Dincer O, Praticò D. Glycogen synthase kinase-3 signaling in Alzheimer’s disease. Biochim Biophys Acta Mol Cell Res. 2020 May;1867(5):118664. doi: 10.1016/j.bbamcr.2020.118664. Epub 2020 Jan 30. PMID: 32006534; PMCID: PMC7047718.
Atanasova T, Kharybina Z, Kaarela T, Huupponen J, Luchkina NV, Taira T, Lauri SE. GluA4 Dependent Plasticity Mechanisms Contribute to Developmental Synchronization of the CA3-CA1 Circuitry in the Hippocampus. Neurochem Res. 2019 Mar;44(3):562-571. doi: 10.1007/s11064-017-2392-8. Epub 2017 Aug 31. PMID: 28856535.
Pbrm1 polybromo 1 Mus musculus (house mouse)
CDK5 cyclin dependent kinase 5 Homo sapiens (human)
Karim MR, Fisher CR, Kapphahn RJ, Polanco JR, Ferrington DA. Investigating AKT activation and autophagy in immunoproteasome-deficient retinal cells. PLoS One. 2020 Apr 10;15(4):e0231212. doi: 10.1371/journal.pone.0231212. PMID: 32275682; PMCID: PMC7147741.
Rrp1 ribosomal RNA processing 1 Mus musculus (house mouse)
CERRO, Susana García. Estudio del efecto de la reducción del número de copias del gen Dyrk1A sobre distintos fenotipos funcionales y neuromorfológicos encontrados en un modelo murino de Síndrome de Down y en ratones euploides. 2015. Tesis Doctoral. Universidad de Cantabria.
PARDO, Andrea Corrales. Estudio de los efectos protectores del tratamiento crónico con melatonina sobre los déficits cognitivos del ratón Ts65Dn: un modelo de síndrome de Down. 2015. Tesis Doctoral. Universidad de Cantabria.
Síndrome de Down
¿Que es el sindrome de Down - sindrome de Down
¿Cuántas personas tienen el síndrome de Down o corren riesgo de tenerlo?
Sindrome de Down

Análisis estadístico de datos génicos