class: center, middle, inverse, title-slide # Moléculas ### JPAG ### Modelación Predictiva ### 2021/05/07 --- # Enlaces En ciencia de materiales se impulsa la necesidad de diseñar nuevas moléculas. El aprendizaje automático molecular emplea los predictores aprendidos para proponer nuevas moléculas con propiedades útiles. Se construyen métodos para transformar moléculas en vectores para pasar a algoritmos de aprendizaje, lo que se conoce como *featurización molecualr*. Estas representaciones incluyen vectores descriptores químicos, representaciones de gráficos 2D, representaciones de cuadrículas electrostáticas en 3D, representaciones de funciones de base orbital, etc. Para dentificar las moléculas que están presentes en una muestra determinada con *espectroscopia de masas*, la idea básica es bombardear con electrones para romper la muestra en fragmentos que típicamente se ionizan y recogen o pierden electrones para cargarse. Los fragmentos son propulsados por un campo eléctrico que los separa en función de su relación masa/carga y a esta propagación se denomina *espectro*. A partir de la colección de fragmentos detectados es posible identificar las moléculas precisas que estaban en la muestra original. Con algoritmos de aprendizaje profundo se facilita la identificación de las moléculas originales del espectro cargado detectado. --- # Consideremos una molécula como un grupo de átomos unidos por fuerzas físicas. Las moléculas son la unidad fundamental más pequeña de un compuesto químico que puede participar en una reacción química. Los átomos de una molécula están conectados entre sí mediante enlaces químicos, que los mantienen unidos y restringen su movimiento entre sí. Las moléculas vienen en una amplia gama de tamaños, desde unos pocos átomos hasta muchos miles de átomos. Las moléculas son entidades dinámicas, por lo que todos los átomos dentro de una molécula dada se mueven rápidamente entre sí. Los enlaces mismos se estiran hacia adelante y hacia atrás y quizás oscilen en longitud rápidamente. Es bastante común que los átomos se desprendan rápidamente de las moléculas y se vuelvan a unir. También son entidades cuánticas. Es importante tener en cuenta que nuestras descripciones de átomos y enlaces están mucho menos definidos de lo que podría implicar un simple diagrama de bolas y palos, las definiciones son muy aproximadas. Esto puede tener relevancia en algunas tareas de aprendizaje que pueden requerir la descripción de moléculas con representaciones diferentes a otras. Los enlaces moleculares esencialmente pegan los átomos por sus electrones compartidos, siendo del tipo covalente o de varios tipos de enlaces no covalentes. Los enlaces *covalentes* comparten electrones entre dos átomos, de modo que los mismos electrones pasen tiempo alrededor de ambos átomos. --- # En general, los enlaces covalentes son enlaces químicos más fuertes. Se forman y se rompen en reacciones químicas y tienden a ser muy estables: una vez que se forman, se necesita mucha energía para romperlos, por lo que los átomos pueden permanecer unidos durante mucho tiempo. Esta es la razón por la que las moléculas se comportan como objetos distintos en lugar de conjuntos sueltos de átomos no relacionados. De hecho, los enlaces covalentes son los que definen a las moléculas: una molécula es un conjunto de átomos unidos por enlaces covalentes. Los enlaces *no covalentes* no son tan fuertes como los covalentes pues no implican el intercambio directo de electrones entre átomos, pero sí implican interacciones electromagnéticas más débiles y enlaces más efímeros, rompiéndose y reformándose constantemente. Los enlaces no covalentes no definen moléculas en el mismo sentido que los enlaces covalentes, pero tienen un efecto enorme en la determinación de las formas que toman las moléculas y las formas en que las diferentes moléculas se asocian entre sí. Algunos ejemplos de enlaces no covalentes incluyen enlaces de hidrógeno, puentes de sal, etc. Estos tipos de interacciones a menudo juegan un papel crucial en el diseño de fármacos, ya que la mayoría de los fármacos interactúan con moléculas biológicas en el cuerpo humano a través de interacciones no covalentes. --- # Estructuras Una *gráfica* es una estructura de datos formada por nodos conectados entre sí por bordes. En la descripción molecular, los átomos son los nodos en la gráfica y los enlaces químicos son los bordes. Cualquier molécula se puede convertir en una gráfica molecular correspondiente. La *conformación molecular* es cómo se colocan los átomos entre sí en el espacio 3D. Si dos átomos están unidos covalentemente, eso tiende a fijar la distancia entre ellos, restringiendo fuertemente las posibles conformaciones. Los ángulos formados por conjuntos de tres o cuatro átomos enlazados también suelen estar restringidos. A veces habrá grupos enteros de átomos que son completamente rígidos, todos moviéndose juntos como una sola unidad. Pero otras piezas de moléculas son flexibles, lo que permite que los átomos se muevan entre sí. Muchos enlaces covalentes permiten que los grupos de átomos que conectan giren libremente alrededor del eje del enlace, lo que permite que la molécula adopte muchas conformaciones diferentes. Moléculas más grandes (proteínas) van incrementando su número de conformaciones, desarrollando geometría y formulación química. --- # Algunas moléculas (incluidos muchos fármacos) se presentan en dos formas que son imágenes especulares entre sí. A esto se le llama *quiralidad*. Una molécula quiral tiene una forma *diestra* (también conocida como forma "R") y una forma *zurda* (también conocida como forma "S"). Las reacciones químicas que producen moléculas quirales a menudo no distinguen entre las formas, produciendo ambas quiralidades en cantidades iguales. (Estos productos se denominan *mezclas racémicas*). Muchas propiedades físicas son idénticas para ambas quiralidades, por lo que muchos experimentos no pueden distinguir entre versiones quirales de una molécula determinada. También, ambas quiralidades tienen gráficos moleculares idénticos, por lo que cualquier modelo de aprendizaje automático que dependa solo del gráfico molecular no podrá distinguir entre ellos. Esto no importaría tanto si las dos formas se comportaran de manera idéntica en la práctica, pero a menudo ese no es el caso. Es posible que las dos formas quirales de un medicamento se unan a proteínas totalmente diferentes y tengan efectos muy diferentes en el cuerpo. En muchos casos, solo una forma de fármaco tiene el efecto terapéutico deseado. La otra forma solo produce efectos secundarios adicionales sin tener ningún beneficio. --- # Descriptores Los descriptores moleculares son la forma en que la información química codificada dentro de una representación simbólica de una molécula se transforma en un número útil o en el resultado de algún experimento estandarizado. En química, *Simplified Molecular Input Line Entry Specification* (especificación de introducción lineal molecular simplificada o **SMILES**) es una especificación para describir sin ambigüedades la estructura de una molécula usando cadenas ASCII cortas. Los átomos están representados por la abreviatura estándar de cada elemento químico, entre corchetes, tales como [Au] para el oro. Si los corchetes son omitidos, se asume el número propio de átomos de hidrógeno implícitos; por ejemplo, la cadena SMILES para el agua es simplemente O. Los enlaces *alifáticos* (C, H y caracter no aromático) están implicados por adyacencia en las cadenas SMILES. Por ejemplo, la cadena SMILES para el etanol ( `\(C_2H_60\)` ) puede ser escrita como CCO. a *SMILES arbitrary target specification* (**SMARTS**), es un lenguaje para especificar patrones subestructurales en moléculas. La notación de línea SMARTS es expresiva y permite una especificación subestructural y tipado de átomos extremadamente precisos y transparentes. --- Al representar una gráfica molecular 2D como una cadena 1D, hay muchas cadenas de SMILES posibles para la misma estructura. La canonicalización es una forma de determinar cuál de todas las cadenas posibles se utilizará como referencia para una gráfica molecular. Usando cadenas canónicas en lugar de las gráficas se puede averiguar si ya existe una estructura en un conjunto de datos con coincidencias de texto simple. Se mantenien SMILES canónicas registradas para cada compuesto en una base de datos y convierta la estructura de la consulta a sus cadenas canónicas. Si ese SMILES aún no existe, entonces es una nueva estructura. La siguiente tarea muestra cómo convertir una cadena SMILES en memoria en una molécula y luego generar las SMILES canónicas para ella. Se emplea `RDKit`, una colección de software de quimioinformática y aprendizaje automático escrito en `C ++` y `Python`, ya que soporta operaciones moleculares 2D y 3D, generación de descriptores y admite búsquedas de subestructura y similitudes, así como muchas calculadoras de descriptores. ```python from rdkit import Chem smis = ["CN2C(=O)N(C)C(=O)C1=C2N=CN1C","CN1C=NC2=C1C(=O)N(C)C(=O)N2C"] cans = [Chem.MolToSmiles(Chem.MolFromSmiles(smi),True) for smi in smis] cans[0] == cans[1] ``` `## True` --- # `Pybel` proporciona funciones y clases convenientes que simplifican el uso de las bibliotecas Open Babel desde `Python`. Open Babel es una aplicación basada en software de código abierto utilizada para almacenar y analizar estructuras químicas moleculares, especialmente para la entrada/salida de archivos y para acceder a los atributos de átomos y moléculas. Otro conversor interesante es OPSIN, el analizador de acceso abierto para la nomenclatura sistemática IUPAC de la Universidad de Cambridge: <https://opsin.ch.cam.ac.uk/>. Esto está disponible como paquete de `Python` en `CIRpy`, una interfaz para la *Chemical Identifier Resolver* (CIR). CIR es un servicio web que resolverá cualquier identificador químico en otra representación química. Por ejemplo, se puede pasar una nombre químico y solicitar la cadena de SMILES correspondiente: ```python import cirpy cirpy.resolve('Water', 'smiles') cirpy.resolve('Aspirin', 'smiles') ``` `## 'O' ` <br> `## C1=CC=CC(=C1C(O)=O)OC(C)=O` --- # Ingesta de datos Las metodologías basadas en Machine Learning se basan en datos, por lo tanto, deben alimentarse con datos. En el caso del descubrimiento de fármacos, existen varias posibles opciones: <table> <thead> <tr> <th style="text-align:left;"> Base de datos </th> <th style="text-align:left;"> Sitio </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> PubChem – NCBI </td> <td style="text-align:left;"> https://pubchem.ncbi.nlm.nih.gov/ </td> </tr> <tr> <td style="text-align:left;"> ChemSpider </td> <td style="text-align:left;"> http://www.chemspider.com/ </td> </tr> <tr> <td style="text-align:left;"> ChEBI </td> <td style="text-align:left;"> https://www.ebi.ac.uk/chebi/ </td> </tr> <tr> <td style="text-align:left;"> ZINC </td> <td style="text-align:left;"> https://zinc12.docking.org/ </td> </tr> <tr> <td style="text-align:left;"> Google Dataset Search </td> <td style="text-align:left;"> https://datasetsearch.research.google.com </td> </tr> <tr> <td style="text-align:left;"> CACTUS </td> <td style="text-align:left;"> https://cactus.nci.nih.gov/cgi-bin/lookup/search </td> </tr> <tr> <td style="text-align:left;"> Protein Data Bank </td> <td style="text-align:left;"> https://www.rcsb.org/ </td> </tr> <tr> <td style="text-align:left;"> NIST Chemistry WebBook – NIST </td> <td style="text-align:left;"> https://webbook.nist.gov/chemistry/ </td> </tr> <tr> <td style="text-align:left;"> Crystallography Open Database </td> <td style="text-align:left;"> http://www.crystallography.net/cod/index.php </td> </tr> <tr> <td style="text-align:left;"> ChEMBL </td> <td style="text-align:left;"> https://www.ebi.ac.uk/chembl/ </td> </tr> </tbody> </table>