DOI: 10.47460/minerva.V1i1.2
Métricas de enriquecimiento para la identificación de estabilizadores
del cuarteto G telomérico usando algoritmo genético
Correa Melissa1., Solórzano Santiago2
melissa.correa.osorio@gmail.com; solorzano.lescano@gmail.com
Ciencias Aplicadas, Ingeniería en Biotecnología,
2Consultor para el PNUD proyecto de las Naciones Unidas para el desarrollo
Quito - Ecuador
Recibido (06/03/20), Aceptado (26/03/20)
Resumen:En este estudio se encuentra detallada una combinación de herramientas computacionales de acoplamiento y cribado virtual, en 108 moléculas activas y 3620 señuelos paraencontrarestabilizadoresdelcuartetoG(G4).Paratenerresultadosmásprecisosseaplicaron combinaciones de programas de acoplamiento con quince funciones de puntuación energética. La validación y evaluación de las métricas se realizó con el algoritmo genético CompScore. Los resultados evidenciaron un aumento en BEDROC y EF del 50% en comparación a otras estrategias, además de reflejar un reconocimiento temprano de moléculas activas. A partir de estos resultados es posible trabajar con las moléculas que presentaron un buen reconocimiento temprano y evaluar su efecto como estabilizadores de G4. De esta manera se garantiza resultados más eficientes y precisos en la etapa preclínica para el desarrollo de anticancerígenos.
Palabras Clave: Metricas de enriquecimiento; telomero; cuarteto G (G4); CompScore.
Enrichment metrics for the identification of stabilizers of the telomeric G quartet using genetic algorithm
Abstract: In this study a combination of computer tools for coupling and virtual screening is detailed, in 108 active molecules and 3620 decoys to find stabilizers for G quadruplex (G4). To have more precise results, combinations of coupling programs with fifteen energy scoring functions were applied. The validation and evaluation of the metrics was done with the CompScore genetic algorithm. The results showed an increase in BEDROC and EF of 50% compared to other strategies, as well as reflecting early recognition of active molecules. From these results it is possible to work with the molecules that showed a good early recognition and evaluate their effect as G4 stabilizers. This ensures more efficient and accurate results in the preclinical stage for the development of anticancer drugs.
Keywords: Enrichment metrics; telomere; G quadruplex (G4); CompScore.
13
Correa et al., Métrica de enriquecimiento para la identificación de estabilizadores
I.INTRODUCCIÓN
Los telómeros forman una parte fundamental para el desarrollo de la vida y el envejecimiento
[4].En las células tumorales, la telomerasa confiriere la inmortalidad celular y también regula la generación de ácido ribonucleico mensaje ARNm. Estas características reflejan que la telomerasa relacionada con la aparición de tumores malignos y su difusión en diferentes órganos [5]. Algunos estudios sugieren que la estabilización del cuar- teto G telomérico (G4), puede inhibir directamente la acción de la telomerasa mediante el bloqueo de la unión de la telomerasa al telómero [6]. Una gran variedad de estructuras G4 se han dilucidado a nivel atómico, generando una nueva vía para el diseño de ligandos dirigidos hacia la estructura del G4 de forma computacional [7]. Los últimos estudios realizados sobre estabilizadores de G4 mencionan que la interacción entre G4 y el ligando ejerce efectos antiproliferativos a través de mecanismos dependientes e independientes de los telómeros. No obstante, hasta el momento encontrar compuestos que estabilicen G4 ha resultado en un gran desafío. A pesar de que existen muchos datos disponibles sobre G4 y sus ligandos, solo un número limitado, se ha explorado para la detección virtual o en la detección de nuevas moléculas bioactivas. Aunque en la actualidad se usen múltiples técnicas para el descu- brimiento de fármacos asistido por herramientas virtuales, existe una clara falta de comprensión en el mecanismo molecular primario que se encuentra tras la actividad de los aciertos que se consigue empleando estas técnicas [9]. Por otra parte, para la validación de los resultados requiere la combinación de distintos métodos o herramientas para superar las falencias que presenta un único protocolo, lo cual puede hacer que proceso se considere más com- plejo [10].
A partir de esto, se ha planteado desarrollar una metodología de cribado virtual basada en estructura y como estrategia para la validación de datos se usara un algoritmo genético. La estructura de este trabajo inicia con los aspectos teóricos del tema en el apartado III, seguido de la metodología y programas aplicados en la sección III, a continuación se detallan los resultados obtenidos y se tiene como punto final las conclusiones.
II.DESARROLLO
A)Características de los telómeros y la telomerasa
En los mamíferos los extremos de los cromosomas se encuentran cubiertos por estructuras protectoras de ADN y proteínas de unión. A este complejo se le denomina telómero [11]. Los telómeros son estructuras conformadas de nucleoproteínas situadas en el extremo de cada brazo cromosómico. Cumple como principal función el manteni- miento de la estabilidad del genoma, al garantizar que los extremos naturales de los cromosomas no se confundan con sitios de daño en el ADN [12]. Además de presentar un papel fundamental frente a la señalización del daño del ADN, también evitan su reparación errónea. Esta función de activar la respuesta al daño e inhibir su reparación, podría tener una consecuencia importante en el proceso de envejecimiento celular dependiente de la longitud telo- mérica y la supresión tumoral [13].
La telomerasa es un heterodímero de transcriptasa inversa, formada por una subunidad enzimática y una catalítica de molde de ARN no codificante, para la síntesis de novo de secuencias de ADN no telomérico. Los componentes principales de la telomerasa son la transcriptasa inversa de la telomerasa (TERT) y el componente de ARN de la telomerasa (TERC). El molde de ARN, permite que TERT agregue repeticiones al terminal cromosó- mico. TERC se caracteriza por expresarse de forma constante, a diferencia de TERT que permanece inactiva en las células somáticas, generando el acortamiento constante en los telómeros [13]. La represión de la telomerasa en las células somáticas y el mecanismo de barrera de proliferación de los telómeros, generan una vía supresora que limita el crecimiento de las células tumorales [14]. Según resultados estadísticos, el 85% de células cancerígenas usan la telomerasa para mantener la longitud del telómero. En tumores que presentan un estado avanzado o metástasico, la actividad de esta ribonucleoproteína se ve incrementada. La telomerasa confiere inmortalidad a las células can- cerígenas, adicionando repeticiones en tándem al extremo 3' del telómero, dando como consecuencia un manteni- miento o prolongación sobre la longitud del telómero [15].
B)Definición y características del G4 telomérico
Las estructuras de ácido nucleico helicoidal de cuatro cadenas ricas en guanina reciben el nombre de G- cuádru- plex o G4 [16]. Esta estructura es definida como una forma alternativa de ADN o ARN compuesta por varias capas
14
Correa et al., Métrica de enriquecimiento para la identificación de estabilizadores
planas de guaninas denominadas tétradas, se forman por lo general por secuencias de tipo
C)Detección virtual de ligandos para G4
Hasta el momento existen más de 1.000 ligandos caracterizados, que ejercen efecto estabilizador sobre G4. Su descubrimiento ha partido de herramientas computacionales como cribado virtual (VS) y cribado tradicional de alto rendimiento (HTS)
D)Métricas de enriquecimiento
Para el rendimiento del modelo se debo tomar en cuenta: área bajo la curva acumulativa (AUAC), Factor de enriquecimiento (EF) y discriminación de ROC mejorada por Boltzmann (BEDROC) [14].
𝑖𝑖=1
La ecuación 1, permite determinar la curva AUAC, en donde N es el número total de compuestos, n la cantidad de compuestos activos y Xi el ranking relativo del compuesto i.
La métrica EF calcula el número de veces que se enriquece una fracción con compuestos activos en relación con lo que se espera de una distribución uniforme de activos.
En la ecuación 2 se muestra la métrica EF, donde ri es la clasificación relativa de Xi= ri/N en toda la lista clasifi- cada; X es la fracción de la lista ordenada ponderada entre 0 a 1.
La ecuación 3 muestra el cálculo para BEDROC considerando un valor de α=160,9. Mientras que las ecuaciones 4 refleja cómo obtener BEDROC
15
Correa et al., Métrica de enriquecimiento para la identificación de estabilizadores
III.METODOLOGÍA
Como punto inicial se buscó del banco de datos de proteínas RCSB PDB las estructuras de tipo paralela, anti paralela e hibrida del G4 telomérico [15]. A partir de la estructura se eligió como receptor la molécula con la molé- cula de acridina 3, 6,9
A) Acoplamiento para las moléculas señuelo
Preparación del ligando y receptor: Para la preparación del ligando se usó una metodología similar a la aplicada anteriormente, usando los códigos SMILES de cada molécula señuelo y de los ligandos. La única diferencia que se efectuó tras generar los fragmentos, fue que inicialmente se crearon 200 conformaciones y en un siguiente resul- tado se corrió el mismo programa, pero generando una única conformación. La adición de cargas solo se efectuó sobre los resultados que generaron una única conformación. De igual modo se mantuvo el receptor preparado previamente. Para el acoplamiento se usó el software FRED [19]. Partiendo de las 200 conformaciones generadas. Únicamente se guardó una pose. También se efectuó el acoplamiento usando una alta resolución. A los resultados obtenidos se le adicionaron cargas usando del Software Quacpac molcharge [18].
Preparación del receptor, esferas y caja: Se usó el software Dock 6.9 [22] y se mantuvieron los parámetros
16
Correa et al., Métrica de enriquecimiento para la identificación de estabilizadores
ISSN
TABLA I. Funciones de puntuación.
C) Modelos de cribado virtual
Los modelos de cribado virtual se basaron en la metodología CompScore, la cual se basa en combinar los com- ponentes de distintas funciones de puntuación de acoplamiento que maximiza las métricas de detección virtual
[23].Los valores de los componentes de las funciones de puntuación energética fueron resumidos en una tabla empleando los códigos disponibles con CompScore. A continuación se separaron los ligandos de las moléculas señuelo. Se tomó el 80% de cada grupo y se formó un archivo para el entrenamiento de los modelos. El 20% res- tante de los datos se reservó para la validación del modelo obtenido. Durante el entrenamiento de los modelos se mantuvieron los parámetros preestablecidos para el método CompScore. El rendimiento del modelo se evaluó usando varias métricas: área bajo la curva acumulativa (AUAC), Factor de enriquecimiento (EF) y discriminación de ROC mejorada por Boltzmann (BEDROC) [23].
IV.RESULTADOS
Se uso la estructura paralela con el código 1kfl. De la base de datos G4LDB se obtuvo un total de 291 estabiliza- dores iniciales con una actividad de FRET mayor a 10 grados, mientras que se obtuvieron 19 ligandos con actividad menor a 10 grados. Mientras que del programa A Database of useful Decoys, Se obtuvo un total de 3728 moléculas de las cuales 3620 eran señuelo y los demás ligandos. Debido a que existían 3 pares de duplicados y 2 compuestos organometálicos. Se generaron 37 carpetas de señuelos y una de ligandos, además se agregó las moléculas que te- nían actividad de FRET menor a diez grados. Normalmente se esperaría tener un mayor número de compuestos, sin embargo, en este caso algunos de los ligandos eran muy similares entre si y por lo tanto comparten señuelos.
Los receptores, ligandos y señuelos para los cálculos de acoplamiento siguieron la metodología descrita ante- riormente. A partir de los resultados para cada grupo tanto de señuelos como de ligandos se sometieron a diferentes estrategias de acoplamiento y puntuación. El usar el algoritmo de CompScore se proporciona un valor de enrique- cimiento máximo, ya que combina 15 funciones de puntuación lo cual se considera una búsqueda exhaustiva [24].
Los resultados que se obtienen al usar el algoritmo CompScore en comparación con otras funciones de puntua- ción y sus componentes de puntuación resulta ser superior. El algoritmo genético (GA) ha proporcionado un au- mento máximo de enriquecimiento de los resultados, de hasta un 45%. Los datos usados para entrenamiento, que corresponden al 80% de ligandos y 80% de señuelos. Reflejaron métricas más altas usando la metodología CompS- core. Se obtuvo un valor de EF de 52,02. Entre las 15 funciones individuales de puntuación, el programa Gold con la función PLP presento el valor más alto de EF = 20,43. Por otra parte entre los componentes de puntuación, el programa CompScore sugiere 15 componentes de puntuación entre las funciones incluidas en el modelo. De estos, se obtuvo un valor de EF= 18,58 para el componente OEPlPNonPola. Evidentemente estos valores resultan inferio- res si se comparan con el algoritmo CompScore (figura 1).
17
Correa et al., Métrica de enriquecimiento para la identificación de estabilizadores
ISSN
Fig 1. Mejores resultados obtenidos para EF evaluando el 1% de los datos.
En la figura 1 es Evidente que el mejor resultado se da usando el algoritmo CompsCore. Seguido del valor de GASPS el cual es reconocido por el algoritmo como la mejor puntuación individual en el 1% de los datos. El resulta- do de la mejor función puntuación y el mejor componente sugerido por el algoritmo se encuentran a continuación con resultados no muy altos en comparación con el resultado de CompScore. Está claro que el algoritmo efectiva- mente combino los componentes de puntuación para maximizar la métrica de enriquecimiento. Por otra parte, los datos de entrenamiento también maximizan el enriquecimiento de los activos usando
BEDROC con un valor de α=160.9. En este caso CompScore superó significativamente a las funciones y com- ponentes de puntuación arrojando un valor de BEDROC= 0,875. Siendo este valor más del doble del valor más alto obtenido entre los 15 componentes de puntuación comparados, cuyo valor fue de
BEDROC= 0,410. Aunque la función GPLP y los componentes GASPS y OEPLPNonpolar presenta valores altos en comparación a las demás (tabla II). No es relevante si se compara con los resultados de CompScore (figura 2).
Fig 2. Resultado de la métrica BEDROC.
En la figura 2 CompScore es claramente el mejor resultado. Mientras los otros componentes y funciones presentan valores similares entre sí, pero poco relevantes comparados con el resultado de Compsore. La similitud entre los resul- tados, que presentan las funciones y componentes de puntuación, sugiere que el componente GASPS puede lograr un rendimiento similar a la mejor función de puntuación completa GPLP. Este tipo de resultados es explicado por la meto- dología de CompScore. Según su hipótesis los componentes de las funciones de puntuación son de suma importancia e incluso pueden ser más relevantes que las funciones de puntuación completas.
18
Correa et al., Métrica de enriquecimiento para la identificación de estabilizadores
TABLA II. Resultados obtenidos de los componentes de las funciones individuales de puntuación sugeridas
por el algoritmo.
Para las métricas EF y BEDROC el programa Gold presentó los componentes de puntuación con valores más altos pero también contiene el componente con menores valores, tanto para EF (0) como para BEDROC (0,004). Por lo tanto no se considera a los componentes y funciones de puntuación de forma individual como estrategias significativas frente a la metodología de CompScore (tabla III).
TABLA III. Resultados de las 15 funciones de puntuación analizadas por el algoritmo CompScore
Los resultados del AUAC no fueron tan altos en los componentes de puntuación analizados (tabla 2) ni en las funciones de puntuación evaluadas (tabla 3). Sin embargo los valores de GASPS 0,823 GPLP 0,821 y OEPLP- NonPolar 0,850 si presentaron resultados significativos, muy cercanos al resultado obtenido por la metodología del GA que presento un valor de 0,937 (figura 3).
Correa et al., Métrica de enriquecimiento para la identificación de estabilizadores
19
Fig 3.a Curvas completas AUAC de la metodología CompScore, de las funciones y componentes de puntua-
ción.3. B. curvas para el 10% de los datos
La validación externa se realizó siguiendo la metodología antes descrita con el 20% de ligandos y 20% de señue- los. De los resultados obtenidos anteriormente del algoritmo CompScore se efectuó la recalificación de los datos externos y se midió el enriquecimiento sobre los datos restaurados. Es por tal motivo que únicamente se analizaron las 15 funciones completas de puntuación y el algoritmo CompScore.
Para los datos de validación la metodología de CompScore presento un resultado para la métrica EF= 40,44 un valor muy alto en comparación con el mejor de los resultados de las funciones de puntuación completa GPL que obtuvo un valor EF= 20,22 (figura 4). Considerando que este mismo valor se obtuvo con la función completa GASP, se podría creer que ambas funciones de forma individual presentan un buen enriquecimiento. Sin embargo el re- sultado para la métrica de BEDROC y el AUAC es inferior (tabla 4). El único fenómeno que se podría considerar relevante es que la función completa GPLP del programa Gold, presenta resultados relevantes tanto para los datos de entrenamiento como de validación. En promedio las funciones de los programas Gold y OpenEye presentan un valor de EF=13,480 en ambos casos, mientras que las funciones del programa Dock 6.8 fueron inferiores, con un promedio EF=5,616. Por tanto, sería más recomendable usar estos programas para calcular la métrica EF, ya que presentan valores más altos de enriquecimiento para el 1% de los datos.
Fig 4. Resultados de EF usando la metodología CompScore en comparación con el mejor resultado de las
funciones completa de puntuación GPLP.
Para los resultados de BEDROC el programa Gold presento entre sus funciones completas en promedio un valor de 0,762 siendo este el valor más alto, seguido de las funciones de OpenEye que presento un valor de BE- DROC=0,231 y DOCK6.8 con el promedio más bajo 0,105 (tabla 4). Entre estos resultados, el puntaje más alto fue para la función PLP del programa Gold, con un valor de 0,386. Sin embargo, este valor es bajo si se compara con el de la metodología CompScore donde se obtuvo un valor de BEDROC=0,848 (Figura 5).
20
Correa et al., Métrica de enriquecimiento para la identificación de estabilizadores
Fig 5. Resultado de BEDROC en la validación externa.
Finalmente el resultado AUAC para CompScore fue de 0,950 y para GPLP fue de 0,836 (Figura 6). En este como en los otros resultados analizados la metodología CompScore fue la mejor estrategia para el enriquecimiento de las métricas.
Fig 6. AUAC para los resultados de validación
Tabla IV. Resultados obtenidos de las funciones individuales de puntuación para los resultados de validación
21
Correa et al., Métrica de enriquecimiento para la identificación de estabilizadores
Por otra parte, aunque la metodología CompScore proporciona un alto enriquecimiento para las métricas EF y BEDROC, no se evidencia una distinción clara entre compuestos con baja o nula estabilización. Esto se comprobó al buscar la posición en la que el algoritmo situó los compuestos de FRET menor a 10 grados. Muchos de ellos se encontraban en posiciones intermedias, mientras dos de ellas se encontraron entre los primeros 100 datos.
Es recomendable que la métrica EF sea enriquecida cuando se quiere evaluar la clasificación de los métodos en el cribado virtual. Dado que su principal propósito es clasificar al principio de una lista ordenada los compuestos activos (ligandos) en una fracción especifica. Mientras que BEDROC cumple la función de representar el enrique- cimiento temprano. Si se desea maximizar su valor es necesario proporcionar el parámetro α.
V.CONCLUSIONES
El uso de moléculas activas e inactivas permite un mejor resultado de acoplamiento para su posterior valida- ción. El uso de las herramientas de CompScore a partir de su algoritmo genético genera un aumento significativo en las métricas de enriquecimiento. El valor EF de 40,44 en los datos de validación es muy superior al obtenido en las funciones de puntuación individuales, lo mismo ocurre en los datos de entrenamiento. Esta característica demuestra que el modelo tiene una calidad superior en comparación a otros. Se ve enriquecidas ambas métricas EF y BEDROC. De forma menos evidente aumenta el valor de AUAC. La capacidad de enriquecimiento de EF considerando el 1% de las moléculas activas es más acertada que considerar fracciones de 5% 10% o 20% ya que las funciones de puntuación generaron una lista ordenada de compuestos activos en orden ascendente. En conclusión la estrategia de VS mostro características relevantes de enriquecimiento y capacidades adecuadas para el recono- cimiento temprano. Sin embargo también es evidente que el modelo no distingue entre compuestos con buena o mala estabilización.
REFERENCIAS
[1]M. Porru, P. Zizza, M. Franceschin, C. Leonetti y A. Biroccio. «EMICORON: A
[2]K. Tomita. «How long does telomerase extend telomeres ? Regulation of telomerase release and telomere len- gth homeostasis». Current Genetics, 64(6),
[3]M. Jafri, S. Ansari, M. Alqahtani y J. Shay. «Roles of telomeres and telomerase in cancer , and advances in telo- merase- targeted therapies. Genome Medicine., 2016. [En línea]. Available: https://doi.org/10.3390/ijms19020482 [4]J. Huppert y S. Balasubramanian.
[5]S. Joy, Vijayakumar, Y. M., & Sunhye, G. (2015). «Role of
[7]R. Monsen y J. Trent. «Biochimie
2018. [En línea]. Available: https://doi.org/10.1039/c9cc06748e
[8]J. Beauvarlet, P. Bensadoun, E. Darbo, G. Labrunie, E. Richard, I. Draskovic, M.
[9].Z. Crees, J. Girard, Z. Rios, G. Botting, K. Harrington y C. Shearrow. « Oligonucleotides and
[10].M. Meier, A.
[12].J. Maciejowski y T. Lange. De. «Telomeres in cancer : tumour». Nature Publishing Group. 2017. [En línea].
22
Correa et al., Métrica de enriquecimiento para la identificación de estabilizadores
Available: https://doi.org/10.1038/nrm.2016.171
[13].M. Zurek, J. Altschmied, S. Kohlgrüber, N.
[14].G. Zhou, X. Liu, Y. Li, S. Xu y C. Ma. «Telomere targeting with a novel
[15]H. Berman. (2000). The Protein Data Bank. Nucleic Acids Research, 28(1),
[16]Cheminformatics Software, Molecular Modeling Software | OpenEye Scientific. Retrieved June 11, 2019, [En línea]. Available:https://www.eyesopen.com/.
[17]OMEGA 3.1.1.2: OpenEye Scientific Software, Santa Fe, NM. [En línea]. Available: http://www.eyesopen.com
[18]QUACPAC 2.0.1.2: OpenEye Scientific Software, Santa Fe, NM. [En línea]. Available: http://www.eyesopen. com
[19]OEDOCKING 3.3.1.2: Software científico OpenEye, Santa Fe, NM. [En línea]. Available: http://www.eyesopen. com
[20]Q. Li, J. Xiang, Q. Yang, H. Sun, A. Guan y Y. Tang. (2013). G4LDB: a database for discovering and studying
[21]M. Mysinger, M. Carchia, J. Irwin y B. Shoichet. (2012). Directory of useful decoys, enhanced
[22]P. Lang, S. Brozell, S. Mukherjee, E. Pettersen, E. Meng, V. Thomas e I. Kuntz. (2009). DOCK 6 : Combining
techniques to model RNA – small molecule complexes.
[23]J. Truchon y C.Bayly. (2007). Evaluating Virtual Screening Methods : Good and Bad Metrics for the “ Early
Recognition ” Problem.
[24]D.
RESUMEN CURRICULAR
Melissa Correa, Egr esada de Ingeniería en Biotecnología en la Universidad de las Américas en
Santiago Solórzano Máster en Inteligencia Artificial cuenta con una Ingeniería en Redes y Telecomunicaciones, Tecnología en Electrónica Instrumentación & Aviónica; consultor para el PNUD. Su formación le ha permitido manejar y desarrollar proyectos con tecnología de punta impulsando soluciones de múltiples ingenierías, en el ámbito de la Robótica, IA, IoT, WSN, Electrónica.
Correa et al., Métrica de enriquecimiento para la identificación de estabilizadores