Este es un problema (razonablemente) sencillo, y hay una variedad de servidores web que lo hacen muy bien.
Me viene a la mente el servidor web RNAfold. Esto es impulsado por un algoritmo de programación de energía libre mínima (MFE) que divide la estructura secundaria de ARN en bucles y bases externas. El algoritmo calcula la energía libre de una estructura secundaria como la suma de las energías libres contribuyentes para los bucles y encuentra la estructura que minimiza esto [1].
Para ejecutar el servidor, simplemente proporciona una secuencia de ARN y produce una amplia gama de parámetros de salida, incluida la estructura secundaria MFE y centroide, coloreada por la probabilidad (de estar emparejada o no), como se muestra a continuación (para una secuencia de ARN aleatoria).
- ¿Cómo se implementa std :: make_heap de STL?
- Teoría de grafos: ¿en qué se diferencian los árboles de expansión construidos a partir de Prim de los árboles de expansión construidos a partir de Kruskal?
- ¿Cuáles son las estructuras de datos y los algoritmos utilizados en la programación competitiva?
- ¿Por qué la búsqueda de Breadth-first (y otros algoritmos relacionados) se consideran parte del campo de IA?
- ¿Cuáles son las aplicaciones en tiempo real del algoritmo de Dijkstra?
Una secuencia corta:
Un poco más largo (con mucho menos acuerdo de MFE a centroide):
También puede colorearlos según la entropía posicional, lo que parece bastante útil. No puedo hablar de cuán preciso es este servidor, pero como hay tantos servidores diferentes disponibles, sería simple comparar varios para garantizar un resultado decente.
Además, podría ser más útil considerar la predicción estructural 3D (en lugar de 2D), que se logra mejor usando algo como Assemble2, que se ejecuta a través del software de visualización molecular Chimera (Página de inicio de UCSF Chimera) y permite al usuario construir un 3D modelo de una molécula de ARN de forma interactiva, a partir de una estructura resuelta (así como cosas más simples como la predicción 2D).
Notas al pie
[1] Plegado óptimo por computadora de grandes secuencias de ARN utilizando termodinámica e información auxiliar.