Plegamiento de proteínas: ¿Qué algoritmos se usan en el juego Foldit?

Advertiré a la audiencia que la última vez que participé activamente en este juego fue en 2011. Muchos de los métodos de los que hablo pueden ser completamente obsoletos al momento de escribir.

El algoritmo central detrás de Foldit es la función Rosetta Energy, que es un enfoque basado en el conocimiento introducido por primera vez por David Baker en 1997. [1] [2] Muy brevemente, puede definir un “puntaje de energía” al obtener una estimación aproximada del hamiltoniano. Al observar las distribuciones de los ángulos de torsión, las distancias de enlace de hidrógeno y las orientaciones, las interacciones de van-der waals y las bibliotecas de rotadores, puede construir efectivamente un modelo basado en el conocimiento. Usando estructuras resueltas del PDB, puede crear bibliotecas gigantes de fragmentos, cada una con su propia energía. A un nivel muy básico, puede obtener una estimación de la energía libre contando la frecuencia de estado para estimar su K y de allí crear su puntaje.


Entonces Rosetta toma su secuencia primaria y usando n-mers cortos buscará fragmentos que formen parte de esa secuencia. Usando un enfoque Metropolis Monte Carlo, intenta juntar miles de estos n-mers e intenta encontrar una secuencia que tenga una energía más baja. Cada conjetura se conoce como “señuelo”. La combinación de estas conjeturas con un campo de fuerza de todos los átomos le da a cada señuelo una puntuación de energía [3]

Cuando traza todas sus configuraciones y la energía correspondiente con la distancia del “señuelo” de la estructura cristalina verdadera, obtendrá algo como la figura a continuación. Siguiendo la hipótesis de Anfinsen, la estructura de energía más baja debería ser la estructura “nativa” de la proteína.
[4] Archivo de noticias

Después de este procedimiento inicial de “reconstrucción”, se libera tensión en la proteína “remodelando” las cadenas laterales y luego “moviendo” la columna vertebral de la proteína para encontrar los mínimos de energía local. Para la predicción de estructura de alta resolución, se identifican las regiones de alta variabilidad y luego se vuelven a muestrear esas regiones utilizando los n-mers de arriba. Mediante múltiples iteraciones de “evolución” se pueden identificar las conformaciones de baja energía. Este proceso se explica bien en el documento del laboratorio de Baker sobre reconstrucción y refinamiento específicos. [5]

El desafío con el enfoque de Rosetta es que, según lo definido por Anfinsen, el espacio conformacional de estas proteínas es enorme. Esto se resolvió parcialmente mediante la determinación de formas de crear y probar múltiples “señuelos” y, a partir de cada modelo, puede calcular la puntuación de energía de Rosetta. Con ese esfuerzo, el laboratorio de Baker determinó un método escalable para calcular el puntaje de energía usando computación paralela. Para aumentar la potencia de procesamiento de Rosetta, introdujeron [correo electrónico protegido] en 2005 utilizando la Infraestructura abierta de Berkeley para la computación en red para aprovechar la informática distribuida para aumentar la búsqueda del espacio conformacional.

Doblar.

Lo que ahora nos lleva a Foldit. Varios usuarios [protegidos por correo electrónico] notaron que la computadora haría movimientos aparentemente estúpidos cuando los movimientos aparentemente “obvios” estuvieran disponibles. Como resultado, el juego fue creado para probar la percepción humana de las estructuras de proteínas y, con suerte, encontrar lecciones de estrategias humanas que se pueden traducir para convertirse en un nuevo algoritmo.

A continuación se muestra el ejemplo comúnmente referenciado. En a y d, el verde son humanos y el amarillo son computadoras. Notable es la figura c. Un jugador humano desgarra voluntariamente la proteína durante los pasos 2,3,4 en otros para encontrar las configuraciones apropiadas antes de minimizar la estructura. [6]

En cuanto a las ecuaciones y algoritmos reales utilizados: [5]

  • La etapa de reconstrucción es una combinación de un Metropolis Monte Carlo que conserva la estructura de la proteína mediante el descenso de coordenadas cíclicas (CCD)
  • Las distancias y orientaciones de los enlaces de hidrógeno se calculan directamente a partir de la mecánica cuántica.
  • Las interacciones de Van-Deer Waals se capturan utilizando un potencial de Lennard Jones. Sin embargo, debido a los términos de alto orden, a veces se puede usar una función armónica simple y esto solo se calcula para átomos dentro de una cierta distancia.
  • Para reducir el número de átomos, se utiliza el modelo de solvatación implícita Laziridis-Karplus. Esto generalmente usa el campo de fuerza CHARMM.
  • Las interacciones de mayor alcance generalmente no se usan en Foldit pero
  • Las bibliotecas rotatorias provienen de un potencial basado en el conocimiento que proviene de las parcelas de Ramachandran conocidas como la biblioteca Dunbrack. [7] Ver ¿Qué es una trama de Ramachandran? ¿Cómo lees uno y qué información puedes aprender de uno?
  • La minimización de la cadena lateral utiliza una optimización codiciosa o el algoritmo Davidson-Fletcher-Powell.
  • Las selecciones de “ganadores” se logran mediante una búsqueda tabú y recocido de espacio conformacional.
  • Durante el refinamiento de todos los átomos, hay una “aceleración” en la que se ajustan los diversos potenciales.
  • Las estructuras a menudo se agrupan calculando el RMSD a partir de los carbonos alfa para garantizar que la etapa de “evolución” no seleccione excesivamente estructuras de aspecto similar.

Esta discusión destaca varias de las “debilidades” de los algoritmos foldit. A diferencia de [correo electrónico protegido] y Anton, que utilizan enfoques predominantemente basados ​​en la física, rosetta es una puntuación basada en el conocimiento. Como resultado, las estructuras están muy sesgadas hacia proteínas cristalizadas bien estructuradas que se encuentran en el PDB. Esta es una gran razón por la cual existen numerosas dificultades para lograr que foldit y rosetta funcionen sin problemas con los complejos de ARN y proteína-ADN.

Debido al proceso de “reconstrucción”, debería ser obvio que Rosetta no refleja el plegamiento de proteínas, sino que se trata de la predicción de la estructura. Del mismo modo, [correo electrónico protegido] no se trata de predicción de estructura sino de plegamiento de proteínas. Este es un concepto que la mayoría de los extraños realmente no entienden, pero preguntan con frecuencia. [correo electrónico protegido] y [correo electrónico protegido] abordan problemas completamente diferentes utilizando algoritmos completamente diferentes.

Para obtener una mejora en la velocidad, el modelado se realiza utilizando un solvente implícito en lugar de un modelo de solvente explícito. Sin embargo, lo que no se suele decir a los jugadores foldit es que las predicciones de alto almacenamiento obtendrán otra ronda de optimización utilizando el algoritmo Rosetta a escala completa. Las ecuaciones utilizadas en el juego son versiones muy atenuadas, pero los humanos se ocupan de las tareas difíciles de “reconstrucción” y las GPU pueden hacer mejor el “refinado”.

[1] Hacia una predicción de estructura de novo de alta resolución para prote…
[2] Ensamblaje de estructuras terciarias de proteínas a partir de fragmentos con secuencias locales similares utilizando recocido simulado y funciones de puntuación bayesianas.
[3] Diseño de un nuevo pliegue de proteína globular con precisión a nivel atómico.
[4] Archivo de noticias
[5] Predicción de estructura de alta resolución y el problema de la fase cristalográfica.
[6] Predicción de estructuras de proteínas con un juego multijugador en línea.
[7] Análisis estadístico bayesiano de las preferencias de rotador de la cadena lateral de la proteína.