¿Cómo se aplica el aprendizaje automático en genética o biología molecular?

El aprendizaje automático se ha aplicado con frecuencia a la biología. Los algoritmos particulares parecen atravesar las olas: en los años ochenta y noventa se vieron muchas redes neuronales, mientras que a finales de los años noventa y 2000 parecían regirse por Support Vector Machines. Hoy en día, el “aprendizaje profundo” está de moda.

¿Qué tipo de problemas? Una amplia gama. Clasificar estructuras subcelulares en imágenes o distinguir tejido canceroso del tejido normal. Predecir la agresividad de los tumores a partir de patrones de expresión génica. Conversión de señales eléctricas ruidosas de secuenciación de nanoporos en llamadas de base. Identificación de sitios de empalme de ARNm, promotores, sitios de unión a ribosomas u otras señales en el ADN. Predicción de sitios fuera del objetivo para los ARN guía para Cas9.

Un desafío en muchos casos es prevenir el sobreentrenamiento. Particularmente en el espacio clínico, a menudo uno se enfrenta a la capacitación en una gran cantidad de características con un pequeño número de casos. Por ejemplo, un ensayo de expresión génica podría medir más de 50K de diferentes isoformas de ARNm, pero es posible que solo tenga unas pocas docenas de muestras de la enfermedad en cuestión.

Por lo tanto, se requiere una cuidadosa atención al entrenamiento y la validación, así como al diseño experimental. Hubo un caso notorio en el que un clasificador fue entrenado en datos de proteómica que se habían ejecutado a través de un espectrómetro de masas en un orden no aleatorio: básicamente, todos los controles se ejecutaron en una fila y luego todas las muestras de enfermedades (o viceversa). Debido a la forma en que se programó el espectrómetro de masas, los puntos de datos que informó dependían de los datos anteriores. Entonces, al no mezclar el orden de las muestras, se creó una correlación accidental entre muestras marcadas de manera similar.

La agrupación jerárquica es una herramienta común en los estudios de microarrays, y muchos estudios de GWAS utilizan herramientas de aprendizaje supervisadas como la regresión neta elástica o el bosque aleatorio. La farmacogenómica a menudo utiliza el aprendizaje supervisado y no supervisado para comprender los predictores de la respuesta del paciente a los nuevos medicamentos, aunque los ensayos clínicos generalmente usan esto como una herramienta adicional, en lugar de una herramienta principal (regulaciones de la FDA). Los algoritmos evolutivos a veces se usan en el estudio de la biología evolutiva como una forma de probar nuevas teorías de la evolución. Además, se están aplicando muchas herramientas de análisis de datos topológicos en biología molecular para estudiar los enlaces moleculares y en genómica para extraer subgrupos de fenotipos.

La inteligencia artificial es impulsada por datos. El aprendizaje automático se puede utilizar en la clasificación de datos.

En general, la genética y la biología molecular son extremadamente ricas en datos. Llega la necesidad de una clasificación eficiente. Al igual que, por ejemplo, las máquinas de vectores de soporte se pueden aplicar para predecir la asociación de genes de enfermedades o para encontrar ciertos motivos de similitud. Los modelos ocultos de Markov se pueden usar en búsquedas de alineación glocal. Los modelos baysianos se pueden usar en agrupación, etc.

Muchas revisiones se publican sobre este asunto. Mira este por ejemplo

http://www.ncbi.nlm.nih.gov/m/pu

El aprendizaje automático a menudo se usa para crear un modelo relativamente simple para ocurrencias complejas, como por ejemplo la celda.

El famoso científico John Von Neumann, conocido por su brillantez, es uno de los padres fundadores del aprendizaje automático aplicado a la biología. Supongo que deberías buscarlo en Google, ya que eso te llevará a una respuesta más general.