¿Cómo se usa el aprendizaje automático en genómica?

Genomics se enmarca en Bioinformática, que ha sido una de las áreas clave del aprendizaje automático aplicado durante algún tiempo.

Los desafíos clave en genómica son los siguientes:

  1. extrayendo la ubicación y estructura de los genes
  2. identificación de elementos reguladores
  3. identificación de genes de ARN no codificantes
  4. predicción de la función génica
  5. Predicción de estructura secundaria de ARN

Todo esto se ha abordado utilizando enfoques de aprendizaje automático supervisados ​​y no supervisados. Por ejemplo, bajo el régimen de aprendizaje supervisado vemos aplicaciones tales como:

  • árboles de clasificación para buscar regiones de codificación de proteínas (Localización de regiones de codificación de proteínas en el ADN humano utilizando un algoritmo de árbol de decisión).
  • Clasificación bayesiana para la predicción del sitio de empalme (identificación del sitio de empalme por idlBN).
  • admite máquinas de vectores y redes neuronales para la identificación de genes de ARN funcionales (Un enfoque computacional para identificar genes de ARN funcionales en secuencias genómicas)
  • bosques aleatorios para predecir los efectos fenotípicos de los polimorfismos de nucleótidos (predicción de los efectos fenotípicos de los polimorfismos de nucleótidos únicos no sinónimos basados ​​en máquinas de vectores de soporte)
  • Programación dinámica para la reconstrucción de secuencias de aminoácidos y predicción de estructura secundaria de ARN (Un enfoque de programación dinámica para la secuenciación de péptidos De Novo mediante espectrometría de masas en tándem)

Y, bajo el régimen de aprendizaje no supervisado , el aprendizaje automático generalmente se aplica utilizando modelos gráficos probabilísticos con aplicaciones como:

  • modelos de Markov ocultos para la detección de genes y la detección de empalmes (la conservación de la estructura de genes ayuda a la predicción de genes basada en la similitud y el muestreo HMM y las aplicaciones para la búsqueda de genes y la división alternativa).
  • redes bayesianas en la predicción del sitio de empalme, modelado de bloques de haplotipos, mapeo de desequilibrio de enlace y predicción de operón (página en bit.ly, página en bit.ly y un enfoque de red bayesiana para la predicción de operón).

Las técnicas de optimización comúnmente empleadas en genómica, junto con los algoritmos / enfoques anteriores incluyen:

  • Optimización de Monte Carlo (alineación de espacios de secuencias de proteínas a través de la optimización de Monte Carlo de un modelo oculto de Markov).
  • Algoritmos genéticos (alineando múltiples secuencias de proteínas por algoritmo genético híbrido paralelo)
  • Métodos de relajación (alineación múltiple rápida de secuencias de ADN sin huecos utilizando la teoría de la información y un método de relajación)
  • Recocido simulado (Alineamiento de posibles estructuras secundarias en múltiples secuencias de ARN usando recocido simulado).
  • Algoritmos iterativos (estudio exhaustivo sobre algoritmos iterativos de alineación de secuencias múltiples).
  • Recocido simulado en paralelo (http://bit.ly/1Egd1cG)

Después de escribir la respuesta a continuación, se publicó un buen artículo de revisión en Nature Reviews Genetics : aplicaciones de aprendizaje automático en genética y genómica. Otros artículos de revisión recientes incluyen Aprendizaje automático en medicina genómica: una revisión de problemas computacionales y conjuntos de datos y oportunidades y obstáculos para el aprendizaje profundo en biología y medicina.


Aquí hay algunos ejemplos de cómo se usa el aprendizaje automático en genómica:

  • Predicción de genes (2002): predicen qué regiones del genoma codifican proteínas.
  • Predicción de estructura secundaria de ARN (2006): predice las interacciones de emparejamiento de bases dentro de una cadena de ARN.
  • Predicción objetivo del factor de transcripción (2007): predice la secuencia de bases con mayor probabilidad de unir un factor de transcripción específico.
  • Llamada de base (2009): predice la base fotografiada por un dispositivo de secuenciación Illumina durante una secuenciación por reacción de síntesis.
  • Mapeo eQTL (2012): predice cómo una mutación en un locus afecta el nivel de expresión de un gen.
  • Predicción del potenciador (2012): predice regiones del genoma que actúan como potenciadores de la expresión utilizando información sobre las marcas epigenéticas presentes en los cromosomas.
  • Código de empalme (2015): predice cómo una mutación dentro de un gen afectará el empalme de la transcripción de ese gen.
  • Predicción de patogenicidad (2015): predice el impacto funcional de una mutación en una muestra de ADN.
  • Reposicionamiento de medicamentos (2015): predecir si un medicamento aprobado será útil para una indicación no autorizada; a menudo aprovecha los datos genómicos.
  • Farmacogenómica (2011): predice si las mutaciones en el ADN de una persona afectarán el funcionamiento de un medicamento en su cuerpo.
  • Predecir las funciones de los ARN no codificantes largos (2015)
  • Efectos de predicción de variantes no codificantes usando hipersensibilidad a DNasaI predicha, modificaciones de histonas y unión al factor de transcripción (2015)
  • Predicción de edición de ARN (2016)

Puede que le interese un artículo de la encuesta de 2006 sobre este tema, y ​​algunos de los Desafíos DREAM están relacionados con la genómica.

More Interesting

¿Cuál es el mejor curso en línea gratuito para ciencia de datos / aprendizaje automático como principiante?

¿Cuáles son los componentes de software comunes de un kit de herramientas de almacenamiento de datos?

¿Cuáles son algunas aplicaciones impresionantes de big data y machine learning?

¿Cuáles son las aplicaciones de la ciencia de datos en física?

¿Vale la pena hacer ciencia de datos en una certificación R de DataCamp?

¿Hay personas trabajando en big data en salud en India?

¿Cuáles son los mejores cursos de certificación para Data Science?

Cómo encontrar las publicaciones más populares en un sitio web

¿Cuál debería elegir, Data Science en UC Berkeley (programa MIDS) por $ 65,000, o Data Science en la Universidad de Illinois (MCS-DS) por $ 20,000?

¿Cómo incorporan las empresas consultoras de alta dirección la experiencia en ciencia de datos en sus modelos de entrega actuales?

¿Cómo las herramientas de BI modernas como Good Data, RJMetrics, Chartio, Yellowfin, Tableau, etc. procesan una gran cantidad de datos sin usar un almacén de datos?

¿Cuál es la diferencia entre ciencia de datos, análisis de datos, minería de datos y big data?

¿Hay algún sitio web que se ocupe de aplicar el análisis de datos y la interpretación estadística a los deportes electrónicos?

¿Qué instituto es el mejor para ciencia de datos, Jigsaw Academy, Ivy Professional School, EduPristine o AnalytixLabs?

R requiere que los datos se carguen en la RAM, ¿eso no dificulta el trabajo con grandes conjuntos de datos? En caso afirmativo, ¿cómo es R tan popular entre los científicos de datos?