¿Cómo se usa el aprendizaje automático en genómica?

Genomics se enmarca en Bioinformática, que ha sido una de las áreas clave del aprendizaje automático aplicado durante algún tiempo.

Los desafíos clave en genómica son los siguientes:

extrayendo la ubicación y estructura de los genes
identificación de elementos reguladores
identificación de genes de ARN no codificantes
predicción de la función génica
Predicción de estructura secundaria de ARN

Todo esto se ha abordado utilizando enfoques de aprendizaje automático supervisados y no supervisados. Por ejemplo, bajo el régimen de aprendizaje supervisado vemos aplicaciones tales como:

árboles de clasificación para buscar regiones de codificación de proteínas (Localización de regiones de codificación de proteínas en el ADN humano utilizando un algoritmo de árbol de decisión).
Clasificación bayesiana para la predicción del sitio de empalme (identificación del sitio de empalme por idlBN).
admite máquinas de vectores y redes neuronales para la identificación de genes de ARN funcionales (Un enfoque computacional para identificar genes de ARN funcionales en secuencias genómicas)
bosques aleatorios para predecir los efectos fenotípicos de los polimorfismos de nucleótidos (predicción de los efectos fenotípicos de los polimorfismos de nucleótidos únicos no sinónimos basados en máquinas de vectores de soporte)
Programación dinámica para la reconstrucción de secuencias de aminoácidos y predicción de estructura secundaria de ARN (Un enfoque de programación dinámica para la secuenciación de péptidos De Novo mediante espectrometría de masas en tándem)

Y, bajo el régimen de aprendizaje no supervisado , el aprendizaje automático generalmente se aplica utilizando modelos gráficos probabilísticos con aplicaciones como:

modelos de Markov ocultos para la detección de genes y la detección de empalmes (la conservación de la estructura de genes ayuda a la predicción de genes basada en la similitud y el muestreo HMM y las aplicaciones para la búsqueda de genes y la división alternativa).
redes bayesianas en la predicción del sitio de empalme, modelado de bloques de haplotipos, mapeo de desequilibrio de enlace y predicción de operón (página en bit.ly, página en bit.ly y un enfoque de red bayesiana para la predicción de operón).

Las técnicas de optimización comúnmente empleadas en genómica, junto con los algoritmos / enfoques anteriores incluyen:

Optimización de Monte Carlo (alineación de espacios de secuencias de proteínas a través de la optimización de Monte Carlo de un modelo oculto de Markov).
Algoritmos genéticos (alineando múltiples secuencias de proteínas por algoritmo genético híbrido paralelo)
Métodos de relajación (alineación múltiple rápida de secuencias de ADN sin huecos utilizando la teoría de la información y un método de relajación)
Recocido simulado (Alineamiento de posibles estructuras secundarias en múltiples secuencias de ARN usando recocido simulado).
Algoritmos iterativos (estudio exhaustivo sobre algoritmos iterativos de alineación de secuencias múltiples).
Recocido simulado en paralelo (http://bit.ly/1Egd1cG)

¿Habilidades para el autoaprendizaje de la ciencia / análisis de datos o las estadísticas de EM?

¿Cómo se pueden utilizar las tecnologías e iniciativas de Big Data dentro de las aplicaciones de Sistemas Inteligentes de Transporte (ITS)?

¿Puedo usar RStudio para la minería de datos donde necesito tomar un conjunto de datos de detección de intrusos? ¿Alguna sugerencia?

Cómo pasar mi carrera de consultor MDM al análisis de datos

Cómo reducir la latencia de un flujo de transporte MPEG-2 en una red local

Cómo manejar grandes cantidades de datos generados a partir de varias fuentes de datos

Después de escribir la respuesta a continuación, se publicó un buen artículo de revisión en Nature Reviews Genetics : aplicaciones de aprendizaje automático en genética y genómica. Otros artículos de revisión recientes incluyen Aprendizaje automático en medicina genómica: una revisión de problemas computacionales y conjuntos de datos y oportunidades y obstáculos para el aprendizaje profundo en biología y medicina.

Aquí hay algunos ejemplos de cómo se usa el aprendizaje automático en genómica:

Predicción de genes (2002): predicen qué regiones del genoma codifican proteínas.
Predicción de estructura secundaria de ARN (2006): predice las interacciones de emparejamiento de bases dentro de una cadena de ARN.
Predicción objetivo del factor de transcripción (2007): predice la secuencia de bases con mayor probabilidad de unir un factor de transcripción específico.
Llamada de base (2009): predice la base fotografiada por un dispositivo de secuenciación Illumina durante una secuenciación por reacción de síntesis.
Mapeo eQTL (2012): predice cómo una mutación en un locus afecta el nivel de expresión de un gen.
Predicción del potenciador (2012): predice regiones del genoma que actúan como potenciadores de la expresión utilizando información sobre las marcas epigenéticas presentes en los cromosomas.
Código de empalme (2015): predice cómo una mutación dentro de un gen afectará el empalme de la transcripción de ese gen.
Predicción de patogenicidad (2015): predice el impacto funcional de una mutación en una muestra de ADN.
Reposicionamiento de medicamentos (2015): predecir si un medicamento aprobado será útil para una indicación no autorizada; a menudo aprovecha los datos genómicos.
Farmacogenómica (2011): predice si las mutaciones en el ADN de una persona afectarán el funcionamiento de un medicamento en su cuerpo.
Predecir las funciones de los ARN no codificantes largos (2015)
Efectos de predicción de variantes no codificantes usando hipersensibilidad a DNasaI predicha, modificaciones de histonas y unión al factor de transcripción (2015)
Predicción de edición de ARN (2016)