Genomics se enmarca en Bioinformática, que ha sido una de las áreas clave del aprendizaje automático aplicado durante algún tiempo.
Los desafíos clave en genómica son los siguientes:
- extrayendo la ubicación y estructura de los genes
- identificación de elementos reguladores
- identificación de genes de ARN no codificantes
- predicción de la función génica
- Predicción de estructura secundaria de ARN
Todo esto se ha abordado utilizando enfoques de aprendizaje automático supervisados y no supervisados. Por ejemplo, bajo el régimen de aprendizaje supervisado vemos aplicaciones tales como:
- ¿Son útiles las estadísticas bayesianas en la ciencia de datos?
- Cómo cambiar de ingeniería de datos a modelos de construcción, aprendizaje automático, etc.
- ¿Qué conocimiento básico es imprescindible si quiero entrar en el campo de big data o data science? ¿Cuál es la mejor manera de comenzar mi carrera en el mismo?
- ¿Qué conceptos puedo aprender sobre ciencia de datos en 15-20 minutos?
- ¿Cuál es la diferencia entre consultoría analítica y consultoría de gestión? ¿El primero está recibiendo más tracción en estos días?
- árboles de clasificación para buscar regiones de codificación de proteínas (Localización de regiones de codificación de proteínas en el ADN humano utilizando un algoritmo de árbol de decisión).
- Clasificación bayesiana para la predicción del sitio de empalme (identificación del sitio de empalme por idlBN).
- admite máquinas de vectores y redes neuronales para la identificación de genes de ARN funcionales (Un enfoque computacional para identificar genes de ARN funcionales en secuencias genómicas)
- bosques aleatorios para predecir los efectos fenotípicos de los polimorfismos de nucleótidos (predicción de los efectos fenotípicos de los polimorfismos de nucleótidos únicos no sinónimos basados en máquinas de vectores de soporte)
- Programación dinámica para la reconstrucción de secuencias de aminoácidos y predicción de estructura secundaria de ARN (Un enfoque de programación dinámica para la secuenciación de péptidos De Novo mediante espectrometría de masas en tándem)
Y, bajo el régimen de aprendizaje no supervisado , el aprendizaje automático generalmente se aplica utilizando modelos gráficos probabilísticos con aplicaciones como:
- modelos de Markov ocultos para la detección de genes y la detección de empalmes (la conservación de la estructura de genes ayuda a la predicción de genes basada en la similitud y el muestreo HMM y las aplicaciones para la búsqueda de genes y la división alternativa).
- redes bayesianas en la predicción del sitio de empalme, modelado de bloques de haplotipos, mapeo de desequilibrio de enlace y predicción de operón (página en bit.ly, página en bit.ly y un enfoque de red bayesiana para la predicción de operón).
Las técnicas de optimización comúnmente empleadas en genómica, junto con los algoritmos / enfoques anteriores incluyen:
- Optimización de Monte Carlo (alineación de espacios de secuencias de proteínas a través de la optimización de Monte Carlo de un modelo oculto de Markov).
- Algoritmos genéticos (alineando múltiples secuencias de proteínas por algoritmo genético híbrido paralelo)
- Métodos de relajación (alineación múltiple rápida de secuencias de ADN sin huecos utilizando la teoría de la información y un método de relajación)
- Recocido simulado (Alineamiento de posibles estructuras secundarias en múltiples secuencias de ARN usando recocido simulado).
- Algoritmos iterativos (estudio exhaustivo sobre algoritmos iterativos de alineación de secuencias múltiples).
- Recocido simulado en paralelo (http://bit.ly/1Egd1cG)