La relación entre biología y ML no es nueva y ha existido durante décadas, incluso antes de que la ciencia de datos y ML se pusieran de moda. Campos como la predicción de la estructura de la proteína, el modelado de homología [1] [2] [3] y la quimioformática [4] con frecuencia emplean herramientas de ML. La PCA o la reducción de dimensionalidad / SVM / agrupamiento / clasificador aleatorio de bosque, etc., son una parte fundamental de la literatura bioinformática.
¿Entonces que hay de nuevo?
Durante mucho tiempo, el LD se definió por la capacidad de elegir características efectivas, que a menudo es (a) laboriosa y (b) requiere la necesidad de comprender o tener una idea sobre las soluciones, lo que limita la aplicación de ML. También es importante tener en cuenta que los datos biológicos derivados de los experimentos son propensos a errores, por lo tanto, casi siempre se requieren conocimientos específicos del dominio, y los datos biológicos tienden a ser de alta dimensión y escasos.
- ¿Cuál sería el mejor desafío de Kaggle para mí como entusiasta del aprendizaje automático de nivel intermedio?
- ¿Pueden Kmeans y el algoritmo DBSCAN dar el mismo resultado para un conjunto de datos en particular?
- Matemática Aplicada: ¿Cuáles son los diferentes métodos para pronosticar datos de series de tiempo?
- ¿Por qué los modelos basados en árboles son robustos para los valores atípicos?
- ¿Cómo podría agrupar usuarios similares en el conjunto de datos MovieLens?
Figura 1: Cuatro etapas del flujo de trabajo tradicional de aprendizaje automático [5] , (a) preprocesamiento de datos, (b) identificación de características, (c) desarrollo de un modelo y (d) evaluación de resultados.
Dicho esto, incluso hoy, muchos de estos conceptos tradicionales se aplican mucho para construir modelos predictivos útiles a partir de vastos conjuntos de datos experimentales [6]. Pero lo que realmente cambió fue la introducción del aprendizaje profundo [7] [8] , junto con (a) acceso a información y tecnología más nuevas, (b) disminución exponencial de los costos informáticos, (c) disminución exponencial del costo de la secuenciación del genoma, (d) avances en la instrumentación de laboratorio y (e) una generación de científicos capacitados que entienden las complejidades de la biología y los sistemas biológicos y también tienen la capacidad de profundizar en la informática.
¿Dónde está avanzando el aprendizaje profundo?
La investigación en ciencias de la vida es vasta y es casi imposible proporcionar una respuesta integral a esta pregunta. En los últimos años se han publicado muchos trabajos interesantes, que van desde la biomedicina hasta la comprensión de la regulación génica [9] [10] [11] [12] [13]. Para mí, una de las áreas de aplicación más interesantes es el espacio de descubrimiento de fármacos, como la predicción de la toxicidad y la reactividad de las moléculas, que a menudo es una carga enorme en la tubería de descubrimiento de fármacos [14] o incluso la reutilización de fármacos.
En mi opinión personal, es el mejor momento para ser biólogo computacional, ya que tenemos acceso a innumerables recursos e información; y la biología está llena de preguntas sin respuesta.
Notas al pie
[1] Métodos de aprendizaje automático para la predicción de la estructura de proteínas.
[2] Enfoque de aprendizaje automático para la predicción de la estructura secundaria de proteínas
[3] Reconocimiento de un pliegue proteico en el contexto de la clasificación SCOP
[4] Diseño de fármacos por aprendizaje automático: máquinas de vectores de soporte para análisis de datos farmacéuticos
[5] Aprendizaje profundo para biología computacional
[6] CryptoSite: expansión del proteoma farmacológico mediante caracterización y predicción de sitios de unión críptica.
[7] [1112.6209] Creación de características de alto nivel utilizando aprendizaje no supervisado a gran escala
[8] Aprendizaje profundo. – PubMed – NCBI
[9] Aprendizaje profundo del código de empalme regulado por tejidos.
[10] Deep Neural Networks rivaliza con la representación de Primate IT Cortex para el reconocimiento de objetos visuales básicos
[11] https://arxiv.org/pdf/1502.02072…
[12] Aplicaciones de aprendizaje profundo para predecir las propiedades farmacológicas de las drogas y la reutilización de drogas utilizando datos transcriptómicos
[13] DeepCNF-D: predicción del orden de proteínas / regiones de desorden por campos neuronales convolucionales profundos ponderados.
[14] Aprendizaje profundo para la lesión hepática inducida por drogas