¿Qué hace que ML en Biología Computacional sea especialmente difícil?

La mayoría de los lugares donde ML ha tenido mucho éxito son aplicaciones derivadas de humanos y / o son relativamente fáciles de razonar. Procesamiento de imágenes, lenguaje natural, venta de anuncios; estas son todas las aplicaciones de ML a artefactos creados por humanos (fotos, dibujos, lenguaje, deseos, necesidades humanas, etc.) Si bien este no es siempre el caso, muchas veces podemos modelar cosas creadas por humanos porque podemos formular base racional interpretable para el modelo o tener una idea clara de cómo debería funcionar.

En muchos sentidos, la biología es lo opuesto a esto. El razonamiento sobre los sistemas biológicos es desafiante porque el 99% del tiempo no son sistemas que construimos, no nos acercamos a comprenderlos completamente, y están muy conectados y son multivariados. Casi siempre ocurre que no conocemos todas las variables, no sabemos cómo interactúan, y no sabemos la naturaleza de cada variable y cómo interactúa con otros niveles en la jerarquía biológica (p. Ej. bimolecular, celular, sistema de órganos, individuo y población).

Ahora combine eso con la forma en que recopilamos los datos en un sistema biológico: es posible que tengamos que usar varias tecnologías complejas para interrogar a un sistema, y ​​estaremos sujetos a sesgos, suposiciones y, sobre todo, limitaciones (de las cuales hay muchas ) de cada.

También está el hecho muy crítico de que en biología (y especialmente en medicina), a menudo no estamos interesados ​​en tener un modelo que funcione: necesitamos un modelo que tenga sentido y se pueda explicar. Especialmente en medicina, es un gran problema si no podemos entender cómo funciona un modelo, incluso si logra un rendimiento incomparable.

De hecho, no creo que sea especialmente difícil. Más bien, el progreso no es tan rápido en esta área porque la investigación de ML en comp. Bio no está debidamente incentivado .

Las personas con CS no quieren trabajar para los biólogos como meros científicos de datos, y los biólogos no quieren ser meros productores de datos para las personas con CS. Por lo tanto, las personas de CS dan vueltas y vueltas desarrollando métodos cada vez mejores para sus problemas en lata como MNIST y CIFAR, mientras que los datos siguen acumulándose en laboratorios de biología donde las personas carecen de las habilidades para desarrollar mejores técnicas de LD para sus problemas específicos. El resultado es lo que tenemos: algo así como una brecha entre el aprendizaje avanzado de aprendizaje profundo en CS en comparación con la biografía comp en la que modelos antiguos y obsoletos como SVM siguen siendo una práctica estándar.

Sin embargo, esto está cambiando rápidamente. Debido a la cuestión que otro respondedor señaló, los conjuntos de datos estándar en bio compilación están emergiendo lentamente, que las personas en los departamentos de CS están comenzando a usar para probar los métodos de ML tomados de imágenes y PNL para compilar problemas bio. Documentos como este comenzaron a aparecer a fines de 2015, y muchos más aparecieron en arXiv y conferencias de bioinformática en 2016.

Lo más importante en el aprendizaje automático son los datos .

Y al aplicar ML en biología computacional: los datos no son muy limpios, irregulares.

Estoy trabajando en un proyecto que recopila datos de células en la sangre, los datos no son correctos. Es muy difícil entender y trazar los datos.