¿Qué hace que ML en Biología Computacional sea especialmente difícil?

La mayoría de los lugares donde ML ha tenido mucho éxito son aplicaciones derivadas de humanos y / o son relativamente fáciles de razonar. Procesamiento de imágenes, lenguaje natural, venta de anuncios; estas son todas las aplicaciones de ML a artefactos creados por humanos (fotos, dibujos, lenguaje, deseos, necesidades humanas, etc.) Si bien este no es siempre el caso, muchas veces podemos modelar cosas creadas por humanos porque podemos formular base racional interpretable para el modelo o tener una idea clara de cómo debería funcionar.

En muchos sentidos, la biología es lo opuesto a esto. El razonamiento sobre los sistemas biológicos es desafiante porque el 99% del tiempo no son sistemas que construimos, no nos acercamos a comprenderlos completamente, y están muy conectados y son multivariados. Casi siempre ocurre que no conocemos todas las variables, no sabemos cómo interactúan, y no sabemos la naturaleza de cada variable y cómo interactúa con otros niveles en la jerarquía biológica (p. Ej. bimolecular, celular, sistema de órganos, individuo y población).

Ahora combine eso con la forma en que recopilamos los datos en un sistema biológico: es posible que tengamos que usar varias tecnologías complejas para interrogar a un sistema, y estaremos sujetos a sesgos, suposiciones y, sobre todo, limitaciones (de las cuales hay muchas ) de cada.

También está el hecho muy crítico de que en biología (y especialmente en medicina), a menudo no estamos interesados en tener un modelo que funcione: necesitamos un modelo que tenga sentido y se pueda explicar. Especialmente en medicina, es un gran problema si no podemos entender cómo funciona un modelo, incluso si logra un rendimiento incomparable.

Aprendizaje automáticoBioinformáticabiología computacionalinformática

¿Qué es una memoria de computadora temporal? ¿Cómo se usa y cuáles son algunos ejemplos?

¿Qué consejo le darías a un desarrollador senior que nunca escribió una prueba unitaria pero su código funciona correctamente en producción?

¿Qué pasa si usando una máquina del tiempo, dejo un teléfono inteligente nuevo el 1 de enero de cada año a partir de 1950? ¿Cuál es el primer año en que ese teléfono puede ser diseñado con ingeniería inversa antes del 31 de diciembre?

¿Cuánto cuesta una licencia de Matlab?

¿Los satélites pierden alguna vez la conexión en el espacio? ¿Cómo se ‘reconecta’ la NASA cuando lo hacen?

¿Prefieres contratar a un graduado de CS que tenga un GPA alto o uno que tenga un GPA más bajo, pero que haya pasado su tiempo programando y trabajando en sus proyectos?

De hecho, no creo que sea especialmente difícil. Más bien, el progreso no es tan rápido en esta área porque la investigación de ML en comp. Bio no está debidamente incentivado .

Las personas con CS no quieren trabajar para los biólogos como meros científicos de datos, y los biólogos no quieren ser meros productores de datos para las personas con CS. Por lo tanto, las personas de CS dan vueltas y vueltas desarrollando métodos cada vez mejores para sus problemas en lata como MNIST y CIFAR, mientras que los datos siguen acumulándose en laboratorios de biología donde las personas carecen de las habilidades para desarrollar mejores técnicas de LD para sus problemas específicos. El resultado es lo que tenemos: algo así como una brecha entre el aprendizaje avanzado de aprendizaje profundo en CS en comparación con la biografía comp en la que modelos antiguos y obsoletos como SVM siguen siendo una práctica estándar.

Sin embargo, esto está cambiando rápidamente. Debido a la cuestión que otro respondedor señaló, los conjuntos de datos estándar en bio compilación están emergiendo lentamente, que las personas en los departamentos de CS están comenzando a usar para probar los métodos de ML tomados de imágenes y PNL para compilar problemas bio. Documentos como este comenzaron a aparecer a fines de 2015, y muchos más aparecieron en arXiv y conferencias de bioinformática en 2016.

Kiran Kannar

Lo más importante en el aprendizaje automático son los datos .

Y al aplicar ML en biología computacional: los datos no son muy limpios, irregulares.

Estoy trabajando en un proyecto que recopila datos de células en la sangre, los datos no son correctos. Es muy difícil entender y trazar los datos.

Chintan Zaveri

More Interesting

¿Qué es el árbol binario casi completo?

¿Qué tan limpio es el código base de Apple en relación con el de Google?

¿Cuáles son algunas de las mejores prácticas para construir modelos de aprendizaje automático de múltiples pasos? Cuando la salida de los modelos ML de nivel inferior se convierte en entrada para el modelo de nivel superior, ¿cómo minimizaría el error y mejoraría la precisión?

¿Cuál es el significado del teorema de Kirchoff?

¿Qué significa gradiente en Machine Learning?

¿Cuál es un mejor método para aprender sobre sistemas operativos, Linux desde cero o MINIX?