¿Cómo está transformando el aprendizaje automático la investigación en biociencia?

La relación entre biología y ML no es nueva y ha existido durante décadas, incluso antes de que la ciencia de datos y ML se pusieran de moda. Campos como la predicción de la estructura de la proteína, el modelado de homología [1] [2] [3] y la quimioformática [4] con frecuencia emplean herramientas de ML. La PCA o la reducción de dimensionalidad / SVM / agrupamiento / clasificador aleatorio de bosque, etc., son una parte fundamental de la literatura bioinformática.

¿Entonces que hay de nuevo?

Durante mucho tiempo, el LD se definió por la capacidad de elegir características efectivas, que a menudo es (a) laboriosa y (b) requiere la necesidad de comprender o tener una idea sobre las soluciones, lo que limita la aplicación de ML. También es importante tener en cuenta que los datos biológicos derivados de los experimentos son propensos a errores, por lo tanto, casi siempre se requieren conocimientos específicos del dominio, y los datos biológicos tienden a ser de alta dimensión y escasos.

Figura 1: Cuatro etapas del flujo de trabajo tradicional de aprendizaje automático [5] , (a) preprocesamiento de datos, (b) identificación de características, (c) desarrollo de un modelo y (d) evaluación de resultados.

Dicho esto, incluso hoy, muchos de estos conceptos tradicionales se aplican mucho para construir modelos predictivos útiles a partir de vastos conjuntos de datos experimentales [6]. Pero lo que realmente cambió fue la introducción del aprendizaje profundo [7] [8] , junto con (a) acceso a información y tecnología más nuevas, (b) disminución exponencial de los costos informáticos, (c) disminución exponencial del costo de la secuenciación del genoma, (d) avances en la instrumentación de laboratorio y (e) una generación de científicos capacitados que entienden las complejidades de la biología y los sistemas biológicos y también tienen la capacidad de profundizar en la informática.

¿Dónde está avanzando el aprendizaje profundo?

La investigación en ciencias de la vida es vasta y es casi imposible proporcionar una respuesta integral a esta pregunta. En los últimos años se han publicado muchos trabajos interesantes, que van desde la biomedicina hasta la comprensión de la regulación génica [9] [10] [11] [12] [13]. Para mí, una de las áreas de aplicación más interesantes es el espacio de descubrimiento de fármacos, como la predicción de la toxicidad y la reactividad de las moléculas, que a menudo es una carga enorme en la tubería de descubrimiento de fármacos [14] o incluso la reutilización de fármacos.

En mi opinión personal, es el mejor momento para ser biólogo computacional, ya que tenemos acceso a innumerables recursos e información; y la biología está llena de preguntas sin respuesta.

Notas al pie

[1] Métodos de aprendizaje automático para la predicción de la estructura de proteínas.

[2] Enfoque de aprendizaje automático para la predicción de la estructura secundaria de proteínas

[3] Reconocimiento de un pliegue proteico en el contexto de la clasificación SCOP

[4] Diseño de fármacos por aprendizaje automático: máquinas de vectores de soporte para análisis de datos farmacéuticos

[5] Aprendizaje profundo para biología computacional

[6] CryptoSite: expansión del proteoma farmacológico mediante caracterización y predicción de sitios de unión críptica.

[7] [1112.6209] Creación de características de alto nivel utilizando aprendizaje no supervisado a gran escala

[8] Aprendizaje profundo. – PubMed – NCBI

[9] Aprendizaje profundo del código de empalme regulado por tejidos.

[10] Deep Neural Networks rivaliza con la representación de Primate IT Cortex para el reconocimiento de objetos visuales básicos

[11] https://arxiv.org/pdf/1502.02072…

[12] Aplicaciones de aprendizaje profundo para predecir las propiedades farmacológicas de las drogas y la reutilización de drogas utilizando datos transcriptómicos

[13] DeepCNF-D: predicción del orden de proteínas / regiones de desorden por campos neuronales convolucionales profundos ponderados.

[14] Aprendizaje profundo para la lesión hepática inducida por drogas

De acuerdo con el Centro Tufts 2015 para el Estudio del Desarrollo de Medicamentos, ahora cuesta $ 2.6B para llevar un nuevo medicamento al mercado. Esta cifra representa el costo promedio del gasto total en investigación y desarrollo gastado dividido por el número total de medicamentos aprobados. En el tiempo extra, ha habido una disminución gradual en la eficiencia del desarrollo de medicamentos, ya que se requiere cada vez más capital para llevar con éxito un medicamento al mercado.

Hay cuatro impulsores principales de este aumento en el costo y la disminución en la eficiencia y la producción del proceso de desarrollo de medicamentos.

1. Los aumentos en los genéricos elevan el listón para la nueva medicina, ya que las empresas están priorizando desafíos médicos más difíciles con una menor probabilidad de éxito.

2. El público y el organismo regulador están preocupados por la seguridad de las nuevas tecnologías como CAR-T y CRISPR, que podrían requerir evidencia adicional de estudios más amplios.

3. Estamos tratando de aprovechar la ciencia recién descubierta para fabricar medicamentos novedosos, pero aún no entendemos su compleja biología.

4. La consolidación de la industria limita la diversidad creativa.

Desglosando el costo de $ 2.6B, alrededor del 42% se gasta en descubrimiento preclínico y estudios en animales, mientras que el 57% restante se gasta en ensayos en humanos. Hay varias formas en que el aprendizaje automático está ayudando a reducir esos costos tanto en entornos preclínicos como clínicos.

Por ejemplo, en entornos preclínicos de descubrimiento, las compañías farmacéuticas seleccionan millones de compuestos de moléculas pequeñas contra objetivos, buscando alguna interacción física. Por ejemplo, nuevas empresas como Atomwise están aplicando el aprendizaje automático para modelar y predecir el acoplamiento molecular. La compañía ha capacitado a una red neuronal convolucional utilizando estructuras moleculares e información vinculante para predecir si los medicamentos existentes se unirán a un nuevo objetivo. Insilico Medicine utiliza autoencoder adversario para generar nuevas estructuras que inhibirán el crecimiento de células cancerosas. Recursion Pharmaceuticals toma imágenes de decenas de miles de células para extraer características estructurales. Utilizando estas “huellas digitales” celulares de células sanas y enfermas, la compañía puede preguntar si algún medicamento rescata las células enfermas para que vuelvan a la salud. En el descubrimiento de terapia basada en oligonucleótidos, nuestra empresa de cartera Deep Genomics utiliza el aprendizaje profundo para predecir con mayor precisión qué oligonucleótidos antisentido (ASO) van a funcionar en qué objetivo.

De manera similar, cuando se seleccionan los compuestos para detectar toxicidad en las pruebas previas a los animales, los estándares actuales del proceso farmacéutico detectarían físicamente la molécula del fármaco contra <100 proteínas / compuestos que se sabe que causan efectos secundarios. Las startups de aprendizaje automático como Cyclica y BenevolentAI están interrumpiendo este campo. Cyclica ha creado una base de datos de proteínas para predecir la toxicidad a través del acoplamiento y la coincidencia de superficies. BenevolentAI emplea PrOCTOR, que utiliza bosque aleatorio y un conjunto de propiedades moleculares, propiedades basadas en objetivos y características de reglas similares a las drogas para predecir la toxicidad.

Es importante destacar que el creciente número de asociaciones de la industria valida tales aplicaciones de los enfoques de aprendizaje automático para el descubrimiento de fármacos y la investigación en biociencia. AstraZeneca se ha asociado con Berg Health, que utiliza el aprendizaje profundo sobre datos clínicos y datos moleculares generados a través de especificaciones de masas de tejidos enfermos versus sanos. Luego clasifica los genes, proteínas o metabolitos que encuentra de acuerdo con su relevancia para una enfermedad en particular, y determina cuándo genes o proteínas específicos se asocian con ciertos resultados del paciente. Dicha evaluación es “al menos un 50% más barata” que los métodos tradicionales, dice el Dr. Niven Narain, CEO. Sanofi y GSK se han asociado con Exscientia, con sede en el Reino Unido, que ha desarrollado una plataforma para diseñar y evaluar compuestos novedosos para criterios predichos, que incluyen potencia, selectividad y ADME, contra objetivos específicos. Además, BenevolentAI se ha asociado con LifeArc, y Atomwise estableció una asociación con Merck.

En entornos clínicos de ensayos en humanos, el NIH informó que más del 80% de los estudios clínicos no logran cumplir con sus objetivos de inscripción en los plazos establecidos, lo que contribuye al aumento de los costos de los medicamentos. Estamos viendo una gran cantidad de nuevas empresas de aprendizaje automático que buscan unir mejor a los pacientes con los ensayos clínicos. Deep6 Analytics aplica el aprendizaje profundo a los datos clínicos en los registros de salud electrónicos para encontrar pacientes que coincidan con el protocolo de prueba. Mendel.ai usa PNL para examinar ClinicalTrials.gov para proporcionar una lista de coincidencias de prueba personalizadas para un paciente en particular. Trials.ai utiliza el aprendizaje profundo para ayudar a las compañías biotecnológicas / farmacéuticas a optimizar el diseño de prueba.

Como inversor de capital de riesgo en una etapa temprana en la intersección de la informática y la biociencia, estoy entusiasmado con las innovaciones innovadoras en este espacio. Estamos viendo cada vez más empresas, nuevas empresas y jugadores establecidos por igual, que incorporan el aprendizaje automático en su proceso de I + D para capitalizar la creciente disponibilidad de datos moleculares y clínicos, así como los avances en técnicas computacionales para reducir los costos y los tiempos de ciclo asociados con desarrollo de fármacos. En particular, la innovación del aprendizaje automático ha disminuido los costos de descubrimiento de fármacos y ha aumentado la eficiencia a través de la predicción computacional de la eficacia y la seguridad. Sin embargo, para que este campo interdisciplinario tenga éxito, necesitaremos acceso a mayores cantidades de datos y una mejor comprensión de nuestra biología.

Sí, está cambiando bastante. Algunos ejemplos: el emparejamiento proteína-proteína y las interacciones se estudian con las funciones de Connolly (parte del análisis de datos topológicos que no recibe mucha presión), los algoritmos de mapeo ontológico de la teoría de gráficos están impulsando la investigación genómica dentro de enfermedades raras, y los algoritmos de minería de datos están comenzando para ser utilizado en revivir ensayos clínicos fallidos.

Hola amigos, soy analista de datos y entusiasta del aprendizaje automático. Me emociona presentarles mi nuevo canal de Youtube: “ ANALYTICS MANTRA ”: un destino completo para todos los tutoriales sobre análisis de datos.

  • En la actualidad, hemos cargado una serie de tutoriales sobre Excel avanzado y análisis de datos utilizando Python. Y, pronto cargaremos tutoriales en R, WEKA, TABLEAU, QLIKVIEW

Entonces, vaya al enlace y explore los tutoriales.

¡¡¡¡¡Disfruta aprendiendo!!!!!

Por favor, no olvide dar me gusta y suscribirse y nunca se pierda ninguna actualización de ” ANALYTICS MANTRA “.

Enlace: Mantra de análisis

More Interesting

En weka, ¿qué significan las cuatro opciones de prueba y cuándo las usa?

¿Cuántas imágenes de entrenamiento deberían usarse para una buena tarea de reconocimiento de género en OpenCV? ¿Hay algún conjunto de datos disponible para esta tarea?

¿Cuál es el minimizador de [matemáticas] H [f] = \ sum ^ {N} _ {i = 1} \ | y ^ {(i)} - f (x_i) \ | ^ 2_ {2} + \ lambda \ | Pf \ | ^ 2 [/ math] cuando la salida es un vector?

¿Cuáles son los mejores algoritmos de aprendizaje sin supervisión para la corrección ortográfica?

¿Cuáles serían los proyectos / servicios más interesantes en el cuidado de la salud que involucren alta tecnología como dispositivos móviles, big data y data science? Por ejemplo, Ginger.io.

¿En qué medida se utilizan las técnicas de optimización del aprendizaje automático, como el descenso de gradiente, en el modelado financiero?

Yoshua Bengio: ¿Será el aprendizaje profundo un paso hacia la IA consciente?

En un modelo gráfico dirigido, el aprendizaje es fácil pero la inferencia es difícil. ¿Es esto cierto?

¿Qué hace una capa convolucional 1 × 1?

¿Cómo puedo usar una red neuronal de convolución (para reconocimiento facial) después del entrenamiento? Quiero darle una cara como entrada y ver la salida predicha.

¿Cuáles son algunos usos prácticos o aplicaciones del conjunto de datos de YouTube 8M?

¿Cuáles son los mejores métodos de detección de anomalías para imágenes?

¿Cuál es el significado de muchas sinapsis entre dos neuronas en la red neuronal?

¿Cuál es el proceso de reconocimiento de voz (en resumen)?

¿Cómo se usa el cálculo vectorial en el aprendizaje automático?