¿Cuáles son los avances actuales en la ciencia de datos genómicos?

Los parámetros precisos de la “ciencia de datos genómicos” son un poco vagos, por lo que me disculpo si los estoy malinterpretando. También me enfocaré principalmente en algunas áreas; Esto no será exhaustivo.

La genómica es una ciencia impulsada por la tecnología. Las preguntas que se pueden formular dependen en gran medida de las tecnologías disponibles y del costo de su aplicación. Se han producido varios cambios tecnológicos importantes que están impulsando nuevos métodos.

Se ha demostrado que la secuenciación de lectura larga en la plataforma Pacific Biosciences combinada con métodos de mapeo óptico de BioNano Genomics es capaz de generar una secuencia del genoma humano de alta calidad sin depender de una secuencia de referencia. Esto se ha extendido aún más a genomas de plantas aún más complejos. Esto significa primero que la mayoría de los genomas probablemente pueden secuenciarse y ensamblarse, aunque esto aún no se ha probado para genomas verdaderamente gigantes o aquellos con ploidías extremadamente altas. También significa que cualquier error en la secuencia y el ensamblaje anteriores no está en riesgo de propagarse a los nuevos ensamblajes, y lo que es más importante, casi se elimina el riesgo de que falten variantes o secuencias de números de copias raras exclusivas de poblaciones raras. Estos genomas también tienen haplotipos en distancias muy largas.

Se están compilando colecciones muy grandes de exomas y genomas humanos; ExAC publicó varios resultados con exomas de 50K y ha ido mucho más lejos. Estos exomas y genomas están conectados a una cantidad significativa de datos fenotípicos. Esto ha permitido buscar a gran escala personas que son doblemente nulas en un lugar y luego identificar posibles efectos sobre la salud, tanto positivos como negativos, de estas mutaciones. Estos recursos también han demostrado ser poderosos para verificar (y a veces refutar) los resultados de los estudios de asociación de todo el genoma (GWAS), ya que las frecuencias de población de los alelos codificadores están disponibles para muchas personas. Los grupos detrás de estos conjuntos de datos también han desarrollado enfoques poderosos para combinar todos estos datos para generar llamadas de genotipo altamente precisas.

La secuenciación de ARN de una sola célula se está haciendo factible en la escala de decenas de miles de células. Esto permite que el perfil de expresión de muestras complejas, como la médula ósea, deje de ser una amalgama artificial de todas las células componentes.

Otro cambio tecnológico que ha impulsado un rápido cambio analítico, y que seguramente continuará haciéndolo, es la plataforma de secuenciación de nanoporos de Oxford Nanopore. Al permitir una secuencia verdaderamente rápida y portátil, se pueden recopilar datos sobre epidemias en tiempo real. La plataforma permite detectar bases modificadas directamente del ADN de origen, sin pretratamiento y una alta sensibilidad. El ARN ahora puede secuenciarse directamente, detectando modificaciones de ARN. Se han desarrollado métodos para identificar rápidamente los patógenos de muestras complejas de metagenomas, lo que potencialmente permite la identificación de enfermedades infecciosas en unas pocas horas.

Espero que sea una muestra útil. Examinar algunos números de Nature Genetics o Genome Research ayudará a identificar otras tendencias y técnicas analíticas emergentes.

En realidad, el mayor avance en la ciencia de datos genómicos es la máquina de secuenciación automática. Al reducir drásticamente el costo de la secuenciación genómica, podemos capturar suficientes datos para aplicar herramientas de aprendizaje automático.

More Interesting

Andrew Ng: ¿Qué opinas sobre el futuro del aprendizaje de Bayesian Networks?

¿Cuáles son los pros y los contras de las diferentes técnicas de factorización matricial: rango bajo, SVD y NMF? ¿Cuáles son algunos ejemplos prácticos de cada uno?

¿Dónde puedo aprender el aprendizaje automático desde cero en C ++?

¿Cuáles son los conceptos básicos de los campos aleatorios condicionales?

¿Cuáles son los mejores laboratorios de investigación en el campo de los UAV combinados con aprendizaje automático, visión y percepción por computadora?

¿Cuál es el mejor marco de recomendación para mi primer sistema de recomendación?

¿Cuándo es el final de la red neuronal profunda? La gente está loca por esto y muchos de ellos no saben lo que está pasando dentro

¿Cuánto del aprendizaje automático es en realidad solo optimización?

¿Cómo están revolucionando las redes neuronales convolucionales la visión por computadora?

¿Cuáles son las aplicaciones no computacionales de las lecciones del aprendizaje automático?

Cómo comenzar a hacer un proyecto de aprendizaje automático

¿Cómo se siente la comunidad de aprendizaje automático sobre Kaggle?

¿Cuáles son los documentos más importantes en el aprendizaje activo?

Después de dominar el aprendizaje profundo, ¿es posible conseguir un trabajo en aprendizaje automático?

¿El CAPM está muerto, en el sentido de que el aprendizaje automático moderno y el modelado financiero han hecho que su aplicación en el mundo real sea redundante?