Los parámetros precisos de la “ciencia de datos genómicos” son un poco vagos, por lo que me disculpo si los estoy malinterpretando. También me enfocaré principalmente en algunas áreas; Esto no será exhaustivo.
La genómica es una ciencia impulsada por la tecnología. Las preguntas que se pueden formular dependen en gran medida de las tecnologías disponibles y del costo de su aplicación. Se han producido varios cambios tecnológicos importantes que están impulsando nuevos métodos.
Se ha demostrado que la secuenciación de lectura larga en la plataforma Pacific Biosciences combinada con métodos de mapeo óptico de BioNano Genomics es capaz de generar una secuencia del genoma humano de alta calidad sin depender de una secuencia de referencia. Esto se ha extendido aún más a genomas de plantas aún más complejos. Esto significa primero que la mayoría de los genomas probablemente pueden secuenciarse y ensamblarse, aunque esto aún no se ha probado para genomas verdaderamente gigantes o aquellos con ploidías extremadamente altas. También significa que cualquier error en la secuencia y el ensamblaje anteriores no está en riesgo de propagarse a los nuevos ensamblajes, y lo que es más importante, casi se elimina el riesgo de que falten variantes o secuencias de números de copias raras exclusivas de poblaciones raras. Estos genomas también tienen haplotipos en distancias muy largas.
- ¿Cuáles son algunos documentos académicos de aprendizaje automático notables / influyentes en los últimos 5 años?
- Aprendizaje automático: Alex Casalboni: ¿Cuál es la mejor herramienta de ML para desenfocar caras (los tres tipos de visión izquierda, derecha y frontal) y placas en las imágenes?
- ¿Cómo se manejan las características categóricas en un modelo de mezcla gaussiana / modelo de agrupamiento?
- ¿Qué tan importante fue el Premio Netflix para el área de Sistemas de recomendación?
- ¿Existe una definición matemática para una máquina de vectores de soporte?
Se están compilando colecciones muy grandes de exomas y genomas humanos; ExAC publicó varios resultados con exomas de 50K y ha ido mucho más lejos. Estos exomas y genomas están conectados a una cantidad significativa de datos fenotípicos. Esto ha permitido buscar a gran escala personas que son doblemente nulas en un lugar y luego identificar posibles efectos sobre la salud, tanto positivos como negativos, de estas mutaciones. Estos recursos también han demostrado ser poderosos para verificar (y a veces refutar) los resultados de los estudios de asociación de todo el genoma (GWAS), ya que las frecuencias de población de los alelos codificadores están disponibles para muchas personas. Los grupos detrás de estos conjuntos de datos también han desarrollado enfoques poderosos para combinar todos estos datos para generar llamadas de genotipo altamente precisas.
La secuenciación de ARN de una sola célula se está haciendo factible en la escala de decenas de miles de células. Esto permite que el perfil de expresión de muestras complejas, como la médula ósea, deje de ser una amalgama artificial de todas las células componentes.
Otro cambio tecnológico que ha impulsado un rápido cambio analítico, y que seguramente continuará haciéndolo, es la plataforma de secuenciación de nanoporos de Oxford Nanopore. Al permitir una secuencia verdaderamente rápida y portátil, se pueden recopilar datos sobre epidemias en tiempo real. La plataforma permite detectar bases modificadas directamente del ADN de origen, sin pretratamiento y una alta sensibilidad. El ARN ahora puede secuenciarse directamente, detectando modificaciones de ARN. Se han desarrollado métodos para identificar rápidamente los patógenos de muestras complejas de metagenomas, lo que potencialmente permite la identificación de enfermedades infecciosas en unas pocas horas.
Espero que sea una muestra útil. Examinar algunos números de Nature Genetics o Genome Research ayudará a identificar otras tendencias y técnicas analíticas emergentes.