¿Cuáles son las lecturas obligatorias para los informáticos nuevos en el campo de la bioinformática? La tecnología cambia la vida futura

Hice una lista de artículos para un matemático, estadístico o informático nuevo en bioinformática. Se puede encontrar aquí –
Sumérjase en la bioinformática: estudios introductorios para un matemático / estadístico o un informático por Janu Verma sobre Ondas en el agua

Estoy reproduciendo la lista aquí.

1. Secuenciación

NGS: Jay Shendure, Hanlee Ji (2008) Secuenciación de ADN de próxima generación Nature Biotechnology 26 , 1135-1145 (2008)

2. Alineamiento:

BLAST (Herramienta de búsqueda de alineación local básica)
BowTie: Ben Langmead, Cole Trapnell, Mihai Pop, Steven Salzberg. (2009) Alineamiento ultrarrápido y eficiente en la memoria de secuencias de ADN cortas con el genoma humano Genome Biology 2009, 10 : R25
BWA: Li H. y Durbin R. (2009) Alineación de lectura corta rápida y precisa con la transformación de Burrows-Wheeler. Bioinformática , 25 , 1754-1760.
BWA-MEM: Li H. (2013) Alineando lecturas de secuencias, secuencias de clones y contigs de ensamblaje con BWA-MEM.

3. Asamblea:

Gráficos de Bruijn: Phillip EC Compeau, Pavel A Pavzner, Glenn Tesler (2011). Cómo aplicar gráficos de Bruijn al ensamblaje del genoma Nature Biotechnology 29, 987-991 (2011).
Asamblea de Bruijn : Pavel Pevzner, Haixu Tang, Michael Waterman (2001) Un enfoque de camino euleriano para el ensamblaje de fragmentos de ADN PNAS 98, 9748-9753
Velvet: DR Zerbino y E. Birner (2008) Velvet: algoritmos para el ensamblaje de lectura corta de novo utilizando gráficos de Bruijn. Genome Research 18: 821-829
Evaluación: Keith Bradnam et al (2013) Assemblathon 2: evaluación de métodos de novo de ensamblaje del genoma en tres especies de vertebrados. GigaScience 2 : 10 (2013)

4. Llamadas SNP:

GATK 1: McKenna A et al (2010) The Genome Analysis Toolkit: un marco de MapReduce para analizar datos de secuenciación de ADN de próxima generación. Genome Research 20 : 1297-1303
GATK 2: DePristo M et al (2011) Un marco para la variación y genotipado utilizando datos de secuenciación de ADN de próxima generación. Nature Genetics 43 : 491-498
FreeBayes: detección de variantes basada en haplotipos de secuenciación de lectura corta

5. Modelos ocultos de Markov:

Byubg-Jun Yoon (2008) Modelos ocultos de Markov y sus aplicaciones en el análisis de secuencias biológicas

6. GWAS:

David J. Balding (2006) Un tutorial sobre métodos estadísticos para estudios de asociación de poblaciones. Nature Reviews Genetics 7, 781-791.
Witte JS (2010) Estudios de asociación de todo el genoma y más allá. Rev anual de Salud Pública. 2010; 31: 9-20
Thomas A. Peason Cómo interpretar un estudio de asociación de genoma completo. JAMA 2008; 299 (11): 1335-1344

7. Análisis de componentes principales en GWAS:

Alkes Price et al (2006) El análisis de componentes principales corrige la estratificación en estudios de asociación de genoma completo Nature Genetics 38 , 904-909

Apéndice: Formatos de archivo:

Formato FASTA
Formato FASTQ
GFF – (GFF3 – GMOD), (Ontología de la secuencia – Recursos – GFF3)
VCF
SAM / BAM

BioinformáticainformáticalibrosRecomendaciones de