Hice una lista de artículos para un matemático, estadístico o informático nuevo en bioinformática. Se puede encontrar aquí –
Sumérjase en la bioinformática: estudios introductorios para un matemático / estadístico o un informático por Janu Verma sobre Ondas en el agua
Estoy reproduciendo la lista aquí.
1. Secuenciación
- ¿Cómo le explicarías P vs. NP a un niño?
- Aprendizaje automático: ¿cómo puedo comparar entre clasificadores?
- En MIPS, ¿qué son las instrucciones condicionales cargadas y almacenadas?
- ¿Cuáles son algunas buenas estructuras de datos y algoritmos de hojas de trucos?
- ¿Cómo se separan las diferentes bandas de música (como agudos y graves) por nuestras computadoras y ecualizadores?
- NGS: Jay Shendure, Hanlee Ji (2008) Secuenciación de ADN de próxima generación Nature Biotechnology 26 , 1135-1145 (2008)
2. Alineamiento:
- BLAST (Herramienta de búsqueda de alineación local básica)
- BowTie: Ben Langmead, Cole Trapnell, Mihai Pop, Steven Salzberg. (2009) Alineamiento ultrarrápido y eficiente en la memoria de secuencias de ADN cortas con el genoma humano Genome Biology 2009, 10 : R25
- BWA: Li H. y Durbin R. (2009) Alineación de lectura corta rápida y precisa con la transformación de Burrows-Wheeler. Bioinformática , 25 , 1754-1760.
- BWA-MEM: Li H. (2013) Alineando lecturas de secuencias, secuencias de clones y contigs de ensamblaje con BWA-MEM.
3. Asamblea:
- Gráficos de Bruijn: Phillip EC Compeau, Pavel A Pavzner, Glenn Tesler (2011). Cómo aplicar gráficos de Bruijn al ensamblaje del genoma Nature Biotechnology 29, 987-991 (2011).
- Asamblea de Bruijn : Pavel Pevzner, Haixu Tang, Michael Waterman (2001) Un enfoque de camino euleriano para el ensamblaje de fragmentos de ADN PNAS 98, 9748-9753
- Velvet: DR Zerbino y E. Birner (2008) Velvet: algoritmos para el ensamblaje de lectura corta de novo utilizando gráficos de Bruijn. Genome Research 18: 821-829
- Evaluación: Keith Bradnam et al (2013) Assemblathon 2: evaluación de métodos de novo de ensamblaje del genoma en tres especies de vertebrados. GigaScience 2 : 10 (2013)
4. Llamadas SNP:
- GATK 1: McKenna A et al (2010) The Genome Analysis Toolkit: un marco de MapReduce para analizar datos de secuenciación de ADN de próxima generación. Genome Research 20 : 1297-1303
- GATK 2: DePristo M et al (2011) Un marco para la variación y genotipado utilizando datos de secuenciación de ADN de próxima generación. Nature Genetics 43 : 491-498
- FreeBayes: detección de variantes basada en haplotipos de secuenciación de lectura corta
5. Modelos ocultos de Markov:
- Byubg-Jun Yoon (2008) Modelos ocultos de Markov y sus aplicaciones en el análisis de secuencias biológicas
6. GWAS:
- David J. Balding (2006) Un tutorial sobre métodos estadísticos para estudios de asociación de poblaciones. Nature Reviews Genetics 7, 781-791.
- Witte JS (2010) Estudios de asociación de todo el genoma y más allá. Rev anual de Salud Pública. 2010; 31: 9-20
- Thomas A. Peason Cómo interpretar un estudio de asociación de genoma completo. JAMA 2008; 299 (11): 1335-1344
7. Análisis de componentes principales en GWAS:
- Alkes Price et al (2006) El análisis de componentes principales corrige la estratificación en estudios de asociación de genoma completo Nature Genetics 38 , 904-909
Apéndice: Formatos de archivo:
- Formato FASTA
- Formato FASTQ
- GFF – (GFF3 – GMOD), (Ontología de la secuencia – Recursos – GFF3)
- VCF
- SAM / BAM