Bioinformática: ¿cómo y qué técnicas de aprendizaje automático son más favorables para el análisis de secuencias de proteínas?

¡Montones!
Depende de cuál sea la cuestión y el dominio: secuencias completas (p. Ej., SCOP, familias estructurales de CATH), modelado estructural, predicciones a nivel local (p. Ej., Estructura 2D, desorden, predicción de PTM …).
En general, ve muchos métodos supervisados ​​de LD utilizados. Aprendizaje profundo con menos frecuencia, ya que los datos # pueden ser limitados y muy, muy desequilibrados. (Eso, y a menudo carecemos del nivel de información necesaria para algunos tipos de separación, por ejemplo, el entorno celular y la fosforilación que afectan la disponibilidad de un sitio PTM).

Bosques aleatorios, las SVM son los sabores de las últimas 2.5 décadas. Se utilizan muchos otros métodos. El aprendizaje profundo / las redes neuronales han mostrado muy buenos resultados, aunque no por un amplio margen en algunos dominios, principalmente la predicción estructural. RNNs por ejemplo.
Sin embargo, la representación de características es complicada. (Lo discutí en un artículo, ProFET ProFET: la ingeniería de características captura funciones de proteínas de alto nivel, aunque hay muchas otras en el tema).