El aprendizaje automático se ha aplicado con frecuencia a la biología. Los algoritmos particulares parecen atravesar las olas: en los años ochenta y noventa se vieron muchas redes neuronales, mientras que a finales de los años noventa y 2000 parecían regirse por Support Vector Machines. Hoy en día, el “aprendizaje profundo” está de moda.
¿Qué tipo de problemas? Una amplia gama. Clasificar estructuras subcelulares en imágenes o distinguir tejido canceroso del tejido normal. Predecir la agresividad de los tumores a partir de patrones de expresión génica. Conversión de señales eléctricas ruidosas de secuenciación de nanoporos en llamadas de base. Identificación de sitios de empalme de ARNm, promotores, sitios de unión a ribosomas u otras señales en el ADN. Predicción de sitios fuera del objetivo para los ARN guía para Cas9.
Un desafío en muchos casos es prevenir el sobreentrenamiento. Particularmente en el espacio clínico, a menudo uno se enfrenta a la capacitación en una gran cantidad de características con un pequeño número de casos. Por ejemplo, un ensayo de expresión génica podría medir más de 50K de diferentes isoformas de ARNm, pero es posible que solo tenga unas pocas docenas de muestras de la enfermedad en cuestión.
- ¿Qué es el aprendizaje por refuerzo?
- ¿Sigue siendo el curso de aprendizaje automático de Andrew Ng el mejor curso de aprendizaje automático disponible?
- ¿Cómo sugeriría Carlos Matias La Borde que un novato aprenda el aprendizaje automático?
- ¿Qué tipo de matemática se usa en el aprendizaje automático? ¿Puedo aprender ML sin él?
- ¿Cuál es la diferencia entre Deconvolución, Upsampling, Unpooling y Convolutional Sparse Coding?
Por lo tanto, se requiere una cuidadosa atención al entrenamiento y la validación, así como al diseño experimental. Hubo un caso notorio en el que un clasificador fue entrenado en datos de proteómica que se habían ejecutado a través de un espectrómetro de masas en un orden no aleatorio: básicamente, todos los controles se ejecutaron en una fila y luego todas las muestras de enfermedades (o viceversa). Debido a la forma en que se programó el espectrómetro de masas, los puntos de datos que informó dependían de los datos anteriores. Entonces, al no mezclar el orden de las muestras, se creó una correlación accidental entre muestras marcadas de manera similar.