¿Qué es lo más emocionante para usted en el campo del aprendizaje automático en 2016?

Estoy extremadamente interesado en ver cómo (una vez) se aplican más técnicas específicas de problemas como redes neuronales convolucionales y redes neuronales recurrentes a otros problemas además del reconocimiento de imágenes y el procesamiento del lenguaje natural.

Creo que uno de los desafíos clave en la aplicación de estas técnicas es encontrar la “representación” correcta (además de tener suficientes datos). Para dar un ejemplo (un poco más antiguo), en

  • Lusci, Alessandro, Gianluca Pollastri y Pierre Baldi. “Arquitecturas profundas y aprendizaje profundo en quimioinformática: la predicción de la solubilidad acuosa para moléculas similares a las drogas”. Revista de información química y modelado 53.7 (2013): 1563-1575. Arquitecturas profundas y aprendizaje profundo en quimioinformática: la predicción de la solubilidad acuosa para moléculas similares a las drogas

Los investigadores presentaron moléculas como gráficos acíclicos dirigidos (típicamente, estructuras como gráficos cíclicos no dirigidos) como entrada a una red neuronal recursiva para predecir la solubilidad de estas moléculas.

Un ejemplo más reciente y emocionante es

  • Gómez-Bombarelli, Rafael, et al. “Diseño químico automático utilizando una representación continua de moléculas basada en datos”. preimpresión arXiv arXiv: 1610.02415 (2016). [1610.02415] Diseño químico automático utilizando una representación continua de moléculas basada en datos

(el manuscrito tiene solo unas semanas)

En pocas palabras, los investigadores entrenaron a un Autoencoder para generar moléculas sintéticas realistas. Aquí, su red neuronal convierte las cadenas SMILES en representaciones latentes (vectores comprimidos que solo contienen información estadísticamente relevante) y de nuevo en las cadenas SMILE con un error mínimo (o ningún error): las cadenas SMILES son representaciones 1D de una molécula; por ejemplo, la cadena SMILES para Aspirina sería CC (= O) OC1 = CC = CC = C1C (= O) O correspondiente a la siguiente estructura 2D:

Aspirina (ácido 2- (acetiloxi) benzoico)

Por último, también estoy muy emocionado de que la barrera de entrada a ML se reduzca gracias a todas las excelentes herramientas que se han desarrollado a lo largo de los años, desde scikit-learn hasta Theano, TensorFlow y Keras. La relativa comodidad de tener estas excelentes herramientas nos permite preocuparnos menos por las implementaciones técnicas, pero nos ayuda a centrarnos en el problema real que queremos resolver 🙂