¿Cuáles son algunos conjuntos de datos sin resolver que son los objetivos de la investigación actual de Deep Learning?

La premisa de esta pregunta no es correcta o parece confusa. En primer lugar, el aprendizaje profundo (DL) o cualquier algoritmo de ML no resuelve un conjunto de datos sino un problema. En segundo lugar, DL es útil en varias áreas pero no en todas.

DL no funcionará si los datos de entrenamiento son pequeños. No es útil usar DL si las características ya se extrajeron de los datos, porque uno de los puntos fuertes de DL es aprender las características automáticamente de los datos sin procesar. DL ha mostrado grandes mejoras en la visión por computadora y el reconocimiento de voz. Hay un gran potencial para la DL en áreas como el reconocimiento de actividad, la detección de eventos anormales, el aprendizaje de los datos del sensor, los conductores sin automóviles, etc. Existen amplios dominios en los que los investigadores están trabajando para probar técnicas de DL como la bioinformática, la atención médica, etc.

Antes de saltar a los problemas que DL no puede resolver, necesitamos comprender los desafíos con DL. Comparto algunos recursos que pueden ser útiles:

Desafíos del aprendizaje profundo – Universidad de Washington | Coursera

Logros y desafíos del aprendizaje profundo – Microsoft Research

Hay varias áreas en biología que recién comienzan a ver soluciones de aprendizaje profundo.

Los desafíos de Physionet son una colección divertida de problemas en biología física. Trabajé en la entrada del año pasado y usé una CNN cruda de 2 capas con resultados razonablemente buenos. Mi solución se puede encontrar en mi Github.

A medida que los conjuntos de datos genómicos se hacen más grandes (más muestras), el aprendizaje profundo se convierte en una herramienta poderosa para correlacionar la genética con la enfermedad. El Instituto Nacional del Cáncer tiene un gran conjunto de datos genómicos del cáncer.

La comunidad de investigación todavía tiene formas de avanzar en los conjuntos de datos de lenguaje natural, como bAbI o el primer conjunto de datos de preguntas y respuestas de Quora. Aunque hay un gran enfoque de investigación (varias presentaciones de ICML ’17 se centran en bAbI), estas áreas aún no se han resuelto por completo.

El sucesor de BabI por Facebook (BabI en sí no estaba resuelto hasta hace poco). La respuesta visual a las preguntas, aunque se han hecho progresos, todavía está en gran medida sin resolver. La traducción automática, aunque nmt lo ha hecho bien, todavía está abierta. La transcripción si los videos (subtítulos) también siguen siendo una tarea abierta.

Creo que esta pregunta ilustra un problema común en el aprendizaje automático (pero probablemente es más frecuente en general).

“Tengo un método de solución. ¿A qué debo aplicarlo?

¿Por qué estás tan decidido a aplicar Deep Learning? ¿Por qué no buscar problemas abiertos que sean importantes y necesiten una solución, y luego determinar qué enfoque es el más apropiado ? Hay toneladas de algoritmos de Machine Learning que no son Deep Learning. Estudie los conceptos básicos de todos ellos. Ante un nuevo problema, intente encontrar un conjunto de algoritmos posibles que puedan funcionar, descubra qué suposiciones puede hacer, adapte los algoritmos en consecuencia y luego compare lo que tiene para ver cuál funciona mejor.