Este es un tema de investigación bastante candente y creo que nadie todavía sabe la respuesta correcta a esta pregunta. Además, la respuesta a esta pregunta está completamente relacionada con la definición exacta del problema y los datos que está utilizando. Por ejemplo, si el problema es clasificar los documentos en función de su “título” para una consulta determinada, el problema es bastante fácil, porque el título de las páginas web a menudo es corto y puede modelar texto corto en DNN de diferentes maneras: hash de palabras, LSTM e incluso redes simples de retroalimentación (sin embargo, los títulos no siempre son un buen indicador del tema / contenido de las páginas web). Uno de los primeros modelos, llamado DSSM (y su expandido, CDSSM), fue diseñado para este tipo de problemas [1, 2]. Pero si observa el problema de recuperación ad-hoc, las cosas se vuelven mucho más difíciles: necesita modelar documentos largos, ¡lo cual no es tan fácil! 🙂
Además, la respuesta a esta pregunta también depende de la cantidad de datos de entrenamiento que tenga. Si tiene acceso a grandes cantidades de datos de entrenamiento (por ejemplo, datos de clic), puede diseñar NN grandes con múltiples capas, por ejemplo, [3, 4]. De lo contrario, es posible que deba utilizar algunas heurísticas IR (por ejemplo, IDF) en su modelo para obtener resultados razonables [5]. Creo que he citado la mayoría de los trabajos originales en el área, pero estoy seguro de que veremos algunos documentos muy interesantes relacionados con este problema en SIGIR 2017. Esté atento a eso 🙂
[1] P. Huang, X. Él, J. Gao, L. Deng, A. Acero y L. Heck. 2013. Aprendizaje de modelos semánticos estructurados profundos para la búsqueda web utilizando datos de clics. En CIKM ’13.
- ¿Qué hace que un modelo sea interpretable?
- ¿En qué casos notamos un problema de gradiente que explota o desaparece y por qué?
- ¿Qué es la recuperación de información? ¿Qué tan relacionado está con el análisis de datos y el aprendizaje automático?
- ¿Cómo se usa el aprendizaje automático en DevOps?
- ¿El aprendizaje automático está reemplazando la teoría de control tradicional?
[2] Y. Shen, X. Él, J. Gao, L. Deng y G. Mesnil. 2014. Aprendizaje de representaciones semánticas utilizando redes neuronales convolucionales para la búsqueda web. En WWW ’14.
[3] B. Mitra, F. Díaz y N. Craswell. 2017. Aprender a unir usando representaciones locales y distribuidas de texto para la búsqueda web. En WWW ’17.
[4] H. Zamani, M. Bendersky, X. Wang, M. Zhang. 2017. Contexto situacional para el ranking en la búsqueda personal. En WWW ’17.
[5] J. Guo, Y. Fan, Q. Ai y WB Croft ‰. 2016. Un modelo de correspondencia de relevancia profunda para la recuperación ad-hoc. En CIKM ’16.