Por lo que entiendo, Collobert et al. 2011 parece una reescritura más precisa del trabajo de Collobert y Weston 2008.
En el segundo artículo, hay puntos de referencia reales y comparaciones con (entonces) enfoques de vanguardia para las tareas que investigan (fragmentación, SRL, POS, etc.).
El segundo artículo utiliza un conjunto de datos sin etiqueta más grande para la tarea sin supervisión (852 millones frente a 631 millones de palabras).
- ¿Tener demasiados datos ralentiza tu PC?
- ¿Cuáles son algunas de las grandes ideas de proyectos para un estudiante de informática?
- ¿Cómo empiezo a explorar el campo de la lingüística como estudiante de informática?
- Estoy en la clase 12. Quiero hacer algunos trámites o investigar en informática. Quizás pequeño. Sé python y C ++. ¿Qué tengo que hacer?
- ¿Cuál es un buen tema de investigación sobre informática sin servidor?
El segundo documento también menciona que han utilizado dos enfoques diferentes para las capas de salida: uno llamado probabilidad de registro a nivel de palabra (que no tiene en cuenta la dependencia entre etiquetas posteriores, por ejemplo, no es probable que una etiqueta V de SRL siga a otra etiqueta V ) y otra estrategia llamada probabilidad de registro a nivel de oración, que tiene en cuenta las dependencias de la etiqueta (como el algoritmo de Viterbi, por ejemplo).
Sin embargo, la Sección 6 del segundo documento contiene algunas cosas que no se mencionaron en el primer documento: a) realizaron experimentos adicionales para tratar de obtener mejores resultados: agregaron características de ingeniería regulares a los modelos anteriores b) construimos conjuntos de los modelos anteriores para ver si mejoraban los resultados c) han realizado experimentos agregando características de árbol de análisis a los modelos anteriores.
También han creado un sistema que reúne todo lo que han hecho hasta ahora. Se llama SENNA.
Puede que me equivoque aquí (no soy un experto), pero parece que el segundo documento era una versión extendida (más detallada) del primero, con más resultados de experimentos y una teoría más cuidadosamente presentada.
El primer artículo ni siquiera está referenciado por el segundo, que es otra pista de que el segundo documento no es en modo alguno una “continuación” del primero.