¿Puede word2vec considerarse aprendizaje profundo?

Abhinav ya ha dado la respuesta general, solo quiero agregar un poco de perspectiva. Word2vec no puede considerarse aprendizaje profundo, pero ¿podría ser aprendizaje profundo?

Conocí a Tomas Mikolov hace varios meses en Moscú en un evento local relacionado con el aprendizaje automático y le hice muchas preguntas sobre arquitecturas profundas y su aplicación en PNL en particular. La mejor idea sobre el experimento relacionado con word2vec provino del resultado de que el modelo más simple dio los resultados más robustos e inesperadamente sensibles. Han probado muchas arquitecturas diferentes, desde la simple alimentación hacia adelante con pocas capas hasta modelos profundos computacionalmente pesados, y la que fue útil y factible fue la más simple.

No hace falta decir que estábamos sacudiendo nuestras cabezas tratando de comprender eso. Su conferencia “Una hoja de ruta hacia la inteligencia artificial” lo llevó aún más lejos, planteando las preguntas de si las arquitecturas aún más profundas son realmente la dirección correcta para avanzar.

Respuesta corta: no

El término “aprendizaje profundo” fue acuñado en 2006, y se refiere a algoritmos de aprendizaje automático que tienen múltiples capas no lineales y pueden aprender jerarquías de características.

En word2vec, no hay función de activación en la capa intermedia. Es solo la capa de proyección (consulte la imagen a continuación) . Eso significa que no se está introduciendo una no linealidad en la capa intermedia del modelo, y no hay múltiples capas de este tipo ( o es profunda ).
Por lo tanto, según la definición anterior en la primera oración, el modelo word2vec no es un modelo de aprendizaje profundo.

“Profundo” generalmente significa al menos varias capas de representación. Las redes de una o dos capas generalmente se denominan “poco profundas”. Por ejemplo, http://www.iis.ee.ic.ac.uk/~vbal … – este descriptor tiene incluso 3 capas de conv, pero todavía se llama “superficial”.
Word2vec tiene una capa. Por lo tanto, no es “profundo”.

PD “Aprendizaje profundo” es básicamente un cambio de marca para las redes neuronales, no un término científico estricto.

La red neuronal en word2vec es muy superficial, con solo una capa oculta como la que se muestra a continuación, que no se ajusta al aprendizaje “profundo”.

Representaciones vectoriales de palabras | TensorFlow

Sin embargo, dado que word2vec está en la red neuronal, puede ser profundo si agrega capas ocultas más profundas. Es necesario probar si la red neuronal más profunda en word2vec funciona como la actual.

Es parte del aprendizaje profundo si lo miramos de esta manera: por ejemplo, se usan radiografías simples para el tórax y el resultado es una sombra direccional como interpretación de las lesiones. Pronto se desarrollan CT, MRI que se transformaron rápidamente en imágenes 3D de las cuales se pueden extraer las lesiones como objetos. Del mismo modo, pensemos que ponemos texto grande de algún dominio (medicina) en un análisis 3D. El resultado sería interesante: si se usa la analogía de la palabra para la consulta “malaria quinina leucemia”, ¡entonces el tratamiento para la leucemia es el resultado!

No, es una red neuronal poco profunda de dos capas. Creo que se inventó explícitamente como un modelo superficial para demostrar que los resultados de dichos modelos podrían estar a la par con la inteligencia que muestran los modelos profundos.

Es aprendizaje de representación. A menudo queremos decir “aprendizaje de representación” cuando decimos “aprendizaje profundo”. El aprendizaje profundo es un subconjunto del aprendizaje de representación que se ocupa del aprendizaje de funciones jerárquicas.

No.

word2vec es una red neuronal de una sola capa oculta totalmente conectada. Por lo tanto, no puede considerarse aprendizaje profundo. Se considera ‘aprendizaje superficial’.

More Interesting

¿Cuál es la mejor técnica de aprendizaje automático para clasificar ~ 50,000 imágenes sin etiquetar (2-3% de ruido) en 3 clases diferentes?

¿Cuáles son algunas buenas ideas de proyectos o ejemplos para un proyecto de curso de Visión de Computadora basado en Aprendizaje Automático?

En un modelo gráfico dirigido, el aprendizaje es fácil pero la inferencia es difícil. ¿Es esto cierto?

¿Cómo realizo la selección de funciones?

¿Cuál es un buen lugar para comenzar a trabajar en el uso del aprendizaje automático para el modelado de riesgo de crédito?

¿Por qué los diseñadores o los PM deben aprender sobre el aprendizaje automático?

¿Cómo funciona Watson Personality Insights de IBM?

Cómo convencer a mi gerente de que conozco el aprendizaje automático

¿Cómo encontrar un mentor que me ayude a construir una carrera en visión por computadora y aprendizaje profundo como investigador o académico? ¿Cuál es el camino definitivo hacia este objetivo?

¿Qué es la precisión?

¿Qué te sorprendió después de ver algo relacionado con el aprendizaje automático, la IA, la PNL o la visión por computadora?

¿Qué tipo de problemas han funcionado bien con Bayesian Networks?

¿Cuáles son algunos temas de proyectos realmente interesantes para la investigación en informática como el reconocimiento de gestos a través de Kinect o el sexto sentido de Pranav Mistry?

¿Por qué no se debe hacer AI?

¿Con qué facilidad pueden los actuarios cambiar a carreras relacionadas con TI como la ciencia de datos, el aprendizaje automático y el desarrollo de software?