¿Cómo se mejora y mejora la técnica de aprendizaje automático mientras nadie sabe exactamente cómo funciona?

El conocimiento de lo interno puede significar dos cosas:

a) ¿Qué significa el parámetro 57 en la inclusión de palabras de “burro”?

b) ¿Qué estamos tratando de entrenar? ¿Cuál es nuestra función de costo? ¿Cuál es nuestro algoritmo de optimización?

En el caso b) sabemos todas estas cosas. Sabemos que estamos tratando de predecir la palabra entorno. Estamos utilizando el modelo más simple posible para eso. El objetivo es la probabilidad logarítmica de la predicción. La optimización es el descenso de gradiente estocástico.

También puedes encontrar las mejoras. Por ejemplo, puedes ver que softmax en la predicción es demasiado grande. Entonces, el matemático propuso una estimación de contraste de ruido, que es mucho más rápido.

En ML, las personas generalmente tienen cierta intuición de lo que está sucediendo. Y en base a eso, proponen una versión mejorada de los modelos ML. Algunas veces funcionan y otras no.

No creo que su suposición de que “nadie sepa realmente cómo funciona internamente [word2vec]” es correcta. Estoy seguro de que los autores originales tenían una fuerte intuición de lo que querían lograr, entienden su propia implementación con mucho detalle, y hay mucha documentación y literatura y varias reimplementaciones del código original (que también es de código abierto) , por lo que los límites de la comprensión están dados principalmente por los límites de la voluntad de investigar el tiempo y el esfuerzo para profundizar en los detalles. Es cierto que muchos usuarios toman la implementación existente como dada, como cajas negras, y se centran en construir algo encima de ella. Diría que esto es perfectamente legítimo, dado que word2vec proporciona una funcionalidad bastante útil y una implementación escalable, por lo que las posibilidades de mejorarlo en lo que está haciendo son limitadas, a menos que esté dispuesto a invertir un esfuerzo serio. Por supuesto, si desea generalizar la funcionalidad a diferentes tipos de datos (por ejemplo, incrustaciones de palabras multilingües en muchos idiomas), es útil comprender tanto como sea posible sobre el funcionamiento interno.

More Interesting

En cuanto al aprendizaje automático o el aprendizaje profundo, ¿existe el fenómeno de que el modelo funciona bien pero el diseñador no puede explicar la razón?

¿Cuál es la diferencia entre 'Inferencia' y 'Estimación del modelo' en los documentos de LA?

Deseo obtener un doctorado en Ciencias de la Computación de la India y no de ninguna universidad de los Estados Unidos. ¿Será esta una buena decisión?

En Python, ¿cómo puedo probar y asegurarme de que mi modelo predice datos correctamente? (principiante preguntando)

¿Se pueden resolver todos los problemas de aprendizaje automático mediante redes neuronales?

Mientras entrena una red profunda, una vez que la precisión del entrenamiento alcanza el 100%, ¿hay algún punto en entrenar la red durante más épocas?

¿Cuáles son las opiniones de Yoshua Bengio sobre Kaggle y el aprendizaje automático competitivo en general?

¿Dónde caen los sistemas de recomendación en los enfoques de aprendizaje automático?

¿Qué enfoque debo tomar para manejar los datos de desequilibrio para crear un modelo de aprendizaje automático?

¿Hay algún artículo que justifique la normalización de los valores de los elementos en los sistemas de recomendación?

¿Qué es incrustar | espacio incrustado | ¿Incorporación de características en arquitecturas neurales profundas?

¿Cuándo es preferible usar árboles de regresión en el aprendizaje automático?

Cómo entrenar clasificador lineal paso a paso con Caffe, utilizando las respuestas de la última capa completamente conectada del modelo AlexNet como características

¿Cuál es la diferencia entre tensorflow y CVX?

¿Hay alguna anomalía inexplicable en la codificación de la computadora que pueda sugerir que las máquinas tienen alma?