¿Cómo se mejora y mejora la técnica de aprendizaje automático mientras nadie sabe exactamente cómo funciona?

El conocimiento de lo interno puede significar dos cosas:

a) ¿Qué significa el parámetro 57 en la inclusión de palabras de “burro”?

b) ¿Qué estamos tratando de entrenar? ¿Cuál es nuestra función de costo? ¿Cuál es nuestro algoritmo de optimización?

¿La IA tradicional se está volviendo obsoleta a la luz del progreso en el aprendizaje profundo?
Cómo comenzar con la visión por computadora
¿Qué recursos sobre modelos gráficos se recomiendan para los estudiantes de aprendizaje automático que desean ingresar al campo?
¿Cuáles son las unidades de análisis utilizadas en el reconocimiento de voz automático?
¿El rendimiento de la regresión logística se ve afectado negativamente por características altamente correlacionadas?

En el caso b) sabemos todas estas cosas. Sabemos que estamos tratando de predecir la palabra entorno. Estamos utilizando el modelo más simple posible para eso. El objetivo es la probabilidad logarítmica de la predicción. La optimización es el descenso de gradiente estocástico.

También puedes encontrar las mejoras. Por ejemplo, puedes ver que softmax en la predicción es demasiado grande. Entonces, el matemático propuso una estimación de contraste de ruido, que es mucho más rápido.

En ML, las personas generalmente tienen cierta intuición de lo que está sucediendo. Y en base a eso, proponen una versión mejorada de los modelos ML. Algunas veces funcionan y otras no.

Aprendizaje automáticoCiencias de la computaciónClasificaciónInteligencia ArtificialMinería de datos

¿Por qué es mejor usar la función Softmax que la función sigmoidea?

¿Por qué podría ser preferible incluir menos predictores sobre muchos?

¿Qué significa realmente la matriz de covarianza de la estimación de máxima verosimilitud de la distribución normal multivariante?

¿Cuál es el mejor marco de recomendación para mi primer sistema de recomendación?

Cómo obtener la etiqueta del tema que modela la salida LDA

¿Es posible beneficiarse de la inteligencia artificial?

No creo que su suposición de que “nadie sepa realmente cómo funciona internamente [word2vec]” es correcta. Estoy seguro de que los autores originales tenían una fuerte intuición de lo que querían lograr, entienden su propia implementación con mucho detalle, y hay mucha documentación y literatura y varias reimplementaciones del código original (que también es de código abierto) , por lo que los límites de la comprensión están dados principalmente por los límites de la voluntad de investigar el tiempo y el esfuerzo para profundizar en los detalles. Es cierto que muchos usuarios toman la implementación existente como dada, como cajas negras, y se centran en construir algo encima de ella. Diría que esto es perfectamente legítimo, dado que word2vec proporciona una funcionalidad bastante útil y una implementación escalable, por lo que las posibilidades de mejorarlo en lo que está haciendo son limitadas, a menos que esté dispuesto a invertir un esfuerzo serio. Por supuesto, si desea generalizar la funcionalidad a diferentes tipos de datos (por ejemplo, incrustaciones de palabras multilingües en muchos idiomas), es útil comprender tanto como sea posible sobre el funcionamiento interno.

Andreas Eisele

More Interesting

En cuanto al aprendizaje automático o el aprendizaje profundo, ¿existe el fenómeno de que el modelo funciona bien pero el diseñador no puede explicar la razón?

¿Cuál es la diferencia entre 'Inferencia' y 'Estimación del modelo' en los documentos de LA?

Deseo obtener un doctorado en Ciencias de la Computación de la India y no de ninguna universidad de los Estados Unidos. ¿Será esta una buena decisión?

En Python, ¿cómo puedo probar y asegurarme de que mi modelo predice datos correctamente? (principiante preguntando)

¿Se pueden resolver todos los problemas de aprendizaje automático mediante redes neuronales?

Mientras entrena una red profunda, una vez que la precisión del entrenamiento alcanza el 100%, ¿hay algún punto en entrenar la red durante más épocas?

¿Cuáles son las opiniones de Yoshua Bengio sobre Kaggle y el aprendizaje automático competitivo en general?

¿Dónde caen los sistemas de recomendación en los enfoques de aprendizaje automático?

¿Qué enfoque debo tomar para manejar los datos de desequilibrio para crear un modelo de aprendizaje automático?

¿Hay algún artículo que justifique la normalización de los valores de los elementos en los sistemas de recomendación?