¿Por qué no es una práctica estándar publicar pesos de modelos entrenados junto con el código fuente para trabajos de investigación de aprendizaje profundo?

Principalmente, los investigadores académicos no están interesados ​​en los modelos mismos. Están interesados ​​en los algoritmos utilizados para obtener los modelos, ya que estos podrían usarse para otros dominios. Es un poco como proporcionar un libro de cocina en lugar de proporcionar comidas preparadas. Están más interesados ​​en el proceso, no en el resultado.

A los investigadores de la industria, por otro lado, no les importa compartir el código de algunos de sus algoritmos, pero guardan sus modelos para sí mismos, ya que estos modelos fueron entrenados en una gran cantidad de datos que podrían no estar disponibles públicamente. Este es el caso de la sintaxis de Google, por ejemplo: proporcionan un modelo simple de forma gratuita, pero este no es el modelo que usan ellos mismos. Sin embargo, si tiene una gran cantidad de texto anotado, nada le impedirá crear su propio modelo …

Entonces, dependiendo del tipo de investigador: porque eso no es lo que les interesa, o porque es donde reside su propiedad intelectual.

En realidad, a menudo lo hacen. Google “modelo de zoológico”, por ejemplo.

O bien, consulte el kit de herramientas de traducción del lenguaje natural de Facebook, publicado con modelos previamente capacitados: facebookresearch / fairseq.

O echa un vistazo al análisis de sentimientos de OpenAI, que también viene con un modelo: neurona de sentimientos no supervisada.

More Interesting

¿Qué hacen los ingenieros de aprendizaje automático diariamente?

¿Las computadoras son ahora jugadores de póker más fuertes que los humanos?

¿Existe una buena herramienta de aprendizaje de idiomas?

¿Cuál es una buena manera de entender la maldición de la alta dimensión en el aprendizaje automático?

¿Cuáles son los mejores algoritmos para el conjunto de datos de preservación de la privacidad?

¿Importa el número de imágenes para cada categoría mientras se entrena para una red neuronal convolucional?

¿Cuál es la diferencia entre un sistema recomendado basado en la utilidad del sistema y un sistema recomendado basado en el contenido del sistema?

¿Cuáles son las tendencias recientes en ML e IA?

En el procesamiento del lenguaje natural para realizar análisis semántico, ¿es útil y necesario generar un árbol de análisis?

¿Cómo debería abordar el problema de segmentar el césped de una imagen?

Cómo implementar el aprendizaje sensible al costo en TensorFlow para penalizar la clasificación errónea en clases minoritarias (los datos tienen un problema de desequilibrio de clase)

Como dicen, cada función posible se puede modelar con una percepción de 2 capas, en teoría, ¿se puede modelar una función del universo en una red neuronal con 2 o 3 capas de profundidad?

¿Cómo se usa SVM y cómo se implementa mejor?

¿El desarrollo teórico en el aprendizaje automático está llegando a un punto muerto (significa que no habrá necesidad de continuar)?

¿Mi reproductor de caja de ritmo aprendió qué canción tocar a continuación?