¿Compartir solo los algoritmos de aprendizaje automático (Modelos) puede considerarse como democratizador del aprendizaje automático?

El intercambio de datos es integral para el desarrollo eficiente (y el avance) de cualquier área de investigación, incluido el aprendizaje coincidente.

Uno puede compartir sus modelos, pero sin los datos sobre los que operan, otras personas no pueden verificar las afirmaciones que se hicieron sobre esos modelos (con respecto al conjunto de datos original, que es, por definición, a lo que se aplican las reclamaciones) , ni identificar si se podrían realizar mejoras.

Esto no es diferente de lo que sucede en otros campos. La unidad estándar dentro de las ciencias naturales y sociales es el artículo de la revista, una pieza que describe los pasos tomados para medir y caracterizar el proceso que le concierne, pero que generalmente no incluye los datos en sí (ya que estos son propietarios, por laboratorio). ) Como resultado, la identificación de errores ha sido lenta (donde ha ocurrido), y la identificación de posibles mejoras ha requerido que otros laboratorios salgan, encuentren fondos para recopilar datos similares (que se vuelven más difíciles que los fondos públicos para la ciencia se ha reducido), y luego analizarlo ellos mismos. Tener conjuntos de datos independientes de múltiples grupos es importante para la replicación conceptual, pero representa una barrera muy alta para ingresar al campo, y esto probablemente ha tenido consecuencias negativas que superan los beneficios de la variabilidad conceptual (en la medida en que la variabilidad conceptual podría estar garantizada por otros significa también).

Sin embargo, las prácticas de intercambio de datos están cambiando, con un mayor énfasis en los conjuntos de datos abiertos, en particular de los centros de investigación con fondos privados (por ejemplo, el Instituto Allen). Los grupos de investigación de ML deberían prestar atención a esto. Aunque sus barreras son diferentes (los datos son propietarios debido a su valor comercial, en lugar de la escasez de fondos gubernamentales con los que recaudarlos), el concepto subyacente es el mismo, y cualquier persona interesada en avanzar en el campo en su conjunto (en lugar de su aplicación a los fines de una empresa específica) debería trabajar para avanzar en el intercambio de datos, así como de modelos.

No en lo que a mí respecta. Es como si compartiera código con alguien pero solo le proporcionara los bytes sin formato del código en lugar del código que se puede ejecutar directamente en mi computadora. En el aprendizaje automático, los datos y el proceso mediante el cual obtuvo un modelo entrenado que funciona para su caso de uso es mucho más importante que solo el modelo / algoritmo no entrenado solo.

Por supuesto, compartir datos es difícil porque a menudo es privado o personal. Dicho esto, en realidad solo las filas de datos tienen la información propietaria. Entonces, compartir solo un vistazo (es decir, 1 fila) de los datos y / o el formato general de los datos (es decir, 3 flotantes y 1 cadena) sy los metadatos a su alrededor (como cuántos ejemplos se compartieron) es una forma de transmitir sobre qué datos se entrenó el modelo.

Dado que los datos y el modelo no cuentan la historia completa, también es importante realizar un seguimiento de cómo el modelo alcanzó su rendimiento actual. Mantener un diario o una nota de los métodos probados es fundamental cuando desea compartir sus modelos, ya que eso es una gran parte de lo que ayuda a la siguiente persona a comenzar donde terminó y no duplicar los mismos errores que pudo haber cometido antes. Por ejemplo, cuando pruebe varios hiperparámetros y configuraciones, querrá tener en cuenta no solo el rendimiento de cada permutación, sino también cualquier nota de tendencias u observaciones que haya realizado.

Una vez que ha compartido los datos, el modelo, las permutaciones de configuración y sus observaciones durante ese proceso, entonces ha permitido a otros replicar, reproducir y construir sobre su trabajo y el aprendizaje automático verdaderamente democratizado.

Si y no. Por un lado, los datos definitivamente ayudarían, pero eso tiende a ser la salsa secreta de la compañía, por lo que es comprensible que sean reacios a compartir. Los algoritmos en sí mismos son probablemente más importantes si solo tuviéramos que elegir uno.

Si. El algoritmo controla la salida cuando los datos se introducen en cualquier sistema.