¿Compartir solo los algoritmos de aprendizaje automático (Modelos) puede considerarse como democratizador del aprendizaje automático?

El intercambio de datos es integral para el desarrollo eficiente (y el avance) de cualquier área de investigación, incluido el aprendizaje coincidente.

Uno puede compartir sus modelos, pero sin los datos sobre los que operan, otras personas no pueden verificar las afirmaciones que se hicieron sobre esos modelos (con respecto al conjunto de datos original, que es, por definición, a lo que se aplican las reclamaciones) , ni identificar si se podrían realizar mejoras.

Esto no es diferente de lo que sucede en otros campos. La unidad estándar dentro de las ciencias naturales y sociales es el artículo de la revista, una pieza que describe los pasos tomados para medir y caracterizar el proceso que le concierne, pero que generalmente no incluye los datos en sí (ya que estos son propietarios, por laboratorio). ) Como resultado, la identificación de errores ha sido lenta (donde ha ocurrido), y la identificación de posibles mejoras ha requerido que otros laboratorios salgan, encuentren fondos para recopilar datos similares (que se vuelven más difíciles que los fondos públicos para la ciencia se ha reducido), y luego analizarlo ellos mismos. Tener conjuntos de datos independientes de múltiples grupos es importante para la replicación conceptual, pero representa una barrera muy alta para ingresar al campo, y esto probablemente ha tenido consecuencias negativas que superan los beneficios de la variabilidad conceptual (en la medida en que la variabilidad conceptual podría estar garantizada por otros significa también).

Sin embargo, las prácticas de intercambio de datos están cambiando, con un mayor énfasis en los conjuntos de datos abiertos, en particular de los centros de investigación con fondos privados (por ejemplo, el Instituto Allen). Los grupos de investigación de ML deberían prestar atención a esto. Aunque sus barreras son diferentes (los datos son propietarios debido a su valor comercial, en lugar de la escasez de fondos gubernamentales con los que recaudarlos), el concepto subyacente es el mismo, y cualquier persona interesada en avanzar en el campo en su conjunto (en lugar de su aplicación a los fines de una empresa específica) debería trabajar para avanzar en el intercambio de datos, así como de modelos.

Aprendizaje automáticoinformáticaInteligencia Artificial

¿Por qué quieres iniciar una empresa relacionada con la IA?

¿Cuál es la intuición detrás de las expectativas en el aprendizaje automático?

¿Cuál resultará ser el fenómeno más estable en el universo, el aumento de la entropía o el aumento de la inteligencia?

¿Por qué la minimización de la divergencia de KL ayuda en la convergencia de algoritmos de aprendizaje automático?

¿Dónde está el mejor lugar para comenzar a investigar el aprendizaje automático en inteligencia artificial?

¿Google Neural Machine Translation tendrá una precisión del 95% de un nivel humano para finales de 2017?

No en lo que a mí respecta. Es como si compartiera código con alguien pero solo le proporcionara los bytes sin formato del código en lugar del código que se puede ejecutar directamente en mi computadora. En el aprendizaje automático, los datos y el proceso mediante el cual obtuvo un modelo entrenado que funciona para su caso de uso es mucho más importante que solo el modelo / algoritmo no entrenado solo.

Por supuesto, compartir datos es difícil porque a menudo es privado o personal. Dicho esto, en realidad solo las filas de datos tienen la información propietaria. Entonces, compartir solo un vistazo (es decir, 1 fila) de los datos y / o el formato general de los datos (es decir, 3 flotantes y 1 cadena) sy los metadatos a su alrededor (como cuántos ejemplos se compartieron) es una forma de transmitir sobre qué datos se entrenó el modelo.

Dado que los datos y el modelo no cuentan la historia completa, también es importante realizar un seguimiento de cómo el modelo alcanzó su rendimiento actual. Mantener un diario o una nota de los métodos probados es fundamental cuando desea compartir sus modelos, ya que eso es una gran parte de lo que ayuda a la siguiente persona a comenzar donde terminó y no duplicar los mismos errores que pudo haber cometido antes. Por ejemplo, cuando pruebe varios hiperparámetros y configuraciones, querrá tener en cuenta no solo el rendimiento de cada permutación, sino también cualquier nota de tendencias u observaciones que haya realizado.

Una vez que ha compartido los datos, el modelo, las permutaciones de configuración y sus observaciones durante ese proceso, entonces ha permitido a otros replicar, reproducir y construir sobre su trabajo y el aprendizaje automático verdaderamente democratizado.

Elizabeth Clark-Polner

Si y no. Por un lado, los datos definitivamente ayudarían, pero eso tiende a ser la salsa secreta de la compañía, por lo que es comprensible que sean reacios a compartir. Los algoritmos en sí mismos son probablemente más importantes si solo tuviéramos que elegir uno.

Elizabeth Clark-Polner

Si. El algoritmo controla la salida cuando los datos se introducen en cualquier sistema.

Elizabeth Clark-Polner

More Interesting

¿Cuál es el filtro de Kalman intuición?

¿Por qué necesitamos IA en absoluto? ¿Por qué es necesario su inicio?

¿Es ético crear inteligencia artificial que pueda tener sentimientos?

Richard Muller: ¿Crees que el nacimiento de la verdadera IA es el principio del fin de la humanidad?

¿Podría una IA creadora de arte beneficiarse de apuntar una cámara a su propio monitor para ver realmente su trabajo en progreso?

¿Cuál es una instancia de la relación entre la visión por computadora (es decir, OpenCV) y el aprendizaje automático?

¿Cuáles son los aspectos más destacados de los avances del aprendizaje profundo en 2013?

Tengo 37 años (MSc.SoftwareEng y experiencia -gestión de proyectos de software) con un gran interés en la academia y la IA. ¿Es prudente obtener un doctorado? en IA / robótica?