¿Son los algoritmos de big data de caja negra una instancia de historia que se repite? ¿Qué está haciendo la comunidad de código abierto para crear algoritmos de big data transparentes y precisos?

La comparación con código abierto frente a código cerrado suena muy interesante, pero el contexto es muy diferente en los algoritmos de big data / machine learning.

En el contexto del desarrollo de software, el paradigma de código cerrado tiene como objetivo mantener la información para sí misma solo como una forma de proteger su existencia entre la competencia comercial. El paradigma de código abierto desafió esto jugando con todas las cartas abiertas. OSS fomenta la modificación y la redistribución, ya que cree que la calidad solo se puede mejorar cuando la comunidad la examina.

En el mundo del aprendizaje automático, los investigadores siempre quieren resultados interpretables. Solo entonces, pueden optimizar y mejorar aún más la solución. Actualmente, los algoritmos que se están desarrollando realizan varias transformaciones no lineales en los datos, lo que hace que sea extremadamente difícil o en algún momento imposible interpretar los resultados. Los algoritmos como los árboles de decisión mantienen todo interpretable, y es por eso que son populares incluso en el mundo de las aplicaciones de atención médica. Todos los algoritmos modernos de aprendizaje automático / aprendizaje profundo tienen la interpretabilidad como uno de los problemas principales. Muchos investigadores están trabajando en cuántos hacen que los modelos sean manejables e interpretables.

A partir de hoy, su miedo a que la historia se repita es innecesario. Pero su preocupación es genuina y existe la posibilidad potencial de que las fuerzas comerciales desarrollen solo algoritmos de caja negra para que ninguna competencia pueda replicar la caja negra fácilmente.

AlgoritmosBig Data