¿En qué se diferencia el desarrollo de software de aprendizaje automático industrial orientado a productos de la investigación académica de aprendizaje automático o el desarrollo de prototipos de investigación industrial?

Sean Owen ya dio una respuesta fantástica. Permítanme agregar algunas diferencias más importantes.

  1. En el desarrollo industrial de ML, la usabilidad (UX) es un factor muy importante. No tanto en investigación académica. Esto es lo mismo que el software industrial general versus la comparación de software académico.
  2. El desarrollo industrial de ML tiende a enfocarse en implementar los algoritmos de vanguardia existentes y en tratar con problemas de diseño de software. Los desarrolladores generalmente no tienen un presupuesto de tiempo y no se les recomienda investigar un nuevo algoritmo de ML. Los investigadores académicos, por otro lado, necesitan trabajar en nuevas ideas para poder publicar.
  3. La investigación académica está impulsada por competencias o desafíos con conjuntos de datos fijos y típicamente limpios y con tareas fijas. En última instancia, la investigación necesita algunas métricas para considerarse exitosa. En realidad, los datos casi siempre evolucionan y generalmente necesitan limpieza. Incluso el esquema de datos puede cambiar con frecuencia. Por lo tanto, una gran parte del esfuerzo de desarrollo industrial de ML puede no estar en los algoritmos centrales de ML sino en el abastecimiento de datos, el formateo, la limpieza, la ingeniería de características, etc. Incluso los objetivos pueden evolucionar también. Por ejemplo, con los mismos datos recopilados, su objetivo puede cambiar de una clasificación simple y exclusiva a una clasificación multinivel o jerárquica.
  4. La investigación de ML es (casi) todo acerca de la precisión. La mayoría de los trabajos académicos mencionan solo precisión y ningún costo computacional. Esto se debe en parte a la cultura de competencias mencionada anteriormente. Incluso si un documento menciona el impresionante tiempo de entrenamiento / evaluación, lo que más importa es si es el de mejor desempeño en un escenario popular (por ejemplo, MNIST o ImageNet). Tenga en cuenta que esto no es típico en otras áreas de investigación. En el análisis numérico (mi experiencia anterior), por ejemplo, la precisión y el costo computacional siempre se informan juntos. En el trabajo industrial de ML, el rendimiento computacional es absolutamente crítico.
  5. Sobre la extensibilidad (ML). El desarrollo industrial de ML puede clasificarse en dos categorías: software genérico de ML para uso de las personas (por ejemplo, RapidMiner, Mahout, etc.) y software para desempeñarse realmente bien en tareas específicas de alto impacto (por ejemplo, búsqueda en la web, búsqueda de imágenes). La primera debe ser extensible (es decir, poder resolver múltiples tareas, con múltiples formatos de datos, de múltiples fuentes de datos, etc.), mucho más extensible que el software académico.

  6. En realidad, hay muchas más diferencias, que me encantaría analizar si está interesado.

Las cosas que son diferentes y más difíciles en las aplicaciones del mundo real son la integración y la escala. Las cosas que son menos problemáticas son la precisión y la generalidad.

La investigación académica realmente no aborda cómo se almacenan, ingieren y generan los datos. En realidad, esto suele ser la parte difícil. Cuando la academia produce código, generalmente está en R, Matlab o un borrador en un lenguaje de sistemas. Estos no son adecuados para uso directo en la mayoría de los entornos de producción modernos.

La escala también es difícil. Los trabajos académicos tienden a centrarse en la precisión, en lugar del rendimiento, y donde se centran en el rendimiento, es en el rendimiento de toda la fase de construcción del modelo. En el mundo real, a menudo le preocupa la latencia: ¿qué tan rápido puedo actualizar con nuevos datos y obtener una respuesta a una nueva pregunta?

Lo que es menos difícil en el mundo real es la precisión. Por lo general, es cierto que una configuración de aprendizaje “buena” le proporciona motivos del valor que obtendrá el óptimo. Netflix aún habría sido una buena compañía sin toda la investigación que se hizo para hacer que sus predicciones fueran un 10% mejores, por ejemplo. Entonces: no necesita usar el algoritmo más complejo y más reciente. Rápido, robusto y extensible es mejor.

Si está hablando de desarrollar un sistema de aprendizaje automático para un producto, en lugar de crear un producto a partir del aprendizaje automático, entonces creo que la generalidad es un problema más fácil en el mundo real. No tiene que crear un sistema que resuelva una clase completa de problemas y pueda hacer suposiciones e inyectar conocimiento de dominio específico para su problema.

(Eso no es cierto si está tratando de hacer un producto de aprendizaje automático; entonces todavía tiene el problema de intentar hacer una solución para muchos problemas, lo cual es difícil).

Una forma de agregar a las excelentes respuestas ya enviadas es enfocarse en las diferentes motivaciones de los dos entornos. En la academia, la investigación se centra en el avance de la ciencia, y los individuos están motivados por el reconocimiento de su contribución personal. En cualquiera de los entornos industriales más tóxicos, el desarrollo se centra en la tecnología que satisface los requisitos de un cliente, y los individuos son recompensados ​​por la contribución al equipo. La mayoría de los clientes no quieren la vanguardia de la ciencia; desean una satisfacción confiable y eficiente de sus propios requisitos comerciales. Estas diferencias pueden llevar a cierta frustración ya que los graduados recién formados se encuentran optimizando el trabajo de otra persona en lugar de realizar su investigación personal.

More Interesting

¿Cuál es el mejor beneficio de ser bueno en el lenguaje de programación Java para un científico de datos?

¿Dónde puedo encontrar datos para construir un modelo de prepago de hipoteca usando conceptos de ciencia de datos?

¿Por qué se usa la regresión logística con tanta frecuencia en la ciencia de datos?

¿Cuáles son las aplicaciones de big data y Hadoop en educación?

¿Los científicos de datos suelen utilizar el análisis discriminante lineal? ¿Por qué o por qué no?

Elijo entre maestros en ciencias de datos en King's College London o maestros en línea de Berkeley. ¿Cuál recomendarías?

¿Cuáles son las diferencias entre Data Science y Data Mining, son las mismas?

¿Cuál es el trabajo que hacen los científicos de datos?

¿Hay alguna organización / empresa que trabaje en big data y análisis de datos en o alrededor de Pune?

Al usar una muestra para análisis estadístico, ¿cómo puedo asegurarme de que sea suficiente?

¿Alguien ha pasado por Springboard y Udacity analista de datos / programas de ciencia? Estoy buscando garantías de empleo e información de contenido educativo.

Econometría: ¿Cuáles son algunas iniciativas de aprendizaje automático sobre datos económicos?

Estoy interesado en el aseguramiento de la calidad del software. Necesito entrar en el análisis de big data. ¿Cuáles son los cursos y certificaciones que necesito tomar?

¿Qué es la ciencia de datos? Estoy interesado en los conceptos de minería de datos ¿Alguien podría sugerir por dónde empezar?

¿Qué es más exigente hoy en día, el análisis de datos o la ciencia de datos?