Sean Owen ya dio una respuesta fantástica. Permítanme agregar algunas diferencias más importantes.
- En el desarrollo industrial de ML, la usabilidad (UX) es un factor muy importante. No tanto en investigación académica. Esto es lo mismo que el software industrial general versus la comparación de software académico.
- El desarrollo industrial de ML tiende a enfocarse en implementar los algoritmos de vanguardia existentes y en tratar con problemas de diseño de software. Los desarrolladores generalmente no tienen un presupuesto de tiempo y no se les recomienda investigar un nuevo algoritmo de ML. Los investigadores académicos, por otro lado, necesitan trabajar en nuevas ideas para poder publicar.
- La investigación académica está impulsada por competencias o desafíos con conjuntos de datos fijos y típicamente limpios y con tareas fijas. En última instancia, la investigación necesita algunas métricas para considerarse exitosa. En realidad, los datos casi siempre evolucionan y generalmente necesitan limpieza. Incluso el esquema de datos puede cambiar con frecuencia. Por lo tanto, una gran parte del esfuerzo de desarrollo industrial de ML puede no estar en los algoritmos centrales de ML sino en el abastecimiento de datos, el formateo, la limpieza, la ingeniería de características, etc. Incluso los objetivos pueden evolucionar también. Por ejemplo, con los mismos datos recopilados, su objetivo puede cambiar de una clasificación simple y exclusiva a una clasificación multinivel o jerárquica.
- La investigación de ML es (casi) todo acerca de la precisión. La mayoría de los trabajos académicos mencionan solo precisión y ningún costo computacional. Esto se debe en parte a la cultura de competencias mencionada anteriormente. Incluso si un documento menciona el impresionante tiempo de entrenamiento / evaluación, lo que más importa es si es el de mejor desempeño en un escenario popular (por ejemplo, MNIST o ImageNet). Tenga en cuenta que esto no es típico en otras áreas de investigación. En el análisis numérico (mi experiencia anterior), por ejemplo, la precisión y el costo computacional siempre se informan juntos. En el trabajo industrial de ML, el rendimiento computacional es absolutamente crítico.
- Sobre la extensibilidad (ML). El desarrollo industrial de ML puede clasificarse en dos categorías: software genérico de ML para uso de las personas (por ejemplo, RapidMiner, Mahout, etc.) y software para desempeñarse realmente bien en tareas específicas de alto impacto (por ejemplo, búsqueda en la web, búsqueda de imágenes). La primera debe ser extensible (es decir, poder resolver múltiples tareas, con múltiples formatos de datos, de múltiples fuentes de datos, etc.), mucho más extensible que el software académico.
-
En realidad, hay muchas más diferencias, que me encantaría analizar si está interesado.