¿Es realista construir algoritmos de aprendizaje automático complejos a gran escala en la producción? (

La parte de su pregunta que es más interesante es ‘realista’. Diseccionando ese término, considero los siguientes criterios:

1. ¿Es técnicamente factible? – La respuesta es sí. Hay muchos estudios de caso publicados en la naturaleza que detallan la naturaleza tanto del caso de uso como de la solución. Personalmente desarrollé / implementé algoritmos centrados en los mercados de servicios financieros y de atención médica.

2. ¿Es asequible a escala? – Mover su plataforma de desarrollo de aprendizaje automático a la nube permite el uso elástico de nodos multinúcleo que admitirán el acceso a grandes conjuntos de datos (Hadoop / Spark) y la experimentación de aprendizaje automático. Solo paga por lo que usa y puede iterar rápidamente a través de la fase de I + D de su ‘aplicación’. En este escenario, no hay necesidad de un gran gasto de capital y poca necesidad de que los ingenieros construyan una plataforma.

Esto le proporciona un poco de reducción de riesgos. Considera esto: tu experimento puede fallar. Mover I + D a la nube reduce los costos reales y de oportunidad relacionados con un experimento fallido.

Investigue la nube de Azure, especialmente HD Insights, Azure ML y Azure Storage. Otros proveedores ofrecen soluciones similares en diversas infraestructuras de nube públicas / privadas.

El costo de colocar sus resultados en producción necesita ser cuidadosamente analizado. Consumirá almacenamiento, ciclos de cómputo y quizás uno o más espacios de trabajo de desarrollo que probablemente alquilará en la nube. Sin embargo, ahora es el momento de considerar si un enfoque CAPEX u OPEX tiene el mayor sentido económico.

El almacenamiento de un cómputo está directamente relacionado con el tamaño de los conjuntos de datos de aprendizaje / entrenamiento / prueba. Los ciclos de cálculo son directamente proporcionales a la técnica de aprendizaje utilizada y al estilo de algoritmo (s) de aprendizaje automático que haya elegido.

3. ¿Es repetible? ¿Cuáles son las implicaciones de DevOps ? Aquí es donde se vuelve un poco complicado. Podría decirse que hay muchos escenarios de aprendizaje automático donde el algoritmo de ‘caja negra’ que ha creado nunca debe dejar de aprender. Esto significa ejecutar el / los algoritmo (s) continuamente usando nuevos conjuntos de datos de entrenamiento / prueba y monitoreando continuamente el poder predictivo del algoritmo. También puede significar integrar ese poder predictivo con uno o más sistemas transaccionales para proporcionar una visión instantánea en el punto de interacción de usuario a máquina o de máquina a máquina. Su millaje variará aquí, pero esté preparado para pasar más tiempo / capital después de la fase de I + D.

4. ¿Hay un costo / beneficio positivo ? Claramente, esta es una pregunta objetiva con una respuesta que depende del punto 1-3 mencionado anteriormente y el rendimiento que espera ver de un experimento exitoso. Existen pocos estudios de caso / datos que detallan los costos de los experimentos fallidos. En el lado positivo, hay una serie de ejemplos que han proporcionado un costo / beneficio tangible en la detección de fraude / abuso / desperdicio, calificación de crédito, abandono / abandono y otras métricas comerciales clave.

Para resumir: solo es realista si comprende las implicaciones del viaje y está dispuesto a aceptar los costos a corto y largo plazo asociados con el éxito.