No se puede decir que las bibliotecas de Machine Learning funcionen bien en un entorno distribuido porque se ejecutan en Java o en cualquier otra tecnología, se puede decir que funcionan bien porque fueron diseñadas teniendo en cuenta la distribución y el rendimiento.
Eso significa que varias tareas se pueden separar y ejecutar en paralelo sin generar “conflictos” en la modificación de los datos compartidos (concepto de seguridad de subprocesos).
En cuanto a los ejemplos, la biblioteca Spark ML es la primera que viene a la mente. El conjunto de datos distribuidos resilientes de Spark es la estructura de datos básica y le permite concentrarse en su tarea de ML en lugar de pensar en la implementación de bajo nivel de la distribución de tareas. Para probar mi primer punto, Spark se puede usar en Scala, Java y Python, por lo que el lenguaje que está usando no tiene nada que ver con el rendimiento.
- Cómo obtener un codificador automático de ruido para aprender una representación demasiado completa
- ¿Qué puede hacer el aprendizaje automático además de la clasificación? ¿Hay más?
- ¿Cómo se ha desviado Grok Solutions de la visión de Numenta?
- ¿Cuáles son los algoritmos actuales de última generación para la detección de objetos en 2017?
- ¿Cuál es el beneficio de usar métodos de detección de comunidad gráfica sobre los enfoques de agrupación de datos y aprendizaje automático?