¿Cómo se escala la aplicación de aprendizaje automático?

Utilizan diversas técnicas en big data y computación distribuida. Por ejemplo, consulte SparkML o Apache Heron. Además, herramientas como TensorFlow están diseñadas con la mentalidad de ejecutarse en múltiples GPU y centros de datos.

Algunos ejemplos de tales marcos / paradigmas son:

  • Google MapReduce
  • Chispa – chispear
  • Google Cloud BigTable
  • GraphLab
  • VFML (Aprendizaje automático muy rápido)
  • Apache SystemML

Por lo que he leído en algunos artículos, estos algoritmos se ejecutan de forma incremental, lo que significa que con la llegada de un nuevo usuario a la red social, no se ejecutará todo desde cero. También hay una gran cantidad de muestras en el fondo y muchas de ellas dependen de la estimación y la aproximación, especialmente si se ejecuta en una red social donde la precisión de la sugerencia de amigos no importa tanto como una transacción en Amazon.

A continuación se puede ver un DAG de tubería para la clasificación de imágenes:

Procesamiento de flujo en tiempo real usando Apache Heron Heron

SparkML: Guía de programación de Spark ML

Curso EDX sobre aprendizaje automático distribuido con Spark Aprendizaje automático distribuido con Apache Spark

Además, puede encontrar el papel de Unicornio interesante http://db.disi.unitn.eu/pages/VL…

Aprendizaje automático de gran escala de extremo a extremo con KeystoneML

http://www.cs.nthu.edu.tw/~shwu/…

^ “Muchas de las ideas presentadas en esta tesis ya han tenido un impacto práctico como se plasma en los paquetes de software de código abierto KeystoneML y Apache Spark MLlib “.

Si está buscando un tutorial para comenzar a usar Spark + TensorFlow, este es uno bueno: Aprendizaje profundo con Apache Spark y TensorFlow

puede ajustar su modelo a su conjunto de datos (millones de usuarios) utilizando algunas técnicas y marcos de big data, por ejemplo, puede usar “hadoop”, crear clusters, ejecutar trabajos …

y para ampliar su algoritmo de aprendizaje automático, primero use tecnologías de big data, distribuya su conjunto de datos en clústeres, asegúrese de que su algoritmo esté en paralelo, ejecútelo en sus clústeres. y repita estos procesos, así que en cada fase agregue un nuevo clúster y ejecute su algoritmo. evalúe sus resultados en la fase de dolor (..)

* En el mundo real, eso es lo que sucedió con Facebook, Amazon,… más datos, más clusters, más capacitación y evaluación.

La capacitación es la parte difícil, pero una vez que se realiza la capacitación, el modelo se puede ejecutar con relativa rapidez. Solo tiene que entrenar un modelo que pueda aplicarse a sus datos. Algo así como cómo lleva mucho tiempo aprender una nueva habilidad, pero luego es fácil de hacer una vez que la aprendiste.