¿Podemos utilizar el algoritmo de Clasificación colectiva iterativa (ICA) de forma distributiva para procesar grandes datos?

Cuando tienes un martillo todo es clavo. 🙂 {No trate de pensar en Algoritmos distribuidos para la técnica Ir a todos sus problemas; solía hacer esto y no ayudó en la mayoría de los casos}

Las computadoras portátiles en estos días son bastante poderosas para hacer cosas de ML fuera de la caja. Si tiene un buen procesador y RAM, debería estar bien.

Como hay subjetividad con respecto a lo que uno considera “Grande”, miraría los siguientes enfoques:

  1. Pruebe modelos más simples : no subestime el poder de la regresión. Pagar 3ra solución ganadora para el desafío de respuesta a preguntas AI2
  2. Pruebe características más simples: agregar más funciones no siempre produce mejores modelos. La reducción de la dimensionalidad puede ayudar a mejorar el rendimiento de su modelo y acelerar el tiempo de entrenamiento. Una introducción a la selección de características es una buena publicación de blog que ofrece más sugerencias sobre este tema
  3. Pruebe Bigger Machine: en estos días puede alquilar un servidor de gama alta de AWS o Google a precios bastante asequibles. Tomaría una máquina con mayor RAM y recuento de núcleos y vería si mejora los tiempos de entrenamiento y el rendimiento del modelo
  4. Probar implementaciones nativas: generalmente trabajo con Python, si llego a un muro con respecto al entrenamiento / reentrenamiento miro las implementaciones nativas de algoritmos en C / C ++
  5. Pruebe las GPU: una vez más, este es un punto secundario del n. ° 3, pero solo para decirlo aquí. La aceleración de NumPy GPU es una referencia que puede ayudar a los usuarios de NumPy {que es una biblioteca popular en la comunidad de Python Scientific Computing}

Si todo lo anterior falla, siga adelante y use la Computación Distribuida.