Muchas de las técnicas estándar se pueden paralelizar. Comenzaría con el descenso de gradiente o la maximización de expectativas, ya que son los más simples de implementar y probar. Si necesita el mejor rendimiento absoluto y está dispuesto a tolerar mucha complejidad, intente con L-BFGS.
1) Descenso de gradiente estocástico. Mapa: calcule el gradiente para un solo ejemplo de entrenamiento, Reducir: combine todas las actualizaciones de gradiente en un subconjunto de los parámetros.
2) Expectativa-Maximización. Mapa: calcule las expectativas para cada ejemplo de capacitación, Reduzca: expectativas promedio y restablezca los parámetros del modelo.
- Si, en el futuro, los robots / IA se vuelven comunes en los hogares, ¿cuál es el lenguaje de programación más probable en el que se escribirán?
- Cómo interpretar la trama de ACF
- ¿Por qué la necesidad de depuración aún no se ha resuelto después de tantos desarrollos en tecnología, informática, algoritmos y aprendizaje automático?
- ¿Qué tan difícil es el aprendizaje automático?
- ¿Se pueden usar las colecciones LETOR para una recuperación ad hoc?
3) L-BFGS: requiere calcular tanto el gradiente como una aproximación al hessiano; el hessiano aproximado debería ayudarlo a converger más rápido. La “L” es para memoria limitada, que es lo que hace que sea factible calcular una matriz de Hesse aproximada de NxN. El gradiente se puede calcular en paralelo. Pruebe este documento: http://ai.stanford.edu/~quocle/L….
Si está buscando optimizar el aprendizaje automático, este documento describe cómo paralelizar las técnicas de aprendizaje automático más comunes:
http://www.cs.stanford.edu/peopl…