Creo que sería interesante si Mahout pudiera implementar más algoritmos secuenciales (como la regresión logística SGD de Ted, por ejemplo).
AFAIK las implementaciones de KMeans y PCA / SVD actualmente disponibles en Mahout son solo por lotes (escalables usando hadoop en muchas máquinas).
Los KMeans, PCA y codificadores automáticos secuenciales de última generación (con un regularizador inductor de escasez entrenado con SGD) abrirían muchas posibilidades interesantes para el procesamiento de transmisión en vivo (sin hadoop pero combinado con marcos en línea como S4, por ejemplo).
- ¿Son 2 horas de entrenamiento de rompecabezas de algoritmos por día durante un año suficiente para prepararse para la entrevista de Google?
- ¿Cómo se puede hacer un sistema como Google AdWords y AdSense?
- ¿Cuándo debería mirar la solución de algún problema algorítmico?
- ¿Qué puedo aprender ahora en solo 10 minutos que podría mejorar mi pensamiento algorítmico?
- ¿Cuáles son las ventajas de desarrollar algoritmos de PNL frente al uso de API?
Ah, y escasa codificación con el aprendizaje del diccionario en línea mientras lo hacemos, vea:
http://www.di.ens.fr/willow/pdfs…
http://www.jmlr.org/papers/volum…
Hadoop es excelente, pero la escalabilidad de una sola máquina también es agradable 🙂