Hay dos alternativas que no se han discutido hasta ahora en las otras respuestas:
1. GraphChi: Esfuerzo de la CMU (mismo grupo que surgió con GraphLab): le permite realizar un procesamiento de gráficos basado en disco en billones de gráficos de nodos rápidamente en una configuración no distribuida (nodo único). Puede no ser completamente útil en este contexto, pero tienen algunos algoritmos de aprendizaje automático como parte de GraphChi, que podrían usarse para procesar el archivo CSV. El software completo está disponible para descargar en: GraphChi. Este es un trabajo muy interesante: pudieron contar con un triángulo en un gráfico de Twitter-2010 en menos de 90 minutos en un solo nodo, mientras que una solución basada en Hadoop utiliza 1400 trabajadores en una configuración distribuida y ¡toma 400 minutos!
2. Estaba @strataconf en Nueva York en octubre de 2013 y vi una demostración de un terabyte siendo aplastado en un solo nodo por Sisense, una pequeña startup. Vea esta noticia: SiSense “10X10X10 Challenge” rompe récord en la Conferencia Strata Big Data (Pudieron procesar 10 TB de datos en 10 segundos en una máquina de 10K $). Pruebe el producto Sisense Prism aquí: Prueba gratuita de Business Analytics.
- ¿Por qué el desarrollo ágil de software no se practica en los programas de pregrado de CS en los Estados Unidos?
- ¿Hay recursos o tutoriales para comprender rápidamente la lógica y los algoritmos aplicados?
- ¿Cuál es el mejor enfoque para dominar los algoritmos de aprendizaje automático?
- Cómo recuperar archivos después de una recuperación del sistema de Windows
- ¿Se puede aplicar el aprendizaje automático a cualquier producto? En caso afirmativo, ¿qué sectores tienen más sentido?