Escribí esta respuesta para otra pregunta, pero encaja mejor aquí.
Debe ser específico sobre los algoritmos que desea usar. Enumerar algunas herramientas / softwares que son muy específicos para ciertos algoritmos. Se escalan realmente bien (tanto para entrenamiento como para predicción) y también proporcionan API y demonios increíbles. Si busca predicciones de nivel de milisegundos y capacitación sobre GB de datos, estas son herramientas a las que debe dirigirse.
1. Vowpal Wabbit (Aprendizaje rápido): poco a poco se está convirtiendo en un estándar para el entrenamiento a gran escala. Admite la clasificación binaria, la regresión, la clasificación multiclase, la clasificación multiclase sensible al costo, el bandido contextual “fuera de línea” y las predicciones de secuencia
- ¿Cuál es la diferencia entre Internet de las cosas y el aprendizaje automático y cuál debo aprender primero?
- ¿Cuáles son algunos marcos de aprendizaje profundo con solo CPU?
- ¿Existe alguna herramienta o API capacitada en datos de tweets para la extracción de entidades con nombre?
- ¿Debo ir a la Universidad de Radboud o Groningen para Machine Learning?
- ¿Qué es la agrupación de datos?
2. sofia-ml: conjunto de algoritmos incrementales rápidos para el aprendizaje automático. Incluye métodos para aprender modelos de clasificación y clasificación, utilizando Pegasos SVM, SGD-SVM, ROMMA, Perceptrón pasivo-agresivo, Perceptrón con márgenes y Regresión logística. – Alojamiento de proyectos de Google
3. 0xdata – Bosque aleatorio, Regresiones, GLM / GLMnet, Búsqueda de cuadrícula paralela en el espacio de parámetros del método de regresión, Agrupación (K-medias)
4. Aprendizaje automático escalable y minería de datos (Apache Mahout): no tengo ninguna experiencia personal aquí, pero sería genial si se siente cómodo con Java.