Los algoritmos de ML escritos en Java funcionan bien para un conjunto de datos más pequeño. Para un conjunto de datos grande, ¿cómo podemos escalar estos algoritmos? ¿Necesitamos buscar algoritmos distribuidos / mapas distribuidos en memoria / NOSQL / archivos para leer y escribir grandes conjuntos de datos o hay alguna buena API?

Escribí esta respuesta para otra pregunta, pero encaja mejor aquí.

Debe ser específico sobre los algoritmos que desea usar. Enumerar algunas herramientas / softwares que son muy específicos para ciertos algoritmos. Se escalan realmente bien (tanto para entrenamiento como para predicción) y también proporcionan API y demonios increíbles. Si busca predicciones de nivel de milisegundos y capacitación sobre GB de datos, estas son herramientas a las que debe dirigirse.

1. Vowpal Wabbit (Aprendizaje rápido): poco a poco se está convirtiendo en un estándar para el entrenamiento a gran escala. Admite la clasificación binaria, la regresión, la clasificación multiclase, la clasificación multiclase sensible al costo, el bandido contextual “fuera de línea” y las predicciones de secuencia

2. sofia-ml: conjunto de algoritmos incrementales rápidos para el aprendizaje automático. Incluye métodos para aprender modelos de clasificación y clasificación, utilizando Pegasos SVM, SGD-SVM, ROMMA, Perceptrón pasivo-agresivo, Perceptrón con márgenes y Regresión logística. – Alojamiento de proyectos de Google

3. 0xdata – Bosque aleatorio, Regresiones, GLM / GLMnet, Búsqueda de cuadrícula paralela en el espacio de parámetros del método de regresión, Agrupación (K-medias)

4. Aprendizaje automático escalable y minería de datos (Apache Mahout): no tengo ninguna experiencia personal aquí, pero sería genial si se siente cómodo con Java.

More Interesting

¿Qué áreas específicas de las matemáticas son útiles en neurociencia?

¿Qué es un gran blog para el aprendizaje automático?

¿Cómo se puede aplicar RL (método de gradiente de política) al problema de selección de subconjunto, donde cada prueba consiste en seleccionar un subconjunto de elementos de un conjunto más grande?

¿Cuál es la relación entre el análisis sentimental y el aprendizaje automático?

¿Por qué el 'modelo neuronal McCulloch-Pitts' también se conoce como puerta umbral lineal?

¿Cuáles son las buenas formas de combinar dos salidas de un clasificador?

¿Es posible entrenar a un RNN en una sola secuencia extremadamente larga?

¿Qué tan bueno es el ADVI en STAN en la práctica?

¿Qué universidades de la India son buenas para realizar investigaciones en el aprendizaje por refuerzo?

¿Qué sistemas IDS, IPS en Network Security hoy en día son los más adaptables para aprender nuevas amenazas? ¿Hay algún tipo de punto de referencia estándar para medir esto?

¿Por qué tantos geeks de datos se unen a compañías web en lugar de resolver problemas de datos a gran escala en biología?

¿Cómo está bien si me resulta difícil recordar todo después de terminar el curso de aprendizaje automático?

¿Qué métodos de aprendizaje automático lo llevarán al top 10 de las competencias de kaggle?

¿Es justo evaluar una red neuronal profunda solo de acuerdo con su rendimiento en algunos conjuntos de datos específicos?

¿Cuáles son las aplicaciones del tensor en estadística y aprendizaje automático?