¿Cómo se realiza el aprendizaje automático supervisado cuando sus datos no caben en una sola máquina? ¿Los clasificadores de libros de texto como los clasificadores SVM o Naive Bayes siguen siendo tan importantes o incluso factibles a medida que aumenta el tamaño de sus datos o los algoritmos diferentes se vuelven más populares?

Las personas encuentran formas de acelerar la complejidad del algoritmo en tiempo de ejecución y paralelizar el código de optimización.

Algunas aplicaciones donde el popular clasificador de libros de texto SVM se ha utilizado para el aprendizaje a gran escala (con implementaciones adecuadamente modificadas):

1) Publicidad de display (2.300 millones de ejemplos) y reconocimiento de sitios de empalme humano (50 millones de ejemplos, ~ 3 TB de funciones procesadas). Ver http://arxiv.org/pdf/1110.4198v2… y http://hunch.net/?p=2094

2) Reconocimiento del sitio de empalme humano (50 millones de ejemplos) y detección de género basada en imágenes (5 millones de ejemplos). Ver COFFIN: un marco computacional para SVM lineales disponible en http://sonnenburgs.de/soeren/pub…

3) Clasificación de imagen a gran escala (1,2 millones de ejemplos,> 1 TB de características procesadas). Consulte Clasificación de imágenes a gran escala: extracción rápida de características y capacitación SVM disponible en http://www.dbs.ifi.lmu.de/~yu_k/…

4) PSVM : el solucionador SVM paralelo de código abierto de Google. Consulte http://books.nips.cc/papers/file… y http://code.google.com/p/psvm/

También siga los recursos enumerados en ¿Cuáles son algunos recursos introductorios para aprender sobre el aprendizaje automático a gran escala? ¿Por qué?

¿Cómo puedo aprender a realizar simulaciones de dinámica molecular? ¿Cuáles son algunas buenas fuentes para aprender sobre este campo?

¿Cuál es la relación entre economía y ciencia de datos?

¿Por qué diverge un LSTM con activaciones ReLU?

¿Es posible usar bibliotecas de aprendizaje automático OpenCV para aplicaciones que no son de visión por computadora?

Para aquellos que han usado redes neuronales u otro aprendizaje automático, ¿cuánto tiempo de procesamiento les ha llevado entrenarlos y qué tan grande fue el conjunto de datos?

¿Te gusta resolver crucigramas en línea?

El aprendizaje Hadoopified definitivamente está cobrando mucha fuerza. Apache Mahout ( http://mahout.apache.org/ ) es definitivamente uno de los grandes contendientes de código abierto allí.

Ha habido mucho trabajo reciente sobre la combinación de algoritmos rápidos de aprendizaje en línea (a diferencia de los algoritmos por lotes) como el descenso de gradiente estocástico (SGD) con técnicas inteligentes de reducción de dimensionalidad como el hash de características. Uno de los más visibles es el Vowpal Wabbit de John Langford: https://github.com/JohnLangford/ …

Un buen lugar para buscar otras soluciones de vanguardia para esto es el taller NIPS BigLearning de 2011 ( http://biglearn.org/ y http://www.youtube.com/results?s …)

Adam Gibson

Ya que estás buscando escalar un algoritmo. Primero, permítanme decir que tengo un sesgo hacia la JVM, pero mencionaré algunas otras herramientas.

Como se menciona a continuación, hadoop es lo que se usa típicamente. En este caso, querrás mirar Apache Mahout.

http://mahout.apache.org

Esto es más un problema de sistemas distribuidos que cualquier otra cosa. Otra plataforma en la que quizás quieras mirar es la tormenta

Es un marco de transmisión en tiempo real.

Otro enfoque, dependiendo de la cantidad de personalización que necesite, podría buscar algo como Akka

Documentación de Akka | Akka

El modelo de actor facilita la paralelización y el trabajo distribuido.

Dependiendo de sus requisitos, también puede buscar en varias implementaciones de Messaging Queue / zookeeper y distribuir a los trabajadores en un clúster para escuchar mensajes y procesar cargas de trabajo de forma asincrónica como esa.

Adam Gibson

More Interesting

¿Qué es $ delta en la validación cruzada?

¿Qué recursos de tutoría están disponibles para que un ingeniero aprenda Machine Learning en Quora?

¿Cuáles son las diferencias en las aplicaciones de filtrado colaborativo en los datos de calificación y en los datos de compra?

¿Cuáles son las industrias que probablemente se verán afectadas por el aprendizaje profundo?

¿Cuáles son las revistas científicas mejor calificadas para Machine Learning / Data Science?

¿Es suficiente tomar todos los cursos de la especialización de Machine Learning de la Universidad de Washington en el curso para obtener mi primer trabajo / pasantía en ML?

¿Cómo puede alguien que es muy débil en matemáticas aprender el aprendizaje automático y el aprendizaje profundo?

¿Por qué la normalización media ayuda en el descenso del gradiente?

¿Cómo soluciona un máximo A posterior el problema de sobreajuste en una estimación de máxima verosimilitud?

¿Qué implica el e-Discovery?