¿Cómo se realiza el aprendizaje automático supervisado cuando sus datos no caben en una sola máquina? ¿Los clasificadores de libros de texto como los clasificadores SVM o Naive Bayes siguen siendo tan importantes o incluso factibles a medida que aumenta el tamaño de sus datos o los algoritmos diferentes se vuelven más populares?

Las personas encuentran formas de acelerar la complejidad del algoritmo en tiempo de ejecución y paralelizar el código de optimización.

Algunas aplicaciones donde el popular clasificador de libros de texto SVM se ha utilizado para el aprendizaje a gran escala (con implementaciones adecuadamente modificadas):

1) Publicidad de display (2.300 millones de ejemplos) y reconocimiento de sitios de empalme humano (50 millones de ejemplos, ~ 3 TB de funciones procesadas). Ver http://arxiv.org/pdf/1110.4198v2… y http://hunch.net/?p=2094

2) Reconocimiento del sitio de empalme humano (50 millones de ejemplos) y detección de género basada en imágenes (5 millones de ejemplos). Ver COFFIN: un marco computacional para SVM lineales disponible en http://sonnenburgs.de/soeren/pub…

3) Clasificación de imagen a gran escala (1,2 millones de ejemplos,> 1 TB de características procesadas). Consulte Clasificación de imágenes a gran escala: extracción rápida de características y capacitación SVM disponible en http://www.dbs.ifi.lmu.de/~yu_k/…

4) PSVM : el solucionador SVM paralelo de código abierto de Google. Consulte http://books.nips.cc/papers/file… y http://code.google.com/p/psvm/

También siga los recursos enumerados en ¿Cuáles son algunos recursos introductorios para aprender sobre el aprendizaje automático a gran escala? ¿Por qué?

El aprendizaje Hadoopified definitivamente está cobrando mucha fuerza. Apache Mahout ( http://mahout.apache.org/ ) es definitivamente uno de los grandes contendientes de código abierto allí.

Ha habido mucho trabajo reciente sobre la combinación de algoritmos rápidos de aprendizaje en línea (a diferencia de los algoritmos por lotes) como el descenso de gradiente estocástico (SGD) con técnicas inteligentes de reducción de dimensionalidad como el hash de características. Uno de los más visibles es el Vowpal Wabbit de John Langford: https://github.com/JohnLangford/

Un buen lugar para buscar otras soluciones de vanguardia para esto es el taller NIPS BigLearning de 2011 ( http://biglearn.org/ y http://www.youtube.com/results?s …)

Ya que estás buscando escalar un algoritmo. Primero, permítanme decir que tengo un sesgo hacia la JVM, pero mencionaré algunas otras herramientas.

Como se menciona a continuación, hadoop es lo que se usa típicamente. En este caso, querrás mirar Apache Mahout.

http://mahout.apache.org

Esto es más un problema de sistemas distribuidos que cualquier otra cosa. Otra plataforma en la que quizás quieras mirar es la tormenta

Es un marco de transmisión en tiempo real.

Otro enfoque, dependiendo de la cantidad de personalización que necesite, podría buscar algo como Akka

Documentación de Akka | Akka

El modelo de actor facilita la paralelización y el trabajo distribuido.

Dependiendo de sus requisitos, también puede buscar en varias implementaciones de Messaging Queue / zookeeper y distribuir a los trabajadores en un clúster para escuchar mensajes y procesar cargas de trabajo de forma asincrónica como esa.

More Interesting

¿Qué es $ delta en la validación cruzada?

¿Qué recursos de tutoría están disponibles para que un ingeniero aprenda Machine Learning en Quora?

¿Cuáles son las diferencias en las aplicaciones de filtrado colaborativo en los datos de calificación y en los datos de compra?

¿Cuáles son las industrias que probablemente se verán afectadas por el aprendizaje profundo?

¿Cuáles son las revistas científicas mejor calificadas para Machine Learning / Data Science?

¿Es suficiente tomar todos los cursos de la especialización de Machine Learning de la Universidad de Washington en el curso para obtener mi primer trabajo / pasantía en ML?

¿Cómo puede alguien que es muy débil en matemáticas aprender el aprendizaje automático y el aprendizaje profundo?

¿Por qué la normalización media ayuda en el descenso del gradiente?

¿Cómo soluciona un máximo A posterior el problema de sobreajuste en una estimación de máxima verosimilitud?

¿Qué implica el e-Discovery?

¿El aprendizaje automático va a derrocar al sistema dinámico?

Estoy muy interesado en el aprendizaje profundo. ¿Cómo puedo ser contratado?

Las entidades biológicas inconscientes que simplemente reaccionan automáticamente a su entorno han evolucionado y se han vuelto autoconscientes. ¿Qué impide que AI lo haga?

¿Cómo puedo usar el modelo oculto de Markov sin supervisión para detectar y corregir palabras dobles?

Cómo obtener líneas de regresión y encontrar coeficientes de correlación a partir de datos