¿Cuáles son algunos algoritmos importantes que aún no están cubiertos en Mahout? ¿Qué algoritmos de ML le gustaría agregar a la caja de herramientas?

Creo que sería interesante si Mahout pudiera implementar más algoritmos secuenciales (como la regresión logística SGD de Ted, por ejemplo).

AFAIK las implementaciones de KMeans y PCA / SVD actualmente disponibles en Mahout son solo por lotes (escalables usando hadoop en muchas máquinas).

Los KMeans, PCA y codificadores automáticos secuenciales de última generación (con un regularizador inductor de escasez entrenado con SGD) abrirían muchas posibilidades interesantes para el procesamiento de transmisión en vivo (sin hadoop pero combinado con marcos en línea como S4, por ejemplo).

Ah, y escasa codificación con el aprendizaje del diccionario en línea mientras lo hacemos, vea:

http://www.di.ens.fr/willow/pdfs…
http://www.jmlr.org/papers/volum…

Hadoop es excelente, pero la escalabilidad de una sola máquina también es agradable 🙂

Related Content

¿Cómo se utilizan las estructuras de datos en las industrias?

Como principiante, ¿debería leer el libro CLRS antes de comenzar con Interviewbit?

¿Qué algoritmo se debe usar para encontrar que hay una conexión en cada dos vértices en un gráfico dirigido?

No soy bueno con los algoritmos y no puedo encontrar una solución hasta que alguien me lo diga. ¿Cómo puedo arreglar esto?

Cómo usar un video como entrada en un algoritmo de aprendizaje automático

¿Cuáles son algunas de las lagunas en el algoritmo de reserva de entradas de irctc?

Se le da una matriz de números MxN, con la propiedad de que los números aumentan a medida que avanza por cada columna y hacia la derecha en cada fila. ¿Cómo puede verificar eficientemente si un número dado está en la matriz?

El usuario de Quora acaba de enviar algo similar a un SVM lineal multiclase, pero entrenado en el primario: https://issues.apache.org/jira/b …

Olivier Grisel acaba de presentar las agallas de lo que eventualmente se convertirá en un autoencoder: https://issues.apache.org/jira/b …

[Editar: Impulso recién agregado: https://issues.apache.org/jira/b …]

Olivier Grisel

Mariana, me alegra saber de ti. Sería genial saber de usted en las listas de correo de Mahout también.

Esto es lo que sé de sus sugerencias con respecto a Mahout:

> Métodos de agrupación de CoWeb y DBscan.

No encuentro ninguna documentación en CoWeb. Parece que DBscan es n log n y requiere acceso aleatorio que no es escalable. ¿Existe una formulación alternativa que sea escalable?

> Árboles de decisión como J48 e ID3.

Tenemos una implementación temprana de bosques aleatorios. Los algoritmos estándar para J48 e ID3 no son escalables. Hay algún interés en implementar algunas versiones más rápidas de estos.

> Tablas de decisión.

Esto es un poco ambiguo.

> Apriori

Apriori tiene serios problemas de escalabilidad. En cambio, tenemos un algoritmo alternativo de conjuntos de elementos frecuentes.

> SMO

Existen algoritmos secuenciales rápidos para SVD (de los cuales SMO es solo una alternativa) y las implementaciones de estos están disponibles. Ver liblinear, svmLight, etc. Lo que no existe es una versión que se escala a datos realmente grandes. Por otro lado, para problemas dispersos muy grandes, el descenso de gradiente estocástico (SGD) para la regresión logística parece funcionar tan bien o mejor que la SVM de todos modos. Mahout tiene una implementación SGD de última generación.

> Algoritmos Genéticos

Mahout tiene una implementación clásica de GA. También tiene una implementación muy práctica de optimización evolutiva de pasos grabados.

De todo esto, puede tener la impresión de que no veo mucho que agregar a Mahout y que estaría en lo cierto en lo que respecta a esta lista. Eso no significa que otras personas no tengan otras picazón. Si lo hacen, deberían aparecer en las listas de correo de Mahout y ver si no podemos trabajar juntos para rascar esa picazón.

Olivier Grisel

More Interesting

¿Cómo combina ACM ICPC invertir en diversidad y mantener alta la barra de entrada?

Cómo ordenar una matriz de vectores de pares, es decir, vector <par v [N], en C ++

¿Cuáles son los algoritmos de detección de spam social de última generación?

¿Cómo funciona la transformación cuántica de Fourier?

¿Hay algún algoritmo que pueda implementarse en un lenguaje de programación pero no en otro lenguaje de programación?

¿Cómo calculo el antilog de -0.7006?

¿Qué es el algoritmo SURF en el procesamiento de imágenes?

¿Dónde encuentro los mejores recursos para aprender algoritmos y estructuras de datos?

¿Para qué sirve un tamaño de obtención de matriz?

¿Cuáles son algunas características de los datos de imágenes faciales que se pueden utilizar para alimentar los algoritmos de aprendizaje automático?

Quiero comparar una consulta con varios documentos y asignarles una clasificación. ¿Qué algoritmo necesito usar?

¿Cuál es el inverso matemático de 2 ^ N?

¿Qué significa si un futuro programador apesta u odia los algoritmos de aprendizaje y las estructuras de datos?

¿Necesitamos aprender el algoritmo primero antes de aprender el desarrollo web?

He tenido algunos problemas con la recursividad desde hace un tiempo, desde que comencé a estudiar algoritmos. ¿Hay algún recurso / método en particular que te haya ayudado a entenderlo completamente y que puedas recomendar?

Web Analytics