Licencia:
- Mahout – Licencia de Apache v2. Se puede usar libremente para cualquier propósito, se puede redistribuir, con o sin modificaciones, se puede usar en productos patentados, etc.
- Lingpipe – patentado, con varias opciones de licencia, incluyendo una con uso gratuito, pero que no permite, AFAIK, redistribuir o modificar.
- Weka – Licencia GPL. Se puede usar libremente para cualquier propósito, se puede redistribuir con o sin modificaciones, pero las versiones modificadas también deben tener GPL y los productos derivados deben tener GPL.
Escalabilidad:
- Mahout está diseñado para ejecutarse sobre Apache Hadoop, que admite el escalado horizontal en grandes grupos, usando Map / Reduce. No todos los algoritmos que proporciona Mahout están disponibles en una versión M / R, pero la mayoría lo están, y los otros han sido muy optimizados para el rendimiento.
- Lingpipe – No tengo idea.
- Weka: tiene la reputación de no escalar muy bien a grandes conjuntos de datos. Sin embargo, no puedo verificar esto por experiencia personal.
Algunos otros puntos de comparación que uno podría querer investigar:
- ¿Qué hace que un modelo sea interpretable?
- ¿Por qué los LSTM generalmente se entrenan con backprop y no con EKF?
- ¿Cómo elijo theta0, thetaL y thetaU en un modelo de proceso gaussiano de scikit-learn?
- ¿Está muriendo la investigación en aprendizaje profundo?
- En R, ¿qué significa elegir lambda por validación cruzada (cresta, lazo)?
- ¿Qué algoritmos implementa cada biblioteca? ¿Implementan los específicos que necesita?
- ¿Qué tan activa es la comunidad en torno a cada proyecto? ¿Hay foros activos, listas de correo, etc., donde uno puede encontrar soporte y ayuda?
- Disponibilidad de soporte / servicios comerciales. Dependiendo de lo que esté haciendo, es posible que desee pagar un poco de ayuda de alguien con experiencia.
Finalmente, otro punto a destacar … Mahout aprovecha de forma nativa Hadoop, pero, por lo que me han dicho, no se oponen a que las personas presenten implementaciones de algoritmos basados en una tecnología diferente. Presumiblemente, si tuviera, digamos, una versión basada en MPI de, digamos, k-significa clustering que deseaba contribuir, podría incluirse en Mahout. Por lo tanto, es posible que, si hay interés, Mahout eventualmente crezca más allá de sus raíces Hadoop.