Como descargo de responsabilidad, realmente no he usado Weka en un par de años, por lo que la comparación que estoy dando podría estar un poco anticuada.
En un nivel muy alto, la mayor diferencia entre Weka y los demás es la flexibilidad. Weka es en gran medida una solución de aprendizaje automático plug and play: está bien empaquetada en un archivo .jar, y viene con una GUI con la que puede ejecutar el análisis más simple y la construcción de modelos. En comparación con los otros, que son lenguajes que se pueden ejecutar a través de un shell interactivo, hay más orientación en Weka, y ejecutar ML a través de Weka parece bastante mágico.
La desventaja de esta facilidad de uso es que Weka es mucho menos flexible que las otras para el análisis estadístico y la exploración de datos. Esto realmente se reduce al hecho de que los demás están programando idiomas con paquetes ML y bibliotecas que puede importar, mientras que Weka es un paquete ML. Como es obvio, esto significa que los demás proporcionan un mayor grado de libertad para limpiar, explorar y transformar sus conjuntos de datos, así como una mayor libertad para ajustar y ajustar los algoritmos subyacentes.
- ¿Puede un desarrollador de Java entrar en big data y análisis sin ninguna experiencia previa?
- ¿Está Microsoft Excel fuera de moda y menospreciado por los profesionales de la ciencia de datos?
- ¿Cuál es el escenario actual / las perspectivas futuras de la ciencia de datos en la India en comparación con Silicon Valley?
- ¿Cuál es la diferencia entre el almacenamiento de datos, la minería de datos y el análisis de datos?
- ¿Hay un umbral de tamaño sobre el cual los datos se convierten en grandes datos?
En mi experiencia limitada, he encontrado que Weka es una introducción fácil al aprendizaje automático sobre conjuntos de datos de juguetes, ya que las cosas simplemente funcionan de manera inmediata (aunque eso no quiere decir que las herramientas que puedes usar desde R o Python no trabajar fuera de la caja). Sin embargo, en la práctica, Matlab, Python y R y sus respectivos paquetes y bibliotecas son mucho más flexibles y prácticos para la ciencia de datos.