¿Cómo se compara Weka con Matlab / Python / R para la ciencia de datos?

Como descargo de responsabilidad, realmente no he usado Weka en un par de años, por lo que la comparación que estoy dando podría estar un poco anticuada.

En un nivel muy alto, la mayor diferencia entre Weka y los demás es la flexibilidad. Weka es en gran medida una solución de aprendizaje automático plug and play: está bien empaquetada en un archivo .jar, y viene con una GUI con la que puede ejecutar el análisis más simple y la construcción de modelos. En comparación con los otros, que son lenguajes que se pueden ejecutar a través de un shell interactivo, hay más orientación en Weka, y ejecutar ML a través de Weka parece bastante mágico.

La desventaja de esta facilidad de uso es que Weka es mucho menos flexible que las otras para el análisis estadístico y la exploración de datos. Esto realmente se reduce al hecho de que los demás están programando idiomas con paquetes ML y bibliotecas que puede importar, mientras que Weka es un paquete ML. Como es obvio, esto significa que los demás proporcionan un mayor grado de libertad para limpiar, explorar y transformar sus conjuntos de datos, así como una mayor libertad para ajustar y ajustar los algoritmos subyacentes.

En mi experiencia limitada, he encontrado que Weka es una introducción fácil al aprendizaje automático sobre conjuntos de datos de juguetes, ya que las cosas simplemente funcionan de manera inmediata (aunque eso no quiere decir que las herramientas que puedes usar desde R o Python no trabajar fuera de la caja). Sin embargo, en la práctica, Matlab, Python y R y sus respectivos paquetes y bibliotecas son mucho más flexibles y prácticos para la ciencia de datos.

Aprendizaje automáticoCiencia de datos

¿Hay algún programa de capacitación en ciencia de datos para empleados de H1B que trabajan en otro dominio?

¿Cuáles son los procesos involucrados en el Servicio de refinamiento de datos?

¿Dónde encuentras datos? Entonces, ¿cómo lo usas?

¿Cómo afecta la automatización al análisis de datos?

¿Podría Netflix migrar de AWS y a qué costo?

¿Podría el aprendizaje automático avanzado sacar a los científicos de datos del negocio?

No importa cuál sea mejor.

Lo que importa es que en el mundo real, los modelos de aprendizaje automático se construirán con Python .

Todo lo demás se considerará marginal. Ya casi lo es. (en el mundo real) Todavía hay mucha R en la academia, pero están casi una década por detrás de la curva del mundo real.

¿Cómo saber si lo que digo es cierto?

Dirígete a Búsqueda de empleo | De hecho, entonces escriba ingeniero de aprendizaje automático.

¿Qué tienen en común los primeros 25 trabajos devueltos? Derecha, Python.

Como científico de datos, ingeniero de aprendizaje automático o incluso ingeniero de datos, aprenderá Python o su carrera se verá afectada.

Echa un vistazo a este curso gratuito sobre los algos básicos utilizados en el aprendizaje automático.

Una introducción al aprendizaje automático para ingenieros de datos

Yuval Feinstein

No he trabajado mucho con Matlab, pero sé algo sobre trabajar con Weka, Python y R para la ciencia de datos.

En mi opinión, Weka es una buena manera de familiarizarse con el aprendizaje automático / minería de datos en un contexto práctico. Como mencionan las otras respuestas, Weka es bastante inflexible. Pero, por otro lado, le permite entrar lentamente en el aprendizaje automático / minería de datos, que a veces no es realmente un lujo innecesario, y le permite importar sus propios algoritmos (escritos en Java). Veo a Weka más como una herramienta orientada a la investigación / educación para el aprendizaje automático / minería de datos que como una herramienta industrial. Además, si no me equivoco, realmente no puede hacer mucha limpieza / manipulación de sus datos en Weka.

R y Python son herramientas flexibles cuando se trata de hacer ciencia de datos. Puede limpiar y manipular su código antes de comenzar a modelar y su código básicamente dice lo que quiere hacer. Creo que para aquellos que están acostumbrados a la codificación, Weka a veces puede parecer que retroceda en lugar de avanzar porque no proporciona tanta información como cuando codifica. En resumen, si te gusta la codificación y eres un perfeccionista que quiere corregir todos los detalles, Python / R es el camino a seguir.

Para aquellos que han probado Weka y desean comenzar a hacer aprendizaje automático en R o Python, DataCamp tiene algunos tutoriales / cursos agradables:

Python: Introducción a Python y Machine Learning (con Analytics Vidhya Hackathons) (enfoque gratuito y práctico para Machine Learning con Python)
R: Introducción al aprendizaje automático: curso en línea y caja de herramientas de aprendizaje automático (cursos pagos, también enfoque práctico)

Kenneth Tran

Soy un usuario reciente de WEKA y R. También he estado programando en Java en los últimos 4 años principalmente algoritmos como agrupación, filtrado colaborativo y MDS (escalamiento multidimensional).

Lo primero que se puede decir es que WEKA no necesita conocimientos de programación.

Entonces, si es un estadístico (sin conocimiento de lenguajes de programación), puede usar WEKA por su interfaz gráfica. Esta es una ventaja que lo hace muy útil para esta categoría de usuarios.

Estoy de acuerdo con la respuesta anterior sobre la falta de flexibilidad de WEKA. Sin embargo, en los últimos años se ha avanzado en esta dirección al ofrecer formas de interconectar el marco con otras bibliotecas o idiomas.

En particular, lo anterior es cierto cuando se compara WEKA con lenguajes de programación y bibliotecas (Python scikit, por ejemplo) como esta publicación en reddit: Weka vs Scikit-learn? • / r / MachineLearning

Kenneth Tran

More Interesting

¿Cómo se crean los archivos .a en Linux?

¿Cuáles son los beneficios de la remodelación de datos?

¿Cuál es la diferencia entre una maestría en análisis de negocios y big data y una maestría en ciencia de datos? ¿Qué habilidades necesitas dominar para cada uno?

¿Cuáles son algunas aplicaciones de análisis de datos que pocas personas conocen?

¿Qué paquete estadístico debo usar para el análisis de datos, R o SciPy?

¿Cuáles son las mejores herramientas para ingenieros de datos?

Soy un desarrollador de Java pero quiero hacer un doctorado en ciencia de datos de Canadá. ¿Cuáles son las buenas universidades en Canadá y cuáles son sus requisitos?

¿Puede alguien de una experiencia que no sea de software aprender o cambiar a análisis de big data?

¿Cuál es mejor en big data, SAP, FICO o Hadoop?

¿Qué tan bien se está utilizando la ciencia de datos en Quora?