En realidad, la respuesta depende de tres variables: 1) Sus preferencias y conjunto de habilidades 2) Tamaño de los datos 3) ¿Cuán complejo desea que sea su modelo?
Si su conjunto de datos no es “lo suficientemente grande” y no desea escribir un “código”, puede usar Microsoft Excel. Aunque Excel no es de código abierto, supongo que sí tiene Microsoft Excel. Excel puede ayudarlo a realizar estadísticas descriptivas de sus conjuntos de datos, visualización, análisis de series de tiempo, análisis de regresión y pruebas de chi-cuadrado.
Otros paquetes de software / idiomas que se utilizan en la comunidad de minería de datos:
- ¿Cuál es el mejor programa de ciencia de datos?
- ¿Cuál es la mejor manera de convertirse en un científico de datos sin tener experiencia en ingeniería?
- ¿Cuál es el procedimiento de minería de datos?
- ¿Qué tipo de herramientas de colaboración reducirían la duplicación del esfuerzo de I + D en el análisis y el intercambio de datos?
- ¿Cómo es importante CCA 500 para hacer una carrera en big data?
- R: maneja bien los datos, lo ayuda a construir modelos complejos, tiene muchas bibliotecas para visualizar datos, pero tendrá que aprender los conceptos básicos del aprendizaje automático y el lenguaje
- Python: igual que R +, un lenguaje de programación de propósito general
- WEKA – Hace lo que R hace. Ventaja: puede usar WEKA sin aprender a codificar, pero eso tiene el costo de perder el control de las variables que le gustaría calcular.
Si está dispuesto a aprender a programar, le recomendaría que use R. WEKA es bueno pero se especializa en la construcción de modelos de Machine Learning. A juzgar por su pregunta, no creo que esté buscando construir modelos avanzados / complejos. Por lo tanto, R o Excel