Python es un lenguaje de programación que se usa popularmente para los tipos de tareas de minería de datos. Los lenguajes de programación requieren que le des a la computadora instrucciones detalladas y paso a paso sobre qué hacer. Memorizar esas declaraciones de programación es una buena parte de en qué consiste “aprender a programar”. Puede usar sus paquetes de complementos (escritos por otros) para minimizar su esfuerzo de programación, pero todavía está haciendo algo de programación.
KNIME y RapidMiner son principalmente paquetes basados en el flujo de trabajo que intentan brindarle la mayor flexibilidad y potencia de programación sin tener que saber programar. Su estilo de flujo de trabajo es fácil de usar arrastrando y soltando iconos en una ventana de dibujo que representa los pasos del análisis. Lo que hace cada icono se controla mediante cuadros de diálogo en lugar de tener que recordar comandos. Cuando termine, el flujo de trabajo 1) realiza las tareas, 2) documenta los pasos para la reproducibilidad, 3) le muestra el panorama general de lo que se hizo y 4) le permite reutilizar los pasos en nuevos conjuntos de datos sin recurrir a ningún subyacente código de programación (como a menudo requieren interfaces de usuario basadas en menús como SPSS).
No sé si se ha realizado alguna investigación para comparar estos dos estilos de trabajo, pero supongo que lleva al menos diez veces más tiempo aprender a programar que aprender una interfaz de usuario de flujo de trabajo. De hecho, las personas que necesitan analizar datos solo ocasionalmente encuentran difícil dominar el enfoque del lenguaje de programación usando cualquier lenguaje. Sin embargo, dada la habilidad suficiente, la programación proporciona una flexibilidad completa mientras que el enfoque del flujo de trabajo se limita a los tipos de análisis que los desarrolladores del programa han escrito para usted de antemano.
- Cuando trabajamos en aprendizaje automático en big data, ¿podemos usar la biblioteca scikit-learn con MLlib?
- ¿Cómo es suficiente Python para la ciencia de datos? ¿Tenemos que aprender R y Python?
- ¿La salida de codificación de word2vec de 'cómo estás' y su salida de codificación de 'cómo estás' son iguales?
- ¿Cuáles son algunos proyectos que un estudiante de ciencias de la computación puede hacer en el semestre final en el campo de big data y análisis de datos?
- ¿Cómo realizan los científicos de datos la selección del modelo? Al abordar, por ejemplo, un problema de clasificación, ¿cómo eligen los científicos de datos entre regresión logística, SVM, KNN, árboles de decisión, redes neuronales, etc.? ¿Es diferente para Kaggle?
Una característica particularmente agradable de KNIME y RapidMiner es que ambos le permiten agregar nodos a su flujo de trabajo que contienen programación personalizada. Esto le permite combinar los dos enfoques, aprovechando al máximo cada uno.