Ok, esa es una pregunta realmente interesante. Aquí trataría de presentarles un marco llamado H2O. Es una herramienta principalmente para manejar grandes datos, pero también viene con algunas características interesantes. Tiene integración con chispa en una interfaz llamada agua con gas. Aparte de esto, esto le permite crear clústeres utilizando máquinas locales, que es la parte más genial. ¿Por qué mencioné todo esto? Esto se debe a que es una herramienta fantástica que le permite visualizar el clasificador durante el entrenamiento. ¡Vamos a ensuciarnos las manos con el conjunto de datos de Iris y ver a dónde va esto!
Para acceder a las visualizaciones, usaré la interfaz de usuario de H2O llamada Flow. Antes de llegar a la parte de Flujo, veamos qué es H2O acerca de esta representación genial que lo resume todo.
- ¿Cómo lidiamos con el conjunto de datos que tiene 3 variables categóricas de 10 variables usando regresión logística?
- ¿Cómo afectarán herramientas como BigML y Google Prediction API al aprendizaje automático? ¿Reducirá la demanda de científicos de datos?
- ¿Qué prueba estadística usar para cuantificar la similitud entre dos distribuciones cuando no son normales?
- Cómo encontrar el siguiente número de la lista de números anteriores usando el aprendizaje profundo
- ¿Por qué es beneficioso centrar y normalizar los datos antes de ejecutar el Análisis de componentes principales en él?
Antes de llegar a la parte de visualización, permítame informarle sobre la importación de datos y trabajar con ellos. H2O tiene su propio marco de datos que se llama marco H2O que es similar a los pandas en Python y carga los datos en el servidor. La mayoría de las operaciones son similares a las de los pandas. Solo un puntero H2O maneja los datos categóricos y los NaN que puede leer al respecto en codificación_categoría y en Valores faltantes. Dicho todo esto, vamos a centrarnos en la visualización. En primer lugar, puede ver cuánto se completa la tarea en H2O. Se ve como se muestra a continuación.
Además, también podemos controlar la pérdida de registro durante la fase de entrenamiento y también podemos observar la curva ROC. Vamos a verlos por unas pocas iteraciones.
Esto es justo después de que comenzó esto. Por supuesto, es bueno ya que los datos están bien equilibrados. Veamos más desarrollos.
y veamos uno más.
Estas son visualizaciones muy típicas. Cuando se trata de monitorear el proceso de capacitación de un clasificador, debemos preguntarnos qué es lo que queremos monitorear. La respuesta más obvia o la respuesta que viene primero a mi mente es la función de costo. En este caso, he utilizado la función de pérdida de registro. Por lo tanto, resulta interesante visualizarlo a medida que aumenta el número de iteraciones. Por lo general, esperamos que la pérdida de registro disminuya a través del entrenamiento. Esto también trae otro tema amplio para discutir cuál es cuándo parar. Por lo general, me detengo cuando el error de entrenamiento no cambia en el transcurso de 10 iteraciones.
Creo que escribí demasiado. De todos modos, espero que esta respuesta te ayude. Feliz aprendizaje !!!
Puedes ver más sobre mi trabajo en Medium