Hola !
Si bien estoy de acuerdo con la mayoría de este flujo, aquí hay algunas cosas que es posible que desee considerar.
- Es indispensable comprender el problema en cuestión. Nunca es como “aquí hay algunos datos, ¡aquí hay una red neuronal y bam!”. Sugeriría comprender el contexto comercial y el problema de adentro hacia afuera antes de llegar a los datos. Pase tiempo de calidad aquí.
- El ejercicio no tiene sentido si no tiene suficientes datos. Datos más que suficientes lo que desea tener en cuenta es “datos de calidad”. Siempre tenga una lista de compras de datos cuando discuta / comprenda el problema comercial. Rastrea cantidad y calidad.
- Antes de comenzar el proceso de ML, verifique si es necesario. La mayoría de las veces, un motor simple basado en reglas funcionaría mejor que un modelo ML sofisticado. Seleccione siempre el problema donde el resultado no puede derivarse implícitamente a través de reglas.
- Antes de la preparación de datos, pase un tiempo con estadísticas descriptivas. Explorar y comprender los datos es crucial para realizar una ingeniería de características adecuada. Sugiero realizar rigurosas pruebas de hipótesis sobre los datos disponibles, ya que los datos que tiene a mano son siempre una muestra y nunca coincidirán con la población.
- Si tiene un buen presupuesto, intente ejecutar simulaciones para comprender cómo interactúan los diferentes componentes de datos entre sí. La mayoría de las veces explicará más que su comprensión del problema en cuestión.
- Las características deben derivarse principalmente de un contexto empresarial, un contexto estadístico descriptivo y no de un contexto de LD. Cree funciones que se puedan relacionar desde el contexto empresarial. Si ha ejecutado simulaciones, asegúrese de contar con un ingeniero con esa interacción en mente.
- Limpie sus datos tanto como sea posible para reducir el esfuerzo del modelo ML. Recentrar, reescalar, imputar son cosas que reducen el calor del modelo ML y lo ayudarían a converger mejor.
- Cuando se trata de capacitación * siempre * divida sus datos de manera homogénea en capacitación, prueba y validación. Centrarse en homogéneamente.
- Seleccionar un modelo ML nunca es el acto de tirar espagueti a la pared y verificar qué se pega. Siempre pagará seleccionar un modelo con el equilibrio de sesgo y variación apropiado. El modelo será sostenible y solo continuará evolucionando.
- Para el ajuste del parámetro Hyper del modelo ML, confíe siempre en la validación cruzada que las reglas generales.
- Pruebe no solo la precisión, sino también la sensibilidad y la especificidad.
Espero que esto ayude !
- Si envío una aplicación Spark en mi computadora portátil a un clúster Yarn remoto, ¿debo instalar el binario Spark en los nodos de Hadoop?
- ¿Deberían los humanos empujar voluntariamente la inteligencia artificial para ser superiores a nosotros?
- ¿Qué cosas puedo hacer con una computadora poderosa?
- ¿De qué sirve una cámara en una máquina?
- ¿Por qué P es desigual a NP en términos simples?