¿Qué enfoque se debe tomar para decidir el modelo de clasificación?

Hay muchos métodos de aprendizaje automático disponibles para cualquier problema en particular, desde métodos lineales simples hasta métodos altamente no lineales. Inicialmente, uno debería intentar con métodos más simples como la regresión logística, los árboles de decisión y Naive Bayes, luego pasar a SVM, bosques aleatorios, AdaBoost, redes neuronales, etc., luego al aprendizaje profundo.

Utilice la validación cruzada 10 veces para evaluar los modelos. Los métodos más simples son en su mayoría métodos lineales. Lo más probable es que obtenga un mejor rendimiento con métodos no lineales.

Para decidir sobre el modelo, compare las métricas de rendimiento de precisión, sensibilidad, especificidad y área bajo las curvas ROC de las técnicas utilizadas. Elija el modelo que ofrece las mejores métricas de rendimiento. Estos valores deben estar en el lado superior.

En primer lugar, debe leer “Selección de modelo” en cualquier libro de texto de aprendizaje automático para tener una idea sobre cómo elegir un modelo para un problema de clasificación dado.

En segundo lugar, dependiendo de los datos, puede tomar decisiones. Cuando la dimensionalidad es muy alta, los modelos lineales tendrán más sentido que los modelos complejos. Cuando los datos tienen valores categóricos, los modelos basados ​​en el árbol de decisión tendrán sentido. Cuando tenga menos puntos de datos, sería apropiado probar modelos de aprendizaje diferido como kNN. Cuando tiene columnas de entidades dependientes, puede probar los métodos de ortogonalización antes de la clasificación. Cuando el espacio de características es más pequeño, los métodos Kernel podrían usarse para la expansión de características como en SVM. También puede probar Ensembles para aprender clasificadores, cuando el modelo de clasificador único no es suficiente para un conjunto de datos con múltiples complejas. Hay más … Deberías leer “Elementos de aprendizaje estadístico” de Hastie, Tibshirani y Friedman.

La estrategia que hemos estado empleando es crear prototipos y construir los modelos con entrenamientos y pruebas como probablemente lo esté haciendo y luego tomar el modelo “ganador” para un viaje de evaluación, es decir, ponerlo cerca de las condiciones de producción y ver cómo funciona. se comporta

Mientras realizamos la creación de prototipos, consideramos otras métricas que pueden ser relevantes para una decisión posterior, por ejemplo:

  • ¿Cuánto tiempo tarda la modelo en entrenar? Esto es importante si el modelo necesita un reacondicionamiento y con los datos de comportamiento a menudo lo hace.
  • ¿Cuánto tiempo tarda el modelo en predecir? No es una gran preocupación, pero por si acaso …
  • A menudo nos preocupa mucho la sensibilidad y la especificidad porque nuestros casos de uso a menudo implican algún tipo de interacción con el usuario final. Tenemos un caso de uso en el que es inaceptable tener falsos positivos, por ejemplo.

Nunca he estado en la posición en que estos puntos no resuelven la elección del algoritmo, pero soy un gran admirador de la navaja de Occam si todo lo demás falla.

Es necesario elaborar resultados similares. ¿Cuál es su medida de precisión en los datos de prueba? Si solo está buscando precisión, también debe mirar Precisión y Recuperación. ¿Ambos son buenos? Qué tan bien está clasificando su modelo cada clase. Para su problema comercial, todos los errores son igualmente costosos o ciertas clases son más importantes. Por ejemplo, para ciertos casos de detección de fraude, perder una transacción fraudulenta puede ser muy malo y costoso, por lo que intentará ser más conservador y puede elegir un modelo que pueda confundir ciertas transacciones buenas como fraudulentas. Por lo tanto, puede elegir un modelo con menos precisión pero mucho más óptimo para el problema comercial dado.

Compare sus curvas de operación del receptor (ROC) con cierta comprensión comercial sobre los costos de clasificación errónea. ¿Cuál de los modelos anteriores le brinda los mejores resultados desde el punto de vista comercial?

Otro punto que me gustaría hacer es sobre la validación cruzada. Los resultados que está buscando provienen de una configuración con validación cruzada o de un solo conjunto de pruebas y un solo conjunto de entrenamiento. Sugeriré configurar la validación cruzada también. Esto también lo ayudará a observar la variación del modelo.

Si todas las cosas son iguales, elija el modelo más simple :). Ingenuo Bayes sobre todo lo demás.

Dependiendo del software que esté utilizando, su kilometraje puede variar.

More Interesting

¿Cuál es un ejemplo numérico para el algoritmo de análisis de componentes principales (PCA)?

¿Es el aprendizaje supervisado sobre los resultados evolutivos existentes la mejor estrategia para garantizar la supervivencia en un entorno cambiante? ¿Existe una estrategia óptima para la mutación contra cambios ambientales imprevistos?

¿Cuáles son las diferencias en profundidad, amplitud y rigor entre 6.036 Introducción al aprendizaje automático - MIT, y el curso del Curso de aprendizaje automático de Andrew Ng?

¿Qué libro de los dos es más completo para PNL: el de Jurafsky o el de Manning?

En el modelado de datos, ¿podría ser una buena idea crear algorítmicamente una característica grande para activar las meta características actuales antes del modelado?

¿Qué hace el -1 en la siguiente línea del código TensorFlow x_image = tf.reshape (x, [-1,28,28,1])?

¿Se puede utilizar la investigación en aprendizaje automático para complementar la epistemología?

Teoría de la información: ¿por qué hay una mayor probabilidad asociada con menor información?

¿Existe una buena herramienta de aprendizaje de idiomas?

¿Puede explicar la optimización convexa sin matrices de arpillera y solo la segunda derivada?

¿Cómo usa Apple el aprendizaje profundo?

¿Cuál es el mejor método para la reducción de dimensionalidad y la selección / extracción de características en datos de espectrometría de masas?

¿Cómo se siente la comunidad de aprendizaje automático sobre Kaggle?

Yoshua Bengio: ¿Cómo funcionan los modelos de lenguaje neural?

Cómo convertirse en un cerebro cuant (un quant que usa IA)