¿Qué hago después cuando logré un programa de aprendizaje automático (supervisado) con un 97% de precisión y buen ajuste?

En primer lugar, la precisión del 97% es un gran logro. Pero en este punto tienes que hacerte varias preguntas.

¿La precisión es la métrica correcta para medir el rendimiento en mi caso? Si su conjunto de datos está altamente desequilibrado, cambie a la puntuación F1, porque la precisión no refleja el rendimiento en este caso (imagine el problema binario donde la clase mayoritaria es el 90% de los casos, entonces el clasificador que ‘no importa qué’ siempre genera el la clase mayoritaria tiene un 90% de precisión, lo cual es un problema). Tenga cuidado, hay dos tipos de puntaje F1: macro-promedio y micro-promedio. Verifica ambos.
Si el procedimiento de prueba es correcto? Mezcle los datos antes de entrenar y probar. Ejecute la validación cruzada n-folds. Asegúrese de que su resultado sea consistente.
Finalmente, la pregunta más importante, ¿por qué logré un rendimiento tan bueno? Este es un problema de aprendizaje supervisado, así que identifique la importancia de la característica (cuáles son las características que más contribuyeron al rendimiento).

¡Y que la fuerza te acompañe!

AlgoritmosAprendizaje automáticoAprendizaje profundoAprendizaje supervisadoBig DataCiencia deConjuntos de datosdatosEstructuras de datosInteligencia ArtificialProgramación informáticaRedes neuronales artificiales

¿Cuál es la aplicación en tiempo real de árboles y gráficos en estructuras de datos?

En los términos más simples, ¿qué es un algoritmo? ¿Cual es su propósito?

¿Se utilizan las señales sociales en los algoritmos de clasificación de motores de búsqueda?

¿Qué necesitas saber para aprender algoritmos? Probé los algoritmos gratuitos de Coursera y el curso de estructuras de datos de Princeton y me perdí por completo.

¿Es mejor hacer InterviewBit ahora (actualmente estoy en mi quinto semestre) o hacer SPOJ ahora y luego hacer InterviewBit solo 3 o 4 meses antes de las entrevistas? Solo conozco algunas estructuras de datos y algoritmos básicos. He hecho 40 problemas en SPOJ.

¿Cómo se sienten los desarrolladores web sobre Google Cloud Platform?

El siguiente paso sería tratar de mejorar la precisión al 97.1%, luego al 98%, y así sucesivamente, hasta que ya no pueda mejorar la precisión. Sin embargo, antes de seguir adelante, es posible que desee comprobar

¿Es ese un problema fácil? ¿Puede alguien sin muchos antecedentes de este problema obtener una alta precisión con algún algoritmo arbitrario?
¿Estás sobreajustando los datos? ¿Has realizado una validación cruzada completa? ¿Hiciste pruebas estadísticas para confiar en tus resultados?
¿Es eso un problema importante? Clasificar gatos y perros es un gran problema, pero puede no ser significativo O ¿Puede hacer que este problema sea significativo?
¿Por qué cree que el 97% de precisión es un límite superior para este problema?
¿Es la precisión la métrica correcta para su problema? ¿Su problema tiene desequilibrio de clase o distribución de clase sesgada [1]?

Notas al pie

[1] La respuesta de Shehroz Khan a ¿Por qué es que obtengo una mejor puntuación de precisión cuando uso clases desequilibradas con un clasificador de Bosque aleatorio?

Dhruv Bhatia

Hay varias métricas para medir el rendimiento, la precisión es solo una de ellas y es propenso al desequilibrio en los datos, como lo señala la respuesta de Vasily a continuación. Para elegir el que realmente importa entre todas las métricas, pregúntese cuál tiene un impacto en su problema. También puede probar el marco de valor esperado sugerido en este libro.
También puede ser que su programa se ajuste demasiado a los datos de entrenamiento, para evitar eso, ejecute la validación cruzada.
Identifique características importantes, ciertos modelos ofrecen gráficos de características importantes, por ejemplo, xgboost

Dhruv Bhatia

More Interesting

¿Hay alguna razón para almacenar cosas en una lista en lugar de un árbol?

Quiero comparar una consulta con varios documentos y asignarles una clasificación. ¿Qué algoritmo necesito usar?

¿La programación competitiva se volverá aún más difícil?

¿Puedes ser bueno en la programación pero malo en los algoritmos?

Cómo usar un algoritmo rápido para la detección y el seguimiento del objeto anómalo

¿Qué es recursivo en matemáticas?

¿Cuál es el mejor algoritmo para implementar la función next_permutation sin STL?

¿Cuál es el mejor algoritmo para realizar la extracción de características para el reconocimiento óptico de caracteres?

¿Cuál sería un ejemplo de un problema de programación que sería difícil si no fuera posible sin el uso de array?

¿Cuál es la mejor manera de ordenar un terabyte de matriz de datos, cuando tiene RAM limitada (500k), y cada elemento de la matriz tiene un par de elementos de datos, de aproximadamente 1-10k cada uno?