En primer lugar, la precisión del 97% es un gran logro. Pero en este punto tienes que hacerte varias preguntas.
- ¿La precisión es la métrica correcta para medir el rendimiento en mi caso? Si su conjunto de datos está altamente desequilibrado, cambie a la puntuación F1, porque la precisión no refleja el rendimiento en este caso (imagine el problema binario donde la clase mayoritaria es el 90% de los casos, entonces el clasificador que ‘no importa qué’ siempre genera el la clase mayoritaria tiene un 90% de precisión, lo cual es un problema). Tenga cuidado, hay dos tipos de puntaje F1: macro-promedio y micro-promedio. Verifica ambos.
- Si el procedimiento de prueba es correcto? Mezcle los datos antes de entrenar y probar. Ejecute la validación cruzada n-folds. Asegúrese de que su resultado sea consistente.
- Finalmente, la pregunta más importante, ¿por qué logré un rendimiento tan bueno? Este es un problema de aprendizaje supervisado, así que identifique la importancia de la característica (cuáles son las características que más contribuyeron al rendimiento).
¡Y que la fuerza te acompañe!
- ¿Por qué conocer estructuras de datos y algoritmos básicos no es suficiente para descifrar la mayoría de las entrevistas técnicas?
- ¿Quién sabe qué hay detrás de la API de Google Nearby Search? ¿Qué algoritmo usan? ¿Cómo encuentra Google una estación de servicio cercana?
- ¿Sigue siendo relevante el modelado de objetos, o se ha reemplazado hoy solo con datos y algoritmos?
- ¿Por qué prácticamente todos los algoritmos de ascensor son tan ineficientes y cuáles son las razones por las que aún no se han optimizado?
- ¿Cuál es la forma correcta de fusionar dos algoritmos de cifrado simples, sin causar un problema de cifrado?