Algunos algoritmos de aprendizaje automático son esencialmente “cajas negras”. Pueden dar excelentes resultados, pero es difícil entender exactamente por qué hacen las predicciones que hacen. Es difícil razonar sobre los fenómenos del mundo real basados en el modelo. Otros algoritmos producen modelos que son más fáciles de entender y razonar.
A partir de su descripción (“cuáles son las características únicas que diferencian entre grupos”) parece que quiere ese segundo tipo de algoritmo.
Ejemplos de algoritmos que producen modelos que son fáciles de interpretar:
- ¿Los científicos de datos usan Python y R para limpiar y transformar datos?
- Cómo aplicar la ciencia de datos a la industria energética / minera
- ¿Cuánto tiempo puede un principiante aprender ciencia de datos?
- ¿Cuáles son los mejores servicios web para el análisis remoto de datos?
- ¿Es la información de sistemas informáticos (CIS) una buena especialidad para la ciencia de datos?
- ordinariamente regresión de mínimos cuadrados
- árboles de partición
- árboles de regresión
- clasificadores bayesianos ingenuos
Construye el modelo y luego observa qué variables tienen la mayor fuerza en el modelo y cuáles se ignoran.
Hay muchas herramientas de código abierto que implementan estos algoritmos, R, Weka, incluso el scikit-learn que diste como anti-ejemplo.
Así que supongo que estoy presionando un poco en contra de su afirmación de que no desea el aprendizaje automático predictivo. Creo que desea un algoritmo de aprendizaje supervisado, pero que produzca modelos que den una idea del fenómeno subyacente, no solo una “caja negra”.