Llegaría aún más lejos y diría que la generación de características de fuerza bruta supera siempre a la ingeniería de características clásica.
Sin embargo, hay varios puntos que uno debe tener en cuenta al forzar funciones brutas:
1. Generalidad
- ¿La normalización de datos tiene otros beneficios además de acelerar el descenso del gradiente? Después de calcular los parámetros (pesos), ¿es necesario normalizar los casos de prueba proporcionados por el usuario para la predicción?
- Cómo entrenar clasificador lineal paso a paso con Caffe, utilizando las respuestas de la última capa completamente conectada del modelo AlexNet como características
- Cómo usar el codificador automático de Geoffrey Hinton para datos MNIST para clasificar dígitos
- ¿Cuáles son las definiciones de entrada, salida y destino en el aprendizaje automático?
- Aprendizaje profundo: ¿Qué técnica de preprocesamiento es necesaria para los parches de imágenes para obtener características relevantes?
Las características forzadas brutas pueden vencer a las características clásicas, pero eso solo es cierto para un subconjunto dado de datos reales . En realidad, incluso con la validación cruzada, todo su conjunto de datos (prueba y entrenamiento) puede estar sujeto a un cierto sesgo, debido a la forma en que se recopilaron y procesaron los datos, o al simple hecho de que algunos puntos ocurren muy raramente y pueden no estar presentes en su conjunto de datos (que podría llamarse “casos límite” para usar un vocabulario de ingeniería de software). Esto también es cierto cuando los datos solo representan una vista truncada de lo que realmente está sucediendo, como cuando faltan algunas características básicas importantes.
La ventaja que tiene la ingeniería de características clásicas sobre la fuerza bruta es que se beneficia del mayor nivel de razonamiento y abstracción que tienen los humanos. Debido a que tenemos mejores capacidades de generalización, podemos incluir o excluir selectivamente algunas características no porque brinde mejores resultados de validación cruzada, sino porque “tienen sentido”, en otras palabras, porque se ajustan más a los conceptos (abstracciones) que a los datos. Ajustar los conceptos es algo bueno porque los conceptos también pueden aplicarse a puntos que no están presentes en el conjunto de datos.
La consecuencia es que el modelo clásico puede producir peores resultados en la validación cruzada, pero que tiene una mayor confianza en él cuando se enfrenta a datos del mundo real.
2. Explicabilidad
La mayor confianza que uno puede tener en las características clásicas, también puede explicarse por el hecho de que son más explicables. Las características forzadas brutas son más difíciles de entender y explicar, especialmente si utilizan más de dos características básicas y operadores para expresarse.
Claro, el producto del precio y la cantidad es comprensible, pero estas son típicamente el tipo de características que podrías encontrar.
La explicabilidad se vuelve cada vez más crítica cuando sus hallazgos tienen que presentarse a expertos de campo, o tomadores de decisiones, o cualquier persona realmente. Las características clásicas generalmente son más aceptadas tanto por los expertos en el campo como por los tomadores de decisiones, porque las primeras pueden relacionarse con lo que está sucediendo en el campo, y las segundas pueden comprender algunas cosas cuando explica su trabajo.
Y como en todos los entornos de trabajo, sin importar el campo, la confianza triunfa sobre los datos (juego de palabras previsto, pero no compatible).
Por supuesto, el riesgo de las características clásicas es que podemos incluir nuestro propio sesgo de percepción en el modelo, pero esto también sucede con el aprendizaje no supervisado y la única forma de combatirlo … es incluir nuestra percepción (anti) sesgo: las redes neuronales son aprendiendo inadvertidamente los prejuicios de género ocultos de nuestro idioma