En resumen, hay dos métodos principales para usar histogramas como características:
- Use los valores brutos de cada histograma como características. Un histograma consiste en un conjunto de recuentos que representan la cantidad de veces que ocurrió algún evento. Cada uno de esos recuentos se puede usar como una característica. Esta metodología producirá una cantidad mucho mayor de características. Como resultado, un modelo que use este método necesitará muchos más datos de entrenamiento para lograr un buen error de generalización.
- Reduzca cada histograma a un pequeño número de estadísticas calculadas más simples y utilícelas como características en lugar de los histogramas sin procesar. Se pueden usar estadísticas básicas como la media y la varianza, pero también se pueden usar otras como el percentil 10, el modo o cualquier otra cosa que se te ocurra. Suponiendo que no elija usar una gran cantidad de estadísticas calculadas como características, este método producirá una cantidad mucho menor de características que el método anterior. En consecuencia, un modelo que use este método necesitará muchos menos datos de entrenamiento para lograr un buen error de generalización.