¿Cómo se puede usar una distribución como una característica para la clasificación en el aprendizaje automático?

En resumen, hay dos métodos principales para usar histogramas como características:

  1. Use los valores brutos de cada histograma como características. Un histograma consiste en un conjunto de recuentos que representan la cantidad de veces que ocurrió algún evento. Cada uno de esos recuentos se puede usar como una característica. Esta metodología producirá una cantidad mucho mayor de características. Como resultado, un modelo que use este método necesitará muchos más datos de entrenamiento para lograr un buen error de generalización.
  2. Reduzca cada histograma a un pequeño número de estadísticas calculadas más simples y utilícelas como características en lugar de los histogramas sin procesar. Se pueden usar estadísticas básicas como la media y la varianza, pero también se pueden usar otras como el percentil 10, el modo o cualquier otra cosa que se te ocurra. Suponiendo que no elija usar una gran cantidad de estadísticas calculadas como características, este método producirá una cantidad mucho menor de características que el método anterior. En consecuencia, un modelo que use este método necesitará muchos menos datos de entrenamiento para lograr un buen error de generalización.

Una manera fácil es crear características a partir de estadísticas de la distribución. por ejemplo, media / desviación estándar / percentiles. Esto con un modelo lineal simple debería proporcionar una línea de base decente desde la cual probar otras cosas.