¿Por qué algunos clasificadores no pueden manejar los atributos continuos?

Algunos clasificadores, como los algoritmos de árbol de decisión o basados ​​en reglas, usan decisiones discretas que hacen que los atributos continuos no se manejen naturalmente. Sin embargo, los atributos continuos siempre se pueden discretizar en atributos discretos o incluso binarios para que puedan ser utilizados por esos clasificadores de todos modos.

Por ejemplo, si se usa un atributo continuo como “longitud”, pero un clasificador no puede usar atributos continuos, entonces podría convertirlo en varios atributos discretos como “longitud <1", "1 <= longitud <2", " 2 <= longitud ". Entonces podría usar estos 3 valores binarios como variables discretas.

Para determinar dónde poner los límites para cada “contenedor”, puede usar algunas técnicas:

  1. Intervalos de ancho igual. Encuentre el valor mínimo y máximo y divídalos equitativamente entre ellos.
  2. Intervalos de frecuencia iguales: observe una muestra aleatoria de valores que se producen para ese atributo, ordénelos de menor a mayor y divida la lista en N valores con el mismo número de muestras en cada bin. Use el valor mínimo de las muestras en cada contenedor para ser el límite inferior de ese contenedor.
  3. Con un poco más de trabajo, puede ver cómo el atributo parece correlacionarse con las clases de salida, y encontrar lugares donde parece haber divisiones naturales. (p. ej., la longitud <1.2 parece ser siempre de clase A; la longitud de 1.2 a 2.3 es principalmente A; de 2.3 a 5.7 es principalmente B; por encima de 5.7 es casi siempre B).

Para más detalles, siéntase libre de ver un artículo que escribí sobre esto hace mucho tiempo: http://axon.cs.byu.edu/~randy/ja…