Supongamos que un atributo es un número flotante, si divido este número flotante en: mantisa, base y exponente. ¿Afectará mi clasificación en K-Means?

Digamos que tenemos dos valores: 0.0125 y 0.0725, su distancia euclidiana será 0.06 [1]. Si lo divide en manitssa, base y exponente, aparecerá algo así como

[matemática] 0.0125 = 1.25_ {10} \ veces 10 ^ {- 2} [/ matemática]

[matemática] 0.0725 = 7.25_ {10} \ veces 10 ^ {- 2} [/ matemática]

Entonces, en lugar de un número, obtienes tres números. Si observa, la base y el exponente son los mismos aquí. Entonces, lo único diferente es la mantisa, que es 1.25 y 7.25 y su distancia euclidiana es 6, que es una versión a escala de la distancia original 0.6.

Puedes construir un ejemplo con diferentes exponentes, pero no veo la ventaja. Todo esto bajo el supuesto de que los números considerados tienen la misma base. ¿Por qué te gustaría trabajar con números con diferentes bases de todos modos?

Ahora K-means utiliza la distancia euclidiana; por lo tanto, para responder a su pregunta, no debería hacer ninguna diferencia. Sin embargo, dividir el número en mantisa, base, exponente solo cambia la representación (o magnitud) de los datos, pero la distancia relativa sigue siendo la misma.

Advertencia

Usted menciona “¿Afectará mi clasificación?” – Kmeans es un algoritmo de agrupamiento y no hace clasificación. Para obtener más información, lea la respuesta de Shehroz Khan a ¿Se lleva a cabo el aprendizaje supervisado comúnmente después de la agrupación?

Notas al pie

[1] http://calculator.vhex.net/post/…

Respaldo la respuesta de Shehroz Khan, pero lo interesante es que en realidad no necesitas esta respuesta.

Como en cualquier proceso de ML, si cree que tiene una idea, puede probarla utilizando sus datos a través de la validación cruzada. Ejecute su algoritmo con el atributo como flotante o con los tres atributos y vea qué funciona mejor para su conjunto de validación.

¡Y bienvenido a la ingeniería de características, la única ingeniería en la que no sabes lo que estás haciendo hasta que funciona!