¿Cómo se usan los árboles BSP (partición de espacio binario) en los algoritmos de aprendizaje automático?

Uno de los enfoques estándar en el aprendizaje automático se llama “aprendizaje basado en instancias (IBL)”. El algoritmo de vecinos K-Nearest es quizás el más conocido entre estos appraoches. Los casos especiales de BSP llamados árboles KD se usan muy a menudo en la ingeniería del mundo real de K-NN.

Déjame llegar a los detalles:

Las IBL requieren que identifique uno o más vecinos más cercanos a un punto dado o un registro para hacer una predicción. Por ejemplo, si quiero determinar si clasificar una transacción como buena o fraude, busco la transacción más cercana cuyo estado se conoce. Si es fraude, etiqueto la transacción original también como fraude o viceversa.

Por lo general, calcula distancias utilizando atributos conocidos. Entonces, para los datos de la transacción, podría mirar atributos como la demografía del cliente que realizó las transacciones, el historial pasado de las transacciones de los clientes, los detalles de la transacción (cantidad, ip, etc.). Todos estos pueden sumar varias docenas de atributos. Si tengo alrededor de 1,000,000 de transacciones conocidas, para predecir el estado de cada nuevo punto, necesito medir sus distancias con 1,000,000 de puntos (cada uno con varias docenas de dimensiones) para encontrar su vecino más cercano.

Claramente, una desventaja importante es el tiempo de cálculo.

Entonces, las personas usan una variedad de técnicas para acelerar. Algunos se centran en crear un subconjunto de datos.

Una técnica interesante es representar los datos en forma de un tipo específico de árbol de partición de espacio binario llamado árbol KD . Consulte Wikipedia para obtener más información al respecto.

El árbol KD me permite dividir los datos de una manera estructurada y eliminar rápidamente la mayoría de los puntos con los que no necesito calcular la distancia para encontrar el vecino más cercano, ya que no pueden ser vecinos más cercanos. Esto reduce drásticamente el tiempo de cálculo. Pero, en problemas dimensionales muy grandes, los BSP fallan.

Por supuesto, los árboles de decisión también son algoritmos de partición geométricamente espaciales. CART en particular es una herramienta de partición de espacio binario. Sin embargo, en los BSP normales usamos algunos criterios geométricos (como la distancia) para la partición. Pero, en los árboles de decisión, algunas medidas de impureza se minimizan durante la partición. Como supongo que no está interesado en esta parte, no profundizaré en esos métodos.

More Interesting

¿Qué es mejor en términos de ROI: MS en informática o MS en análisis de datos / ciencia de datos en EE. UU.?

¿Es posible una batalla de humanos contra máquinas en el futuro previsible?

¿Cómo deberías comenzar una carrera en aprendizaje profundo?

¿Cuáles son algunas aplicaciones del aprendizaje automático para la ciencia ambiental y la ingeniería ambiental?

¿Qué tipos de trabajos están disponibles en la industria financiera para un máster en ML / AI graduado?

¿Qué resultado arrojará una máquina de aprendizaje profundo bien entrenada de esta imagen?

¿Es posible usar datos sintéticos (no de la vida real) en un modelo de aprendizaje automático?

¿Cuáles son los conjuntos de datos canónicos de aprendizaje automático utilizados como punto de referencia para demostrar un nuevo método?

¿Qué algoritmos son los mejores para el filtrado de spam? ¿Cómo deberían implementarse?

Cómo entrenar un modelo word2vec como GoogleNews-vectors-negative300.bin para francés

¿Cuáles son los principales avances en el procesamiento del lenguaje natural en 2015?

¿Por qué se utilizan imágenes en escala de grises para el análisis de componentes principales?

¿Qué tipo de estructuras de datos podrían usarse en un proyecto de procesamiento de lenguaje natural?

¿Cómo debo prepararme para Shogun Machine Learning Toolbox en GSoC? ¿Es difícil ser seleccionado en Shogun?

¿Qué papel juega la función logística en el algoritmo de regresión logística en el aprendizaje automático?