¿Cuántas clases diferentes podemos tener prácticamente dentro de un conjunto de entrenamiento, mientras usamos el algoritmo KNN?

Hay bastante trabajo publicado sobre clasificación de datos con un gran número de clases, 700 es ciertamente posible. Por ejemplo, Deng et al. (2010) encuentran que KNN supera a los SVM cuando el número de clases distintas es grande, 7000+.

El tiempo de ejecución de KNN es independiente del número de clases, por lo que existe una ventaja computacional de usarlo cuando hay cientos, miles o millones de clases *.

*¿Por qué? Supongamos que tiene clases C y está utilizando K vecinos más cercanos: puede encontrar la clase mayoritaria de los K puntos de datos más cercanos en el tiempo O (K) manteniendo una matriz de longitud C que contenga los recuentos de histogramas para cada clase. llámelo A y mantenga un recuento máximo a medida que se completa este histograma.

Si llamamos al conjunto de vecinos más cercanos KNN y denotamos x_i, y_i como el valor respectivo y la clase del punto de datos i, entonces el siguiente código realiza la clasificación.

A = zero_array_of_length (C)
max_count = -inf
max_class = 0
para x_i, y_i en KNN:
A [y_i] + = 1
si A [y_i]> max_count:
max_count = A [y_i]
max_class = y_i
return max_class

Supongo que podemos inicializar una matriz en O (1) tiempo, lo cual es posible en la arquitectura moderna.

AlgoritmosAprendizaje automáticoClasificaciónMinería de datos

Related Content

¿Existe alguna medida estadística que demuestre que un clasificador Neural Net con una precisión del 96% en un conjunto de datos de N ejemplos proporcionará una precisión similar en el mundo real?

¿Cuál es su proceso para diseñar funciones de pérdida para problemas de Machine Learning?

¿Siguen siendo relevantes los enfoques simbólicos de IA después de los recientes éxitos del aprendizaje profundo?

¿Ha habido alguna investigación sobre cómo las pérdidas de capacitación en la convergencia de los algoritmos de aprendizaje profundo varían con el tamaño de los datos que ingresan?

¿Es inevitable la multicolinealidad en los datos experimentales? Si no, ¿en qué condiciones podemos esperar multicolinealidad?

¿Cuál es el mejor lenguaje de programación para implementar algoritmos de aprendizaje automático?

¿Cuál es su experiencia de aprendizaje automático en el mundo real en Haskell?

He leído que kNN no funciona bien debido al hecho de que en presencia de un conjunto grande (50k) y varias clases, el tiempo de ejecución es demasiado lento. Una forma de acelerarlo es usando kd-tree, ¿cuánto podría ser relevante la diferencia? Además, ¿cuál podría ser otro algoritmo que funcione igual de bien?

Jack Rae

More Interesting

¿Cuál es la diferencia entre un contenedor y un algoritmo de filtro en Data Mining / Machine Learning?

¿Qué es un núcleo universal en el contexto del aprendizaje automático?

¿Qué es una explicación simplificada y una prueba del lema de Johnson-Lindenstrauss?

¿Crees que los algoritmos de aprendizaje automático pueden cambiar la forma en que hacemos simulaciones numéricas?

Cómo optimizar la clasificación de varias clases si ya conozco el número de ocurrencias de cada clase en el conjunto de datos de prueba

¿Cuáles son las cosas básicas que debe saber un ingeniero informático antes de aprender sobre ciencia de datos y aprendizaje automático?

Cómo comenzar una investigación independiente en aprendizaje profundo

¿Cuál es la diferencia entre agrupar sin PCA y agrupar con PCA?

¿Cuáles son algunos de los documentos fundamentales sobre el aprendizaje profundo?

¿Cuál es la regla de entrenamiento para redes de perceptrón de capa única con umbral?

El lenguaje de máquina se ha mencionado en todas partes. ¿Qué es en realidad?

¿Cómo comenzó Perl como el idioma dominante en bioinformática?

¿Por qué las redes convolucionales profundas llegaron tan tarde?

¿Por qué el libro de Murphy dice en el clasificador generativo que no tenemos que volver a entrenar el modelo cuando agregamos más clases?

¿Por qué el artículo de DeepMind sobre el aprendizaje de refuerzo (jugar juegos de atari) ganó popularidad estelar?

Web Analytics