En el algoritmo KNN, ¿por qué el pequeño valor de k conduce a una pequeña tasa de error?

Gracias por el A2A, Elhaj! El valor de k en k-NN debe conocerse con anticipación después de estudiar los datos de la muestra. Veamos un par de escenarios y veamos cómo se desarrollarán los diferentes valores de k.

Grupos apretados de datos disjuntos:

Estos datos parecen hacer esferas en áreas particulares si se grafican, con una distancia significativa entre esferas. Los outlies se encontrarían más allá de los bordes de cada esfera a menudo solos.

Elegir un valor k aquí dependerá del tamaño de su muestra, el número de grupos de datos y el número medio de puntos de datos en cada grupo. Un buen lugar para comenzar sería 1/3 de la media del clúster.

Aquí tener una k de valor medio empujará el caso / clasificación hacia el centro de un grupo. Sin embargo, una k más alta puede causar errores en los valores atípicos.

Distribución lineal:

Este tipo de datos, cuando se traza, parece crear una línea simple. Altamente correlacionados entre aumentos / disminuciones de las entradas y salidas generan este tipo de datos.

Con este tipo de datos, se recomienda una k menor, ya que esto evitará que los vecinos se desvíen en otra clasificación. Tener una k más baja también ayuda a identificar valores atípicos más fácilmente.

Distribución aleatoria / uniforme:

Estos son datos que se extienden por toda la trama, lo que dificulta la clasificación. Es críticamente importante elegir un buen valor k porque la clasificación excesiva y baja es una posibilidad.

En general, usar un valor k más alto puede ser útil si desea sesgar los datos. Esto puede ser útil si tiene un conjunto grande de variables, con algunas de ellas más estrechamente correlacionadas.

¡Buena suerte!

More Interesting

¿Cómo funciona el algoritmo de 'forma de relleno' en los programas de dibujo?

Visión por computadora: las aplicaciones de Richard Szeliski ofrecen una buena (amorosa) montaña rusa a través de la historia de los algoritmos. ¿Cómo puedo usarlo mejor?

¿Qué significa limitado como sufijo para una empresa?

¿Dónde puedo obtener la mejor implementación de Java del algoritmo de ruta más corta de Dijkstra?

¿Cómo puedo aprender los algoritmos de resolución de problemas solo?

¿Cuáles son algunos algoritmos básicos en el aprendizaje automático para que su programa aprenda de otros datos (aprendizaje supervisado)?

La inmutabilidad es primordial en la mayoría de los dominios de FP, pero ¿hacen copias superficiales o profundas?

¿Cómo pruebo que un tipo de matriz N de longitud basada en comparación no se puede hacer en tiempo O (N) en el peor de los casos?

¿Es la clave de una matriz asociativa una variable?

¿Cuál es el significado de la complejidad en el algoritmo?

¿El uso de algoritmos en una clave de contraseña típica de 256 bits que siempre está cambiando pero que aún se muestra al usuario (como en un teléfono, por ejemplo) para crear código requeriría supercomputadoras más rápidas disponibles para superarlo?

¿Cómo puede Bulk Synchronous Parallel relajar las contracciones de sincronización de superpasos?

¿Cuál es la mejor prueba de primalidad que garantiza un resultado 100% exacto pero que se puede hacer en un tiempo polinómico?

¿Cuáles son algunos problemas prácticos en los que no se puede evitar el uso de algoritmos con big-O muy grande?

Cómo averiguar la complejidad temporal de un algoritmo dado