Gracias por el A2A, Elhaj! El valor de k en k-NN debe conocerse con anticipación después de estudiar los datos de la muestra. Veamos un par de escenarios y veamos cómo se desarrollarán los diferentes valores de k.
Grupos apretados de datos disjuntos:
Estos datos parecen hacer esferas en áreas particulares si se grafican, con una distancia significativa entre esferas. Los outlies se encontrarían más allá de los bordes de cada esfera a menudo solos.
- ¿Existe un algoritmo informático para detectar 'noticias falsas'?
- ¿Cómo calculamos la complejidad espacio-temporal de un algoritmo?
- ¿Cómo determinan el nivel de dificultad del sudoku mientras diseñan?
- ¿Cuál es el algoritmo de compresión de texto más utilizado en la industria?
- ¿Cómo analizaría la complejidad temporal de fibbonacci?
Elegir un valor k aquí dependerá del tamaño de su muestra, el número de grupos de datos y el número medio de puntos de datos en cada grupo. Un buen lugar para comenzar sería 1/3 de la media del clúster.
Aquí tener una k de valor medio empujará el caso / clasificación hacia el centro de un grupo. Sin embargo, una k más alta puede causar errores en los valores atípicos.
Distribución lineal:
Este tipo de datos, cuando se traza, parece crear una línea simple. Altamente correlacionados entre aumentos / disminuciones de las entradas y salidas generan este tipo de datos.
Con este tipo de datos, se recomienda una k menor, ya que esto evitará que los vecinos se desvíen en otra clasificación. Tener una k más baja también ayuda a identificar valores atípicos más fácilmente.
Distribución aleatoria / uniforme:
Estos son datos que se extienden por toda la trama, lo que dificulta la clasificación. Es críticamente importante elegir un buen valor k porque la clasificación excesiva y baja es una posibilidad.
En general, usar un valor k más alto puede ser útil si desea sesgar los datos. Esto puede ser útil si tiene un conjunto grande de variables, con algunas de ellas más estrechamente correlacionadas.
¡Buena suerte!