¿Cuándo los vecinos más cercanos clasificador \ regresión fallarían miserablemente?

Refiriéndome a la respuesta de Leon Palafox, creo que la respuesta puede ser visualmente más intuitiva si consideras la densidad de los puntos de entrenamiento en el espacio de alta dimensión. A medida que aumenta la dimensión, los ejemplos de entrenamiento necesarios para cubrir una porción del espacio se hacen exponencialmente más grandes. Vea este gran artículo sobre la maldición de la dimensionalidad:

La figura ilustra lo anterior de una manera diferente. Digamos que queremos entrenar a un clasificador usando solo una característica cuyo valor varíe de 0 a 1. Supongamos que esta característica es única para cada gato y perro. Si queremos que nuestros datos de entrenamiento cubran el 20% de este rango, la cantidad de datos de entrenamiento necesarios es el 20% de la población completa de gatos y perros. Ahora, si agregamos otra característica, lo que resulta en un espacio de características 2D, las cosas cambian; Para cubrir el 20% del rango de características 2D, ahora necesitamos obtener el 45% de la población completa de gatos y perros en cada dimensión (0.45 ^ 2 = 0.2). En el caso 3D, esto empeora: para cubrir el 20% del rango de características 3D, necesitamos obtener el 58% de la población en cada dimensión (0.58 ^ 3 = 0.2). En otras palabras, si la cantidad de datos de entrenamiento disponibles es fijo, luego se produce un sobreajuste si seguimos agregando dimensiones. Por otro lado, si seguimos agregando dimensiones, la cantidad de datos de entrenamiento debe crecer exponencialmente rápido para mantener la misma cobertura y evitar el sobreajuste.
¿Cuáles son las empresas analíticas de big data que figuran en los EE. UU. Y Europa en el ámbito de la atención médica?
¿Es posible mezclar datos para la ciencia de datos predictivos de tal manera que permanezcan todos los patrones imprevistos?
¿Qué se necesita para que un antiguo agente de Wall Street consiga un trabajo en ciencia de datos? ¿Es un certificado de aprendizaje automático de Coursera más un proyecto de Kaggle?
¿Cuáles son los mejores campos de entrenamiento de ciencia de datos?
¿Cuál es el mejor instituto en India para la ciencia de datos y análisis de negocios?

Me pregunto, ¿existe una regla práctica de cuándo KNN sería razonable, dada la cantidad de puntos de entrenamiento [matemática] N [/ matemática] y la dimensión [matemática] d [/ matemática]?

Aprendizaje automáticoCiencia de datos