¿Cuándo los vecinos más cercanos clasificador \ regresión fallarían miserablemente?

Refiriéndome a la respuesta de Leon Palafox, creo que la respuesta puede ser visualmente más intuitiva si consideras la densidad de los puntos de entrenamiento en el espacio de alta dimensión. A medida que aumenta la dimensión, los ejemplos de entrenamiento necesarios para cubrir una porción del espacio se hacen exponencialmente más grandes. Vea este gran artículo sobre la maldición de la dimensionalidad:

La figura ilustra lo anterior de una manera diferente. Digamos que queremos entrenar a un clasificador usando solo una característica cuyo valor varíe de 0 a 1. Supongamos que esta característica es única para cada gato y perro. Si queremos que nuestros datos de entrenamiento cubran el 20% de este rango, la cantidad de datos de entrenamiento necesarios es el 20% de la población completa de gatos y perros. Ahora, si agregamos otra característica, lo que resulta en un espacio de características 2D, las cosas cambian; Para cubrir el 20% del rango de características 2D, ahora necesitamos obtener el 45% de la población completa de gatos y perros en cada dimensión (0.45 ^ 2 = 0.2). En el caso 3D, esto empeora: para cubrir el 20% del rango de características 3D, necesitamos obtener el 58% de la población en cada dimensión (0.58 ^ 3 = 0.2). En otras palabras, si la cantidad de datos de entrenamiento disponibles es fijo, luego se produce un sobreajuste si seguimos agregando dimensiones. Por otro lado, si seguimos agregando dimensiones, la cantidad de datos de entrenamiento debe crecer exponencialmente rápido para mantener la misma cobertura y evitar el sobreajuste.

Me pregunto, ¿existe una regla práctica de cuándo KNN sería razonable, dada la cantidad de puntos de entrenamiento [matemática] N [/ matemática] y la dimensión [matemática] d [/ matemática]?

El vecino más cercano depende en gran medida de las distancias entre puntos. A medida que aumente el número de dimensiones, sus distancias serán menos representativas, esto se llama maldición de dimensionalidad.

A menos que modifique sus datos, KNN es muy malo para los datos de alta dimensión.

More Interesting

¿Cuáles son las aplicaciones de Data Science donde no hay datos recopilados previamente?

Cómo analizar la intensidad de los datos de noticias

¿Cómo afectan la ciencia de datos, los grandes datos y el aprendizaje automático al campo de la ingeniería biomédica?

¿Qué herramientas existen para resumir documentos muy especializados (por ejemplo, documentos legales o médicos)? ¿Cuál es la diferencia entre estas herramientas y las genéricas?

¿En qué tecnología el crecimiento es mayor si necesitamos elegir uno de JAVA y BIG DATA?

¿Cuáles son algunos buenos libros para el análisis de datos con R?

Ciencia de datos: ¿Qué es mejor: Dato o DataRobot?

¿Habilidades para el autoaprendizaje de la ciencia / análisis de datos o las estadísticas de EM?

Quiero convertirme en un científico de datos, ¿cómo me convierto en un buen estadístico? ¿Cuáles son buenos libros, conferencias, blogs, etc. que mejorarán mi comprensión de los métodos estadísticos a nivel profesional?

¿Tendré oportunidades de trabajo después de hacer un curso de ciencia de datos de Simplilearn?

¿Qué tipo de proyectos tiene un científico de datos en su currículum?

Cómo aprender análisis de big data fácilmente desde un entorno que no sea de TI

¿Están sobrevaloradas las estimaciones de la escasez de científicos de datos? La inversión en herramientas y productos de big data está en aumento, al igual que los institutos que ofrecen títulos en Big Data / Data Science. ¿La inversión y el desarrollo de infraestructura significarán una disminución en el empleo?

¿Por qué hay muchos módulos en el ecosistema hadoop en lugar de un solo módulo?

¿Qué opinas sobre la plataforma de ciencia de datos de Domino?