Es solo un método entre muchos. Tiene ciertas ventajas, pero de ninguna manera es el mejor algoritmo de aprendizaje automático. Hay algo de verdad en su declaración de preguntas, pero creo que faltan algunas partes clave.
KNN … no construye ningún modelo : kNN no es paramétrico; no asume la distribución de sus datos y calcula las probabilidades localmente. Entonces sí. No tiene que encontrar ningún parámetro para el modelo subyacente (excepto k ). Sin embargo, hay muchas otras preguntas que debe responder antes de usar este método. Se debe tomar una decisión importante sobre la ‘ función de distancia ‘. ¿ Estandarizaría sus datos antes de alimentarlos a la función de distancia? Espero que veas el punto.
Mencionaste que no depende de ningún conjunto de entrenamiento. Esto no es enteramente verdad. ¿Cómo definirías k ? Prácticamente, terminarás probando diferentes números de vecinos en un Conjunto de entrenamiento para encontrar la mejor k .
- El comportamiento emergente se encuentra en el núcleo de las ciencias físicas y de la vida: posiblemente por conveniencia computacional. ¿La teoría de la complejidad ofrece ideas aquí?
- ¿Cuál es la diferencia entre la implementación de HPLC y FTIR?
- ¿Cuál es la mejor manera de usar la notación O grande para determinar la tasa de crecimiento del tiempo de ejecución de un algoritmo?
- ¿Cuáles son los temas de doctorado en estructuras de datos y análisis?
- Cómo implementar este problema: Problema - C - Fuerzas de código
Ahora, si enriquece los datos, su rendimiento probablemente aumentará. Estoy de acuerdo. Pero esto no se limita a kNN. Si tiene abundantes puntos de datos, la mayoría de los métodos de aprendizaje automático pueden beneficiarse de él.
El punto principal del uso de métodos paramétricos de ML es que a menudo es muy difícil calcular las probabilidades posteriores. Debido a la falta de datos . Realiza algunas suposiciones sobre las distribuciones subyacentes para aliviar este problema. Estas suposiciones pueden hacer que su modelo sea poco realista, pero facilita los cálculos. Si tiene suficientes puntos de datos, ¿por qué no calcular las probabilidades y utilizar el método bayesiano?