KNN significa k-vecinos más cercanos. Suponga que la tarea es clasificar una instancia i . Como puedes adivinar por su nombre, solo necesitas echar un vistazo a las k instancias de entrenamiento más similares a i . Luego, vote por mayoría y vea qué etiqueta es la etiqueta más popular entre estas k instancias. Asigne i a esa etiqueta. Eso es.
Más técnicamente, KNN es un algoritmo de aprendizaje perezoso o basado en instancias. Significa que no necesita aprender un modelo de los datos de entrenamiento. En realidad, no hay una fase de entrenamiento y solo necesita encontrar las instancias más similares a una instancia de prueba en el momento de la prueba. Tenga en cuenta que k es un número constante.
La pregunta es cómo calcular la similitud entre dos instancias. Depende totalmente del problema. El producto de puntos, la distancia euclidiana negativa, la similitud del coseno y la divergencia de KL o JS son ejemplos comunes de la función de similitud.
- Si no tengo experiencia en aprendizaje automático o investigación computacional, pero tengo antecedentes estadísticos, ¿es posible hacer investigación en esta área en la escuela de posgrado o hacer una pasantía?
- ¿Cómo deberíamos acelerar el procesamiento de datos del lenguaje R?
- ¿Cuáles son los desafíos tecnológicos involucrados en alimentar el código fuente de una máquina Linux y hacer que aprenda a codificar un núcleo Linux similar?
- ¿Cómo comenzó Perl como el idioma dominante en bioinformática?
- ¿Cuáles son algunos proyectos de aprendizaje automático de nivel principiante que se pueden hacer después de una clase de Coursera de Andrew Ng?