¿Cuál es un buen conjunto de datos para probar mi clasificador vecino más cercano K?

Cualquier conjunto de datos en el Depósito de aprendizaje automático de UCI funcionará bien.

Solo una idea:

  1. Comience con un problema de juguete, verificando las salidas.
  2. Pruebe utilizando el conjunto de entrenamiento como conjunto de prueba (el 1NN debe ser 100% correcto).
  3. Pruebe su implementación frente a scikit-learn: aprendizaje automático en la implementación de Python.

    Scikit-learn está disponible en distribuciones basadas en Debian a través de apt-get.

Su código será algo como esto:

  desde sklearn.neighbours import KNeighbourslasslass

 características, etiquetas = load_dataset ('iris-dataset')
 sklearn_knn = KNeighboursClassifier (n_neighbours = 3)
 sklearn_knn.fit (características, etiquetas)

 para prueba en testing_set:
     if sklearn_knn.predict (prueba) == your_knn (prueba, características, etiquetas, k = 1):
         imprimir "Error en" + str (prueba)

PD: En mi tesis de graduación codifiqué más de 10 algoritmos ML en Python, y en mi MSc más 4 algoritmos. Es la mejor manera de aprender, pero cuando lo ejecute en casos extremos, debería considerar usar algún enlace con C o scipy.

Usé kNN para clasificar los dígitos escritos a mano. Por lo tanto, puede probar la base de datos de dígitos manuscritos MNIST, Yann LeCun, Corinna Cortes y Chris Burges. El conjunto de datos que utilicé fue de un libro Machine Learning in Action: Peter Harrington: 9781617290183: Amazon.com: Books. Realmente recomiendo leer este libro.
PD También hay una publicación de blog sobre el clasificador de dígitos escrito a mano usando kNN en la construcción de un “identificador de dígitos escrito a mano” y algunos conceptos básicos de aprendizaje automático.

¡Prueba este sitio web! Depósito de aprendizaje automático de UCI

More Interesting

¿Qué es mejor para alguien que esté dispuesto a hacer un doctorado en visión artificial: conocer un método en profundidad y aplicaciones ampliamente, o lo contrario?

¿Qué algoritmo de aprendizaje automático debo usar cuando tengo 5-6 valores categóricos independientes y 1 variable continua dependiente?

¿Qué tan difícil es pasar de la optimización aplicada al aprendizaje automático / ciencia de datos?

¿Cómo una red neuronal artificial calcula su salida?

¿Quiénes son los mejores expertos en Machine Learning en el Área de la Bahía?

Cómo crear un motor de búsqueda médica utilizando el aprendizaje automático en Java

¿Cómo afectaría la homo / heteroscedasticidad al análisis de regresión?

¿Cuál es la diferencia entre el análisis de opinión y el análisis de tonalidad?

¿Podemos aplicar tanto la selección de características como la reducción de dimensionalidad?

¿Es el aprendizaje profundo una buena herramienta para resolver problemas de lenguaje natural?

¿Cuáles son las desventajas de usar el algoritmo clásico de árbol de decisión para grandes conjuntos de datos?

¿Cuál es la importancia del lenguaje de programación Erlang para el aprendizaje automático?

¿Cuál es la diferencia entre el curso de aprendizaje automático de Andrew Ng en Coursera y el curso AZ ML en Python y R en Udemy?

¿Cuáles son algunos de los beneficios del análisis de regresión múltiple?

¿Qué es una comprensión intuitiva del análisis factorial?