¿Cuál es un buen conjunto de datos para probar mi clasificador vecino más cercano K?

Cualquier conjunto de datos en el Depósito de aprendizaje automático de UCI funcionará bien.

Solo una idea:

Comience con un problema de juguete, verificando las salidas.
Pruebe utilizando el conjunto de entrenamiento como conjunto de prueba (el 1NN debe ser 100% correcto).
Pruebe su implementación frente a scikit-learn: aprendizaje automático en la implementación de Python.
Scikit-learn está disponible en distribuciones basadas en Debian a través de apt-get.

Su código será algo como esto:

  desde sklearn.neighbours import KNeighbourslasslass

 características, etiquetas = load_dataset ('iris-dataset')
 sklearn_knn = KNeighboursClassifier (n_neighbours = 3)
 sklearn_knn.fit (características, etiquetas)

 para prueba en testing_set:
     if sklearn_knn.predict (prueba) == your_knn (prueba, características, etiquetas, k = 1):
         imprimir "Error en" + str (prueba)

PD: En mi tesis de graduación codifiqué más de 10 algoritmos ML en Python, y en mi MSc más 4 algoritmos. Es la mejor manera de aprender, pero cuando lo ejecute en casos extremos, debería considerar usar algún enlace con C o scipy.

¿Cuáles son algunas aplicaciones del aprendizaje por refuerzo (o aprendizaje por refuerzo profundo) en finanzas y economía?

¿Qué significa realmente el aprendizaje automático en términos reales?

¿Un doctorado en aprendizaje automático centrado en un tema que no sea el aprendizaje profundo seguirá siendo comercializable (en la industria) en 2020?

¿Qué algoritmos / tecnologías se usaron para hacer Siri?

¿Ha hecho Internet que un título universitario sea irrelevante?

¿El código CSS y HTML puede tener derechos de autor?

Usé kNN para clasificar los dígitos escritos a mano. Por lo tanto, puede probar la base de datos de dígitos manuscritos MNIST, Yann LeCun, Corinna Cortes y Chris Burges. El conjunto de datos que utilicé fue de un libro Machine Learning in Action: Peter Harrington: 9781617290183: Amazon.com: Books. Realmente recomiendo leer este libro.
PD También hay una publicación de blog sobre el clasificador de dígitos escrito a mano usando kNN en la construcción de un “identificador de dígitos escrito a mano” y algunos conceptos básicos de aprendizaje automático.

Ishan Jain

¡Prueba este sitio web! Depósito de aprendizaje automático de UCI

Ishan Jain

More Interesting

¿Qué es mejor para alguien que esté dispuesto a hacer un doctorado en visión artificial: conocer un método en profundidad y aplicaciones ampliamente, o lo contrario?

¿Qué algoritmo de aprendizaje automático debo usar cuando tengo 5-6 valores categóricos independientes y 1 variable continua dependiente?

¿Qué tan difícil es pasar de la optimización aplicada al aprendizaje automático / ciencia de datos?

¿Cómo una red neuronal artificial calcula su salida?

¿Quiénes son los mejores expertos en Machine Learning en el Área de la Bahía?

Cómo crear un motor de búsqueda médica utilizando el aprendizaje automático en Java

¿Cómo afectaría la homo / heteroscedasticidad al análisis de regresión?

¿Cuál es la diferencia entre el análisis de opinión y el análisis de tonalidad?