Cualquier conjunto de datos en el Depósito de aprendizaje automático de UCI funcionará bien.
Solo una idea:
- Comience con un problema de juguete, verificando las salidas.
- Pruebe utilizando el conjunto de entrenamiento como conjunto de prueba (el 1NN debe ser 100% correcto).
- Pruebe su implementación frente a scikit-learn: aprendizaje automático en la implementación de Python.
Scikit-learn está disponible en distribuciones basadas en Debian a través de apt-get.
- Tengo un conjunto de puntos 3D y cada uno tiene una puntuación. ¿Cómo encuentro / busco un grupo denso de puntos de alta puntuación?
- ¿Usarías un mejor cuaderno Jupyter?
- ¿Qué es exactamente el sobreajuste y por qué preferimos modelos que no están sobreajustados incluso cuando los resultados son mejores?
- ¿Cuál es el futuro del aprendizaje de refuerzo profundo? ¿Es una buena idea comenzar un doctorado ahora trabajando en ataques adversos en sistemas RL?
- ¿Cómo evalúa el rendimiento de un algoritmo de aprendizaje no supervisado?
Su código será algo como esto:
desde sklearn.neighbours import KNeighbourslasslass características, etiquetas = load_dataset ('iris-dataset') sklearn_knn = KNeighboursClassifier (n_neighbours = 3) sklearn_knn.fit (características, etiquetas) para prueba en testing_set: if sklearn_knn.predict (prueba) == your_knn (prueba, características, etiquetas, k = 1): imprimir "Error en" + str (prueba)
PD: En mi tesis de graduación codifiqué más de 10 algoritmos ML en Python, y en mi MSc más 4 algoritmos. Es la mejor manera de aprender, pero cuando lo ejecute en casos extremos, debería considerar usar algún enlace con C o scipy.