Con conjuntos de datos muy grandes, desestructurados y ruidosos, a menudo es mejor realizar algún tipo de reducción de dimensionalidad. Debes buscar en PCA o ICA. El aprendizaje múltiple también proporciona una buena base (práctica y teórica) para la reducción de la dimensionalidad no lineal.
A menudo se dice que los datos que tiene son mucho más importantes que el algoritmo que implementa. Sería mejor mirar sus datos y hacer algún tipo de extracción de características. Las características que puede crear a menudo codificarán información semántica mucho más útil y no están tan dispersas como el vector covariable con el que comienza.
Pasando a los algoritmos reales, depende de la distribución de sus datos y del problema que tenga a mano. Si está haciendo una clasificación binaria, le sugiero que busque en las Máquinas de vectores de soporte de margen suave (SVM), ya que están bien fundamentadas en teoría y proporcionan una implementación poderosa para tratar con grandes conjuntos de datos también.
- Cómo contar inversiones divididas con el algoritmo de clasificación de fusión
- ¿Cuál es el mejor algoritmo de clasificación para alfabetizar físicamente mi colección de libros?
- Estructuras de datos: ¿Cuál es una explicación intuitiva de los árboles rojo-negros?
- ¿Cuál es la mejor manera de aprender el algoritmo KMP para poder recordarlo fácilmente?
- Cómo eliminar caracteres duplicados en la cadena char * p = 'chaabbcc'
Los bosques aleatorios (RF) también actúan como buenos clasificadores. Puede usar un subconjunto del conjunto de entrenamiento para embolsar y crear una forma de clasificador de conjunto. Existen innumerables implementaciones diferentes de RF y todas tienen sus ventajas específicas según los datos que tenga y la tarea de clasificación en cuestión.
El último algoritmo que sugeriré investigar es Deep Learning Neural Networks (DNNs). Los DNN pueden formar arquitecturas complejas que parecen formar comportamientos y clasificaciones “inteligentes”. Los DNN pierden algunas de las ventajas que tienen las redes neuronales de perceptrón multicapa, como un entrenamiento más simple.
En general, el algoritmo que elija dependerá mucho del tipo de datos que tenga. Sugeriría pasar una cantidad significativa de tiempo trabajando en la limpieza de sus datos antes de seguir adelante. Cuando comience con la clasificación, siempre debe hacer una validación cruzada n- doble para asegurarse de que no está sobreajustando y que su algoritmo se generalizará a los nuevos datos que obtendrá.