La lista de técnicas geniales de aprendizaje automático / minería de datos en el mundo es interminable. Sin embargo, ¿cuál es el problema que está tratando de resolver con su conjunto de datos? El tipo de algoritmo elegido dependerá de la pregunta que desee responder.
Por lo general, cualquier problema de análisis predictivo se incluirá en una de estas 4 categorías:
- Clasificación: predice un resultado discreto sobre si un punto de datos caerá en 2 o más categorías. por ejemplo, ¿este cliente abandonará o no al final de esta suscripción?
- Regresión: predice un resultado continuo basado en características o variables independientes. Por ejemplo, ¿cuál debería ser el precio previsto de este producto según las características de este cliente?
- Agrupación: agrupe los puntos de datos en agrupaciones según similitud, cercanía o características comunes. Por ejemplo, ¿en qué segmentos pueden dividirse todos los clientes de esta base de datos CRM?
- Reducción de dimensiones: reducir el número de características o variables independientes en consideración, mediante la obtención de un conjunto de componentes principales. Por ejemplo, ¿cuáles son los 3 grupos principales en los que las 100 características de este conjunto de datos CRM pueden condensarse con una pérdida mínima de información?
Cada uno de estos problemas tiene algoritmos que puede aplicar a ellos, en función de las características de su conjunto de datos y los supuestos subyacentes. Aquí hay algunos ejemplos, y se puede encontrar una lista completa de algoritmos en el sitio web de Scikit-learn:
- ¿Cuáles son las competencias básicas para un ingeniero de datos?
- ¿Quiénes son los principales expertos mundiales en ciudades inteligentes y planificación urbana basada en datos?
- ¿Qué se siente ser un científico de datos en Tesla?
- ¿Qué clasificadores de aprendizaje automático escalan muy bien a big data? ¿Hay alguna referencia de papel?
- ¿Cuáles son los usos de big data en el software de recursos humanos?
- Clasificación – Naive Bayes, SVM, vecinos más cercanos, bosque aleatorio
- Regresión: SVR, regresión de cresta, lazo
- Agrupación: k-medias, agrupación espectral, desplazamiento medio
- Reducción de dimensiones: PCA, selección de características, factorización de matriz no negativa.
Además de los algoritmos para resolver el problema en cualquiera de estas 4 categorías anteriores, hay algoritmos adicionales para el preprocesamiento, dividiendo sus datos en capacitación / prueba y validación. Básicamente: estos algoritmos lo ayudan a asegurarse de que está suministrando los datos correctos al modelo, y su validación es precisa para evitar un alto error o un ajuste excesivo
- Preprocesamiento: preprocesamiento, extracción de características
- Selección de modelo: búsqueda de cuadrícula, validación cruzada, métricas
Si no tiene miedo de sentirse abrumado, consulte esta página wiki [1]. Encontrarás una lista gigantesca aquí.
Notas al pie
[1] Aprendizaje automático – Wikipedia