Cómo elegir un algoritmo de minería de datos al minar un conjunto de datos real

Elegir el algoritmo en sí no es un problema real. El verdadero problema es que cuando tienes datos reales, luchas por

Obtenga todos los datos en un formato unificado
Comprender qué es útil y qué no
Limpiar los datos
Determine si con estos datos puede proceder

Ok, supongamos que limpiamos los datos y todo es perfecto, sin valores faltantes, sin valores atípicos, se realizó un análisis exploratorio de datos e incluso obtuvimos algo de eso.
Primero empiezo con modelos lineales simples. Porque no hay necesidad de esperar varias horas para que converja RBM profunda si todo lo que tenemos allí es una dependencia lineal.
Bien, la regresión lineal falló. Luego voy por KNN, solo porque los datos pueden contener grupos, y es poco probable que sepa cuántos exactamente. Intento varios números de vecinos, luego, si no funciona, es hora de un enfoque un poco más sofisticado.

Modelos de árboles simples, como CART. Compare su rendimiento en el conjunto de entrenamiento y validación y vea si hay alguna diferencia. Algunas pruebas BS, como comparar con predicciones aleatorias, también son buenas.
Si los modelos de árbol no funcionan, hay 3 armas poderosas que casi nunca me fallan.

GBM
Bosque al azar
SVM

Todos estos algoritmos pueden realizar regresión y clasificación, por lo que no hay mucha diferencia, especialmente, si crea un prototipo de su modelo en R como yo.
Puede probarlos en este orden o en el que desee, pero en RI le gusta GBM por su construcción automática de curvas de ajuste.

Y solo si estos algoritmos fallaron o no lograron dar el resultado deseado, voy por Redes Neuronales. Varios nodos ocultos, conjunto de redes con inicialización aleatoria: las cosas se ponen difíciles al instante y consumen mucho tiempo.

Entonces, la próxima vez que necesite simplificar su proceso de elección del algoritmo, intente seguir esta lista.

¡Mucha suerte en tus esfuerzos!

AlgoritmosAnálisis deAnálisis de Big DataAprendizaje automáticoBig DataCiencia de datosConjuntos de datosdatosinformáticaMinería de

Related Content

Después de Mu-sigma, ¿debería unirme a Flipkart o un inicio en análisis de datos?

En el aprendizaje automático, si no sé mucho sobre la corrección de lo anterior, ¿puedo tratar de corregir el modelo a través de grandes cantidades de datos de entrenamiento?

¿Cuál es la diferencia entre Driven-data y Data?

Cómo analizar un conjunto de datos de viaje que contiene tiempo / modo / ingresos por persona

¿Qué son las certificaciones de Big Data? ¿Es necesario tener una buena carrera en el dominio de big data?

¿Cuáles son algunos hechos que solo los físicos cuánticos saben pero que el público en general no sabe?

¿Cómo pueden las técnicas de big data y los métodos estadísticos ayudar a un jugador de cricket a analizar sus datos históricos y mejorar su rendimiento?

Depende principalmente del tipo de datos con los que estamos tratando y también del objetivo de todo el proceso. Consideraría a continuación dos puntos importantes antes de decidir el algoritmo para proceder.

Tipos de variables (continuas, discretas, dicotómicas, etc.)
Tipo de proceso: asociación de minería, agrupación, clasificación, etc.

Verifique esta imagen, podría ayudarlo a comprender mejor la clasificación de las técnicas de minería de datos.

créditos: K. Gibert et al. / Elección de la técnica correcta de minería de datos: clasificación de métodos e inteligencia …

Othello Farea

Creo que esta ” Hoja de trucos del algoritmo de aprendizaje automático” puede responder a lo que está buscando.

Roman Trusov

More Interesting

¿Cuándo no debería usar un término constante en regresión lineal? ¿Alguien puede explicarlo con un ejemplo?

¿Hay algún sitio web que se ocupe de aplicar el análisis de datos y la interpretación estadística a los deportes electrónicos?

¿Qué debo hacer para crear una base de datos efectiva?

¿Todos los científicos necesitarán saber ciencia de datos?

¿En qué se diferencian las matemáticas que usan los cuantos de las matemáticas que usan los científicos de datos?

¿Cuáles son algunos buenos paquetes de R para el análisis de datos cualitativos?

¿Cuáles son algunas de las principales conferencias de ciencia de datos y análisis en India?

Si me uno a Microsoft como Científico de datos sénior y obtengo un rendimiento superior al promedio, ¿cuánto tiempo debo esperar para llegar al nivel principal?

¿Hay algún buen conjunto de datos de huellas dactilares y / o iris disponibles públicamente para el aprendizaje automático?

¿Existe una guía de inicio automático para PNL?

Cómo analizar la intensidad de los datos de noticias

¿Cuáles son los mejores 3 institutos de capacitación en el aula para un curso de ciencia de datos con certificación en Hyderabad?

¿Me puede recomendar un curso avanzado de ciencia de datos?

¿Cuál es la importancia de utilizar la tendencia central en el análisis de datos?

¿Qué deportes son más conocidos por el análisis de datos?

Web Analytics