¿Qué algoritmo en aprendizaje automático es el más adecuado para unir los datos entrantes nuevos con los datos existentes en la base de datos SQLite?

Necesita explorar bien sus datos, llevar a cabo algunas ideas haciendo una investigación de Análisis de datos exploratorios sobre sus datos. Y después de hacerlo, puede decidir qué algoritmo será el más adecuado. Hay muchas cosas que puedes hacer :

1. Comprueba el tamaño de los datos que tienes mientras entrenas
2. Dado que hay pocas características, SVM no será una buena opción, tampoco supondría que fueran datos de texto.
3. Compruebe las correlaciones de características y las características importantes que son útiles en la variable objetivo de predicción.
4. Aplique modelos simples primero, como Regresión logística -> Árboles de decisión -> Conjunto, etc. Aumente la complejidad de los modelos si no está satisfecho con los resultados.
5. Además, puede ajustar su rendimiento al reducir algunas características, o aumentar los datos de entrenamiento, o viceversa. También puede hacer ingeniería de características generando más funciones a partir de una disponible que puede predecir mejor que las individuales.
6. Luego puede hacer ajustes de hiperparámetros utilizando la Búsqueda de cuadrícula, para optimizar aún más.
7. Puede ajustar los modelos utilizando diferentes técnicas de optimización, o incluso escribiendo alguna función propia si comprende cuál podría ser el flujo de la solución.

Por lo tanto, para resumir, haré énfasis en solo dos puntos que debe tener en cuenta.
1. ¿Qué modelo elegir?
2. ¿Qué características elegir?
El resto para todos los problemas ya está disponible en la red.

Los algoritmos no se pueden decidir por la forma en que los datos ingresan solos. Esto suena como un problema de clasificación binaria y hay una gran cantidad de algoritmos para hacerlo. Para comenzar, pruebe con la regresión logística o los árboles de decisión y, si el rendimiento no es satisfactorio, puede usar modelos más complicados y una mejor ingeniería de características (transformaciones)

Depende de la cantidad de datos que tenga en la base de datos, la proporción de sí a no y muchos otros factores. Si tiene una proporción bastante equilibrada de sí a no, un algoritmo basado en árbol – árbol de decisión o un método de conjunto puede ser un buen punto de partida.

Esta es la clasificación binaria. Regresión logística, SVM, redes neuronales funcionarán bien para su caso de uso. La regresión logística es la más simple que se me ocurre.

More Interesting

¿Cómo funciona el algoritmo de Clasificación de Señal Múltiple (MUSIC)?

Cómo averiguar la complejidad temporal de un algoritmo dado

¿Cuáles son algunos algoritmos utilizados por las grandes empresas (como Amazon) para determinar de manera eficiente desde qué almacén se debe cumplir un pedido?

¿Se utiliza una estructura de datos de pila para algoritmos multirecursionales?

En algoritmos, ¿cuál es el límite superior e inferior?

¿Cómo puedo aprender los algoritmos de resolución de problemas solo?

¿Tiene sentido saltar directamente a las máquinas de vectores de soporte en lugar de probar con otros algoritmos lineales, primero, en el aprendizaje automático?

¿Cuál es la altura, el tamaño y la profundidad de un árbol binario?

¿Se puede usar el algoritmo Floyd-Warshall para encontrar el ciclo más corto en un gráfico no dirigido?

¿Cuál es la mejor manera de comprender y dominar la estructura de datos?

¿Cuál es el algoritmo correcto para realizar la diferenciación usando un programa de computadora para cualquier función ingresada por el usuario?

Cómo dibujar un contorno vectorial en una matriz de cuadrícula binaria

¿Cómo funciona este algoritmo para encontrar los bordes del corte mínimo de un gráfico?

¿Cuál de los siguientes libros es más adecuado para principiantes y más fácil de entender: CLRS o Algorithms by Sedgewick?

¿Qué significa <K extiende comparables > en Java en el contexto de hacer árboles de búsqueda binarios?