¿Puede un ANN probar un nuevo conjunto de datos contra el conjunto de entrenamiento, aprender de manera incremental las características del nuevo conjunto de datos y actualizar el modelo de forma incremental?

No estoy seguro de entender tu punto.

Esto es lo que entiendo.

Tenías un set de entrenamiento. Aprende una forma de clasificar datos, es decir, una ecuación que le da una etiqueta a su instancia de acuerdo con los valores de algunas características medidas en estas instancias.

Luego desea predecir valores en otro conjunto de datos. Pero este conjunto de datos puede contener líneas que son estrictamente las mismas que el conjunto de entrenamiento, y usted siente que es una pérdida de tiempo usar la ecuación que construyó.

Primera pregunta: ¿es más rápido detectar qué datos estaban en el conjunto anterior y recuperar el valor de la etiqueta o es más rápido aplicar la ecuación a los datos, incluso si estaban en el primer conjunto de datos? En mi muy humilde opinión, es más rápido usar la ecuación de predicción: detectar si una línea es exactamente la misma que la contenida en el primer conjunto de datos exige que explore todos los datos hasta que encuentre una línea idéntica. Aplicar la ecuación es solo una operación.

Segunda pregunta: ¿quiso decir que desea volver a capacitar el algoritmo en cada nuevo conjunto de datos? En tal caso, cuál es la razón por la que desea volver a entrenarlo. ¿Crees que la verdad fundamental ha cambiado entre las dos mediciones / conjuntos de datos? En caso afirmativo, ¿por qué no le gustaría mantener las líneas idénticas en el nuevo entrenamiento? ¿O es que quieres tener en cuenta una deriva? O el último caso, ¿crees que no hay repetición posible? En ese caso, mantener líneas que ya están en el primer conjunto de datos sobrepondría estos datos frente a otros. En este caso, recomendaría una detección de unicidad para que cada configuración aparezca solo una vez. Tiene un argumento único en SQL o en R. Luego, entrena su modelo con datos que solo aparecen una vez y todos tienen el mismo peso.

¿Espero que te ayude un poco, al menos para reformular tu problema?

El aprendizaje incremental se conoce como aprendizaje en línea. Hay varios algoritmos ANN que admiten el aprendizaje en línea.

Puede entrenar un modelo en el conjunto de datos A y luego entrenarlo en el conjunto de datos B. Mientras realiza el segundo entrenamiento, utiliza técnicas para tratar de reducir el daño que el nuevo aprendizaje hace a su precisión en el conjunto de datos A.

Otro método al que efectivamente ha aludido es fusionar los dos conjuntos de datos y simplemente capacitarse en eso.

PD: no seleccionaría solo registros distintos. Los algoritmos ANN se basan en un error RMS (o algo similar) y seleccionar registros distintos significaría que el modelo será castigado de la misma manera por obtener un valor común incorrecto (¿a menos que ese sea el comportamiento que está buscando?)