No estoy seguro de entender tu punto.
Esto es lo que entiendo.
Tenías un set de entrenamiento. Aprende una forma de clasificar datos, es decir, una ecuación que le da una etiqueta a su instancia de acuerdo con los valores de algunas características medidas en estas instancias.
- ¿Cuántos desarrolladores tiene la empresa Tableau?
- ¿Es bueno tener un doctorado en estadística después de completar mi doctorado en ciencia de datos o alguna otra buena idea?
- ¿Todavía vale la pena hacer MS en aprendizaje automático clásico o minería de datos sin un módulo en profundidad sobre aprendizaje profundo que está en tendencia?
- ¿Dónde puedo aprender análisis de datos en Bangalore? ¿Cuánto debería invertir para ello?
- ¿Cómo elegir un filamento ABS de alta calidad? ¿Cómo entiendo los datos técnicos relevantes?
Luego desea predecir valores en otro conjunto de datos. Pero este conjunto de datos puede contener líneas que son estrictamente las mismas que el conjunto de entrenamiento, y usted siente que es una pérdida de tiempo usar la ecuación que construyó.
Primera pregunta: ¿es más rápido detectar qué datos estaban en el conjunto anterior y recuperar el valor de la etiqueta o es más rápido aplicar la ecuación a los datos, incluso si estaban en el primer conjunto de datos? En mi muy humilde opinión, es más rápido usar la ecuación de predicción: detectar si una línea es exactamente la misma que la contenida en el primer conjunto de datos exige que explore todos los datos hasta que encuentre una línea idéntica. Aplicar la ecuación es solo una operación.
Segunda pregunta: ¿quiso decir que desea volver a capacitar el algoritmo en cada nuevo conjunto de datos? En tal caso, cuál es la razón por la que desea volver a entrenarlo. ¿Crees que la verdad fundamental ha cambiado entre las dos mediciones / conjuntos de datos? En caso afirmativo, ¿por qué no le gustaría mantener las líneas idénticas en el nuevo entrenamiento? ¿O es que quieres tener en cuenta una deriva? O el último caso, ¿crees que no hay repetición posible? En ese caso, mantener líneas que ya están en el primer conjunto de datos sobrepondría estos datos frente a otros. En este caso, recomendaría una detección de unicidad para que cada configuración aparezca solo una vez. Tiene un argumento único en SQL o en R. Luego, entrena su modelo con datos que solo aparecen una vez y todos tienen el mismo peso.
¿Espero que te ayude un poco, al menos para reformular tu problema?