Al entrenar y probar conjuntos de datos, ¿es posible probar un conjunto de datos completamente diferente del conjunto de entrenamiento?

Una forma de abordar este problema es si puede encontrar un subconjunto de los datos de entrenamiento que sigue cerca de la misma distribución que los datos de su prueba. Usted ve este problema en la comunicación aumentativa alternativa (AAC), donde no existe un corpus de capacitación pública que realmente funcione. Vertanen y Kristensson generaron un pequeño conjunto de datos utilizando trabajadores mecánicos turcos que pensaron que sería similar al conjunto de datos de prueba, pero era demasiado pequeño para entrenar y obtener buenos resultados solo con eso. Luego usaron algunos métodos de teoría de la información para seleccionar oraciones de un conjunto de datos mucho más grande que eran similares al conjunto de datos turco, y usaron este subconjunto del conjunto de datos grandes para entrenar su modelo.

Otra cosa que puede hacer es que si su conjunto de datos de entrenamiento no es “completamente” diferente, por lo que es útil para predecir el conjunto de datos de prueba, pero no es ideal, utilice algún tipo de aprendizaje en línea para actualizar los parámetros con su conjunto de datos de prueba.

Su conjunto de prueba siempre debe estar separado (por lo tanto: completamente diferente) de su conjunto de entrenamiento.

Sin embargo, el conjunto de entrenamiento y el conjunto de prueba (cada uno por su cuenta y, por lo tanto, también juntos) deben representar los “datos reales” y especialmente la distribución lo mejor posible.

Bueno, depende de lo que quieras decir con completamente diferente. La mayoría de los modelos esperan que todos sus datos tengan la misma cantidad de características (idealmente deberían ser las MISMAS características).

Sin embargo, siempre que haya la misma cantidad de características, puede incluir los datos que desee. Simplemente no se sorprenda de obtener resultados aleatorios / horribles.

Si quiere decir algo como el mismo tipo de datos que pertenece a otro conjunto, entonces podría ser bueno validar su modelo para ver qué tan bien se generaliza. Pero si este es el caso, le sugiero que haga que su entrenamiento establezca una combinación de subconjuntos: uno de cada uno. Es más probable que esto produzca un mejor modelo.

La suposición de los modelos de entrenamiento y prueba usando una partición es que ambos conjuntos son representativos de la población. Si el conjunto de prueba es significativamente diferente del conjunto de entrenamiento, lo que está haciendo ahora se conoce como extrapolación.

Es decir, digamos que ajusta un polinomio a un grupo de puntos en el intervalo [matemáticas] [a, b] [/ matemáticas]. ¿Qué le dice esto realmente sobre lo que debe hacer el polinomio en los intervalos [matemáticas] (- \ infty, a) [/ matemáticas] y [matemáticas] (b, \ infty) [/ matemáticas]?

El rendimiento de extrapolación de un modelo depende en gran medida de las suposiciones hechas y, en general, es un problema muy difícil.

También puede probar un método de dejar uno afuera. Por ejemplo, si tiene 100 muestras, entrena con 99 muestras y prueba con la 1 muestra adicional. Repite esto 100 veces dejando un valor diferente. Puede extenderse a dejar algo.