Una forma de abordar este problema es si puede encontrar un subconjunto de los datos de entrenamiento que sigue cerca de la misma distribución que los datos de su prueba. Usted ve este problema en la comunicación aumentativa alternativa (AAC), donde no existe un corpus de capacitación pública que realmente funcione. Vertanen y Kristensson generaron un pequeño conjunto de datos utilizando trabajadores mecánicos turcos que pensaron que sería similar al conjunto de datos de prueba, pero era demasiado pequeño para entrenar y obtener buenos resultados solo con eso. Luego usaron algunos métodos de teoría de la información para seleccionar oraciones de un conjunto de datos mucho más grande que eran similares al conjunto de datos turco, y usaron este subconjunto del conjunto de datos grandes para entrenar su modelo.
Otra cosa que puede hacer es que si su conjunto de datos de entrenamiento no es “completamente” diferente, por lo que es útil para predecir el conjunto de datos de prueba, pero no es ideal, utilice algún tipo de aprendizaje en línea para actualizar los parámetros con su conjunto de datos de prueba.
- Aprendizaje automático: ¿es el enfoque descrito a continuación una buena forma de evaluar la calidad de las recomendaciones basadas en comentarios implícitos?
- Soy candidato a doctorado en una universidad en Irán, tengo experiencias en PNL persa, Spark, Hadoop y aprendizaje profundo. ¿Tengo alguna posibilidad de ingresar a Google?
- ¿Por qué estudiar el procesamiento del lenguaje natural?
- Tengo un conjunto de datos con 14 características. Quiero aplicar SVM en él usando R. ¿Cómo puedo?
- ¿Los métodos de aprendizaje profundo conducen a avances en el procesamiento del lenguaje natural?