¿Cuántos datos necesito para entrenar a un chatbot?

No hay una respuesta simple a esto. La regla teórica es cuanto más grande, mejor , pero en realidad es lo que consideres suficiente para cubrir una gran parte del espacio modelado. Para un chatbot también depende realmente del tipo de bot que desee. Si se centra en una industria, entonces podría ser un conjunto de datos mucho más pequeño que un bot de asistente personal general.

Finalmente, la cantidad es en realidad mucho menos importante que la calidad. Su conjunto de datos de entrenamiento debe cubrir la mayoría de sus casos de uso. Esto significa que realmente necesita comprender los casos de uso más importantes de su cliente objetivo.

En datapure creamos conjuntos de datos personalizados todo el tiempo y últimamente gran parte se ha centrado en los bots. El problema que declara no es único, pero una cosa que hemos encontrado es que nuestra calidad es tan alta que el cliente a menudo tiene que crear un conjunto de datos mucho más pequeño de lo que creía que era necesario.

Para responder adecuadamente a esta pregunta, necesitaremos algunos detalles más básicos sobre el alcance del chatbot, la tecnología que se utiliza, la complejidad del dominio para el que se capacitará y qué tan bien debe funcionar para los usuarios finales.

Como regla general, para un chatbot con un alcance muy limitado (por ejemplo, un chatbot que ayuda a los posibles inquilinos a obtener respuestas a las preguntas antes de alquilar una propiedad de vacaciones que tiene 4 intentos) y usar algo como IBM Watson, puede comenzar con solo 300 preguntas y use tal vez 10 preguntas por intento, pero para algo más complejo como por qué aumentó su prima de seguro de propiedad, es posible que necesite varios miles o decenas de miles y, si bien puede comenzar con algo como 10 preguntas por intento, puede necesitar muchas más.

More Interesting

¿Cuál es el punto de CRM-DBA, big data / data science, piratería de datos y minería de datos?

En ciencia de datos, ¿qué tema es más útil saber sobre análisis de series temporales o procesos estocásticos?

¿Cuál es la importancia de comprender las distribuciones de datos subyacentes en un conjunto de datos antes de aplicar cualquier algoritmo de aprendizaje automático, ya sea un algoritmo de predicción o de clasificación?

¿Qué tiene que ver el 'big data' con las predicciones?

¿Por qué Java no se considera apropiado para ML / ciencia de datos / aprendizaje profundo?

¿Cuáles son las mejores consultoras de ciencia de datos?

¿Cuáles son algunos museos que son líderes en el uso de análisis de datos?

¿Cuáles son algunos cursos de análisis de datos?

¿Cuál es el salario promedio de un recién graduado universitario de Data Scientist en India?

El modelado dimensional popularizado por Ralph Kimball es quizás la metodología de implementación del almacén de datos más popular. Sin embargo, algunos cuestionan la escalabilidad de la metodología de Kimball. ¿Cuáles son algunas desventajas del método K?

¿Cómo se aplican los grandes datos al comercio minorista?

¿Cómo se usa Data Analytics en finanzas (específicamente Hedge Funds)?

Elijo entre maestros en ciencias de datos en King's College London o maestros en línea de Berkeley. ¿Cuál recomendarías?

¿Cómo debe un estudiante de CS sin experiencia obtener destreza en Machine Learning / Data Science?

Cómo probar A / B una nueva aplicación de mensajería sin restringir con qué miembros pueden hablar (es decir, los miembros en el grupo de "prueba" aún pueden enviar mensajes a los miembros en el grupo de "control")