No hay una respuesta específica a esta pregunta, ya que no ha mencionado exactamente qué tipo de modelo o datos está utilizando. Hay muchas opciones entre las que puede elegir en función de los datos que evaluará su modelo.
Aún así, me gustaría darle un ejemplo del tiempo que había trabajado para obtener datos para un proyecto universitario nuestro.
Contexto :
- Cómo entrenar a cualquier clasificador basado en características de texto en un documento EMR
- En una máquina de vectores de soporte, el número de vectores de soporte puede ser mucho menor que el conjunto de entrenamiento. ¿Cómo puede ser útil esta característica?
- ¿Qué consejo daría Yoshua Bengio a los jóvenes investigadores que ingresan al campo del aprendizaje automático?
- Cómo construir un automóvil autónomo a partir de un automóvil normal
- ¿Cómo calcula la regresión logística de liblinear los gradientes (por ejemplo, diferenciación numérica o automática)?
Estábamos planeando hacer una aplicación de Android que escaneara tus mensajes e intentara atender una llamada si ese mensaje se refiere a algún tipo de reunión o no. Si se trata de una reunión, y usted acepta el evento, la aplicación configurará un recordatorio para usted automáticamente y agregará todos los detalles que puede extraer, como cumpleaños, almuerzo y cena, etc.
Algoritmo:
Elegimos seguir con el algoritmo Naive Bayes ya que se suponía que era un POC.
Propósito:
Lo que esperábamos del modelo era predecir si el mensaje dado se refería a una reunión o no.
Cuerpo:
Para el entrenamiento modelo necesitábamos muestras de conversación positivas y negativas, ya que solo teníamos un sí o un no para responder.
Muestras positivas:
Estos son textos que tratan sobre conversaciones. En nuestro caso, terminamos escribiendo esto a mano, ya que no pudimos encontrar un buen corpus en línea para nuestro caso de uso. La mayoría de estos fueron alrededor de “¿Estás libre para almorzar mañana?”, “¿Podemos desear XXX cumpleaños a las 12 de la noche?”, Y así sucesivamente.
Muestras negativas
En nuestro caso, esta podría ser una conversación normal que no se refería a ningún tipo de reunión. Encontramos buenos corpus de código abierto o en línea. Incluso se utilizaron subtítulos de películas. Y como se esperaba, este conjunto de datos fue mucho más fácil de obtener.
En una nota general,
- Enumere en qué datos se enfoca su aplicación.
- Intente recolectar muestras que tengan etiquetas que espera que su modelo ayude a clasificar.
- Intente recopilar muchas variaciones para que el modelo pueda comprender los matices.
- Se recomienda que tenga una buena proporción de datos para todos los casos de uso para asegurarse de que su modelo no esté sesgado para un solo caso de uso.
Todo esto se basa en mi comprensión muy limitada, y espero que alguien más competente en esto pueda brindarle una mejor orientación.