Cómo recopilar datos para problemas de la vida real mientras se entrena un modelo de aprendizaje automático

No hay una respuesta específica a esta pregunta, ya que no ha mencionado exactamente qué tipo de modelo o datos está utilizando. Hay muchas opciones entre las que puede elegir en función de los datos que evaluará su modelo.

Aún así, me gustaría darle un ejemplo del tiempo que había trabajado para obtener datos para un proyecto universitario nuestro.

Contexto :

Estábamos planeando hacer una aplicación de Android que escaneara tus mensajes e intentara atender una llamada si ese mensaje se refiere a algún tipo de reunión o no. Si se trata de una reunión, y usted acepta el evento, la aplicación configurará un recordatorio para usted automáticamente y agregará todos los detalles que puede extraer, como cumpleaños, almuerzo y cena, etc.

Algoritmo:

Elegimos seguir con el algoritmo Naive Bayes ya que se suponía que era un POC.

Propósito:

Lo que esperábamos del modelo era predecir si el mensaje dado se refería a una reunión o no.

Cuerpo:

Para el entrenamiento modelo necesitábamos muestras de conversación positivas y negativas, ya que solo teníamos un sí o un no para responder.

Muestras positivas:

Estos son textos que tratan sobre conversaciones. En nuestro caso, terminamos escribiendo esto a mano, ya que no pudimos encontrar un buen corpus en línea para nuestro caso de uso. La mayoría de estos fueron alrededor de “¿Estás libre para almorzar mañana?”, “¿Podemos desear XXX cumpleaños a las 12 de la noche?”, Y así sucesivamente.

Muestras negativas

En nuestro caso, esta podría ser una conversación normal que no se refería a ningún tipo de reunión. Encontramos buenos corpus de código abierto o en línea. Incluso se utilizaron subtítulos de películas. Y como se esperaba, este conjunto de datos fue mucho más fácil de obtener.

En una nota general,

  1. Enumere en qué datos se enfoca su aplicación.
  2. Intente recolectar muestras que tengan etiquetas que espera que su modelo ayude a clasificar.
  3. Intente recopilar muchas variaciones para que el modelo pueda comprender los matices.
  4. Se recomienda que tenga una buena proporción de datos para todos los casos de uso para asegurarse de que su modelo no esté sesgado para un solo caso de uso.

Todo esto se basa en mi comprensión muy limitada, y espero que alguien más competente en esto pueda brindarle una mejor orientación.

Depende del tipo de problema de la “vida real” que está tratando de resolver.

Aquí hay dos listas útiles de fuentes de datos del mundo real que puede usar para sus proyectos:

19 conjuntos de datos públicos gratuitos para su primer proyecto de ciencia de datos

18 lugares para encontrar conjuntos de datos para proyectos de ciencia de datos

More Interesting

¿En qué se centran los principales competidores de Kaggle? ¿Qué les ayudó a hacerlo mejor que otros?

Cómo extraer contenido del sitio web con procesamiento de lenguaje natural

En vista de los nuevos temas de TI (AI, IoT, datos grandes / rápidos, análisis, blockchain, etc.), ¿hay alguna ventaja en aprender la programación de Python?

¿Qué es un conjunto de datos desequilibrado?

¿Cuáles son las aplicaciones de los gráficos dispersos?

¿Cuáles son los temas más comunes omitidos de los cursos de aprendizaje automático?

Cómo calcular el gradiente W en una red neuronal

Todos dicen que el aprendizaje automático ocupará trabajos de un gran no. de personas, ¿es esto cierto? ¿Hay algún lado positivo?

¿Por qué utilizamos la política codiciosa de epsilon para la evaluación en el aprendizaje por refuerzo?

¿Hay alguna posibilidad de una B.Tech (CS) más fresca en trabajos de aprendizaje automático (ciencia de datos) en Bangalore?

Cómo detectar regiones de texto solo de documentos escaneados

¿Cuál sería la mejor manera de encontrar estudiantes universitarios interesados ​​en un proyecto de investigación sobre la interfaz entre bioinformática y aprendizaje automático, en Johns Hopkins?

Cómo entrenar clasificador lineal paso a paso con Caffe, utilizando las respuestas de la última capa completamente conectada del modelo AlexNet como características

¿Es el hecho de que los algoritmos de aprendizaje profundo requieren grandes extensiones de datos como una limitación final de su potencial en IA?

¿Cómo se implementa una red neuronal convolucional (CNN) con la estructura de un árbol binario en TensorFlow?