¿Cómo las empresas que realizan aprendizaje automático obtienen datos etiquetados de manera confiable?

Algunas compañías, como Google, Facebook y Quora, por ejemplo, obtienen una tonelada de datos de los usuarios que usan el producto. Dado que los productos son gratuitos y extremadamente atractivos, cada interacción del usuario proporciona una pieza de datos etiquetados.

Otras compañías necesitan humanos para etiquetar los datos. Puede ser muy difícil encontrar personas para etiquetar grandes conjuntos de datos, sin mencionar las herramientas y la gestión necesarias para que se realice de manera eficiente. La sobrecarga puede ser enorme incluso para conjuntos de datos pequeños.

Este es un problema central que estamos resolviendo en Scale. Queremos facilitar que los desarrolladores y fabricantes accedan a la inteligencia humana, generen datos etiquetados para algoritmos de ML o para aplicaciones de productos importantes como la moderación de contenido. Especialmente para las empresas más pequeñas, la API simple es increíblemente poderosa.

He subdividido los problemas enfrentados al anotar los datos para el aprendizaje automático a continuación.

  1. Requisito
  1. Volumen y Variedad
  1. El aprendizaje automático requiere una gran cantidad de datos y esos datos deben variarse en términos de las clases objetivo que está tratando de estudiar. Para anotar datos de tal volumen y variedad necesita herramientas especializadas, tiempo y mano de obra dedicada
  • Procesos actuales
    1. Las empresas pueden decidir hacer esto ya sea internamente o externalizar esta tarea a otros que hayan desarrollado una experiencia en tales tareas de anotación.
    2. Anotación interna : gigantes tecnológicos como Google y Facebook han incorporado dicho proceso en sus propias herramientas. Google usa reCAPTCHA y Facebook te permite etiquetar a tus amigos.
    3. Subcontratación: los requisitos de anotación tan variables pueden subcontratarse a plataformas de contratación colectiva como Amazons Mechanical Turk o BPO.
  • Problemas
    1. Herramientas: cuanto mejor (facilidad de uso) las herramientas, más rápida la anotación y mejor la calidad.
    2. mano de obra : crear una fuerza laboral cautiva y capacitarlos en una variedad de requisitos de anotación lleva mucho tiempo y es costoso.
    3. calidad : desarrollar un modelo de control de calidad para mantener la precisión y el recuerdo en sus anotaciones es un desafío.

    Nosotros, en Playment, estamos enfocados en simplificar los problemas anteriores para las compañías que buscan crear datos de capacitación para sus modelos de visión por computadora.

    1. Beneficios
    1. Herramientas de anotación desarrolladas específicamente para conjuntos de datos de visión por computadora.
    2. Fuerza laboral capacitada en diversas herramientas, como dibujo lineal, cuadros delimitadores, cuboides, anotación de puntos de referencia, segmentación semántica (con instancia) y LiDAR (beta).
    3. Solución totalmente administrada para anotar sus conjuntos de datos de manera regular o para proyectos independientes.
    4. Nuestras presentaciones vienen con una garantía de alta calidad de anotación para que pueda crear el conjunto de datos perfecto para sus necesidades de ML.

    Muchos problemas pueden usar datos con etiquetas de acciones o resultados del usuario. Considere estos ejemplos:

    • Feed de Quora: es posible que desee mostrar las historias de los usuarios sobre las que tomarán medidas, por lo que sus etiquetas podrían ser un voto positivo para una respuesta, o el usuario que escriba una respuesta si es una pregunta abierta.
    • Puntuación de clientes potenciales: desea clasificar clientes potenciales para que el equipo de ventas llame para convertir a algún producto. Puede usar los datos históricos de conversión de ventas como su etiqueta.
    • Previsión de ventas: para pronosticar las ventas futuras de un comerciante en Square, podemos usar sus ventas reales como etiqueta.

    Por supuesto, también hay algunos problemas en los que no obtiene comentarios inmediatos del usuario, pero en muchos casos el uso de datos reales para las etiquetas funciona bien.

    Aquí hay respuestas bastante buenas con respecto a la recopilación de datos para algoritmos supervisados ​​de aprendizaje automático. Puede ser que la forma en que se recopilan los datos se base en los algoritmos de aprendizaje automático que se emplean, ya sea que el sistema esté supervisado o no y el tamaño de la empresa o grupo de investigación en cuestión.

    Los algoritmos de aprendizaje automático, como el aprendizaje profundo, requieren una cantidad considerable de datos de entrenamiento y sistemas informáticos de alto rendimiento. Por lo tanto, el aprendizaje profundo es adecuado para grandes empresas establecidas y grupos de investigación o cualquier persona con acceso a grandes cantidades de datos y poder de supercomputación.

    Los datos pueden provenir de las interacciones del usuario con el sistema. Tal como Google con una gran base de usuarios tiene acceso a un gran conjunto de datos generado por el usuario que puede usar para mejorar su sistema de aprendizaje automático. Un buen ejemplo son las fotos de Google, con acceso a millones de fotos de usuarios y equipadas con poder de supercomputación, Google puede mejorar rápidamente sus algoritmos de aprendizaje automático para fotos.

    Algunos algoritmos de aprendizaje automático en el grupo de métodos de aprendizaje no supervisados ​​pueden manejar conjuntos de datos parcialmente etiquetados o sin etiquetar. En tal caso, es más fácil recopilar datos.

    Otros algoritmos no requieren grandes conjuntos de entrenamiento. Aquí es donde las cosas se ponen interesantes, los algoritmos actuales de aprendizaje automático requieren mucha información, pero este podría no ser el caso para otros algoritmos. Algunas compañías o grupos de investigación han construido o están en proceso de construir sus propios algoritmos internos que podrían ser mejores que algunos sistemas documentados.

    La mayoría de las respuestas indican que es necesario asegurarse de que los datos estén etiquetados correctamente, Mechanical Turk podría ayudar, pero usted y su equipo tendrán que verificar los datos, especialmente si su sistema es sensible a los datos mal etiquetados. Por lo tanto, podría ser necesario esforzarse en etiquetar los datos.

    Espero que esto ayude

    La recopilación de datos etiquetados es la clave para desarrollar buenas soluciones de ML. Como dijo Marcin Mejran, realmente depende de la tarea. Ninguna estrategia única se ajusta a la cuenta cada vez. A veces, escribir scripts automáticos o capturar el comportamiento del usuario es bueno, por ejemplo, para los canales de información de Quora, otras veces las tasas de clics son mejores, por ejemplo, quién compra qué producto.

    Puedo decir desde una perspectiva académica que las personas usan tanto Mechanical Turk como etiquetado manual. He visto personas obteniendo resultados planos de M. Turk, en parte porque la tarea no se explicó claramente o no fue demasiado larga o, en general, demasiado aburrida. He conocido investigadores (o sus estudiantes) que han pasado horas y horas mirando videos de personas para etiquetar un evento anormal . Eso está cerca de ver años de datos.

    Luego hay otro enfoque basado en ML para ayudarlo, llamado aprendizaje semi-supervisado, que puede aprender modelos con algunos datos etiquetados y una gran cantidad de datos no etiquetados. En realidad, la mayoría de los datos no están etiquetados y es fácil de recopilar. Estas técnicas intentan obtener muestras positivas de los datos no etiquetados para mejorar su modelo.

    Hay muchas formas de obtener datos etiquetados, pero generalmente es costoso hacerlo.

    1. Para los datos del sensor (es decir, tecnología portátil), intentan utilizar productos de otras compañías que tienen buena reputación y buen producto junto con su producto en desarrollo para obtener datos de verdad para su modelo de aprendizaje automático.
    2. Para los datos en línea, sería útil algún tipo de cuestionarios .
    3. Para los datos comerciales, la empresa generalmente necesita realizar algunas entrevistas cara a cara para obtener datos precisos, y esto generalmente es muy costoso.
    4. Para los datos de acción del usuario, por ejemplo, Quora, pueden usar la acción de los usuarios como voto positivo, voto negativo, seguimiento, dejar de seguir, etc., como etiquetas etiquetadas para su modelo de aprendizaje automático.

    Sé que Amazon Mechanical Turk puede usarse para este propósito de reunir un conjunto de entrenamiento y, en algunos casos, reemplazar el algoritmo de aprendizaje automático por completo. Amazon Mechanical Turk es una plataforma de crowdsourcing donde los solicitantes pueden pagar a los trabajadores por los resultados (reconocimiento de entidad con nombre, etiquetado de imágenes, etiquetado de sentimientos, etc.). Para obtener más información, puede leer algunos documentos en Google Scholar, hay muchos documentos que detallan cómo recopilar datos confiables.

    La respuesta depende exactamente de lo que está haciendo la empresa.

    El mejor caso es que sus usuarios le proporcionen el etiquetado y el etiquetado para que pueda obtener un conjunto escalable de datos etiquetados. Amazon y Netflix tienen calificaciones, las compañías de publicidad tienen datos de clics, etc. Esto es lo mejor que puede esperar, sin embargo, siempre debe tener cuidado con los prejuicios. Por ejemplo, los clics en las búsquedas pueden estar sesgados a titulares pegadizos, pero si su motor de búsqueda comienza a devolver solo cebo de clic, la gente no estará contenta.

    Hay algunas maneras de lidiar con este tipo de sesgo y, si tiene suerte, puede usar un conjunto más pequeño y mejor etiquetado para construir un modelo para deshacer el sesgo. Entonces, ¿cómo se obtiene un conjunto de datos mejor etiquetado y más pequeño? A menudo le paga a la gente para que lo haga por usted, como los revisores manuales. También puede pagar a sus usuarios, hacer encuestas, comprar datos e intentar adquirirlos de otras formas directas. Si no tienes suerte, entonces este pequeño conjunto de datos “pagado” puede ser todo lo que tienes para trabajar.

    Puede mezclar estos enfoques también. Por ejemplo, puede usar un conjunto etiquetado manualmente e intentar hacer coincidirlo con otro conjunto de datos cuya relación con lo que está midiendo no se conoce naturalmente. Por ejemplo, el tiempo que alguien pasa en una página después de un clic debe estar estrechamente relacionado con cuánto le gustó el contenido. Por lo tanto, puede usar un conjunto etiquetado manualmente para crear un modelo entre el tiempo que pasa en la página y el contenido.

    También puede usar enfoques de capacitación no supervisados ​​y resolver las cosas de esa manera. Por ejemplo, la detección de anomalías que pueda pensar requiere un conjunto etiquetado de anomalías, sin embargo, eso no es exactamente cierto. Puede intentar construir un modelo para lo que es normal y luego observar los valores atípicos manualmente, ya que son “anomalías” en lo que respecta al modelo.

    Hay dos métodos básicos:

    Utilizando datos pasados, normalmente para predecir el tipo futuro de problemas.

    Uso de etiquetado manual: ya sea por expertos humanos o mediante mano de obra mecánica barata al estilo turco.

    En muchos casos, no puede obtener fácilmente los datos etiquetados para el problema que desea resolver. A veces elegimos resolver un problema diferente para el cual los datos etiquetados. O hacer un problema de transferencia de aprendizaje. Deseamos detectar cebras pero nuestros datos etiquetados son para caballos. Entonces detectaremos rayas, las eliminaremos y detectaremos caballos.

    En muchos casos, no tenemos datos de la muestra requerida y tenemos que ajustar. En algunos casos no tenemos ejemplos negativos, solo ejemplos positivos.

    Lamento no tener suficiente experiencia en la industria para responder esta pregunta más a fondo. Pero hice una pasantía en una empresa este verano, donde hice un proyecto de clasificación de texto. Obtuvieron las etiquetas del corpus de dos pasantes que realmente leyeron y recogieron las etiquetas. Supongo que a veces debemos esforzarnos un poco.

    O emplean a personas internas para etiquetar los datos, o confían en servicios como Crowdflower y Mechanical Turk de Amazon para hacerlo. Un truco es estructurar la tarea para que se muestren dos proveedores de servicios, por ejemplo, la misma imagen, y pagarlos solo si ambos aplican la misma etiqueta. Eso fomenta la consistencia y la calidad.

    He oído hablar de empresas que usan temporeros o pasantes. También he oído hablar de empresas que usan cosas como Amazon Mechanical Turk. Con esto último, debe ser un poco más cuidadoso ya que no hay muchas comprobaciones para garantizar un buen resultado, por lo que es posible que deba enviar la muestra varias veces.

    Muy a menudo lo etiquetarán ellos mismos. Esa es la única forma en que puede estar seguro de que está etiquetado correctamente. Podría utilizar un servicio como Mechanical Turk, pero luego deberá verificarlo.

    More Interesting

    ¿Cuál es su experiencia con el programa inmersivo de ciencia de datos de la Asamblea General?

    ¿Cuál es el futuro de las carreras en datos?

    ¿El núcleo RBF utilizado en SVM significa que la dimensión de proyección será la misma que el tamaño del conjunto de datos original?

    ¿Qué se sigue investigando en bosques aleatorios?

    ¿Cuál es la diferencia entre procesamiento de datos y análisis de datos?

    ¿Cómo se puede utilizar la ciencia de datos para reducir las tasas de criminalidad?

    ¿Cuál es el mejor marco de Python para el procesamiento en paralelo (procesamiento SMP y de clúster)?

    ¿Está bien incluir un retrato personal en su currículum cuando solicite un trabajo de ciencia de datos?

    Me gustaría escribir / usar un algoritmo de aprendizaje automático para predecir valores de contaminación del aire basados ​​en datos meteorológicos. Tengo algunas habilidades de programación y sé qué datos me gustaría usar, pero no tengo experiencia con el aprendizaje automático. ¿Dónde empiezo?

    ¿Por qué mi CNN proporciona una buena precisión en los datos de entrenamiento y prueba (división 80-20 del total de datos de entrenamiento) pero falla miserablemente en los datos de validación (no vistos)?

    ¿Cuáles son algunas aplicaciones de análisis de datos que pocas personas conocen?

    ¿Qué software recomendaría para el análisis de datos cualitativos de 30 entrevistas? Hay 11 códigos y, en promedio, cada respuesta tiene 5 códigos concurrentes.

    ¿Cuáles son las razones por las que Pandas aún no puede convertirse en el kit de herramientas más poderoso para el análisis de datos?

    ¿Cuáles son las técnicas más modernas de minería de datos / aprendizaje automático en datos CRM?

    ¿Qué empresas están haciendo aprendizaje automático real en lugar de ciencia de datos hacky?