Al preparar el conjunto de datos para el aprendizaje automático supervisado, ¿hay alguna otra forma que no sea etiquetar manualmente el conjunto de datos de entrenamiento?

Siempre puedes arrancar tus datos de entrenamiento.

Hay al menos dos enfoques:

  • Bootstrapping clásico. Comienza con un pequeño conjunto de datos etiquetados y un gran conjunto de datos sin etiquetar. Usted entrena un clasificador en un conjunto de datos pequeño y lo usa para etiquetar uno grande. Tomas las predicciones muy seguras como etiquetas. Tú iteras esto. Esto tiene muchos problemas y dificultades, pero a veces funciona.
  • Supervisión distante. Ejemplo: Sabes que Hillary Clinton es la esposa de Bill Clinton. Tiene una base de conocimiento de estos hechos, tiene un gran grupo de texto sin etiquetar. Utiliza algo de heurística para unir la base de conocimiento con su texto y generar datos etiquetados. El problema habitual es generar ejemplos negativos. Documento de ejemplo: https://www.aclweb.org/anthology…

O te alejas del aprendizaje supervisado y optas por un enfoque semisupervisado como este aprendizaje automático basado en gráficos en Google

More Interesting

No quiero ser programador, pero tengo interés en SQL y Big Data. ¿Cómo puedo conseguir esto?

¿Debería un aspirante a científico de aprendizaje automático / científico de datos practicar problemas de kaggle?

¿Qué ventajas ofrece un doctorado en bioestadística / bioinformática al aplicar un trabajo de científico de datos?

¿Cuáles son algunos hechos sorprendentes que los científicos de datos de Quora han encontrado sobre el uso de Quora?

¿Cuál es el mejor ejemplo de big data?

¿Cuál es el mejor instituto de investigación para la ciencia de datos en India?

Cómo agudizar mi habilidad en el análisis de datos usando el software R

¿Cuál es su experiencia con el programa inmersivo de ciencia de datos de la Asamblea General?

¿Qué son los datos internos?

¿Cuáles son los cursos de matemáticas y estadísticas en línea recomendados para ciencia de datos y aprendizaje automático?

¿Cuáles son las nuevas tecnologías de big data?

Como aspirante a científico de datos, ¿qué lenguaje de programación debo aprender entre Python, R, C # y Java, dado que no tengo experiencia previa en programación? Tengo una licenciatura en economía y estadística y una maestría en administración.

¿Qué busca Quora en sus pasantes de Data Science?

¿Cuáles son las áreas de investigación activas en Análisis de datos / Minería de datos?

¿Cómo se utilizan los grandes datos en la industria del petróleo y el gas? La industria del petróleo y el gas ya contaba con sistemas de adquisición de datos e informes implementados para la producción y el mantenimiento. ¿Qué nivel adicional de gestión de datos proporciona Big Data?