Al preparar el conjunto de datos para el aprendizaje automático supervisado, ¿hay alguna otra forma que no sea etiquetar manualmente el conjunto de datos de entrenamiento?

Siempre puedes arrancar tus datos de entrenamiento.

Hay al menos dos enfoques:

Bootstrapping clásico. Comienza con un pequeño conjunto de datos etiquetados y un gran conjunto de datos sin etiquetar. Usted entrena un clasificador en un conjunto de datos pequeño y lo usa para etiquetar uno grande. Tomas las predicciones muy seguras como etiquetas. Tú iteras esto. Esto tiene muchos problemas y dificultades, pero a veces funciona.
Supervisión distante. Ejemplo: Sabes que Hillary Clinton es la esposa de Bill Clinton. Tiene una base de conocimiento de estos hechos, tiene un gran grupo de texto sin etiquetar. Utiliza algo de heurística para unir la base de conocimiento con su texto y generar datos etiquetados. El problema habitual es generar ejemplos negativos. Documento de ejemplo: https://www.aclweb.org/anthology…

O te alejas del aprendizaje supervisado y optas por un enfoque semisupervisado como este aprendizaje automático basado en gráficos en Google

Aprendizaje automáticoCiencia de datosClasificacióndatosinformáticaMinería deProgramaciónProgramadores informáticos

Related Content

¿Cuál es la mejor manera de elegir el número de componentes en PCA durante la reducción de dimensionalidad?

¿Cómo es ser un Data Science Manager?

¿Cuáles son los mejores programas de ciencia de datos en Bangalore?

¿Cuáles son algunas de las mejores hojas de trucos de ciencia de datos en python y r?

¿Dónde puedo encontrar proyectos de análisis de datos (o BI) en Excel para aprender?

¿Cuáles son los beneficios de los diferentes tipos de esquemas en el contexto del almacenamiento de datos?

¿Dónde puedo obtener datos de los trenes locales de Mumbai para hacer un análisis de datos en ellos?

More Interesting

No quiero ser programador, pero tengo interés en SQL y Big Data. ¿Cómo puedo conseguir esto?

¿Debería un aspirante a científico de aprendizaje automático / científico de datos practicar problemas de kaggle?

¿Qué ventajas ofrece un doctorado en bioestadística / bioinformática al aplicar un trabajo de científico de datos?

¿Cuáles son algunos hechos sorprendentes que los científicos de datos de Quora han encontrado sobre el uso de Quora?

¿Cuál es el mejor ejemplo de big data?

¿Cuál es el mejor instituto de investigación para la ciencia de datos en India?

Cómo agudizar mi habilidad en el análisis de datos usando el software R

¿Cuál es su experiencia con el programa inmersivo de ciencia de datos de la Asamblea General?

¿Qué son los datos internos?

¿Cuáles son los cursos de matemáticas y estadísticas en línea recomendados para ciencia de datos y aprendizaje automático?

¿Cuáles son las nuevas tecnologías de big data?

Como aspirante a científico de datos, ¿qué lenguaje de programación debo aprender entre Python, R, C # y Java, dado que no tengo experiencia previa en programación? Tengo una licenciatura en economía y estadística y una maestría en administración.

¿Qué busca Quora en sus pasantes de Data Science?

¿Cuáles son las áreas de investigación activas en Análisis de datos / Minería de datos?

¿Cómo se utilizan los grandes datos en la industria del petróleo y el gas? La industria del petróleo y el gas ya contaba con sistemas de adquisición de datos e informes implementados para la producción y el mantenimiento. ¿Qué nivel adicional de gestión de datos proporciona Big Data?

Web Analytics