Siempre puedes arrancar tus datos de entrenamiento.
Hay al menos dos enfoques:
- Bootstrapping clásico. Comienza con un pequeño conjunto de datos etiquetados y un gran conjunto de datos sin etiquetar. Usted entrena un clasificador en un conjunto de datos pequeño y lo usa para etiquetar uno grande. Tomas las predicciones muy seguras como etiquetas. Tú iteras esto. Esto tiene muchos problemas y dificultades, pero a veces funciona.
- Supervisión distante. Ejemplo: Sabes que Hillary Clinton es la esposa de Bill Clinton. Tiene una base de conocimiento de estos hechos, tiene un gran grupo de texto sin etiquetar. Utiliza algo de heurística para unir la base de conocimiento con su texto y generar datos etiquetados. El problema habitual es generar ejemplos negativos. Documento de ejemplo: https://www.aclweb.org/anthology…
O te alejas del aprendizaje supervisado y optas por un enfoque semisupervisado como este aprendizaje automático basado en gráficos en Google
- ¿Debo incluir kaggle en mi Cv?
- DeZyre o Udacity Nanodegree: ¿Cuál recomendarías para un aspirante a científico de datos?
- ¿Cuál es el futuro del aprendizaje automático en las finanzas?
- ¿Qué tan importante es la prueba A / B para un científico de datos que trabaja en una empresa de tecnología?
- ¿Cuál es la importancia de utilizar la tendencia central en el análisis de datos?