Realmente necesita que la precisión de sus datos sea lo más perfecta posible. A veces, la mejor manera de lograr esto es el etiquetado manual por parte de humanos. Quizás puedas usar Amazonas Mechanical Turk. Si usa “reglas simples” para etiquetar sus textos, y luego trata de construir un modelo que valide contra esto, entonces lo está haciendo mal, porque en el mejor de los casos, alcanzará el 100% en contra de esas “reglas simples”. Lo que quiere es una precisión del 100% (o casi), así que tómese el tiempo extenuante y obtenga el mejor etiquetado posible, y luego descubra cómo modelar eso.
Esta es posiblemente una de las partes más difíciles de la clasificación. Si se embarca en la construcción de un modelo, debe tener datos que estén debidamente etiquetados para poder validar que lo que construyó es preciso. En muchos casos esto no existe. En algunos casos puedes estirar las cosas. Por ejemplo, acabo de usar VADER, que es un modelo en Python creado para clasificar el sentimiento de los datos de revisión de las redes sociales, contra los discursos presidenciales. Parece que funciona bastante bien, pero antes de hacer esto, leí muchos documentos que mostraban que VADER había sido probado contra otros conjuntos de datos y funcionó bien. Lo ideal sería leer manualmente cada discurso presidencial y etiquetarlos. Luego construya un clasificador que pueda modelar eso. Es mucho trabajo. Piense en su problema, puede haber algo “cercano” que puede usar inicialmente para validar que está en el camino correcto, pero nada supera las etiquetas 100% precisas. ¡Su modelo solo puede ser tan bueno como sus datos etiquetados!
- Tengo problemas para mejorar el rendimiento de mi red neuronal a medida que aumento el número de unidades, ¿cuál podría ser el problema?
- ¿Qué es la entropía cruzada en palabras fáciles?
- ¿Qué tan grande es el mercado de consultoría de aprendizaje automático para nuevas empresas?
- ¿Cómo y qué tipo de datos ha recopilado por su cuenta para el proyecto / servicio ML?
- ¿Cuáles son las aplicaciones de los gráficos dispersos?