¿Puedo crear un conjunto de datos y luego usarlo para evaluar un algoritmo de clasificación?

Realmente necesita que la precisión de sus datos sea lo más perfecta posible. A veces, la mejor manera de lograr esto es el etiquetado manual por parte de humanos. Quizás puedas usar Amazonas Mechanical Turk. Si usa “reglas simples” para etiquetar sus textos, y luego trata de construir un modelo que valide contra esto, entonces lo está haciendo mal, porque en el mejor de los casos, alcanzará el 100% en contra de esas “reglas simples”. Lo que quiere es una precisión del 100% (o casi), así que tómese el tiempo extenuante y obtenga el mejor etiquetado posible, y luego descubra cómo modelar eso.

Esta es posiblemente una de las partes más difíciles de la clasificación. Si se embarca en la construcción de un modelo, debe tener datos que estén debidamente etiquetados para poder validar que lo que construyó es preciso. En muchos casos esto no existe. En algunos casos puedes estirar las cosas. Por ejemplo, acabo de usar VADER, que es un modelo en Python creado para clasificar el sentimiento de los datos de revisión de las redes sociales, contra los discursos presidenciales. Parece que funciona bastante bien, pero antes de hacer esto, leí muchos documentos que mostraban que VADER había sido probado contra otros conjuntos de datos y funcionó bien. Lo ideal sería leer manualmente cada discurso presidencial y etiquetarlos. Luego construya un clasificador que pueda modelar eso. Es mucho trabajo. Piense en su problema, puede haber algo “cercano” que puede usar inicialmente para validar que está en el camino correcto, pero nada supera las etiquetas 100% precisas. ¡Su modelo solo puede ser tan bueno como sus datos etiquetados!

More Interesting

¿Dónde estará (o podría) estar el Aprendizaje Profundo si la Ley de Moore continúa por otros 10-20 años?

¿Por qué TensorFlow tiene definiciones para muchas operaciones matemáticas?

¿Cuál es una buena manera de elegir los puntos iniciales de los grupos de k en el grupo de medios k?

¿Cuál es la diferencia entre el aprendizaje probabilístico y el aprendizaje no probabilístico para diferentes situaciones? ¿Cuándo es uno más apropiado que el otro?

Tengo un conjunto de datos con una combinación de datos cualitativos y cuantitativos, ¿cómo puedo inferir una relación o sensibilidad entre las columnas?

¿En qué situaciones, ha encontrado que el aprendizaje profundo no funciona bien?

¿Por qué mi árbol de clasificación que realicé en MATLAB muestra solo un nodo?

Astronomía: ¿Cómo se puede usar el aprendizaje automático para la clasificación de galaxias?

¿Es Cortana de Microsoft una copia flagrante de Siri de Apple?

¿Una red neuronal necesita un nodo de salida para cada cosa que pueda clasificar?

¿Cómo debo proceder después de completar el curso de aprendizaje automático de Andrew Ng?

¿Qué es el aprendizaje supervisado?

¿Cómo se relaciona el algoritmo RANSAC con la visión por computadora?

Cómo pasar del desarrollo de pila completa al aprendizaje automático en el trabajo independiente

¿Qué ha aprendido sobre el aprendizaje automático, la recuperación de información y la minería de datos después de unirse a una empresa de Internet que se ocupa de big data?