¿Qué información se debe divulgar para caracterizar un conjunto de datos para la clasificación de texto? La tecnología cambia la vida futura

Gracias o pregunta bien definida, que contiene la mayor parte de la respuesta, así que simplemente estoy respondiendo como una caja de resonancia. Encuentra mis respuestas en línea en cursiva

No es necesario mencionar la cantidad de textos, ya que cualquier programa o herramienta nlp simple puede responder esa pregunta.

número de etiquetas diferentes que influyen innecesariamente en el destinatario con información adicional.

de dónde vienen los textos, y cómo se eligieron la fuente de los datos deben ser llamados para autenticar y citar según sea necesario.

qué tan grandes son los textos (p. ej., diagrama de caja de la longitud del texto expresado en número de tokens o histograma) bytesize y suma de comprobación sería muy útil si persistiera como un archivo. Si no puede ser un archivo de texto sin cifrar simple, elija el tipo de archivo independiente del sistema operativo para que persista. Sin embargo, pdf no sería la mejor opción debido a muchas complicaciones.

qué tan diverso es el vocabulario (por ejemplo, simplemente indicando el tamaño del vocabulario) no se requiere. Fácil de encontrar a través de nlp / ml.

qué tan desequilibrado es el conjunto de datos, es decir, el porcentaje de muestras positivas, para cada etiqueta en mi humilde opinión, nuevamente no es necesario. Es posible que desee dar algunos detalles en el archivo Léame sobre cómo identificar las muestras positivas depende del contenido y la complejidad de los datos.

matriz de concordancia de etiquetas (es decir, en la cantidad de texto que están presentes tanto la etiqueta X como la etiqueta Y) en mi humilde opinión, nuevamente no es necesario. Es posible que desee dar algunos detalles en el archivo Léame dependiendo del contenido y la complejidad de los datos.

instrucciones dadas a los anotadores (p. ej., definición para cada etiqueta) ¡ sí, absolutamente!

acuerdo entre evaluadores (kappa de Cohen si cada texto fue etiquetado por exactamente 2 anotadores, de lo contrario, el kappa de Fleiss tiene más de 2 anotadores, o el alfa de Krippendorff si el número de anotadores es variable) ¡ sí, léame! !

¿Cuál es la precisión / recuperación / puntaje F1 de cada anotador (es decir, la métrica de desempeño humano contra el cual se pueden comparar directamente los algoritmos de PNL) sí, en una sección / archivo separado para entrenar y comparar el resultado, lo cual sería muy grande beneficioso cuando se está utilizando RNN.

¿Cuál es el rendimiento de clasificación de algunos sistemas de referencia? Nuevamente, en una sección separada o archivo para comparar.

¿Cuál es la división oficial de entrenamiento / validación / prueba? (lo mejor es proporcionar una para que las diferentes publicaciones basadas en el mismo conjunto de datos puedan compararse más fácilmente) .

¿Qué otra información debo divulgar para presentar mejor el conjunto de datos a los investigadores en procesamiento de lenguaje natural o aprendizaje automático? El manifiesto de los siguientes detalles sería de gran ayuda:

versión y última fecha revisada.
Punto de contacto si está dispuesto a responder cualquier pregunta.
Citar según sea necesario.
Como se mencionó la suma de comprobación
Codificación
Idioma

Ejemplo del conjunto de datos para la clasificación de texto: un conjunto de notas del paciente anotadas con qué afecciones médicas tiene el paciente, entre 10 afecciones médicas. Es decir, cada muestra tiene 10 etiquetas binarias, anotadas por humanos.

Lo mejor posible es proporcionar las tablas por separado con referencias adecuadas intext.

¡Increíble! Gracias

Aprendizaje automáticoClasificación deConjuntos de datosProcesamiento de lenguaje natural