¿Qué información se debe divulgar para caracterizar un conjunto de datos para la clasificación de texto?

Gracias o pregunta bien definida, que contiene la mayor parte de la respuesta, así que simplemente estoy respondiendo como una caja de resonancia. Encuentra mis respuestas en línea en cursiva

No es necesario mencionar la cantidad de textos, ya que cualquier programa o herramienta nlp simple puede responder esa pregunta.

número de etiquetas diferentes que influyen innecesariamente en el destinatario con información adicional.

de dónde vienen los textos, y cómo se eligieron la fuente de los datos deben ser llamados para autenticar y citar según sea necesario.

qué tan grandes son los textos (p. ej., diagrama de caja de la longitud del texto expresado en número de tokens o histograma) bytesize y suma de comprobación sería muy útil si persistiera como un archivo. Si no puede ser un archivo de texto sin cifrar simple, elija el tipo de archivo independiente del sistema operativo para que persista. Sin embargo, pdf no sería la mejor opción debido a muchas complicaciones.

qué tan diverso es el vocabulario (por ejemplo, simplemente indicando el tamaño del vocabulario) no se requiere. Fácil de encontrar a través de nlp / ml.

qué tan desequilibrado es el conjunto de datos, es decir, el porcentaje de muestras positivas, para cada etiqueta en mi humilde opinión, nuevamente no es necesario. Es posible que desee dar algunos detalles en el archivo Léame sobre cómo identificar las muestras positivas depende del contenido y la complejidad de los datos.

matriz de concordancia de etiquetas (es decir, en la cantidad de texto que están presentes tanto la etiqueta X como la etiqueta Y) en mi humilde opinión, nuevamente no es necesario. Es posible que desee dar algunos detalles en el archivo Léame dependiendo del contenido y la complejidad de los datos.

instrucciones dadas a los anotadores (p. ej., definición para cada etiqueta) ¡ sí, absolutamente!

acuerdo entre evaluadores (kappa de Cohen si cada texto fue etiquetado por exactamente 2 anotadores, de lo contrario, el kappa de Fleiss tiene más de 2 anotadores, o el alfa de Krippendorff si el número de anotadores es variable) ¡ sí, léame! !

¿Cuál es la precisión / recuperación / puntaje F1 de cada anotador (es decir, la métrica de desempeño humano contra el cual se pueden comparar directamente los algoritmos de PNL) sí, en una sección / archivo separado para entrenar y comparar el resultado, lo cual sería muy grande beneficioso cuando se está utilizando RNN.

¿Cuál es el rendimiento de clasificación de algunos sistemas de referencia? Nuevamente, en una sección separada o archivo para comparar.

¿Cuál es la división oficial de entrenamiento / validación / prueba? (lo mejor es proporcionar una para que las diferentes publicaciones basadas en el mismo conjunto de datos puedan compararse más fácilmente) .

¿Qué otra información debo divulgar para presentar mejor el conjunto de datos a los investigadores en procesamiento de lenguaje natural o aprendizaje automático? El manifiesto de los siguientes detalles sería de gran ayuda:

  • versión y última fecha revisada.
  • Punto de contacto si está dispuesto a responder cualquier pregunta.
  • Citar según sea necesario.
  • Como se mencionó la suma de comprobación
  • Codificación
  • Idioma

Ejemplo del conjunto de datos para la clasificación de texto: un conjunto de notas del paciente anotadas con qué afecciones médicas tiene el paciente, entre 10 afecciones médicas. Es decir, cada muestra tiene 10 etiquetas binarias, anotadas por humanos.

Lo mejor posible es proporcionar las tablas por separado con referencias adecuadas intext.

¡Increíble! Gracias

¡Es bueno ver que está lanzando un conjunto de datos para la comunidad clínica de PNL!

Ya tienes algunas buenas respuestas en la mayoría de los puntos. Solo quería agregar, en este punto, “¿cuál es la división oficial de capacitación / validación / prueba? (es mejor proporcionar una para que las diferentes publicaciones basadas en el mismo conjunto de datos puedan compararse más fácilmente) ”→ Estoy de acuerdo con usted. Si ya tiene algunas publicaciones (o en proceso de revisión) que utilizan una formación bien definida, desarrollo / validación y divisiones de prueba, creo que debe publicar su conjunto de datos en consecuencia, para que la comunidad de investigación pueda usarlo como punto de referencia y compararlo con El estado del arte.

Además, otra cosa importante cuando libera el conjunto de datos, indique claramente la información de licencia para que todos sepan quién puede / no puede usar estos datos (términos / condiciones).

Como ejemplo, le sugiero que mire este conjunto de datos (muy popular) de Stanford: The Stanford Question Answering Dataset; sería realmente genial si pudieras seguir un enfoque similar con una tabla de líderes, lo que creo que haría que tu conjunto de datos sea bien utilizado para la posible progresión de la investigación en PNL clínica.

¡Todo lo mejor!

Las estadísticas del corpus generalmente atraen a un investigador para explorarlo. Recientemente en mi estudio utilicé NCBI Disease Corpus para la enfermedad NER. Proporcionaron los detalles como:

Una estadística completa será excelente.