¿Dónde debo comenzar si quiero escribir un algoritmo de etiquetado y clasificación de oraciones?

¿Puede decir un poco sobre el propósito y el contexto, así como sus antecedentes, el marco temporal para hacer esto y los recursos? Probablemente pueda encontrar en Google, por ejemplo, algunos artículos que describen lo que la gente ha hecho con el etiquetado simple basado en el análisis estadístico de una muestra en particular. Por ejemplo, supongamos que simplemente desea etiquetar los tweets que mencionan AI como positivo o negativo. Reúne un conjunto de ejemplos de tamaño razonable y luego hace que tres (digamos) personas los etiqueten o los califiquen en una escala de 3, 5 o 7 puntos en cuanto a cuán positivos son. (Es posible que deba iterar un poco antes para obtener un buen consenso en los evaluadores). Ahora intenta encontrar palabras que sean estadísticamente predictivas de puntajes altamente positivos o altamente negativos. Este podría ser un trabajo de una persona para una semana si tiene los antecedentes adecuados en estadísticas y es fluido en un lenguaje como R que tiene muchas funciones incorporadas. En el otro extremo, podría estar intentando hacer un analizador bastante extenso para un asistente personal de propósito general. (Incluso uno limitado a un dominio específico como la venta de ropa deportiva podría requerir mucho trabajo). Diría que esto se parece más a un pequeño equipo de personas durante un año o más, aunque depende de cuán “inteligente” deba ser el asistente. En cualquier caso, los primeros pasos importantes son determinar exactamente cuáles son sus objetivos, asegurarse de que el uso sea ético, recopilar una muestra representativa grande del tipo de declaraciones que va a analizar.