¿Cómo reconocemos a un usuario en particular en un registro de chat de Internet multiusuario largo?

Descargo de responsabilidad: solo tengo antecedentes de IR elemental, por lo que mis sugerencias solo reflejarán lo básico. También podrían estar completamente equivocados, por lo que las correcciones son bienvenidas.

Este es un problema interesante, y creo que es manejable.

Creo que el enfoque de entrenar un clasificador por usuario es razonable, como sugirió Ghalib Suleiman.

En cuanto a los vectores de características:

Lo que notas en la mayoría de las salas de chat de IRC es que las personas tienen estilos de conversación distintivos. Utilizan diferentes siglas, signos de puntuación y ortografía para comunicarse. Estos tienden a ser internamente consistentes, es decir, un usuario puede (mal) deletrear palabras o usar un meme o acrónimo de manera bastante consistente de la misma manera cada vez.

Además, lo que observa es que, en términos de tiempo, las conversaciones se agrupan bastante, con algunos usuarios hablando de algo con pocas interrupciones entre líneas.

Finalmente, la más obvia es que sabes que un usuario solo puede estar en una conversación si realmente está en la sala. Por lo tanto, un elemento imprescindible serían las líneas de unión / entrada además de los registros de chat en sí, aunque dado que hay una gran cantidad de personas en IRC que están “siempre activas” y simplemente inactivas, es discutible lo útil que sería .

Entonces, usando una combinación de:
1) Aproximación aproximada de n-gramas
2) Comprobación de la longitud de la oración
3) Agrupación de marcas de tiempo

Creo que podría obtener un clasificador aceptable con este conjunto de características.

Nota:
¿Puedes subir un registro muy grande (10k + líneas) desde un canal en alguna parte? Este conjunto de sugerencias no es difícil de implementar, por lo que sospecho que alguien estaría interesado en probarlo pronto (posiblemente yo mismo)

Esto no me parece un problema muy manejable. Podría intentar entrenar a un clasificador por usuario y ver esto como una tarea de clasificación, pero no sé qué características podría usar en el texto de IRC que discriminarían entre los diferentes usuarios.

Si termina implementando un enfoque que arroje algún tipo de resultado aceptable, probablemente podría convertirlo en un documento en una conferencia decente.

EDITAR: Alguien recientemente publicó un trabajo sobre esto. Esto podría serle útil: http://www.cs.brown.edu/~melsner

Los métodos sugeridos anteriormente probablemente serían los mejores, pero me interesaría saber cómo puede entrenar un clasificador para cada usuario sin identificar primero a los usuarios, ¿cuál es el objetivo del ejercicio? Comenzaría tomando una proporción del registro y ejecutando frecuencia de palabra comentario por comentario y recuentos de colocación de bigramas. Utilizándolos, encuentre grupos en los resultados, es decir, comentarios que tengan una frecuencia similar de palabras y perfiles de bigramas, y podríamos plantear la hipótesis de que el comentario 1 provino del usuario 1, etc., y clasificar a mano la porción en la que hemos realizado conteos. Esto se convierte en nuestro conjunto de entrenamiento para el clasificador. Podemos, después de la clasificación, luego ejecutar conteos de frecuencia y bigramas en todos los comentarios etiquetados para cada usuario, estos deberían tener un resultado similar al promedio de cada usuario identificado en el ejercicio de agrupamiento.

Me interesaría saber cuánto tiempo durará el registro de chat para esto, cuál será el precio y cuándo se ejecutará la competencia.

More Interesting

¿Cuáles son las aplicaciones prácticas del análisis de componentes principales?

Cómo convencer a mi gerente de que conozco el aprendizaje automático

¿Es el atributo central del reconocimiento de patrones genios?

¿Dónde puedo aprender a hacer predicciones básicas con RapidMiner?

¿Cómo podemos "entrenar" sistemáticamente los algoritmos de agrupación sobre qué combinaciones de atributos / características generan en última instancia los tipos deseados de agrupaciones?

¿Cómo verifican las personas los resultados de un análisis de causa raíz en la minería de datos? ¿Hay algún conjunto de datos público disponible que especifique cuáles son las causas reales del problema?

¿Cuál puede ser un buen proyecto de curso de 3 meses relacionado con el procesamiento del habla y el aprendizaje automático?

¿Dónde funcionará bien el aprendizaje automático como servicio? ¿Dónde no lo hará?

¿Cuál es la diferencia entre Hidden Markov Chain y Markov Chain?

¿Qué significa ser modelo pre-entrenado en CNN? ¿Ya están entrenados en esas clases particulares?

¿Cómo se pueden adaptar los sistemas de recomendación para recomendar elementos que atraigan a todos en un grupo, en lugar de a un solo individuo?

Estoy tratando de evaluar el rendimiento del modelo (regresión). En la literatura, algunos usan RMSE y otros usan correlación. ¿Hay alguna diferencia entre ambos enfoques?

¿Qué es la agrupación conceptual?

¿Cuál es una buena manera de entender la maldición de la alta dimensión en el aprendizaje automático?

¿Por qué la optimización convexa es tan importante en el aprendizaje automático?