¿Cómo reconocemos a un usuario en particular en un registro de chat de Internet multiusuario largo?

Descargo de responsabilidad: solo tengo antecedentes de IR elemental, por lo que mis sugerencias solo reflejarán lo básico. También podrían estar completamente equivocados, por lo que las correcciones son bienvenidas.

Este es un problema interesante, y creo que es manejable.

Creo que el enfoque de entrenar un clasificador por usuario es razonable, como sugirió Ghalib Suleiman.

¿Es útil para un científico de datos conocer métodos ágiles como Scrum?
¿Cuál es la mejor tarjeta gráfica para tareas de aprendizaje automático / Big Data?
¿Qué está haciendo Wavii con el aprendizaje automático para redefinir cómo se realiza la búsqueda en la web?
¿Cuáles son los algoritmos de aprendizaje automático adecuados para Big Data o análisis en tiempo real?
¿Qué son los asombrosos papeles gráficos de conocimiento?

En cuanto a los vectores de características:

Lo que notas en la mayoría de las salas de chat de IRC es que las personas tienen estilos de conversación distintivos. Utilizan diferentes siglas, signos de puntuación y ortografía para comunicarse. Estos tienden a ser internamente consistentes, es decir, un usuario puede (mal) deletrear palabras o usar un meme o acrónimo de manera bastante consistente de la misma manera cada vez.

Además, lo que observa es que, en términos de tiempo, las conversaciones se agrupan bastante, con algunos usuarios hablando de algo con pocas interrupciones entre líneas.

Finalmente, la más obvia es que sabes que un usuario solo puede estar en una conversación si realmente está en la sala. Por lo tanto, un elemento imprescindible serían las líneas de unión / entrada además de los registros de chat en sí, aunque dado que hay una gran cantidad de personas en IRC que están “siempre activas” y simplemente inactivas, es discutible lo útil que sería .

Entonces, usando una combinación de:
1) Aproximación aproximada de n-gramas
2) Comprobación de la longitud de la oración
3) Agrupación de marcas de tiempo

Creo que podría obtener un clasificador aceptable con este conjunto de características.

Nota:
¿Puedes subir un registro muy grande (10k + líneas) desde un canal en alguna parte? Este conjunto de sugerencias no es difícil de implementar, por lo que sospecho que alguien estaría interesado en probarlo pronto (posiblemente yo mismo)

¿Cuáles son algunos desafíos calificados de aprendizaje automático que se inician cada año?

Cómo construir un conjunto de datos para el aprendizaje automático

¿Qué es el aprendizaje activo?

¿Cuál es la diferencia entre la deserción y la normalización de lotes?

¿Los departamentos de policía en los EE. UU. Usan el aprendizaje automático para encontrar patrones en los datos delictivos?

¿Cuáles son los temas más buscados en internet?

Esto no me parece un problema muy manejable. Podría intentar entrenar a un clasificador por usuario y ver esto como una tarea de clasificación, pero no sé qué características podría usar en el texto de IRC que discriminarían entre los diferentes usuarios.

Si termina implementando un enfoque que arroje algún tipo de resultado aceptable, probablemente podría convertirlo en un documento en una conferencia decente.

EDITAR: Alguien recientemente publicó un trabajo sobre esto. Esto podría serle útil: http://www.cs.brown.edu/~melsner …

Vaibhav Mallya

Los métodos sugeridos anteriormente probablemente serían los mejores, pero me interesaría saber cómo puede entrenar un clasificador para cada usuario sin identificar primero a los usuarios, ¿cuál es el objetivo del ejercicio? Comenzaría tomando una proporción del registro y ejecutando frecuencia de palabra comentario por comentario y recuentos de colocación de bigramas. Utilizándolos, encuentre grupos en los resultados, es decir, comentarios que tengan una frecuencia similar de palabras y perfiles de bigramas, y podríamos plantear la hipótesis de que el comentario 1 provino del usuario 1, etc., y clasificar a mano la porción en la que hemos realizado conteos. Esto se convierte en nuestro conjunto de entrenamiento para el clasificador. Podemos, después de la clasificación, luego ejecutar conteos de frecuencia y bigramas en todos los comentarios etiquetados para cada usuario, estos deberían tener un resultado similar al promedio de cada usuario identificado en el ejercicio de agrupamiento.

Me interesaría saber cuánto tiempo durará el registro de chat para esto, cuál será el precio y cuándo se ejecutará la competencia.

Vaibhav Mallya

More Interesting

¿Cuáles son las aplicaciones prácticas del análisis de componentes principales?

Cómo convencer a mi gerente de que conozco el aprendizaje automático

¿Es el atributo central del reconocimiento de patrones genios?

¿Dónde puedo aprender a hacer predicciones básicas con RapidMiner?

¿Cómo podemos "entrenar" sistemáticamente los algoritmos de agrupación sobre qué combinaciones de atributos / características generan en última instancia los tipos deseados de agrupaciones?

¿Cómo verifican las personas los resultados de un análisis de causa raíz en la minería de datos? ¿Hay algún conjunto de datos público disponible que especifique cuáles son las causas reales del problema?

¿Cuál puede ser un buen proyecto de curso de 3 meses relacionado con el procesamiento del habla y el aprendizaje automático?

¿Dónde funcionará bien el aprendizaje automático como servicio? ¿Dónde no lo hará?

¿Cuál es la diferencia entre Hidden Markov Chain y Markov Chain?