¿Sería posible entrenar una computadora para reconocer con precisión a escritores individuales en Quora analizando muestras escritas?

Esta tarea generalmente se conoce como identificación de autoría en la literatura NLP / CL. Generalmente funciona mediante la extracción de características de un gran cuerpo de texto escrito por los autores que uno está interesado en identificar y luego entrenar un modelo con estas características. Es una pregunta empírica si los enfoques habituales, que se han aplicado a la literatura científica y a los textos históricos, funcionarán para las respuestas de Quora. Un factor de confusión es que es probable que cualquier conjunto grande de muestras escritas en Quora para un autor dado contenga respuestas a preguntas de diferentes temas y no sobre el mismo tema. Algunas características lingüísticas aún pueden compartirse entre las respuestas para diferentes temas, pero puede ser un poco más desafiante de lo que cabría esperar. Aquí hay una publicación de Language Log de 2008 que podría arrojar algo más de luz sobre este tema: http: //languagelog.ldc.upenn.edu…

Respuesta corta: es posible, pero para empezar tendría que ser una muestra de escritura muy grande y qué tan bien funciona es una pregunta empírica.

Creo que habrá demasiadas clases, es decir, usuarios. Solo funcionará, por ejemplo, para los 1000 principales usuarios de Quora.

More Interesting

¿Tener un conocimiento profundo del aprendizaje por refuerzo cambia su perspectiva hacia la vida? ¿Cómo?

¿Dónde puedo aprender sobre los conceptos básicos de la inteligencia artificial?

¿Debería haber una relación específica entre el número de características y el número de clases? Si tengo 15 funciones pero 50 clases con 1000 datos de entrenamiento, ¿tendré un problema de sobreajuste? ¿Y cuál es la mejor técnica de clasificación para esta relación?

Después de dominar el aprendizaje profundo, ¿es posible conseguir un trabajo en aprendizaje automático?

¿Cómo debo combinar la retroalimentación implícita y explícita en el filtrado colaborativo?

¿Hay alguna conexión entre el aprendizaje de kernel múltiple (MLK) y el aprendizaje profundo?

¿Cuál es mejor para la manipulación de datos en python: Pandas o SFrame?

¿TF-IDF está categorizado como una selección de características o una extracción de características?

¿Por qué la necesidad de depuración aún no se ha resuelto después de tantos desarrollos en tecnología, informática, algoritmos y aprendizaje automático?

Con el desarrollo de marcos informáticos escalables como TensorFlow y Spark, ¿seguirán siendo relevantes los marcos de una sola máquina? NumPy podría ser solo API.

¿Cuál es la mejor manera de distribuir una aplicación de iOS para un proyecto de investigación?

¿Cuál es una buena manera de convertir métrica discreta en métrica circular?

¿Debo ir al análisis de datos o al aprendizaje automático?

¿El filtrado colaborativo se considera aprendizaje automático?

¿Qué es la optimización de colonias de hormigas y cómo funciona en términos simples?