¿Existen algoritmos en R que permitan clasificar una variable binaria basada en un conjunto de cadenas (texto)?

Entonces, cuando tiene un montón de datos basados ​​en texto y desea clasificar los textos en diferentes grupos, debe regresar y verificar su comprensión básica del aprendizaje automático / estadístico.

Recuerde que, ya sea, está solicitando algún tipo de método de aprendizaje supervisado o no supervisado. El significado supervisado ya existe una variable o etiqueta de resultado clara para cada punto de datos que le interese; sin supervisión lo que significa que no hay. No está claro en su pregunta en qué se está inclinando, así que los describiré brevemente. El TL; DR es que tendrá que leer sobre minería de texto y procesamiento de lenguaje natural.

Si su conjunto de datos ya está etiquetado, entonces debería poder hacerlo con bastante facilidad una vez que haya identificado un paquete que funcione bien para usted. Ya he vinculado el paquete tidytext (aunque todavía no lo he usado, estoy convencido de que los muchachos de RStudio desarrollan algunos paquetes bastante sólidos), por lo que puede pensar en asignar una métrica de minería de texto a las etiquetas que tienes. Por ejemplo, quizás podría investigar una métrica como frecuencia de documento inversa; ajustar un modelo a esa métrica (aunque podría ser un poco impreciso si el límite de decisión no es muy claro); y luego use el modelo ajustado para predecir en su conjunto de prueba / espera.

Si su conjunto de datos no está etiquetado, tiene dos opciones: leer los textos usted mismo y etiquetarlos, O BIEN, haga algún método sin supervisión donde el resultado sea una clasificación basada en la teoría. He hecho esto último antes, y el algoritmo que usé fue Asignación de Dirichlet Latente. Al igual que el Análisis de componentes principales, intenta optimizar alguna matriz de frecuencias para encontrar grupos de datos que tengan una alta similitud dentro del grupo y una baja similitud entre los grupos. El número de grupos está definido por la teoría que impulsa su investigación (en este caso, que hay 2 grupos distintos).

Fuera de mi cabeza, puedo imaginar que el método no etiquetado y sin supervisión es probablemente el mejor, porque puede o no estar familiarizado con los textos e incluso si lo está, puede estar sesgado hacia su contenido y etiquetarlos usted mismo. captura las verdaderas relaciones numéricas en la forma en que se escribe el texto.

Espero que esto lo explique.

Gracias por A2A.

Gracias por el A2A, pero no estoy completamente seguro de lo que quieres decir.

¿Estás tratando de clasificar documentos?

¿O literalmente tienes variables con cadenas como valores?

Para el primero, desea investigar en PNL. Esto último … bueno, depende del problema y de lo que representan las cadenas.

Comente esta respuesta y hágamelo saber, y actualizaré. O puede actualizar la respuesta, pero avíseme si lo ha hecho por comentario.

Editar: basado en un comentario del autor de esta pregunta, esta es una pregunta de PNL, que es desafortunada, en cierto modo, ya que la otra forma es menos estándar y, por lo tanto, para mí (en este momento, de todos modos), más interesante.