¿Cuáles son las diferencias entre la PNL y los problemas comunes de aprendizaje automático?

La respuesta a esta pregunta depende mucho de cómo defina los problemas de aprendizaje automático “ordinarios”. Si por “ordinario”, se refiere al conjunto de problemas que pueden resolverse mediante el aprendizaje estándar supervisado y no supervisado, diría que la mayoría de los problemas de PNL encajan perfectamente en esa definición. Por ejemplo:

  1. La traducción automática es uno de los problemas difíciles de la PNL con los que hemos tenido un gran éxito recientemente. Todos los enfoques de vanguardia, como el sistema de traducción automática neuronal de Google [1] utilizan un enfoque de aprendizaje supervisado.
  2. Los problemas de clasificación de texto, por ejemplo, detección de spam, análisis de sentimientos, etc., que son probablemente los problemas de PNL más comunes que existen, se resuelven utilizando métodos de aprendizaje supervisados ​​”ordinarios”.
  3. Aprender incrustaciones de palabras, como word2vec o glove word word, es simplemente una forma no supervisada de convertir palabras a sus representaciones vectoriales (aunque algunos argumentan que es un aprendizaje débilmente supervisado [2])

La principal diferencia entre NLP y otros problemas de Machine Learning es el dominio con el que trabaja, es decir, el texto. Es difícil trabajar con texto o idioma, especialmente inglés, debido a su ambigüedad inherente, y eso hace que los problemas de PNL sean bastante difíciles de resolver. Pero incluso a ese respecto, no creo que los problemas de PNL sean fundamentalmente más o menos desafiantes que los problemas de aprendizaje automático en otros dominios “naturales” como las imágenes, el video o el habla.

Notas al pie

[1] https://arxiv.org/pdf/1609.08144…

[2] He visto esto muchas veces que las personas afirman que word2vec no está supervisado. Pero …

En primer lugar, el lenguaje es ambiguo, los practicantes son juguetones y el contexto es crítico.

“Presionar un traje” significa una cosa para un abogado y otra para una tintorería.

Intentar entender el sarcasmo y el humor también es difícil. “El restaurante fue genial. No.”

Obtener los datos de entrenamiento correctamente etiquetados es una tarea enorme. Es casi imposible obtener suficientes ejemplos representativos. Es costoso en términos de tiempo y dinero.

La combinatoria del lenguaje es enorme. Algunos algoritmos de PNL son O (n ^ 3).

Ambigüedad de las entidades nombradas: “Nueva York está por delante”, podría referirse al Estado, la Ciudad, el equipo de béisbol NY Yankees, el equipo de fútbol NY Giants, etc.

La puntuación puede cambiar el significado:

“Un mujer sin su hombre es nada.”

“Un mujer sin su hombre es nada.”

Problemas con antecedentes:

Buford vio que la división de Longstreet se acercaba a sus hombres. Las tropas de Reynolds respondieron rápidamente a los pedidos de asistencia, y pronto se encontró en medio de una batalla mortal. (¿Quién es él ? ¿Buford, Reynolds o Longstreet?)

Los errores en el texto y el habla pueden ser confusos.

La capitalización puede cambiar el significado: “The Band” se refiere a un grupo musical específico.

La bolsa de palabras puede fallar: “Toy Dog” y “Dog Toy” significan dos cosas diferentes debido al orden de las palabras en la frase.

Las frases nuevas pueden aparecer repentinamente con nuevos significados. Por ejemplo, “jugo desnudo”, no es un término pornográfico, pero podría haber sido tratado como tal cuando la compañía comenzó.

Las partes del etiquetado del discurso son muy difíciles, lentas y ambiguas.

Los idiomas que no son inglés presentan desafíos adicionales. El alemán tiene sustantivos compuestos masivos. El turco es aglutinante. El chino no tiene saltos de palabras, por lo que determinar qué grupos de ideogramas deben tratarse una palabra no es trivial. Las codificaciones desconocidas o incorrectas del texto del idioma pueden ser problemáticas. Afortunadamente, mucho texto está en Unicode o se puede convertir a Unicode.

Si está mirando páginas web, puede encontrar una página escrita por un solo autor, o puede estar tratando de analizar la página del foro de varios autores sobre múltiples temas.

Los intentos anteriores con la traducción automática utilizando algoritmos para analizar texto fallaron durante muchas décadas. Solo recientemente, con el uso de técnicas de alineación en grandes corpus de texto traducido, la traducción automática ha logrado un progreso significativo.

(Estoy seguro de que hay otros problemas que no se me ocurrieron).

[Agregado más tarde]: Otro problema que la mayoría de los enfoques de PNL no manejan bien (porque es computacionalmente costoso), se trata de “palabras de detención” (también llamadas “palabras de función”). Por lo general, se ignoran, pero pueden cambiar sutilmente la semántica (significado) de una oración. Google ciertamente no maneja esto. Por ejemplo:

  1. “Libros escritos sobre niños”
  2. “Libros escritos para niños”
  3. “Libros escritos sobre niños”
  4. “Libros escritos por niños”
  5. “Libros escritos con niños”
  6. “Libros escritos contra niños”
  7. “Libros escritos en niños” – (Tonterías, pero la oración similarmente estructurada “Libros escritos en griego” es sensorial)

[Agregado más tarde]: Otro problema en PNL, es “stemming”, que trata de convertir palabras muy similares en una sola palabra usando una lista relativamente simple de reglas. Por ejemplo, “gato” y “gatos” (eliminación plural); “Caminar”, “caminar”, “caminar” (tiempo verbal). Sin embargo, a veces se descompone (según las reglas) como con “universo”, “universidad” y “universal”, todo derivado de “univers”. O con “azul” (el color) y “blues” (el tipo de música).

Los problemas de aprendizaje automático “ordinarios” generalmente no son tan complicados.

Actualmente estoy aprendiendo PNL con experiencia en aprendizaje automático. Creo que los problemas en PNL son en gran medida diferentes de los problemas de aprendizaje automático ‘convencionales’. Revisión: Tal vez pueda expresar la diferencia como ‘en PNL no tenemos datos cuantificados directamente’. Entonces, ¿cuáles son otras diferencias?

Se cuantifica, o más bien puede ser, a través de una serie de modelos de representación.

Supongo que esto agrega un paso adicional, y agrega algo de teoría a la mezcla, pero no es tanto. Las palabras se convierten en números y vectores en el espacio de alta dimensión.

Si observa los métodos que se usan para resolver problemas, después de convertirlos a un formato manejable a través de uno de los modelos de representación, los procesos son ML bastante estándar.

Al igual que si lo piensas, la forma en que las incorporaciones de palabras se generan a través de una red neuronal son básicamente codificadores automáticos. Quiero decir que sí, es diferente, pero es prácticamente lo mismo, y el concepto es extremadamente similar.

Agregaré que PNL se extiende fuera de ML; Hay otras formas de resolver problemas de PNL, pero de aquellos dentro de ML, no creo que sean masivamente diferentes. Es solo una cuestión de poner las cosas en la forma correcta para luego aplicar más operaciones estándar de ML (o incluso más estadísticas normales) sobre ellas.