¿En qué se diferencia la lingüística computacional del procesamiento del lenguaje natural? La tecnología cambia la vida futura

Utilizo estos términos para indicar diferentes objetivos de investigación . Las metodologías a menudo están relacionadas y las comunidades se superponen. Asistimos a las mismas conferencias (gran parte del trabajo más sólido en ambos campos aparece en ACL, EMNLP, NAACL, etc.) y conversamos fácilmente sobre nuestros problemas y soluciones.

Aquí está la distinción que personalmente hago:

La lingüística computacional es análoga a la biología computacional o cualquier otro relleno computacional en blanco. Desarrolla métodos computacionales para responder las preguntas científicas de la lingüística.

Las preguntas centrales en lingüística involucran la naturaleza de las representaciones lingüísticas y el conocimiento lingüístico, y cómo el conocimiento lingüístico se adquiere y se implementa en la producción y comprensión del lenguaje. La respuesta a estas preguntas describe la capacidad del lenguaje humano y puede ayudar a explicar la distribución de los datos y el comportamiento lingüístico que realmente observamos.

En lingüística computacional, proponemos respuestas formales a estas preguntas centrales. Los lingüistas realmente se preguntan qué están calculando los humanos y cómo . Por lo tanto, definimos matemáticamente clases de representaciones lingüísticas y gramáticas formales (que generalmente son modelos probabilísticos en la actualidad) que parecen adecuadas para capturar la gama de fenómenos en los idiomas humanos. Estudiamos sus propiedades matemáticas y diseñamos algoritmos eficientes para el aprendizaje, la producción y la comprensión. Debido a que los algoritmos realmente pueden ejecutarse, podemos probar nuestros modelos y descubrir si hacen predicciones apropiadas.

La lingüística también considera una variedad de preguntas más allá de este núcleo: piense en la sociolingüística, la lingüística histórica, la psicolingüística y la neurolingüística. Estas preguntas científicas también son un juego justo para los lingüistas computacionales, que podrían usar modelos y algoritmos para dar sentido a los datos. En este caso, no estamos tratando de modelar la competencia de los hablantes diarios en su idioma nativo, sino más bien de automatizar el tipo especial de razonamiento que hacen los lingüistas, lo que nos permite trabajar en conjuntos de datos más grandes (o incluso nuevos tipos de datos) y Sacar conclusiones más precisas. Del mismo modo, los lingüistas computacionales pueden diseñar herramientas de software para ayudar a documentar idiomas en peligro de extinción.

El procesamiento del lenguaje natural es el arte de resolver problemas de ingeniería que necesitan analizar (o generar) texto en lenguaje natural. Aquí, la métrica del éxito no es si diseñó una mejor teoría científica o si demostró que los lenguajes X e Y estaban históricamente relacionados. Más bien, la métrica es si obtuvo buenas soluciones para el problema de ingeniería.

Por ejemplo, no juzga el Traductor de Google sobre si captura lo que la traducción “realmente es” o explica cómo los traductores humanos hacen su trabajo. Usted juzga si produce traducciones razonablemente precisas y fluidas para las personas que necesitan traducir ciertas cosas en la práctica. La comunidad de traducción automática tiene formas de medir esto, y se enfocan fuertemente en mejorar esos puntajes.

PNL se utiliza principalmente para ayudar a las personas a navegar y digerir grandes cantidades de información que ya existe en forma de texto. También se utiliza para producir mejores interfaces de usuario para que los humanos puedan comunicarse mejor con las computadoras y con otros humanos.

Al decir que PNL es ingeniería, no quiero decir que siempre esté enfocado en desarrollar aplicaciones comerciales. La PNL se puede usar para fines científicos dentro de otras disciplinas académicas como ciencias políticas (publicaciones de blog), economía (noticias e informes financieros), medicina (notas del médico), humanidades digitales (obras literarias, fuentes históricas), etc. Pero entonces es siendo utilizado como una herramienta dentro de la Xología computacional para responder las preguntas científicas de los Xólogos, en lugar de las preguntas científicas de los lingüistas.

Ambos campos hacen uso de la capacitación formal en CS, lingüística y aprendizaje automático. Si realmente desea avanzar en cualquiera de los campos de manera duradera, debe desarrollar la fuerza suficiente para hacer una investigación original en las tres áreas. Puede ser útil ir a una escuela con una fuerte cultura interdisciplinaria, donde muchos de los profesores y estudiantes de CS están activamente interesados en la lingüística por sí misma (o viceversa).

Dicho esto, las personas de PNL suelen salirse con la suya con una lingüística relativamente superficial. Observan los errores cometidos por su sistema actual y aprenden solo la cantidad de lingüística que necesitan para comprender y corregir los tipos de errores más destacados. Después de todo, su objetivo no es una teoría completa, sino el enfoque más simple y eficiente que hará el trabajo.

Por el contrario, si estudia lingüística computacional en un departamento de lingüística, generalmente obtendrá mucha más lingüística y mucho menos CS / ML. Los estudiantes en esos departamentos son técnicamente expertos, ya que la lingüística es un campo bastante técnico. Pero tienden a saber mucho menos matemáticas y CS. Por lo tanto, los cursos computacionales tienden a proporcionar solo una cierta exposición a la teoría del lenguaje formal, la programación y la PNL aplicada. (Estos cursos son populares entre los estudiantes de lingüística que esperan mejorar su empleabilidad).

Eventualmente espero que los dos programas de investigación se acerquen aún más. Si podemos construir un modelo sólido de la capacidad lingüística humana, entonces eso debería resolver una amplia gama de problemas de PNL para nosotros. Entonces, la lingüística computacional de hoy está desarrollando métodos para la PNL del mañana. Eso también ha sido históricamente cierto.

Aprendizaje automáticoinformáticaLingüística ComputacionalProcesamiento del lenguaje natural