Esta es una pregunta un poco difícil de responder, en parte porque hay varios campos que funcionan en problemas similares, cada uno de los cuales se marca de manera diferente. Por ejemplo, tres investigadores, uno en Text Data Mining, otro en Lingüística Computacional y el tercero en Procesamiento de Lenguaje Natural, pueden trabajar en el análisis de sentimientos y usar los mismos algoritmos, lenguaje de programación, etc., pero aún así se consideran trabajando en Diferentes campos.
Así que aquí hay un intento de definir el procesamiento del lenguaje natural: la PNL es el campo que estudia la interacción entre la computación y el lenguaje natural, utilizando conocimientos lingüísticos, modelos computacionales y herramientas estadísticas para construir soluciones a los problemas que encontramos en el mundo real.
Entonces, ¿cuál es la diferencia entre NLP, CL y TDM? Cuanto más aprendo sobre cada campo, más estoy convencido de que no hay mucha diferencia aparte del nombre. Dicho esto, sin embargo, aquí hay algunas diferencias notables al abordar problemas similares:
- Traducción automática: CL pasa más tiempo construyendo nuevos modelos y teorías, la PNL en realidad trata de diseñar soluciones basadas en esos modelos / teorías, y TDM ignora en gran medida la traducción automática
- Clasificación de documentos: CL se ocupa principalmente de cómo representamos la clasificación (agrupamos todas las palabras, si consideramos temas probabilísticos que pueden o no estar presentes en todos los documentos, etc.). NLP estaría más preocupado con qué herramientas disponibles realmente rinden mejor en datos de la vida real. TDM utiliza estos conocimientos para rastrear métricas e intentar encontrar patrones o pepitas previamente desconocidos en el texto.
- Etiquetado de parte del discurso: CL está muy preocupado por la validez lingüística de los diferentes modelos computacionales. PNL se enfoca más en qué solución tiende a ser la correcta e intenta utilizar técnicas de aprendizaje automático para mejorarlas. TDM utiliza estas trampas para tratar de construir un método estadísticamente viable para obtener información de texto en relación con las etiquetas POS, reconociendo los errores inherentes en los modelos y herramientas.
Habiendo dado esta respuesta, también necesito calificar su validez. Por un lado, soy un estudiante con experiencia limitada y perspectiva histórica. No estaba cerca cuando comenzó la PNL, y las cosas han cambiado mucho. En segundo lugar, la PNL y sus campos relacionados cambian constantemente y cambian de marca. Cuando comenzó la informática, casi todos estos temas se agruparon en un campo deliciosamente caótico. Alan Turing escribió sobre el lenguaje y las computadoras antes de que la mayoría de la gente supiera qué era una computadora moderna. A medida que hemos tenido más tiempo para explorar el territorio académico, el cambio de nombre del campo y la revisión de los supuestos arraigados ha sucedido una y otra vez.
Entonces, por hoy, creo que esta explicación de PNL es funcional. ¿Pero será dentro de cinco años? De alguna manera lo dudo.