¿Qué opinas del debate entre Norvig y Chomsky sobre el futuro de la IA?

Hay demasiados aspectos en este debate para responder de manera coherente aquí. En cambio, abordaré una faceta discreta del debate, la posición de Norvig de que los modelos probabilísticos entrenados con métodos estadísticos “tienden a hacer de la lingüística una ciencia empírica” ​​(Norvig, On Chomsky y las dos culturas del aprendizaje estadístico ). La oposición en este debate, Chomsky y sus seguidores, se acercan a la facultad de idiomas como una consecuencia de la biología humana, y su investigación relaciona las gramáticas mentales con los datos de lenguaje natural interlingüísticos. Norvig critica a Chomsky por su rechazo de los modelos de lenguaje estadístico orientado a tareas como una metodología científica exitosa. Además, afirma que Chomsky está obligado a “fabricar una instalación mística” (la dotación genética humana) para reforzar su postura mentalista. No estoy de acuerdo con Norvig en estos asuntos.

Aquí hay algunos antecedentes para los no iniciados. Un modelo de lenguaje estadístico es una distribución de probabilidad sobre una secuencia de palabras. Un corpus de datos de lenguaje natural proporciona la secuencia de palabras. Se compone de datos de idioma seleccionados por su relevancia para una tarea en particular. Una tarea de ejemplo podría ser el monitoreo diario del cereal de desayuno más popular de los usuarios de Twitter, como lo demuestran sus publicaciones públicas. Los corpus en bruto pueden ser anotados para mejorar el desempeño de un modelo de lenguaje estadístico. Sin embargo, las anotaciones no identifican conceptos ni cómo se comunican. Aun así, con las anotaciones apropiadas, la medición de la popularidad del cereal para el desayuno puede tener éxito sin identificar el contenido conceptual de los tweets. Todo lo que necesita es un millón de tweets, cada uno anotado con un atributo operativo apropiado que indica un cereal de desayuno favorito. Esto permite la inducción de una partición de datos basada en la clase que discrimina los textos de acuerdo con la popularidad del cereal para el desayuno.

Ahora aquí está la carne del asunto. Los corpus exhiben hapax legomena y otros efectos de la Ley Zipf. Esto significa que la mayoría de los datos del lenguaje natural en un corpus evidencian solo una porción modesta del conocimiento lingüístico humano (elementos de clase cerrada de alta frecuencia como preposiciones, pronombres, conjunciones y determinantes), mientras que la evidencia de la mayor parte del conocimiento lingüístico humano (clase abierta elementos como sustantivos y verbos) es esporádico. La mayoría se observan una vez o no se observan. Esta escasez de datos en lenguaje natural es una de sus características más relevantes. Sorprendentemente, los modeladores de lenguaje mentalista tienden a reconocer esta desviación de las normas empíricas de la ciencia; Los modeladores de lenguaje empirista generalmente se comportan como si no hubiera una conclusión vinculante en este asunto. Por lo tanto, los defensores de los modelos de lenguaje estadístico a menudo desvían las críticas percibidas al predecir mejoras de rendimiento con un mayor tamaño del corpus. Los escépticos se preguntan cómo más datos superarán la Ley de Zipf, ya que el valor operativo de cada adición al corpus disminuye rápidamente.

En el marco del modelo de lenguaje estadístico convencional, la precisión podría medirse mejor por el éxito con el que el modelo de ayer predice el cereal de desayuno más popular de hoy. Las pruebas se limitan al dominio de aplicación idéntico (por ejemplo, tweets de la comunidad que contribuyeron al corpus subyacente al modelo estadístico). Si el modelo de ayer funciona bien con los datos de hoy, entonces el modelo actual sigue siendo exitoso. De lo contrario, el corpus se actualiza y se entrena un nuevo modelo sobre nuevos datos hasta que se obtenga un umbral de rendimiento exitoso. Tenga en cuenta que el marco del modelo de lenguaje estadístico no tiene más interés en los contribuyentes al corpus, los conceptos que pretendían comunicar ni sus significados. En particular, excluye del análisis cualquier operación mental involucrada en la creación de datos de lenguaje empírico.

El éxito de un modelo de lenguaje estadístico depende completamente de su capacidad para simular (más precisamente, aproximar) el comportamiento del lenguaje previamente registrado. Cuando se expone a una entrada nueva, clasifica los nuevos datos del lenguaje de acuerdo con los patrones detectados en el corpus original específico de la tarea. Más allá de este dominio, el modelo tiene pocas posibilidades de una aplicación exitosa. En particular, no es informativo sobre otros usuarios de idiomas que se comunican en el mismo lenguaje natural sobre otros temas, los conceptos que comunican o sus significados. Por lo tanto, los defensores de los modelos estadísticos del lenguaje encuentran éxito en la aproximación precisa de los datos no analizados, mientras que Chomsky y sus seguidores encuentran el éxito en el descubrimiento de relaciones explicativas entre las funciones mentales que subyacen al comportamiento del lenguaje humano y los artefactos del lenguaje producidos en ese comportamiento.

Volvamos ahora a la afirmación de Norvig de que los modelos probabilísticos entrenados con métodos estadísticos tienden a hacer de la lingüística una ciencia empírica. Para soporte retórico, Norvig hace alarde de la popularidad de los modelos de lenguaje estadístico en las tareas de procesamiento de lenguaje natural y su éxito en el mercado. No estoy de acuerdo con Norvig en que el éxito comercial defiende una disminución de la lingüística a una ciencia empírica. Sin embargo, aprecio la capacidad de esta metodología para empaquetar rápidamente productos de procesamiento de lenguaje natural satisfactorios para tareas relativamente simples como la clasificación de documentos y el análisis de sentimientos, así como tareas más ambiciosas como la transcripción del habla. Aun así, dos décadas de intensa investigación y desarrollo en traducción automática (MT) de alta calidad totalmente automática de texto sin restricciones no se han cumplido con las promesas de Norvig: hoy Google Translate solo funciona modestamente mejor que los mejores sistemas ( Systran , METAL , LOGOS , etc. . ) lo hizo hace veinticinco años. Para la mayoría de los casos de uso, no hay una diferencia de cinco centavos.

El MT es un objetivo principal de la tecnología de IA, entonces, ¿por qué la generación actual de MT estadística no ha podido superar significativamente la capacidad central de su predecesor? Los modelos probabilísticos entrenados con métodos estadísticos podrían ser aumentados con información sobre conceptos y significados, pero tales métodos sin duda serán rechazados como sobre ingeniería hasta que la opinión pública considere que el paradigma actual es insatisfactorio. Las capacidades de traducción humana de ingeniería inversa de la generación anterior, pero su progreso se ralentizó al intentar integrar tratamientos de sentido de las palabras, contexto cultural, etc. La generación actual produjo modelos estadísticos a partir de colecciones paralelas de traducciones humanas (bitexts), pero también se atascó mejorando problemas similares de calidad de traducción. Lo mejor de la generación actual ahora incorpora elementos lingüísticos en sus algoritmos (por ejemplo, Language Weaver modela la sintaxis de idiomas particulares). Aun así, ambos paradigmas de MT parecen culminar en una “traducción rápida y sucia” (Church y Hovy, 1991).

Los defensores de modelos probabilísticos entrenados con métodos estadísticos disfrutan de ventajas comerciales en términos de tiempo de comercialización y monetización tecnológica, pero estas ventajas contribuyen poco a comprender la forma y función de la facultad del lenguaje humano, sin la cual no habría datos del lenguaje humano. Además, las distribuciones de probabilidad sobre secuencias de palabras no confieren una visión sobre el estado de la lingüística como ciencia. Claramente, el estudio científico del lenguaje no puede restringirse al texto grabado de una comunidad lingüística involucrada en un modo de comportamiento limitado. En cambio, debe abordar cómo los humanos aplican objetos lingüísticos para transmitir, procesar y asignar significado como una cuestión de comunicación general. La lingüística como ciencia debe explicar las operaciones mentales que subyacen a la fenomenología del comportamiento del lenguaje. Para la adecuación explicativa, esta disciplina debe aplicarse de forma sincrónica, diacrónica y translingüística a todos los aspectos de la facultad del lenguaje humano. Su enfoque central debe incluir una explicación parsimoniosa de la codificación lingüística y la decodificación de conceptos. Con esta metodología, se puede articular un sistema de explicaciones consistentes para fenómenos lingüísticos arbitrarios de escalas y granularidades variables sin restricción de dominio de aplicación o comunidad de usuarios. En el estudio del lenguaje, así es como avanza la ciencia.

Lo que sigue es una opinión personal.

Tengo mucho respeto por Chomsky. Pero siento sobre este tema que casi está planteando una perspectiva no científica en el sentido de que su posición no es falsable. ¿Cómo podría probar que Chomsky está equivocado? A veces siento que Chomsky está casi siendo más un filósofo que un científico en estas discusiones.

En primer lugar, sus objeciones filosóficas se han abordado bien y de verdad. Por ejemplo, ha postulado que una prueba de la importancia de la gramática es que pueden existir nuevas oraciones que son más gramaticales, incluso si no tienen sentido.

Ni (a) las “ideas verdes incoloras duermen furiosamente” ni (b) las “ideas verdes incoloras duermen incoloras”, ni ninguna de sus partes, ha ocurrido en la experiencia lingüística pasada de un hablante de inglés. Pero (a) es gramatical, mientras que (b) no lo es.

Pero Norvig lo desmontó totalmente y demostró que el primero es 10,000 veces más probable que el segundo si construye un modelo de lenguaje razonable basado en los libros de Google (Sobre Chomsky y las dos culturas del aprendizaje estadístico). Pero Chomsky no se ha retractado de sus argumentos.

En segundo lugar, cuando se trata de los usos prácticos de los enfoques basados ​​en su filosofía versus aquellos basados ​​en enfoques estadísticos, los enfoques estadísticos son el claro ganador, y no estamos hablando de una pequeña diferencia, estamos hablando de un deslizamiento de tierra. Indíqueme un motor de búsqueda o un motor de habla que utilice un modelo exclusivamente lingüístico en lugar de un modelo estadístico que tenga alguna tracción. Estos forman una especie de prueba de existencia de que al menos en cierta medida puedes construir sistemas algo inteligentes sin gramática.

Ni siquiera es solo Norvig. Incluso desde 1985, uno de los primeros pioneros del reconocimiento de voz Fred Jelinek dijo (Frederick Jelinek) “Cada vez que despedimos a un fonético / lingüista, el rendimiento de nuestro sistema aumenta”.

Pero el propio Norvig ha liderado o participado en la construcción de sistemas estadísticos masivos que muestran los artefactos de la comprensión lingüística, si no la comprensión lingüística misma. Lo que usamos todos los días: los motores de búsqueda de Google y los sistemas de reconocimiento de voz.

Me gustaría ver qué construyeron Chomsky y sus seguidores.

Creo que los debatientes, y sus respectivos campos, están hablando entre ellos en gran medida. El lado de Norvig está hablando de las increíbles ideas y resultados del análisis estadístico de la información y el potencial. Chomsky y sus seguidores están hablando sobre el descubrimiento científico de la mecánica del cerebro y que un enfoque estadístico no nos dirá cómo funciona el cerebro.

Es algo irónico ya que el campo en discusión es la inteligencia artificial . Chomsky argumenta que el enfoque actual solo puede generar una inteligencia general que es fundamentalmente artificial. Norvig argumenta que los métodos estadísticos y los algoritmos mejorados que trabajan en grandes bases de datos pueden producir el equivalente funcional de la inteligencia.

Más profundamente, parece que el desacuerdo se trata de la integridad del resultado final. Norvig cree que con una mejora suficiente pueden crear una inteligencia completa, que puede incluir emociones y autoconciencia. Chomsky cree que no alcanzarán una inteligencia completa porque no usarán la misma mecánica que usa el cerebro.

Como nadie sabe cómo nuestro cerebro hace lo que hace todavía, cualquier lado tiene el potencial de estar en lo cierto. Me parece razonable que la mecánica real, las interacciones sutiles de elementos bioquímicos y físicos, es donde residen los aspectos más complejos del pensamiento humano. También me parece razonable que el curso actual de la IA eventualmente, aunque involuntariamente, descubra la mecánica.

Mi opinión es que en realidad no queremos un modelo completo. Si bien la evolución es muy exitosa, es increíblemente ineficiente. Bien podría haber atajos, y ciertamente hay mejoras, que pueden producir una inteligencia general beneficiosa que carece de algunos aspectos del pensamiento humano.

Los humanos son notoriamente insulares y egocéntricos cuando se les permite elevarse por encima de las influencias sociales y legales. Adquieren una visión distorsionada del mundo y pierden cualquier sentido de conexión con las masas. Tener una inteligencia general que no tenga esta debilidad, y muchas otras debilidades humanas como el prejuicio, la ira y el odio, es algo bueno. Tales emociones pueden ser necesarias para impulsar el sistema bioquímico. Si es así, espero que al menos podamos atenuarlos.

¿Qué pasa si resulta que el punto de referencia para comprender el lenguaje es el examen de las interacciones conversacionales? ¿Y qué pasa si es posible llegar a un modelo simple de cómo el ser humano se involucra en la interacción de conversación? ya que todos los seres humanos son fundamentalmente similares. Se hace mucho hincapié en el “significado”, pero ¿cuántas veces ha tenido una conversación larga y solo después descubrió que las diversas partes en la conversación no estaban de acuerdo con lo que discutieron? Tal vez es hora de echar un vistazo a nuestros modelos.

La respuesta de un laico:

Muchas personas que han contribuido y han sido afectadas por la cultura de la ciencia perspicaz han producido durante décadas datos que están siendo utilizados por la cultura de la ciencia estadística. Estos datos producen buenos resultados cuando se usan como entrada para los modelos estadísticos. Como la ciencia perspicaz y, por extensión, su educación se ve socavada con el tiempo por la euforia por las predicciones / proyecciones estadísticas precisas, la calidad de los datos generados disminuirá lenta pero seguramente, y aquellos modelos que alguna vez darán respuestas incorrectas o “ menores ”.

Editar:

Priorizo ​​las opiniones de Chomsky sobre las de Norvig, pero creo que ambas contribuciones son necesarias para el progreso.

El proyecto de código abierto Thinknowlogy (la única tecnología de conocimiento autoorganizado del mundo) demuestra que Noam Chomsky tiene razón: este software integra leyes naturales de inteligencia y lenguaje natural para múltiples idiomas. En otras palabras: la misma lógica funciona para diferentes idiomas. Por lo tanto, es compatible con la teoría de la gramática universal de Noam Chomsky.

Por otro lado, el enfoque de Peter Norvig no logra integrar el razonamiento automatizado y el lenguaje natural.

Me resulta difícil criticar la respuesta de Norvig, aunque creo que Chomsky tiene un punto en su objeción “no podemos proponer seriamente que un niño aprenda los valores de 10 ^ 9 parámetros en una infancia que dura solo 10 ^ 8 segundos” Quizás la fraternidad de aprendizaje automático podrá incorporar otros factores en sus modelos, particularmente significados de palabras y mejorar sus algoritmos de inferencia. Luego, los modelos requerirán menos parámetros y se revelarán las variables actualmente ocultas.

More Interesting

¿Qué es exactamente la inteligencia artificial?

Cómo modelar este problema como un problema de aprendizaje automático

Cómo construir IA para resolver este juego

Inteligencia artificial de videojuegos: ¿Por qué es tan difícil usar la inteligencia artificial de agente de red Q profunda para jugar La venganza de Montezuma a un nivel similar al humano?

¿Cuáles son los beneficios de un lenguaje de programación funcional cuando se usa en inteligencia artificial?

¿Qué red neuronal artificial está más cerca de cómo funciona el cerebro humano?

¿Por qué el hardware AI requiere tanta potencia de GPU?

¿Debería alguien ser responsable del daño causado por la IA, programado para el aprendizaje de refuerzo, y en ese caso, a quién?

¿Qué diferencias de IA deberíamos esperar con las consolas de próxima generación?

Inteligencia artificial: ¿Cuántas líneas de código se necesitarían para codificar un AI / AGI fuerte?

¿Podríamos crear robots inteligentes artificiales con órganos impresos en 3D artificiales, que sean súper atractivos y puedan reproducirse con humanos?

¿Debo unirme a un campamento de entrenamiento de $ 30000 USD para aprender el aprendizaje automático y el aprendizaje profundo?

¿Por qué Geoffrey Hinton sospecha de la propagación hacia atrás y quiere que la IA comience de nuevo?

¿Por qué la inicialización de pesos por números pequeños es mala en las redes neuronales?

¿La programación de computadoras será automatizada en un futuro cercano por Inteligencia Artificial?