¿Cuál es la relación entre el aprendizaje automático y la teoría de la información?

Para darle una breve introducción,

Soy ingeniero en Compellon, una plataforma de tecnología de modelado predictivo totalmente autónoma que (principalmente) utiliza conceptos de teoría de la información para diversas fases de análisis. La tecnología se basa en décadas de investigación de nuestro científico jefe, el Dr. Nikolai Liachenko, un experto en teoría de la información e inteligencia artificial.

Así es como la teoría de la información nos ha ayudado a analizar conjuntos de datos reales de clientes en diferentes dominios:

a) Una de las ideas básicas de la teoría de la información es que el significado y la naturaleza de los datos en sí mismos no importan en términos de cuánta información contienen. Shannon afirma en su famoso artículo “A Mathematical Theory of Communication (1948)” que “los aspectos semánticos de la comunicación son irrelevantes para el problema de la ingeniería”. Esto nos permite construir nuestro enfoque analítico en torno a medidas informativas (entropía de Shannon, información mutua, por ejemplo) y hacer que sea independiente del dominio y de los datos .

b) Ha habido un trabajo interesante sobre el uso del concepto de “cuello de botella de información” para descubrir la “caja negra de la red neuronal profunda”.

Documento original aquí: https://arxiv.org/pdf/1703.00810…
También recomiendo esta publicación de blog muy bien escrita.
https://blog.acolyer.org/2017/11…

Nuestra tecnología utiliza un enfoque variado no solo para diagnosticar “autónomamente” nuestros modelos, sino también para mejorar su calidad y eficiencia y someterlos a “pruebas de ruido” utilizando estas medidas “muy genéricas”.

c) El uso de medidas informativas para el análisis nos libera de algunos de los supuestos que se hacen en el aprendizaje automático convencional. No asumimos que los datos tengan propiedades como la independencia o que alguna distribución de probabilidad conocida se ajuste a los datos.
Aquí hay un artículo que describe algunos de los riesgos prácticos de esos supuestos https://www.edge.org/response-de…

Nuestros experimentos para predecir eventos raros (high-sigma o “cisne negro”) con este enfoque han mostrado resultados muy impresionantes.

https: //www.waterstechnology.com…

Conclusión

Los conceptos de la teoría de la información pueden contribuir enormemente al aprendizaje automático en la práctica (tenemos bastantes estudios de casos e historias de éxito de clientes que se benefician de nuestra plataforma) y creo que proporcionaría una base significativa aún mayor para la ciencia predictiva a medida que nos encontramos con problemas más difíciles en este espacio

¿Por qué ayudó Elon Musk a encontrar OpenAI cuando dice que la IA es la mayor amenaza existencial para la humanidad?

¿Por qué los robots son extremadamente superiores a los humanos?

¿Cuál es el mejor programa con la mejor IA disponible para interactuar?

Quiero comenzar a crear robots, ¿por dónde empiezo?

¿Cuáles son algunos proyectos simples de IA que un primer año de M.Tech? estudiante puede emprender?

Si fuera a construir un modelo de IBM Watson basado únicamente en los servicios en la nube existentes, ¿qué servicios usaría para los distintos componentes y cómo los integraría?

¡¡Esta es una gran pregunta!! Por un poco de historia personal, soy alguien capacitado en teoría de la información clásica que ahora trabaja en el grupo IBM Watson, que enfatiza mucho las habilidades de aprendizaje automático. Así que casi todos los días me pregunto acerca de esta pregunta, tratando de hacer que mis antecedentes sean relevantes para el mundo en el que vivo.

Creo que hay muchos buenos ejemplos de puntos de conexión, pero en realidad solo estamos rascando la superficie y es muy probable que las conexiones se profundicen pronto.

Por ejemplo, me han impresionado los paralelos entre el objetivo de los RNN (predicción de secuencia) con el trabajo equivalente que ha estado funcionando en la teoría de la información durante décadas. Estoy seguro de que esta es una dirección fructífera para investigar; Ciertamente lo elegiría si fuera un Ph.D. estudiante.

Muchos algoritmos famosos utilizados ampliamente en el procesamiento del habla y el lenguaje natural en realidad se originaron en la teoría de la información o cerca de ella. Algunos nombres son el algoritmo Viterbi, el algoritmo BCJR, Baum-Welch, el algoritmo Forward-Backward entre los más famosos. La propagación de creencias en modelos gráficos también se usa ampliamente en la teoría de la información como método de decodificación para códigos construidos en gráficos.

Para una visión diferente de la relación, le sugiero que analice el método del “cuello de botella de información” que se basa en la teoría de la distorsión de la velocidad para derivar técnicas que se asemejan a modelos de variables latentes.

Si puedo pensar en más, actualizaré la respuesta =)

Raghav Bharadwaj

Hay una relación muy fuerte. Pero es bueno? ¿Es correcto?

La entropía cruzada se utiliza como una función de pérdida en muchos algoritmos de aprendizaje automático. Esta es una aplicación directa de una medida de teoría de la información a ML.

Luego, en los árboles de decisión y cualquier algoritmo de aprendizaje basado en reglas, la entropía o la ganancia de información (lo mismo) se pueden usar para decidir la mejor división para aplicar o la mejor regla para usar en cada nivel. La idea es maximizar la separación, que es lo mismo que minimizar la entropía.

Otro principio clave en ML es el “principio de longitud mínima de descripción” que establece que debemos describir los datos de la manera más sucinta posible. Esto está directamente relacionado con el concepto de complejidad y sobreajuste del modelo. Si el modelo es demasiado complejo para la cantidad de datos que tenemos, entonces podemos estar sobreajustados, esto significa que no estamos utilizando el modelo que minimiza la longitud de la descripción. Esto está fuertemente relacionado con la compresión de datos y luego, por supuesto, con la teoría de la información. La complejidad de diferentes modelos en ML se puede calcular utilizando medidas de teoría de la información y esas medidas pueden formar parte del algoritmo, por ejemplo, participar en la función de pérdida para asegurarse de que haya un equilibrio entre cómo el modelo se ajusta a los datos de entrenamiento y qué tan complejo es el modelo. es.

Si cruzamos el río, podemos argumentar que la teoría de la información y los métodos probabilísticos son solo una “ola” en la historia del aprendizaje automático y que la ola puede o no ser exitosa. Podemos argumentar que los humanos no estamos realmente basados en probabilidades o entropía para aprender, por lo que en el futuro tal vez ML no esté tan conectado con la teoría de la información como lo está hoy. Si piensas de esta manera, la relación es que ML hoy necesita la teoría de la información, pero sería bueno no tener esa dependencia en el futuro, entonces nuestros algoritmos de aprendizaje pueden estar más cerca de imitar cómo los humanos realmente aprenden.

Maggie Engler

El aprendizaje automático hace un uso extensivo de la teoría de la información para derivar las matemáticas detrás de sus métodos algorítmicos.

Maggie Engler

Lea la teoría de la información, la inferencia y los algoritmos de aprendizaje.

Maggie Engler

Traté de responder esta pregunta desde un documento de posición.