¿Cuáles son las aplicaciones no computacionales de las lecciones del aprendizaje automático?

Valores atípicos

Los valores atípicos pueden sesgar fuertemente sus modelos aprendidos si no los tiene en cuenta bien.

=> Los eventos que son los menos probables son a menudo los más memorables (como el momento en que dormiste la alarma, te pusiste accidentalmente una camisa manchada y calcetines mal combinados, saliste corriendo por la puerta a una tormenta eléctrica, no pudiste coger un taxi y terminaste deprimido en la cafetería del vecindario mientras tu frenemy más despreciado asistía a la audición que te perdiste y tomó el trabajo de tus sueños), viniendo a la mente más fácilmente que la monotonía de la rutina diaria. Estos recuerdos te hacen recordar un pasado y predecir un futuro que es más intenso, emocionalmente tenso y se caracteriza por eventos más inusuales de lo que realmente sucedió o sucederá. Dan Gilbert, profesor de psicología en Harvard, aborda este sesgo cognitivo en profundidad en el Capítulo 10 de Stumbling on Happiness , bien resumido con la idea de que “tendemos a recordar los mejores y los peores momentos en lugar de los más probables de veces “. Es importante entender que los recuerdos excepcionales son, por definición, no representativos.

Propiedad local de Markov

En una red bayesiana, cada variable es condicionalmente independiente de sus no descendientes dadas sus variables principales.

=> Tener más información no necesariamente te ayuda si ya tienes información que la subsume. Por ejemplo, si está evaluando el rendimiento laboral potencial de un candidato y sabe que ella es inteligente y trabaja duro por el conocimiento de primera mano, obtener su GPA y la transcripción no son particularmente útiles, ya que esas son meras señales de que ella es inteligente y trabaja duro. (Suponiendo que su modelo es que ser inteligente y trabajar duro son los únicos predictores del desempeño laboral, y que el GPA y la transcripción de alguien solo brindan información sobre su inteligencia y trabajo duro).

Dualidad / Equivalencia

Cuando la formulación original de un problema de optimización no cae en una forma estándar que se pueda resolver “fácilmente” (con los métodos de solución existentes), a menudo se puede transformar en una forma que sea solucionable, por ejemplo, moviendo restricciones a la función objetivo , sustituyendo variables, reemplazando restricciones de igualdad por restricciones de desigualdad, etc.

=> A menudo es posible resolver problemas aparentemente imposibles con solo pensar creativamente y abordarlos desde diferentes ángulos.

Busqueda local

Las técnicas de optimización que realizan búsquedas locales son susceptibles a los óptimos locales. Las formas de evitar esto incluyen el reinicio o las modificaciones estocásticas.

=> Si está buscando pero estableciéndose, a veces necesita cambiar su entorno o agregar algo de espontaneidad antes de encontrar a la persona / oportunidad / perspectiva de vida / algo deseado. Quizás hayas agotado las partidas de OkCupid por ti, y deberías probar amigos de amigos. Tal vez desee encontrar el éxito profesional y se esté desempeñando en la parte superior de su clase de analista de EII, pero no esté muy satisfecho, y debería explorar oportunidades en otras industrias. Tal vez estás atravesando una crisis existencial y tratando de entender tu vida y estás sobreviviendo pero no prosperando, y deberías leer algunos libros nuevos, conocer gente nueva, viajar a lugares nuevos, antes de descubrir tu propósito.

Maldición de dimensionalidad

Cuando los datos se vuelven demasiado dimensionales, es difícil trabajar con ellos y analizarlos. Sin embargo, las técnicas de reducción de dimensiones como el análisis de componentes principales o la selección de características pueden hacer que estos datos sean manejables.

=> Intentar trabajar con demasiada información a la vez es difícil. El trabajo del psicólogo de Princeton George Miller (y la investigación relacionada) ha demostrado que la persona promedio solo puede mantener un puñado de elementos en la memoria de trabajo en un momento dado, y el desempeño en tareas que requieren diferenciar más fragmentos de información cae drásticamente. Puede “engañar” un poco este límite agrupando o agrupando información en unidades más significativas; También puede intentar reducir su enfoque a unas pocas entradas clave e ignorar aquellas que tienen menos señal que ruido. El “Acto 1” de Your Brain at Work de David Rock es una buena referencia para una inmersión más profunda en el funcionamiento del cerebro humano y cómo lucha con la sobrecarga de información, y cómo puede usar su cerebro de manera más óptima.

Aquí hay un par que aparece en los algoritmos de paso de mensajes:

Propagación de creencias: la inferencia es fácil en modelos gráficos estructurados en árbol; Por lo general, es más difícil en gráficos con estructura de bucle.

Lección: tener una estructura organizativa jerárquica hace que sea más fácil tomar decisiones sin requerir que todos estén en la misma habitación a la vez, simplemente haga que todos informen secuencialmente a una raíz (el gran jefe), y él o ella tendrán toda la información. La alternativa es un sistema desordenado en el que nunca puedes estar seguro de si la información que estás obteniendo es real o es solo un poco de información exagerada que ha estado circulando en ciclos, reforzándose a sí misma.

Propagación de expectativas: cuando se envía un mensaje saliente desde un factor que no es gaussiano *, necesitamos aproximar el mensaje con un gaussiano. Sin embargo, no debemos elegir el gaussiano que mejor coincida con la distribución del factor. Deberíamos elegir el gaussiano de tal manera que cuando lo multipliquemos con el mensaje entrante (que da el posterior aproximado), el producto coincide mejor con el producto que obtendríamos si no aproximáramos el mensaje.

Lección: Cuando tengas capacidad limitada, elige tus batallas sabiamente. No desperdicie los ciclos cerebrales (capacidad de representación) en los detalles que no son importantes (que se multiplicarán por cantidades infinitesimales al calcular el posterior).

* Siéntase libre de reemplazar “Gaussian” con su familia de distribución aproximada simple favorita que está cerrada por multiplicación.

Buena pregunta, me hizo pensar un poco. Aquí están mis favoritos.

1) Redes neuronales profundas –

No hay mejor idea para educarse que el artículo de Hinton que se dirige a uno de los primeros artículos de Redes neuronales profundas: “Para reconocer formas, primero aprenda a generar imágenes”. Cree sus propios problemas, haga preguntas, juegue con las ideas, proponga sus propias pruebas.

Las redes profundas también exponen el beneficio de aprender / construir representaciones de nivel superior a partir de datos. Cada vez que aprende un nuevo tema, apréndalo en diferentes niveles de abstracción. Por ejemplo, algunos trucos son bastante comunes en informática como el reinicio aleatorio o las biyecciones. Primero puede encontrar un reinicio aleatorio como parte de PSO, pero pronto entrará en juego en k-means, EM y otras instancias en las que no se garantiza la óptima global. Saberlo a diferentes niveles de abstracciones: cuando puede usarse, suposiciones inherentes, qué beneficio trae, etc., lo llevará a tener una mejor capacidad de resolución de problemas.

2) EM y MCMC –

Cuando no tenga idea de las variables latentes (factores ocultos) en el trabajo, tome una estimación, avance paso a paso, eventualmente convergerá a un estado local óptimo / de equilibrio. Siga tomando muestras y siga avanzando. Esto parece casi como el consejo de vida dado por Oliver Emberton aquí
La respuesta de Oliver Emberton a los 25 años, ¿buscaría un trabajo corporativo bien remunerado que lo haga infeliz o un pasatiempo que lo haga feliz, pero no tiene garantía de pagar las facturas? ¿Qué me aconsejarías?

3) Aprendizaje activo / interactivo –

Elegir en qué actividades enfocarse puede conducir a una mejora exponencial en su crecimiento. La experiencia puede ser reemplazada por opciones, tiempo, dinero … De hecho cualquier cosa. Simplemente poner el acto de elegir sabiamente, teniendo en cuenta algún criterio, conduce a beneficios.

4) Teorema de almuerzo libre

En el artículo de 1997 de Wolpert y Macready: No hay teoremas de almuerzo gratis para la optimización, afirman “que dos algoritmos de optimización son equivalentes cuando su rendimiento se promedia en todos los posibles problemas”

Teniendo en cuenta todos los logros posibles, eventos de la vida, etc., eres el mismo que cualquier otra persona. Esta conexión es algo inestable, pero habrá alguna medida por la cual, alguien más sería mejor que tú. Puede ser algo trivial, pero aquí estamos midiendo todas las posibilidades.