¿Cuándo empezaron a ser tan importantes las estadísticas para la inteligencia artificial? La tecnología cambia la vida futura

Para el aprendizaje automático, la mayor parte gira a finales de los 90 y principios del 2000 y una gran parte puede relacionarse con la aparición de internet como industria y su correspondiente problema de big data.

Tener repentinamente esta enorme cantidad de datos que ningún enfoque tradicional podría procesar fue solo una tormenta perfecta para ML: muchas industrias en alza repentinamente enfrentaron problemas que no podían manejar de manera tradicional pero que también podrían decidir su éxito. Estaban dispuestos a pagar mucho por mejorar lo que sea que los haga tener mejores resultados a bajo costo. Un ejemplo podría ser el Premio Netflix, pero hay otros hombres. Esta gran cantidad de datos también fue una bendición para los enfoques estadísticos, ya que estaba en perfecta conformidad con el principio de gran número de estadísticas.

Para la inferencia estocástica (Markov Decision Processe, POMDP, Dynamic Bayesian Networks, Markovian Processes), en mi opinión, todo puede vincular hasta 2 grandes aspectos: uno es la problemática traída por el robot, el otro es puro avance tecnológico en términos de fabricación de CPU.

Robotic demostró que era bastante difícil lidiar con el razonamiento lógico de primer orden en un mundo donde los datos percibidos son ruidosos y cualquier plan clásico detallado está condenado al fracaso debido a la incertidumbre mundial. Muchas personas que trabajan en el nivel inferior del robot comenzaron a abordar estos problemas mediante la introducción de enfoques de Markovian y los plantearon a problemas cada vez más grandes. Tratar con la localización probablemente vino primero con el filtrado de Kalman de los sensores múltiples y su precisión definida por semana, esto luego subió para resolver el problema de SLAM para llegar luego al problema de planificación de ruta. Todavía nada realmente convincente reemplazó a los planificadores de alto nivel de los años 90, pero una vez más, muy pocas personas lo exploraron seriamente desde el experimento DS1 en los años 90.

En el mismo espíritu, mientras que la comunidad genérica de planificación de tareas sí bajó a un autodescubrimiento más teórico. Hicieron que personas de afuera demostraran que uno puede generar algo que va más allá de un plan lineal con efectos únicos bien conocidos. Uno podría ser la planificación como modelo de verificación donde el plan es prácticamente un controlador que define una estrategia en lugar del plan. Luego, después de eso, la evolución natural fue explorar el enriquecimiento de estos modelos con probabilidades que conducen a una competencia de planificación estocástica. Con toda honestidad, aún es difícil justificar su costo computacional en contra de un simple “producir un plan y luego volver a planificar cada vez que falla”. Los modelos estocásticos son mejores formalmente, pero su complejidad para producir la solución sigue siendo muy prohibitiva (pero esta puede ser mi opinión aquí).

Finalmente, un aspecto que, aunque discreto a primera vista, no debe descartarse en todo esto es el de las CPU. Bueno, más exactamente FPU. Si nos fijamos en Intel x86, hay algo muy importante en ellos. La primera gran CPU pública que incluyó en todos sus modelos una unidad de punto flotante fue el pentium (486 SX no “tenía” una, solo las DX la tenían y aún se introdujo en 1989, que todavía se relaciona con la transición). ¿Cuándo se introdujo el pentium? En 1993.

Antes de eso, hacer cálculos complejos que son muy sensibles a la precisión no era realmente una buena opción. Tenga en cuenta que, dado que las probabilidades son valores entre 0 y 1, y con los supuestos de Markovian, tiende a multiplicarlos, la precisión es crucial y, de hecho, la mayoría de los enfoques tienden a utilizar la representación logarítmica de las probabilidades para limitar esta sensibilidad (-log ( p) a menudo da como resultado un valor muy grande y -log (p1 * p2) también es más fácil de resolver sin demasiada pérdida de precisión, ya que es -log (p1) -log (p2)). Por lo tanto, tener estas nuevas CPU públicas grandes (por lo tanto, relativamente baratas) que pudieron hacer estos cálculos rápidamente también tiene un fuerte impacto en la motivación del investigador para finalmente explorarlas; ya que no tenían que preocuparse por la complejidad de calcular un registro a través de un algoritmo y, en cambio, solo podían enfocarse en la complejidad por encima de él.
Por supuesto, las personas sí exploraron esas antes de esta aparición, pero es difícil negar cómo creció el interés a medida que estas nuevas CPU se hicieron más disponibles (sin mencionar más adelante en la GPU que fueron aún mejores en este tipo de cómputo).

Como puede ver, muchos de ellos están relacionados con los avances recientes, tanto la aparición de Internet como el progreso en la CPU capaz de calcular con mayor precisión las probabilidades tuvo un fuerte impacto en esta aparición. Esto no excluye, por supuesto, el hecho de que los enfoques anteriores mostraron resultados mitigados que debían abordarse, incluida, entre otras cosas, la necesidad de expresar mejor cómo el mundo es más difuso de lo que realmente permitiría la lógica de primer orden. Dicho esto, todavía hay dominios donde FoL es tan rápido que puede competir fácilmente con su contraparte estocástica aún lenta / no manejable.