¿Qué campos de la robótica tienen mucho espacio para la investigación (mucho antes de la madurez)?

Percepción basada en la cámara.

Particularmente en el dominio de vehículos autónomos, nuestros automóviles aún dependen de sensores lidar (detección de luz y alcance).

Estas cosas descomunales que colocamos encima de los automóviles y que a menudo cuestan más que el automóvil en sí:

Velodyne HDL-64E: $ 75,000

Nuestros robots necesitan escáneres láser de alta definición de 360 ​​grados para generar una sensación de profundidad en el mundo, percibir la distancia y comprender dónde la navegación es segura.

Sin embargo, muchos conductores humanos pueden conducir mejor que nuestros robots (suponiendo que estén sanos, despiertos y concentrados en la carretera en lugar de enviar mensajes de texto o escuchar música), y lo hacemos con nuestros propios dos ojos, o esencialmente, dos cámaras montadas en la parte delantera de nuestras cabezas.

No tenemos escáneres láser que se actualizan cada segundo, que nos indican la medida exacta entre un árbol a 500 metros y nuestras coordenadas globales con una precisión de 10 centímetros. Sin embargo, manejamos bien.

El rendimiento actual de la segmentación de imagen basada en la cámara es correcto, incluso bastante bueno, mejor que el de los humanos, dada la gran cantidad de datos de entrenamiento, anotaciones y buenas condiciones de manejo [1]:

Pero, ¿qué pasa con la geometría del paisaje que no es tan perfecta?

Aquí, en una calle sin entrenamiento de San Francisco, detecta la mitad del otro lado de la carretera como cielo.

¿O qué hay de las condiciones de lluvia? Condiciones nocturnas?

Los resultados se convierten en un desastre absoluto … y aún no hemos llegado a la nieve.

(Estas diapositivas fueron tomadas de una presentación del Dr. Uwe Franke, jefe del grupo de comprensión de imágenes Daimler Mercedes Benz)

Si alguien puede producir resultados en la visión de la cámara, lo que permite la capacidad de segmentación de imagen para que ya no tengamos que depender de un bloque de láseres de $ 75,000 y acero montado sobre nuestros automóviles para que conduzcan, revolucionarían la industria de vehículos autónomos.

Actualmente, AutoX, encabezado por el Dr. Jianxiong Xiao, está adoptando un enfoque solo de cámaras para la conducción autónoma. Los resultados que han obtenido son bastante buenos:

Aprendizaje reforzado.

El aprendizaje automático, en su estado actual, no se describe con demasiada precisión en este cómic xkcd:

En esencia, muchos de los resultados que hemos obtenido recientemente de la inteligencia artificial y el aprendizaje automático se han basado en la optimización para generalizar a los datos que tenemos.

¿Pero es esto realmente una forma de inteligencia? Quizás sea una forma de comprensión, pero es un razonamiento muy superficial: ajuste su modelo hasta que se vea bien.

El aprendizaje por refuerzo, por otro lado, se enfoca en agentes inteligentes que actúan de alguna manera en su entorno para maximizar alguna recompensa, creando así alguna forma de inteligencia a medida que el agente actúa sobre sus “deseos”. En lugar de aprender a encajar, un modelo de aprendizaje por refuerzo aprende actuar.

Esto viene del documento del Dr. John Schulman que se puede encontrar aquí.

El aprendizaje de refuerzo ha sido bastante bueno para hacer que las computadoras jueguen a Go y Atari, como estoy seguro de que han escuchado en las noticias, pero cuando se trata de robótica, los resultados se han mezclado fuera de las simulaciones por computadora.

Aquí está el robot plegable de lavandería del profesor Pieter Abbeel.

Actualmente, las limitaciones del aprendizaje por refuerzo radican en su necesidad de aprender en línea y, por lo tanto, le cuesta poder computacional, la incapacidad para trabajar en entornos inciertos donde los parámetros necesarios no se pueden encontrar fácilmente como en la simulación y el equilibrio entre la exploración y la explotación.

Interacción robot humano.

Esta no es un área en la que tengo experiencia, pero el creciente impacto de los robots en nuestra vida diaria (y también con fines médicos, cada vez más) plantea la importante pregunta de cómo los robots interactúan con los humanos.

Es una pregunta que trata tanto de cómo los robots pueden percibir, reaccionar y coordinarse con los humanos, como también de cómo los humanos reaccionan a los robots social, emocional y éticamente.

Dejaré a alguien más para abordar este tema.

Notas al pie

[1] Stixels semánticos: la profundidad no es suficiente

More Interesting

Cómo escribir un buen artículo sobre aprendizaje profundo o reforzar el aprendizaje sin la ayuda de un supervisor profesional

¿Existen algoritmos que hacen lo contrario de la detección de anomalías, por ejemplo, señalan ocurrencias regulares en datos ruidosos?

¿Existe alguna posibilidad de que la química del aprendizaje automático pueda correlacionarse con la nanotecnología?

¿Se puede extraer información significativa de un sistema caótico utilizando una red neuronal?

¿Existe alguna herramienta o API capacitada en datos de tweets para la extracción de entidades con nombre?

¿Cuáles serán los 3 principales problemas de aprendizaje profundo en los próximos 5 años?

¿Qué son los hiperparámetros en el aprendizaje automático?

¿Son los chatbots el comienzo de la verdadera IA?

¿En qué se basa IBM Watson? ¿Es una alternativa interna de IBM a TensorFlow?

¿Cuáles son todas las debilidades que Lee Sedol encontró en el juego de AlphaGo?

¿Cuál es la explicación de la fórmula de compensación de Bias Variance?

¿Cuándo harán las máquinas la física y volverán a aprender las características de los datos de observación y luego reemplazarán aquellas como masa, giro, color o carga?

¿Es posible usar la red neuronal para predecir múltiples valores respetando ciertas condiciones?

¿Por qué se usan capas completamente conectadas en el "extremo" [lado de salida] de las NN convolucionales? ¿Por qué no antes?

¿Puedo crear un conjunto de datos y luego usarlo para evaluar un algoritmo de clasificación?