Cuando pregunta a “expertos”, supongo que está preguntando acerca de las personas que realizan un trabajo innovador en este campo. Cualquiera puede entrenar una red profunda utilizando algunos datos y obtener buenos resultados, si esa es su definición de “expertos”, entonces puede haber millones de ellos.
De todos modos, respondiendo a la pregunta, la mayoría de las personas no están haciendo ninguna “buena” investigación y aún no se publican en las principales conferencias. Ahora, para ser honesto, la visión por computadora nunca ha sido mi área principal de investigación, pero me veo obligado a entrar en la investigación de visión por computadora (CV) debido a mi inicio. Además, como trabajo en robótica, soy consciente del trabajo en CV y aprendizaje profundo que se enfoca en resolver uno de los problemas de percepción robótica al aire libre. No estoy seguro de lo que está sucediendo en otras áreas de la visión. De todas formas.
Le daré un ejemplo: recientemente se publicó un artículo para la detección de límites de carril utilizando la red profunda (CNN). La tarea era bastante simple, dado que los entornos estaban muy estructurados, donde las pruebas se realizaban con marcas de carril claras. Los autores afirmaron tener una capacidad de cálculo de 100 fps, que al principio parecía bastante emocionante. La forma en que habían escrito el documento parecía algo engañosa, ya que solo si profundiza en el papel se dará cuenta de que usaron dígitos de nvidia y nvidia drive px. Ahora no pude encontrar el precio de estos sistemas con una búsqueda directa en Google, pero parecen realmente costosos.
- ¿Qué lenguaje es mejor para hacer big data y machine learning (en términos de rendimiento) Java o Python?
- ¿Cuántas estadísticas y probabilidades debo saber para sumergirme en el aprendizaje automático?
- ¿Cómo puede Machine Learning ayudar a un desarrollador de Android?
- ¿Cuál es el enfoque más eficiente para los sistemas de recomendación?
- ¿Podemos aplicar el filtrado colaborativo en la recomendación de noticias de última hora en línea?
Esa es la caja de desarrollo NVidia DIGITS para ti. Eso se ve monstruoso. Ahora la investigación se destacó en uno de los foros relacionados con Nvidia y GPU. Pero si lees el artículo completo, no tiene novedad en términos de arquitectura o tecnología desarrollada. Es solo el uso del poder puro en bruto.
Eso es NVidia Drive PX para usted, con la potencia de 150 MacBook Pros. Supongo que costará uno o dos riñones.
Ahora, si el documento hubiera presentado alguna arquitectura novedosa que escale y use recursos computacionales menores, habría sido una investigación creíble. Tenga en cuenta que, en un vehículo autónomo, un detector de marcado de carril sería un algoritmo muy minúsculo . Si dedica recursos tan enormes solo para ese algoritmo, no sé cuánto costará todo el vehículo.
De todos modos, no tengo nada en contra de los autores o en el foro que destaca esa investigación. Es solo eso, los artículos y los resultados obtenidos son algo engañosos. Deberían considerarse una investigación novedosa, porque realmente no hay nada de novedoso en eso.
Hay muchos de estos artículos publicados cada año, con un gran impulso en la precisión, pero que requieren enormes recursos computacionales. Esto está bien para aplicaciones no en tiempo real . Por ejemplo, imagen neta, era potencia bruta más cierta novedad en la arquitectura. Por ejemplo, uno de los documentos, relacionado con la clasificación de imagenet, que leí hace mucho tiempo, utilizaba una arquitectura muy profunda y estaba basado en CNN. Pero no era el caso habitual de compartir peso como en las CNN tradicionales. Discutieron entonces cuáles eran los beneficios de su nueva arquitectura, en términos de las propiedades de invariancia que tenía su arquitectura. A pesar de una red tan grande, que muchos de nosotros no podemos implementar o entrenar, aún aprendemos algo valioso de ese documento. Ese tipo de investigación es novedosa. Estas son las personas que realizan investigaciones de investigación. Otros simplemente usan la capacidad de cálculo sin ninguna novedad. Lo que de todos modos no es aceptable en robótica.
De todos modos, no sé qué está sucediendo en otras áreas de la visión (aparte de la percepción robótica al aire libre).