¿Cuántas personas en el mundo son expertos en aprendizaje profundo para visión por computadora?

Cuando pregunta a “expertos”, supongo que está preguntando acerca de las personas que realizan un trabajo innovador en este campo. Cualquiera puede entrenar una red profunda utilizando algunos datos y obtener buenos resultados, si esa es su definición de “expertos”, entonces puede haber millones de ellos.

De todos modos, respondiendo a la pregunta, la mayoría de las personas no están haciendo ninguna “buena” investigación y aún no se publican en las principales conferencias. Ahora, para ser honesto, la visión por computadora nunca ha sido mi área principal de investigación, pero me veo obligado a entrar en la investigación de visión por computadora (CV) debido a mi inicio. Además, como trabajo en robótica, soy consciente del trabajo en CV y aprendizaje profundo que se enfoca en resolver uno de los problemas de percepción robótica al aire libre. No estoy seguro de lo que está sucediendo en otras áreas de la visión. De todas formas.

Le daré un ejemplo: recientemente se publicó un artículo para la detección de límites de carril utilizando la red profunda (CNN). La tarea era bastante simple, dado que los entornos estaban muy estructurados, donde las pruebas se realizaban con marcas de carril claras. Los autores afirmaron tener una capacidad de cálculo de 100 fps, que al principio parecía bastante emocionante. La forma en que habían escrito el documento parecía algo engañosa, ya que solo si profundiza en el papel se dará cuenta de que usaron dígitos de nvidia y nvidia drive px. Ahora no pude encontrar el precio de estos sistemas con una búsqueda directa en Google, pero parecen realmente costosos.

Esa es la caja de desarrollo NVidia DIGITS para ti. Eso se ve monstruoso. Ahora la investigación se destacó en uno de los foros relacionados con Nvidia y GPU. Pero si lees el artículo completo, no tiene novedad en términos de arquitectura o tecnología desarrollada. Es solo el uso del poder puro en bruto.

Eso es NVidia Drive PX para usted, con la potencia de 150 MacBook Pros. Supongo que costará uno o dos riñones.

Ahora, si el documento hubiera presentado alguna arquitectura novedosa que escale y use recursos computacionales menores, habría sido una investigación creíble. Tenga en cuenta que, en un vehículo autónomo, un detector de marcado de carril sería un algoritmo muy minúsculo . Si dedica recursos tan enormes solo para ese algoritmo, no sé cuánto costará todo el vehículo.

De todos modos, no tengo nada en contra de los autores o en el foro que destaca esa investigación. Es solo eso, los artículos y los resultados obtenidos son algo engañosos. Deberían considerarse una investigación novedosa, porque realmente no hay nada de novedoso en eso.

Hay muchos de estos artículos publicados cada año, con un gran impulso en la precisión, pero que requieren enormes recursos computacionales. Esto está bien para aplicaciones no en tiempo real . Por ejemplo, imagen neta, era potencia bruta más cierta novedad en la arquitectura. Por ejemplo, uno de los documentos, relacionado con la clasificación de imagenet, que leí hace mucho tiempo, utilizaba una arquitectura muy profunda y estaba basado en CNN. Pero no era el caso habitual de compartir peso como en las CNN tradicionales. Discutieron entonces cuáles eran los beneficios de su nueva arquitectura, en términos de las propiedades de invariancia que tenía su arquitectura. A pesar de una red tan grande, que muchos de nosotros no podemos implementar o entrenar, aún aprendemos algo valioso de ese documento. Ese tipo de investigación es novedosa. Estas son las personas que realizan investigaciones de investigación. Otros simplemente usan la capacidad de cálculo sin ninguna novedad. Lo que de todos modos no es aceptable en robótica.

De todos modos, no sé qué está sucediendo en otras áreas de la visión (aparte de la percepción robótica al aire libre).

¿Cuál es la importancia del análisis de componentes principales (PCA) en el modelado predictivo?

¿Qué técnicas se usan generalmente para la reducción de la dimensionalidad en el campo de análisis de Big Data?

¿Qué lenguaje es mejor usar para el aprendizaje automático (R o Python)?

Si, en el futuro, los robots / IA se vuelven comunes en los hogares, ¿cuál es el lenguaje de programación más probable en el que se escribirán?

¿Cómo detectamos el sobreajuste y la falta de ajuste en Machine Learning?

¿Dónde entran en juego las funciones de activación en una red neuronal de convolución?

Hay muy pocos expertos en el campo de la visión por computadora y el aprendizaje profundo porque estos campos son complejos. La visión es en gran medida un problema no resuelto, por lo que es aprender, por lo que mucha gente preferiría probar “aguas” probadas, cosas que son maduras como las matemáticas y la física, aunque la física en sí es muy difícil.

No tengo idea de cómo realizan esas encuestas. Hay expertos que no publican su trabajo / hallazgos, especialmente aquellos que trabajan en productos viables listos para el mercado. Tales sistemas prácticos son importantes para mantener un secreto comercial, ya que pueden ser beneficiosos para una startup o empresa, por lo que algunos expertos prácticos no son muy activos en el área de investigación académica, como la publicación de artículos y similares.

Si está trabajando en un sistema de visión por computadora que debe iniciarse en una aplicación móvil, por ejemplo, estará más preocupado por la eficiencia y la practicidad del sistema en general que por los fines académicos de escribir un diario.

No estoy seguro de cuántos expertos en visión artificial y aprendizaje profundo hay en el mundo, pero una cosa que sé es que verificar el trabajo publicado no es una forma precisa de identificar expertos, especialmente aquellos que solo son profesionales o aficionados pero están construyendo sistemas realmente útiles. .

Espero que esto ayude.

Sanjeev Sharma

Todo depende de cómo se defina “experto”. En mi opinión, no hay verdaderos expertos. Nadie sabe realmente lo que está sucediendo en Deep Learning. Es un montón de trucos que cuando se combinan de la manera correcta producen el resultado deseado. Si por “experto” te refieres a personas que conocen muchos trucos y técnicas, entonces es completamente imposible saberlo porque hay literalmente más técnicas de redes neuronales, de lejos, de lo que cualquier persona sabe. Cada grupo tiene sus propias técnicas y nadie es un “experto” en todas, o incluso en la mayoría de ellas. Entonces, tendría que decir cero. Hay muchas personas que trabajan muy duro para progresar, pero ninguna de ellas puede llamarse realmente experta, ya que el campo es simplemente demasiado vasto. Estamos literalmente hablando de hacer modelos burdos del cerebro humano. Y en este momento, solo tenemos una idea muy general de lo que el cerebro podría estar haciendo realmente. Existen infinitas variaciones de modelos que funcionan mejor en algunos conjuntos de datos y mucho peor en otros.

Sanjeev Sharma

No estoy seguro sobre el número. Sin embargo, aquí hay un algoritmo simple para descubrirlo:

1.Recoja una lista de todos los otros autores de CVPR, ICCV, ECCV de los últimos 5 a 10 años. Estas conferencias son las mejores conferencias en Computer Vision.

2. Haga un recuento de frecuencia, es decir, cuente el número de artículos escritos por cada uno de los autores únicos.

3. Establezca un “umbral experto”. Digamos que todos aquellos autores que tienen más de o igual a 2 publicaciones en campos de conferencias podrían considerarse expertos.

Sanjeev Sharma

More Interesting

¿Cuál es un ejemplo ilustrativo donde LDA y SVM dan límites de decisión diferentes?

¿Cuál es un buen libro para estadísticas como una consideración de ML para principiantes?

¿Qué significa una probabilidad gaussiana en el clasificador bayesiano ingenuo gaussiano?

¿Cómo utiliza Foursquare el aprendizaje automático para mejorar el producto?

¿Qué significa esto exactamente: 'Hay dos estrategias principales para el reconocimiento facial: comparación de características y coincidencia de plantillas'?

¿Cuáles son algunos de los mejores trabajos de investigación o libros para el aprendizaje automático?

¿Hay alguna manera de extraer la función subyacente de una red neuronal entrenada?

¿Cuáles son los algoritmos de aprendizaje de refuerzo más eficientes en datos / muestras?

¿Cuáles son las opiniones de Yoshua Bengio sobre Kaggle y el aprendizaje automático competitivo en general?

¿Cuáles son las ventajas y desventajas de tener mi propio servidor en la nube?