Como alguien que ha incursionado en los tres, aquí están mis dos centavos:
El aprendizaje automático , la visión por computadora y el procesamiento de imágenes , aunque se superponen en partes, son campos bastante distintos a la hora de realizar el tipo de investigación estrecha que se espera a nivel de doctorado. Puede terminar definiendo su tesis en la intersección de dos o incluso los tres, pero es bueno ser consciente de sus diferencias desde el principio. Dicho esto, es una buena señal de que mantienes tus opciones abiertas al explorar las tres.
Ahora, en términos de elegir material educativo para comenzar, sería muy cuidadoso aquí porque hay una gran cantidad de recursos, la mayoría de los cuales no valen su tiempo (la ley de Sturgeon), o son demasiado avanzados y, por lo tanto, no son accesibles para Un principiante. Lo más importante para alguien como usted que está al comienzo del camino, es invertir mucho en aprender los fundamentos lo mejor que puedan. Confía en mí, esta inversión dará sus frutos en cada paso del camino (en la publicación de documentos, redacción de tesis, conseguir trabajos después de la graduación, etc.). Entonces, ¿cuáles son estos fundamentos en el contexto de la inclinación de la máquina, el procesamiento de imágenes y la visión por computadora?
- ¿Cómo descifrar cualquier entrevista de aprendizaje automático? ¿Qué tipo de preguntas debo esperar? Qué tipos de proyectos paralelos relevantes se verían bien en un CV
- ¿Qué tan efectivamente se pueden usar las redes neuronales en la regresión? ¿Es posible alguna configuración que prediga un número que no se ve en los datos de entrenamiento?
- ¿Cuáles son las mejores escuelas de posgrado canadienses para estudiar CS en Inteligencia Artificial, aprendizaje automático, procesamiento de lenguaje natural y minería de datos, especialmente para estudiantes internacionales?
- ¿Qué son los SVM?
- ¿Cuál es el papel del análisis de datos exploratorios (EDA) en el aprendizaje automático?
En primer lugar, las imágenes y los videos son matrices ( ¡alerta de spoiler! ), Por lo que querrá repasar sus habilidades de álgebra lineal (por ejemplo, normas vectoriales y matriciales, descomposición de valores propios, descomposición de valores singulares, etc.). Otro tema imprescindible es el cálculo de las funciones multivariadas (p. Ej., Gradiente, arpillera, regla de cadena, etc.). Probablemente necesitará probabilidad (juego de palabras) en el camino, así que agregue probabilidad / estadísticas a la mezcla. La optimización matemática es otra herramienta importante que desea tener en su mochila. Y por último pero no menos importante es la codificación por computadora . Aquí, sus opciones son Matlab y Python (siendo C ++ un lenguaje opcional altamente recomendado). Notarás que en la academia muchos todavía prefieren / confían en Matlab (que es una herramienta conveniente para la creación rápida de prototipos), mientras que esta preferencia en la industria se inclina fuertemente hacia Python (para la creación de prototipos) y C ++ (para la producción en masa). De todos modos, necesitará tener fluidez en al menos uno de estos idiomas, que no debería ser difícil de aprender, dado que ya conoce Java . También hay una gran cantidad de bibliotecas que usará en el futuro (por ejemplo, OpenCV), pero no se preocupe por ellas en este momento. Nuevamente, su enfoque por ahora debe estar en aprender los fundamentos.
Aquí están mis sugerencias en términos de libros de texto para estudiar y MOOC para tomar:
Este primero es uno de mis favoritos personales:
Las transformadas de Fourier y sus aplicaciones Por Brad Osgood.
La transformación de Fourier es uno de esos fundamentos matemáticos en el procesamiento de señales / imágenes que realmente quieres dominar.
Aquí hay otro, centrado exclusivamente en DSP:
Procesamiento de señales de tiempo discreto por Alan Oppenheim y Tom Baran.
Para un libro de texto sobre procesamiento de imágenes, comenzaría con:
Procesamiento digital de imágenes por Rafael González y Richard Woods.
También para un principiante en el aprendizaje automático, recomendaría MOOC de Andrew Ng
así como el siguiente libro de texto:
Aprendizaje automático refinado por Jeremy Watt, Reza Borhani y Aggelos Katsaggelos. Divulgación completa: soy coautor de este libro, por lo que puedo estar sesgado aquí, pero creo que este es actualmente uno de los mejores textos, especialmente para un principiante en el tema.
El reconocimiento de patrones y el aprendizaje automático de Christopher Bishop también es clásico (con una perspectiva bayesiana), pero puede ser una lectura difícil para un principiante.
También recomiendo consultar el libro de texto Computer Vision de Simon Prince.
Hice esta lista en la parte superior de mi cabeza, por lo que definitivamente estoy pasando por alto algunos títulos dignos aquí, pero los encontrará usted mismo mientras sumerge el dedo del pie en el agua.
¡Buena suerte!