¿Qué conocimiento matemático se necesita para la visión por computadora?

Como se mencionó anteriormente, el álgebra lineal es realmente imprescindible.
Además, hoy en día no se puede hacer visión artificial sin el aprendizaje automático, por lo que también se debe echar un vistazo a los antecedentes matemáticos de los métodos de aprendizaje automático.

Algunos temas que se usan con frecuencia:

  • transformaciones proyectivas, coordenadas homogéneas
  • distancia y cálculos de métrica
  • álgebra vectorial, productos de punto
  • espacios múltiples (~ 3–8000 dimensionales), hiperplanos
  • admite máquinas de vectores, árboles de decisión, redes neuronales
  • normalizaciones
  • métodos numéricos
  • Filtros Kalman, filtros alfa-betha
  • Teoría de probabilidad
  • SVD, PCA, LDA y muchas otras palabras de 3 letras

y así. Pero la mayoría de estos no serán claros para nadie que no esté familiarizado con el álgebra lineal.

La visión por computadora requiere una serie de construcciones matemáticas para comprender la manipulación de kernel de bajo nivel o la interpretación de nivel superior de la imagen.

En el nivel inferior, una imagen se segmenta utilizando una serie de lo que se conoce como “núcleos”. Estos núcleos intentan identificar cosas como líneas, arcos y otras primitivas, incluida la detección y corrección de errores, que luego se utilizan para construir objetos relevantes. Además de que se combinan en estructuras de nivel superior y más allá de eso, el aprendizaje automático y las redes neuronales artificiales forman una gran parte del ejercicio de visión.

Sin embargo, todos tienen una cosa crucial en común. Álgebra lineal teoría de información publicitaria. También existe la necesidad potencial de utilizar la teoría de aproximación para enfocar las imágenes y especialmente para hacer líneas más sólidas. Así que definitivamente aprende eso. Una visión más avanzada, especialmente cuando el aprendizaje requiere un nuevo aprendizaje basado en el error, puede implicar el uso de inferencia bayesiana, lógica difusa o redes neuronales.

Una imagen, en el nivel más básico, es una matriz de niveles de intensidad para una computadora. Entonces, para comenzar en el dominio espacial, se requiere conocimiento de la matriz y las operaciones de la matriz. El conocimiento de las transformaciones (DFT, FFT, transformaciones wavelet) es necesario para el procesamiento de imágenes en el dominio de la frecuencia. Los métodos de análisis estadístico se usan comúnmente. El uso de integrales y diferenciales es más que a menudo. Estos sientan las bases para el procesamiento básico de imágenes utilizando una computadora digital.

Para un inicio rápido en visión por computadora, se requiere conocimiento de redes neuronales e inteligencia artificial. Las técnicas de aprendizaje (como ANN) se usan comúnmente en estos días en el campo de la visión por computadora. Un subcampo emergente de la visión por computadora es el análisis de profundidad y la estimación que incorpora el concepto de campos y gráficos (tanto dirigidos como no dirigidos).

La visión por computadora se trata de convertir matrices de mediciones de bajo nivel simples y poco confiables (por ejemplo, píxeles de una imagen) en descripciones de alto nivel complejas y confiables (por ejemplo, colección de objetos con posiciones y orientaciones).

  • La teoría de la probabilidad es relevante para tratar con mediciones poco confiables.
  • El análisis armónico se utiliza para trabajar con matrices de mediciones relacionadas.
  • La geometría es esencial para modelar formas y relaciones espaciales de objetos.
  • El álgebra lineal juega un papel central en todas las ramas mencionadas anteriormente.

Una base sólida en álgebra lineal, cierta geometría básica sería suficiente para comenzar.

Puede actualizarse a medida que profundiza en el tema.

Pero álgebra lineal básica + álgebra vectorial – ¡una necesidad!

More Interesting

¿Cuáles son las ventajas y desventajas de los lenguajes de programación visual en comparación con los lenguajes de programación normales?

¿Cuáles son algunas startups en Inteligencia Artificial?

¿Me pueden ayudar a decidir si debo obtener un doctorado en informática teórica?

¿Cuáles son los mejores / más comunes algoritmos de clasificación de aprendizaje supervisado para datos de series temporales?

¿Cuál es el propósito de las carpetas ocultas $ recycle.bin y de datos del programa en la unidad C?

¿Cuáles son buenos temas para una tesis de informática?

En términos simples, ¿cómo funciona el algoritmo de hash perfecto "comprimir, hash y desplazar (CHD)"?

¿Cuáles son actualmente las áreas de investigación "más populares" en VLSI-CAD?

¿Cómo calificaría el Instituto Nacional de Investigación en Informática y Control en términos de calidad de la investigación y otros parámetros importantes en comparación con otros institutos mundiales como el MIT, Stanford, etc.?

¿Cuáles son algunas preguntas de investigación de doctorado en el campo del "proceso de ciencia de datos"?

¿Cómo puede la investigación de CS, como la investigación de visión por computadora, contribuir a las áreas de astronomía?

¿Cuáles son algunos avances recientes en la teoría de grafos? Tomé un curso de posgrado en teoría de grafos, pero los resultados que uso de la teoría de grafos (espectrales y aleatorios) tienen más de 50 años. ¿Qué hay de nuevo y cuáles son los grandes avances recientes?

¿Cuáles son las diferentes áreas en informática? ¿Cómo debo abordar cada área desde cero de manera secuencial?

Tengo problemas para escribir trabajos de investigación. ¿Qué tengo que hacer?

¿Cuáles son algunos de los algoritmos más importantes?