¿Cuál es la diferencia entre el procesamiento de señales estadísticas y el aprendizaje automático?

Respuesta de TLDR: creo que son cosas muy diferentes .

El procesamiento estadístico de señales (SSP), en términos generales, trata los métodos y técnicas de procesamiento de señales aplicados a los procesos estocásticos (SP), que son señales no deterministas, es decir, señales que tienen un componente aleatorio o estocástico. A menudo también se les llama simplemente “series temporales” porque son una fuente muy común de SP. En realidad, la mayoría de las señales reales son SP; no hay señales deterministas interesantes, en términos de contener información nueva, porque una señal determinista no tiene información (ya la conoce; es determinista).

Las operaciones típicas en SSP son la estimación espectral, la extracción de modelos de series de tiempo (por ejemplo, modelos ARMA o modelos Box-Jenkins), la predicción y el filtrado (por ejemplo, con el filtro Kalman o el filtro óptimo de Wiener) y, en cierta medida, el filtrado adaptativo. Le sugiero que comprenda la tabla de contenido de Monson H. Hayes: 9780471594314: Amazon.com: Books, que es un libro muy bien considerado sobre SSP para tener una idea de los asuntos en el área. Por supuesto, para dominar SSP debe dominar antes de las técnicas de procesamiento de señal “determinista” (análisis de Fourier, transformación Z, FFT, …).

Tenga en cuenta que en SSP no tiene “aprendizaje” en absoluto, al menos en el sentido de aprendizaje automático (ML) .

Por otro lado, de nuevo en términos generales, ML implica el estudio de todos los aspectos del esfuerzo de proporcionar a las máquinas algoritmos que, al final, los hagan emular un comportamiento inteligente (¿humano?). A continuación se presentan algunas definiciones de ML extraídas de una búsqueda en Internet rápida y sucia, que, de una forma u otra, se refieren a “enseñar a aprender a usar computadoras o máquinas”. Nunca está implícito ningún procesamiento de señal estadística.

Entonces, para resumir, puede irse con el procesamiento estadístico de la señal sin “tocar” en el aprendizaje automático, o viceversa .

Sin embargo, hoy en día se realiza mucho trabajo en ML que utiliza métodos SSP . Si, por ejemplo, está enseñando a una computadora a hacer buenas predicciones de los precios de las acciones, o de las ventas de libros de Amazon, probablemente esté utilizando técnicas SSP (probablemente extrayendo modelos adaptativos ARMA u otros, de series de tiempo) para alimentar la “tubería de aprendizaje” ” de la máquina. Es decir, probablemente esté extrayendo “patrones” de series de tiempo utilizando técnicas SSP como un primer paso en el flujo algorítmico de ML.

Entonces, en conclusión, y en mi humilde opinión, tal vez porque muchas aplicaciones modernas de ML se basan en información estocástica indexada en el tiempo (la serie de tiempo …) existe esta idea errónea de que SSP y ML son una y la misma cosa.

Solo una nota final: muchos de los algoritmos ahora en ML una vez “pertenecían” a los campos de Estadísticas e Investigación de Operaciones. Más recientemente, muchos de ellos fueron considerados propiedad de Inteligencia Artificial. Hoy en día son Machine Learning. La gran diferencia entre los tiempos pasados ​​y los modernos es que hoy tenemos acceso a una gran potencia informática; Muchas variaciones de los algoritmos antiguos, e incluso la viabilidad de su uso en problemas prácticos, y también de algoritmos modernos, aparecieron debido al aumento de esa potencia de cálculo. Por ejemplo, k-means apareció en 1957 cuando las computadoras tenían menos potencia que la calculadora científica promedio; la regresión se remonta a Legendre y Gauss, alrededor de 1800, pero la regresión logística se remonta a solo 1958. SVM se inventó en 1963. El descenso de gradiente (descenso más pronunciado) para la optimización se remonta a las edades de Newton y Euler, aunque el descenso de gradiente estocástico es mucho más moderno .

#######################################

### Algunas DEFINICIONES de APRENDIZAJE DE MÁQUINAS (de una búsqueda en la Red) ###

#####

El aprendizaje automático estudia algoritmos informáticos para aprender a hacer cosas. Podríamos, por ejemplo, estar interesados ​​en aprender a completar una tarea, hacer predicciones precisas o comportarnos de manera inteligente.

#####

Esencialmente, es un método para enseñar a las computadoras a hacer y mejorar predicciones o comportamientos basados ​​en algunos datos. ¿Qué son estos “datos”? Bueno, eso depende completamente del problema. Podrían ser lecturas de los sensores de un robot a medida que aprende a caminar, o la salida correcta de un programa para cierta entrada.

Otra forma de pensar sobre el aprendizaje automático es que es el “reconocimiento de patrones”: el acto de enseñar a un programa a reaccionar o reconocer patrones.

#####

El aprendizaje automático es un subcampo de la informática que evolucionó a partir del estudio del reconocimiento de patrones y la teoría del aprendizaje computacional en inteligencia artificial. En 1959, Arthur Samuel definió el aprendizaje automático como un “campo de estudio que brinda a las computadoras la capacidad de aprender sin ser programado explícitamente”. El aprendizaje automático explora el estudio y la construcción de algoritmos que pueden aprender y hacer predicciones sobre los datos. Dichos algoritmos funcionan construyendo un modelo a partir de un conjunto de ejemplos de entrenamiento de observaciones de entrada para hacer predicciones o decisiones basadas en datos expresadas como salidas, en lugar de seguir instrucciones estrictamente estáticas del programa.

#####

El aprendizaje automático es un tipo de inteligencia artificial (IA) que proporciona a las computadoras la capacidad de aprender sin ser programadas explícitamente. El aprendizaje automático se centra en el desarrollo de programas informáticos que pueden aprender a crecer y cambiar cuando se exponen a nuevos datos.

El proceso de aprendizaje automático es similar al de la minería de datos. Ambos sistemas buscan en los datos para buscar patrones. Sin embargo, en lugar de extraer datos para la comprensión humana, como es el caso de las aplicaciones de minería de datos, el aprendizaje automático usa esos datos para detectar patrones en los datos y ajustar las acciones del programa en consecuencia. Los algoritmos de aprendizaje automático a menudo se clasifican como supervisados ​​o no supervisados. Los algoritmos supervisados ​​pueden aplicar lo aprendido en el pasado a nuevos datos. Los algoritmos no supervisados ​​pueden extraer inferencias de conjuntos de datos.

Anteriormente estudié procesamiento de señales, física estadística y teoría de control antes de acercarme al aprendizaje automático y al aprendizaje por refuerzo. Por lo tanto, creo que puedo proporcionar una idea basada en mis interacciones con los investigadores en las comunidades respectivas.

En primer lugar, me parece útil agrupar los campos de investigación en función de las preguntas que intentan responder, a diferencia de las técnicas adoptadas en el esfuerzo. Por esta razón, considero que ML, SSP, Estadística y Física estadística son campos diferentes. Sin embargo, ciertamente hay una gran superposición en las técnicas utilizadas por ellos.

  1. El aprendizaje automático se trata fundamentalmente de aprovechar la experiencia (generalmente recopilada y almacenada como datos) para mejorar alguna noción de rendimiento a lo largo del tiempo o las pruebas.
  2. SSP está analizando señales digitales como procesos estocásticos y desarrollando algoritmos para extraer información de ellos. El punto de partida en SSP suele ser una señal sin formato, y el objetivo final es una señal refinada o alguna forma de estadística resumida.
  3. La estadística trata sobre métodos para hacer afirmaciones rigurosas y comprobables sobre parámetros estimados a partir de datos (y, por lo tanto, incluye pruebas de hipótesis, diseño de experimentos, etc.).

Por lo tanto, la diferencia entre ML y SSP es análoga a la diferencia entre visión y procesamiento de imágenes. El primero trata sobre el desarrollo de algoritmos que permiten el reconocimiento de imágenes, mientras que el segundo está dirigido a métodos para mejorar o mejorar las imágenes.

Todas las ideas están entrelazadas ya que hay mucha polinización cruzada entre campos.

Creo que es útil ver quién inventó las ideas centrales
Si nos fijamos en la idea central de

Regularización
también llamado Regresión de cresta por los estadísticos, sus métodos generalmente se atribuyen al ruso Timkhonov como
Regularización Tikhonov
pero parece haber sido reconocido por primera vez por el estadounidense Phillips en los años 50

De hecho, la regularización apareció en la física teórica.
Regularización (física)
en la década de 1905, así como una forma de resolver las divergencias matemáticas en la teoría del campo cuántico

¿No está del todo claro para mí qué fue primero, pero,
cuando estaba en la escuela de posgrado, me explicaron que había una gran polinización cruzada de ideas entre ingenieros y físicos cuando los 2 grupos trabajaron estrechamente en el proyecto de Manhattan, y que muchas ideas centrales en física teórica eran originalmente técnicas de electricidad. Ingenieria
(es decir, la ecuación de Lippmann-Schwinger se basó en técnicas de la función Verdes
Granos, funciones de Green y operadores resolutivos
utilizado por ingenieros eléctricos para procesamiento de señales)

Algunos otros métodos básicos incluyen:

RBF Kernals
De hecho, están relacionados con los filtros de paso de banda en el procesamiento de señales
Kernels Parte 1: ¿Qué es un Kernel RBF? De Verdad?

Ensayo comprimido :
en realidad un método inventado para detectar señales débiles en el espacio
Noisy Time Series III: Fundamentos teóricos de la detección comprimida

Procesos Gaussianos
inventado por Kriging, un geofísico, o quizás geoestadístico / ingeniero

Granos
ellos mismos, aunque aparentemente una construcción abstracta en matemática pura, en realidad son muy importantes en la base de la mecánica cuántica en sí
Granos Parte 2: Gravedad Cuántica Afina
Granos y gravedad cuántica Parte 3: Estados coherentes

Optimización convexa y programación lineal
Una idea central en muchos métodos, generalmente pensamos en la optimización convexa que se origina con el método Simplex,
“La programación lineal en sí misma fue inventada en 1939 por Leonid Kantorovich [7] – ‘el único erudito soviético en ganar el Premio Nobel de Economía'”
Relajaciones convexas del aprendizaje transductivo

Aprendizaje profundo
mientras que cada nuevo, en realidad se basa en modelos matemáticos de la física de la materia condensada, como el modelo de Ising
y, al parecer, el Grupo de Renormalización
Por qué Deep Learning Works II: el Grupo de Renormalización

Aunque claramente el nuevo trabajo en Deep Learning es en sí mismo algo muy especial y bastante diferente de las estadísticas y el procesamiento de señales

Grandes respuestas arriba. Pero en el procesamiento estadístico de señales está buscando una respuesta específica. En ML estás buscando cualquiera que tenga sentido. En el sentido algebraico más estricto, en el procesamiento de señales, los conjuntos mapeados entre entrada y salida son biyectivos. No es así en el aprendizaje automático.

(Fuente: xkcd)

El procesamiento estadístico de la señal siempre tiene que ver con el procesamiento de una secuencia temporal de mediciones.

El aprendizaje automático tiene que ver con el diseño de comportamiento o clasificación auto modificable basado en un conjunto de datos. El conjunto de datos puede cambiar en tiempo real, pero el procesamiento no se basa necesariamente en la secuencia.

Yendo a wikipedia:

El procesamiento estadístico de señales es un área de Matemática Aplicada y Procesamiento de Señales que trata las señales como procesos estocásticos, tratando con sus propiedades estadísticas (p. Ej., Media, covarianza, etc.).

El aprendizaje automático es el subcampo de la informática que, según Arthur Samuel en 1959, brinda a las “computadoras la capacidad de aprender sin ser programadas explícitamente”.

Desarrollado a partir del estudio del reconocimiento de patrones y la teoría del aprendizaje computacional en inteligencia artificial, el aprendizaje automático explora el estudio y la construcción de algoritmos que pueden aprender y hacer predicciones sobre los datos … El aprendizaje automático está estrechamente relacionado (y a menudo se superpone) con las estadísticas computacionales, que también se enfoca en hacer predicciones mediante el uso de computadoras.

Estas son cosas completamente diferentes, pero hay cierta superposición. Dejame explicar.

El procesamiento de la señal es de Ingeniería Eléctrica que se encuentra en las comunicaciones; es decir, cómo funciona su teléfono celular.

El aprendizaje automático surgió de la informática a partir del antiguo adagio de crear inteligencia artificial o máquinas o algoritmos SW que pueden imitar el comportamiento humano en el aprendizaje, la toma de decisiones y la resolución de problemas.

La superposición existe cuando se implementa un algoritmo de aprendizaje automático para calcular o estimar un valor de señal o tasa de error. Esta área es demasiado amplia y demasiado temprana para citar ejemplos específicos, pero un ejemplo obvio viene a la mente. Los filtros digitales como los filtros de Kalman podrían usar algoritmos en la naturaleza predictiva para adaptarse a la señal entrante. Es decir, puede considerarse como un filtro inteligente que ajusta o aprende de los datos entrantes para ajustar los parámetros y obtener los máximos resultados. ML podría desempeñar un papel más importante en la estimación de señal estadística en el futuro.

El procesamiento de la señal es específico para EE, mientras que el ML es más general y puede usarse como una herramienta en muchas disciplinas diferentes.

En el procesamiento estadístico de señales, usted maneja patrones de señales que representan conjuntos de símbolos conocidos o también tipos conocidos de dominios de señal. Sabes que lo que estás tratando de detectar estadísticamente tiene un rango bastante limitado de atributos, más o menos. Como ejemplo, las unidades de disco duro modernas empaquetan bits tan densamente que los circuitos de lectura tienen que usar procesamiento estadístico para recuperar los 0 y 1s. Pero las unidades nunca usarían el aprendizaje automático para interpretar los datos leídos de la superficie magnética.

Pero gran parte del aprendizaje automático está dirigido a detectar o aprender a detectar patrones previamente desconocidos. Es posible que tenga imágenes o conjuntos de grandes datos, y desea que el sistema aprenda patrones de cualquier tipo dentro de esto que puedan ser importantes. Por lo tanto, el impulso de la actividad no está necesariamente dirigido a pequeños conjuntos de patrones o símbolos, aunque podría terminar de esa manera. Ejemplo: reconocer un 0 a 9 escrito.

Los campos tienen cierta superposición como dice Charles.