¿Cuáles son las aplicaciones de los procesos estocásticos, particularmente en ciencia de datos y aprendizaje automático?

El Descenso de gradiente estocástico (SGD) y las numerosas variaciones en él son los optimizadores más comunes utilizados para resolver el modelo de regresión y clasificación desde los modelos de regresión logística de una sola capa hasta el aprendizaje profundo.

La alternativa al SGD es el descenso de gradiente estándar o cualquier ligera modificación del mismo. Con un optimizador GD estándar, los pesos de una red se actualizan después de iterar a través de todos los datos. Su función de costo se vería así:

(theta es la matriz de pesos, y es el vector de etiquetas y x es la matriz de entradas. Alpha es la tasa de aprendizaje, (i) indexa las filas de una matriz ym es el número de muestras de entrenamiento)

Si tiene más de unos pocos miles de muestras de entrenamiento, esto es increíblemente lento. Usted iteraría sobre m muestras de entrenamiento cada iteración del algoritmo.

En un proceso estocástico, los pesos se actualizan después de iterar sobre cada lote de n muestras de entrenamiento. De esta manera, el modelo ML da pasos más rápidos y pequeños hacia el óptimo local. Se ha demostrado que esto funciona mucho, mucho más rápido que el descenso de gradiente estándar. Por ejemplo, un modelo de regresión podría calcular el error medio al cuadrado para 50 muestras de entrenamiento y tomar un paso de tamaño alfa multiplicado por el gradiente hacia el mínimo. Este paso puede ser menos “correcto” y más pequeño que un paso de descenso de gradiente, pero con un conjunto de datos de tamaño 100,000, será 2000 veces más rápido.

También hay formas de mejorar la precisión de SGD. Sebastian Ruder tiene una gran publicación de blog que describe todo esto, incluida una descripción de SGD básico sin campanas ni silbatos: una descripción general de los algoritmos de optimización de descenso de gradiente

Algunos de estos ajustes al SGD son un término momentáneo y una tasa de aprendizaje en decadencia. Un término de impulso multiplica una versión a escala del gradiente del último paso por el gradiente actual en el paso i. Una tasa de aprendizaje en descomposición cambia con el tiempo para alcanzar el óptimo más rápido. Algunos optimizadores como Adagrad hacen que la tasa de aprendizaje disminuya exponencialmente en cada paso. Otros optimizadores como Adam o Adadelta hacen que la tasa de aprendizaje disminuya en función del tamaño de la última actualización.

Existe una gran cantidad de información en Internet sobre SGD y optimizadores similares. Solo estoy tratando de darle una idea básica de qué es SGD y cómo se puede adaptar. ¡Espero que esto ayude!

Algunos de los procesos estocásticos interesantes en ciencia de datos / ML son:

1- Proceso de Dirichlet

2- Proceso de restaurante chino

3- Proceso Beta

4- Proceso de buffet indio

5- Proceso de recaudación

6- Proceso de punto de Poisson

7- proceso gaussiano

8- procesos de Poisson

9- Caminatas aleatorias y movimiento browniano

10- (Oculto) procesos de Markov (decisión)

Me tomará mucho tiempo explicar cada uno de ellos aquí, así que le sugiero que lea libros como:

Procesos gaussianos para el aprendizaje automático por Carl Rasmussen y Christopher Williams
Procesos previos y sus aplicaciones – Estimación bayesiana no paramétrica, 2ª edición por Eswar G. Phadia

y muchos otros.

More Interesting

¿Cómo es un gran impacto el Big Data?

Quería ser un científico de datos, pero desde que me uní a la industria justo después de los estudiantes universitarios, no obtengo ese tipo de roles. Ir a un MS es muy difícil ahora que ya he pasado algunos años en la industria del software. ¿Qué tengo que hacer?

Cómo acceder a los valores de estas variables MATLAB en base a una matriz que almacena los índices de las columnas requeridas

Cómo diseñar un clasificador SOM

¿La ciencia de datos tiene una amplia gama de sectores laborales como la informática o la ingeniería de software si me gradúo de la Universidad de Waterloo con la cooperativa?

¿Qué tan popular es SPSS entre los científicos de datos?

¿Cuáles de los cursos de Machine Learning tienen las mejores tareas y están disponibles en la web?

¿Cómo debo planificar cuando aspiro a ser un científico de datos?

¿Existen técnicas de ciencia de datos para un marketing masivo más efectivo?

¿Existe algún conjunto de datos abierto de imágenes de resonancia magnética / rayos X que incluya diagnósticos, tratamiento, período de tratamiento, enfermedades crónicas si las hay y posibilidad de supervivencia?

¿Qué es la asociación de datos en el aprendizaje automático?

¿Quién ofrece servicios de limpieza o depuración de datos en EE. UU.?

Estoy planeando obtener la admisión para MS Data Science. ¿Alguien puede sugerirme las mejores universidades en las que pueda ingresar y tener buenos aspectos futuros?

¿Cuál es la diferencia entre Python y las herramientas de minería de datos como Knime y Rapid Miner?

¿Qué tipo de proyectos tiene un científico de datos en su currículum?