¿Necesito normalizar mis vectores de características antes de usar Deep Learning?

La normalización suele ser una buena idea y puede arrojar mejores resultados. Si es deseable, a menudo no normalizamos dentro de cada punto de datos; en cambio, normalizamos dentro de cada característica en el conjunto de datos. Entonces algo como

(X – media) / sqrt (var + eps)

donde X es una matriz de diseño de forma (M, N), la media es un vector (N,) que representa la media de cada columna (característica), var es un vector (N,) que representa la varianza de cada columna, y eps es un escalar (p. ej., 1e-8) para evitar la división por cero error (raro pero posible).

Otra forma de normalizar, especialmente en redes profundas, es la normalización por lotes [1], donde en cada capa se normaliza entre la función afín (p. Ej., X * W + b, X es matriz de diseño, W es pesos y b es términos de sesgo) y no linealidad ( como ReLU). Consulte el documento para obtener más detalles si está interesado.

[1] http://jmlr.org/proceedings/pape…

Related Content

¿Existe algún hardware especializado para algoritmos de aprendizaje profundo?

¿Cuál es la mejor manera de manejar múltiples brazos en algoritmos de bandidos?

¿Cuáles son las principales diferencias entre PNL para chino y PNL para inglés?

¿Cuáles son todas las debilidades que Lee Sedol encontró en el juego de AlphaGo?

¿Qué opinas de la exageración actual sobre Deep Learning?

¿Qué te emociona del futuro del aprendizaje automático?

¿Qué es lo más útil que has hecho en Internet?

More Interesting

¿Cuáles son los últimos algoritmos de aprendizaje de los vecinos más cercanos? Me refiero a todo lo que se basa en datos, como métodos basados en instancias, kNN, algoritmos de aprendizaje vecinos y métricos, todo en un solo lugar.

¿Qué significa el término de procesamiento del lenguaje natural 'modelo de lenguaje' en términos simples?

¿Cuáles son las diversas aplicaciones del aprendizaje automático en ciencias de la salud / ciencias de la vida?

Aprendizaje profundo: ¿Por qué la función energética de la máquina de Boltzmann restringida se define de la manera en que se define?

En la clasificación binaria, ¿es una buena práctica siempre sobre / submuestrear su conjunto de datos para tener un número idéntico de muestras de las dos clases?

¿Cuáles son algunos temas de proyectos realmente interesantes para la investigación en informática como el reconocimiento de gestos a través de Kinect o el sexto sentido de Pranav Mistry?

En R, ¿qué significa elegir lambda por validación cruzada (cresta, lazo)?

¿En qué debería concentrarme después de aprender el aprendizaje automático si no estoy interesado en el aprendizaje profundo?

¿Las máquinas y los bots respetan la confidencialidad?

¿Quién es la estrella en ascenso de la IA fuera del aprendizaje profundo?

¿Cuándo veremos una base teórica y una base matemática para el aprendizaje profundo?

¿La ingeniería de características es relevante para los bosques aleatorios? ¿Cómo son relevantes las transformaciones de centrado, escala y Box-Cox en este contexto?

¿Cómo podemos hacer un análisis de opinión para una revisión de película cuando no tenemos un conjunto de datos de capacitación?

¿Qué modelo da un error de predicción más bajo cuando se usa R?

¿Cuál es la mejor manera de manejar un modelo multitarea si las etiquetas de datos de capacitación tienen NA, es decir, no se analizaron todas las muestras para todas las tareas?

Web Analytics