¿Cómo se les ocurre a las personas una topología apropiada para las redes neuronales (recurrentes)? Me gustaría conocer las diversas heurísticas que usan los investigadores, y tal vez algunos comentarios sobre qué tan bien funcionan y cuándo podrían fallar.

No hay una receta general para responder a su pregunta. En el caso de imágenes y datos secuenciales, a menudo se usan capas conectadas convolucionalmente o localmente (en el tiempo y / o espacio). En otros casos, hasta ahora (debido a la tecnología de GPU) es muy eficiente hacer capas completamente conectadas porque la multiplicación de matriz grande es como 10 veces más rápida que un montón de multiplicaciones de matriz más pequeñas (o peor, dispersas conectadas aleatoriamente multiplicación matricial) para el mismo número de parámetros. Por lo tanto, las capas completamente conectadas aún dominan (al menos en parte de la red) en los sistemas de vanguardia. Sin embargo, esto se debe a consideraciones de implementación. Es muy posible que surjan mejores modelos con capas más grandes que estén menos conectadas. La situación de conectividad no es muy diferente si se consideran variantes generativas (Boltzmann, DBN) o discriminatorias (MLP profundo supervisado).

Hablando en general, decidirlo por un par de razonamientos empíricos es mejor que cualquier pequeña provisión ya que, por lo tanto, NN parece escalas muy grandes en los modelos exitosos, por lo tanto, la estimación del mejor modelo posible por adelantado es incluso imposible.

Mi plan de ruta es;

lea algunos documentos sobre el interés particular
usar los modelos propuestos
medir resultados
cambiar de una manera que espere ver algunas mejoras
medir de nuevo
si funciona, escriba un documento o envíelo para impugnar o gane dinero con él 🙂

Advertencia: tenga en cuenta la simplicidad de Occam