Solo en unas pocas oraciones que enviarán una ola escalofriante a través de su columna vertebral, Neal Stephenson dio la mejor descripción de la relación entre datos y algoritmos jamás [1]:
La profundidad podría obtenerse poniendo una bombilla de luz verde en la cabeza de cada persona en Londres y luego registrando sus trazados durante algunas noches. El resultado sería una gruesa pila de trazados de papel cuadriculado, cada uno aparentemente tan aleatorio como los demás. Cuanto más gruesa es la pila, mayor es la profundidad.
El ingenio es un asunto completamente diferente. No hay forma sistemática de obtenerlo. Una persona podía mirar el montón de trazos de ondas cuadradas y ver nada más que ruido. Otro podría encontrar una fuente de fascinación allí, un sentimiento irracional imposible de explicar a cualquiera que no lo haya compartido. Una parte profunda de la mente, experta en notar patrones (o la existencia de un patrón) se despertaría y señalaría frenéticamente las partes cotidianas del cerebro para seguir mirando la pila de papel cuadriculado. La señal es tenue y no siempre se presta atención, pero indicaría al destinatario que permanezca allí durante días si es necesario, revolviendo la pila de gráficos como un autista, extendiéndolos sobre un piso grande, apilándolos en pilas de acuerdo con algún sistema inescrutable , escribir números y letras de alfabetos muertos, en las esquinas, hacer referencias cruzadas, encontrar patrones, compararlos con otros.
- ¿Cómo funciona un algoritmo?
- ¿Cuáles son los algoritmos gráficos 'imprescindibles' para un programador competitivo?
- ¿Cuál es la diferencia entre: d-ary, k-ary, n-ary, m-ary?
- Cómo diseñar algoritmos de aprendizaje automático desde cero
- ¿Qué es hashing en términos simples?
Un día, esta persona saldría de esa habitación con un mapa callejero de Londres muy preciso, reconstruido a partir de la información en todas esas parcelas de ondas cuadradas.
Lawrence Pritchard Waterhouse es una de esas personas.
No importa qué datos tenga, habrá un límite de lo que puede hacer con ellos. Mejores algoritmos son la única forma de romper este techo. Mientras tanto, no hay escasez de datos: el mundo entero es una fuente gigante de todo tipo de señales que pueden interpretarse y usarse para el entrenamiento, lo que ya se está haciendo. Pero para usarlo de manera efectiva todavía tenemos que recorrer un largo camino desarrollando métodos capaces de aprender “en el campo” de manera eficiente.
Usar los mismos algoritmos antiguos es como mirar esa gruesa pila de gráficos.
[1] Neal Stephenson, Cryptonomicon , 1999.