Los conjuntos de datos disponibles y etiquetados pueden acelerar los avances en el aprendizaje automático.
En la década de 1990, vimos grandes avances tanto en el ajedrez como en el comercio de acciones.
Una de las razones por las que el ajedrez fue una de las primeras aplicaciones exitosas de aprendizaje automático fue la disponibilidad de grandes cantidades de datos etiquetados. Cada juego de ajedrez importante (y muchos juegos menores) en los últimos 150 años ha sido meticulosamente registrado y estudiado. Y todos estos registros usan el nombre de notación estándar para piezas, movimientos, el tablero, etc.
- ¿Qué sistema operativo es mejor para mantener el anonimato: Redhat, Debian, Linux Mint o Ubuntu?
- Cómo insertar, actualizar y eliminar valores en filas con restricciones de clave externa en bases de datos relacionales
- ¿Cuáles son las mejores universidades para estudiar informática de alto rendimiento?
- ¿Debo asistir a UChicago o UIUC si planeo estudiar informática?
- ¿Cómo se guardan las imágenes como imágenes digitales?
Por lo tanto, hay datos de millones de juegos disponibles, todos en el mismo formato. Y no hay muchos datos: el número promedio de movimientos en la base de datos de Chessgames es de solo 40.
Los datos de ajedrez no solo están disponibles, etiquetados y son relativamente pequeños … también fueron realmente fáciles de obtener (no es necesario hacer un gran negocio de BD). Y los datos sobre los juegos de ajedrez no tenían muchas implicaciones de privacidad para los jugadores … por lo que podrían distribuirse fácilmente sin preocuparse de que pudieran usarse con fines nefastos.
Otra área donde vimos grandes ganancias en el aprendizaje automático es el comercio de acciones.
Los datos de precios anteriores de cada ticker por cada segundo están disponibles durante décadas. Los precios a lo largo del tiempo (al menos diariamente) existen durante un siglo. Por lo tanto, hay muchos datos disponibles que están claramente etiquetados y son fáciles de usar.
Al igual que el ajedrez, los datos estaban claramente etiquetados y disponibles. Al igual que el ajedrez, no hubo muchas implicaciones de privacidad en los datos de los boletos, por lo que podría manejarse libremente.
El aprendizaje automático en el cuidado de la salud es mucho más difícil.
Una de las razones por las que no hubo tanto progreso temprano en áreas como la atención médica fue por la falta de datos. A diferencia del ajedrez, los datos en el cuidado de la salud son increíblemente difíciles de obtener. A diferencia del ajedrez, los datos en el cuidado de la salud pueden ser muy grandes. A diferencia del ajedrez, no hay etiquetas comunes y claras para los datos en la atención médica. Y a diferencia del ajedrez, los datos del paciente necesitan reglas muy estrictas sobre cómo se utilizan para proteger la privacidad.
Una de las formas de predecir dónde veremos grandes ganancias en el aprendizaje automático es ver dónde obtendremos ganancias en los datos accesibles. El progreso probablemente seguirá al acceso a grandes conjuntos de datos.