En IA, ¿los datos son más importantes que los algoritmos?

Solo en unas pocas oraciones que enviarán una ola escalofriante a través de su columna vertebral, Neal Stephenson dio la mejor descripción de la relación entre datos y algoritmos jamás [1]:

La profundidad podría obtenerse poniendo una bombilla de luz verde en la cabeza de cada persona en Londres y luego registrando sus trazados durante algunas noches. El resultado sería una gruesa pila de trazados de papel cuadriculado, cada uno aparentemente tan aleatorio como los demás. Cuanto más gruesa es la pila, mayor es la profundidad.

El ingenio es un asunto completamente diferente. No hay forma sistemática de obtenerlo. Una persona podía mirar el montón de trazos de ondas cuadradas y ver nada más que ruido. Otro podría encontrar una fuente de fascinación allí, un sentimiento irracional imposible de explicar a cualquiera que no lo haya compartido. Una parte profunda de la mente, experta en notar patrones (o la existencia de un patrón) se despertaría y señalaría frenéticamente las partes cotidianas del cerebro para seguir mirando la pila de papel cuadriculado. La señal es tenue y no siempre se presta atención, pero indicaría al destinatario que permanezca allí durante días si es necesario, revolviendo la pila de gráficos como un autista, extendiéndolos sobre un piso grande, apilándolos en pilas de acuerdo con algún sistema inescrutable , escribir números y letras de alfabetos muertos, en las esquinas, hacer referencias cruzadas, encontrar patrones, compararlos con otros.

Un día, esta persona saldría de esa habitación con un mapa callejero de Londres muy preciso, reconstruido a partir de la información en todas esas parcelas de ondas cuadradas.

Lawrence Pritchard Waterhouse es una de esas personas.

No importa qué datos tenga, habrá un límite de lo que puede hacer con ellos. Mejores algoritmos son la única forma de romper este techo. Mientras tanto, no hay escasez de datos: el mundo entero es una fuente gigante de todo tipo de señales que pueden interpretarse y usarse para el entrenamiento, lo que ya se está haciendo. Pero para usarlo de manera efectiva todavía tenemos que recorrer un largo camino desarrollando métodos capaces de aprender “en el campo” de manera eficiente.

Usar los mismos algoritmos antiguos es como mirar esa gruesa pila de gráficos.

[1] Neal Stephenson, Cryptonomicon , 1999.

Andrew Ng a menudo menciona que en el aprendizaje profundo, más datos + modelos más grandes = mejor rendimiento. Además, diferentes algoritmos pueden dar mejores resultados cuando tienes muchos datos.

Pero, aquí está el único curso intensivo que necesitará si hizo esta pregunta.

Veamos más de cerca las situaciones más importantes en las que te encontrarás en un problema de aprendizaje automático:

  1. Si su error de entrenamiento es cercano a 0 y hay una brecha entre su error de entrenamiento y el error de prueba, es probable que tenga algún sobrevuelo y / o que necesite más datos. Solución: Normalmente, más datos también ayudarán a reducir el sobreajuste en este caso particular. Pero es el caso típico de la necesidad de más datos. También puede intentar reducir el sobreajuste configurando la regularización, submuestreo, reduciendo la complejidad del modelo o utilizando el abandono (dependiendo de su algoritmo), pero a menudo también ayudará más datos.
  2. Si su error de entrenamiento está más cerca de su error de prueba, y ambos están a una cierta distancia de 0, tiene una situación típica en la que no tiene suficientes características, no hay suficiente complejidad en su modelo y / o menos datos. Solución: puede intentar agregar más funciones, a veces puede, a veces simplemente no puede. Sin embargo, más datos ayudarán a reducir ambos errores. En algunos casos, también tendrá que aumentar un poco la complejidad de su modelo, los modelos más simples generalizan demasiado, los modelos más complejos entienden mejor los detalles pero generalmente tienden a sobreajustar (caso no. 1). Tendrá que encontrar el punto dulce usted mismo, PERO en este caso, más datos también pueden ayudar.
  3. Una combinación de error de entrenamiento grande y una brecha entre el error de entrenamiento y el terror de prueba típicamente pide más datos. Solución: puede probar otros algoritmos, pero por lo general, cuando esto sucede, tiene menos datos que el mínimo requerido.

Ok, ahora, ¿cómo sabes qué cantidad de datos es suficiente?

La buena noticia es que puede calcular la cantidad de datos que es suficiente.

Supongamos que usa el mismo algoritmo de entrenamiento y tiene un error de prueba del 10% en 10.000 muestras y del 5% en 100.000. Puede calcular la curva logarítmica que se ajusta a esta fórmula. Luego puede calcular cuántas muestras necesitará para llegar a un límite teórico de error de prueba de 2%, 1%, 0.5%.

¿Suena simple?

Sin embargo, la curva no es perfecta, comenzará a deteriorarse o mejorará un poco cada vez que aumente el conjunto de muestras. Además, normalmente el tamaño de su modelo tendrá que crecer en complejidad junto con los nuevos datos. Debe controlar su pérdida y, cuando comienza a aumentar, debe aumentar un poco la complejidad general para mantenerse al día con los nuevos datos.

Eso es todo amigos.

Ahora sabe cuándo obtener más datos y cuándo hay otros ajustes que podría probar, también cómo calcular cuántos datos necesita para mejorar su error de prueba.

PD. Por supuesto, esta es una perspectiva de alto nivel, hay muchos otros ajustes, y dependiendo de su problema, generalmente hay diferentes tipos de algoritmos que funcionan mejor o mucho mejor que otros. Pero teniendo en cuenta que ya funcionó y que sabe lo suficiente sobre el aprendizaje automático, creo que apreciará y encontrará mi respuesta útil para esta pregunta en particular. ¡Buena suerte!

Básicamente depende de cuál tiene “más”, donde más es muy subjetivo y relativo en este contexto.

Si tiene un montón de datos, pero no hay una forma útil o precisa de decirlo, clasificarlo, predecirlo, buscar respuestas dentro de él, etc., entonces los algoritmos serán más valiosos.

Porque es básicamente como una tienda de golosinas cerrada, y solo necesitas la llave para entrar y comenzar a comer.

Pero si tienes un montón de algoritmos y una tonelada de pensamiento lógico construido sobre pensamientos que se basan en más pensamientos … todo desarrollado por un ejército de matemáticos e informáticos a lo largo de un siglo, y todos tienen acceso a estos, entonces los datos se vuelven más valiosos.

En este escenario, es muy posible que casi cualquier persona pueda crear un clasificador o predictor muy útil, o un motor de descubrimiento. Quizás cualquier persona con una computadora portátil y algunos años de exploración podría obtener mucho valor de una gran cantidad de datos.

Entonces los datos se convierten en el valor primario. Porque todos tienen su equipo de extracción de oro, pero no todos tienen algo que extraer.

Entonces es relativo a lo que hay ahí fuera.

E incluso esto es solo una visión amplia de la industria; en subindustrias específicas y para problemas específicos, las cosas pueden volver fácilmente al lugar donde los algoritmos son los más valiosos. Si todos, o incluso todos los jugadores relevantes tienen una tonelada de datos, pero aún hay cosas que desear del análisis / uso de dichos datos, entonces claramente los algoritmos serían más valiosos.

Por lo tanto, realmente depende de cuál está (relativamente) más disponible que el otro y en qué contexto específico.

Muchas buenas respuestas aquí. Me gustaría agregar una perspectiva que todavía no se repite, pero que creo que es algo de lo que muchos AI están conscientes, a un nivel intuitivo. Y toma esta pregunta por la cabeza, muy relevante aquí. Permítanme escribir la idea más amplia antes de entrar en detalles. Aquí va: los datos son el único camino hacia los algoritmos del mañana.

Si tuviera que considerar la noción anterior correcta (sobre la que voy a exponer en un momento), entonces no son competidores entre sí por la atención, sino facilitadores entre sí. Un nuevo algoritmo rara vez está diseñado para funcionar bien en un conjunto de datos existente. Está diseñado para descifrar un nuevo conjunto de datos, pero a medida que sucede, funciona o supera el rendimiento en otros conjuntos de datos también. Pero este hecho se pierde con demasiada frecuencia cuando escribimos o reescribimos el historial de algoritmos. Daré un ejemplo, que es demasiado antiguo y demasiado conocido, tan antiguo, que muchos de los científicos de datos modernos podrían haberlo olvidado. Sin embargo, es importante ya que destaca un ataque algorítmico importante que se extendió por los datos durante décadas antes de que surgieran nuevos paradigmas computacionales.

Considere la regla de aprendizaje más antigua. El perceptrón. Referido por muchos nombres diferentes en diferentes lugares y diferentes ciencias. Podría llamarse aprendizaje hebbiano en redes neuronales, podría llamarse regresión logística, podría llamarse mínimos cuadrados medios en procesamiento de señales y comunicaciones, y podría llamarse descenso de gradiente en ciencia de datos / ML. Perceptron es una regla de aprendizaje simple que asigna un peso a una dirección de actualización, en función del error que encontró al predecir el resultado. Cuando se conoció el algoritmo, funcionó muy bien en algunos conjuntos de datos y tardó mucho tiempo en converger en otros. Poco a poco, se reveló qué está causando que el algoritmo se atasque para diferentes tipos de problemas y diferentes dominios de aplicaciones. Se determinó que la estructura de correlación dentro de los datos es lo que los bloquea. Si los datos están demasiado correlacionados, las instrucciones que surgen para la actualización, están demasiado cerca unas de otras, lo que no permite que el algoritmo explore el espacio ‘global’, para poder encontrar un buen mínimo. Y luego, libró una batalla de medio siglo de duración, para investigar, interrogar, clasificar y comprender este problema estructural dentro de los datos, y crear algoritmos significativos para combatirlo. Y a través de esta batalla de décadas, surgieron muchos algoritmos hermosos diferentes, como mínimos cuadrados recursivos, método de gradientes conjugados, algoritmos de proyección afines, un conjunto completo de métodos de pre-blanqueamiento, etc. Resulta que estos algoritmos más nuevos resuelven los viejos problemas y los conjuntos de datos se comportaron muy bien también. Hermosa.

Veo la misma historia, cuando consideramos todos los algoritmos que están de moda. Se ha desarrollado una generación completa de algoritmos estocásticos basados ​​en el formalismo modelo de Markov porque observamos sistemas no lineales Y distribuciones bimodales. Se ha desarrollado una generación completa de algoritmos y nuevos tipos de ciencias porque observamos conjuntos de datos escasos que requerían modelos simplistas y penalizaciones de regularización. Los datos u observaciones de fenómenos del mundo real son los que afectan la conciencia algorítmica de los científicos.

Una cosa, que es importante entender en el futuro, es que espero que esta tendencia se vuelva cada vez más generalizada. Los datos de hoy se encuentran con nuestro mundo y todas sus complejidades y luego se nos informan en forma de más datos. Por ejemplo, un usuario de Google interactúa con los algoritmos de Google existentes para encontrar sus resultados de búsqueda, dejando una impresión de su mente en el algoritmo a través de comentarios. Cuando cientos de miles de usuarios de Google hacen lo mismo, su estado mental acumulativo ahora se transforma. Este nuevo estado mental va a querer usar Google en todos los nuevos tipos de formas y explorar la información en diferentes modos y formas que conducen a un ‘tipo’ diferente de datos. Google avanza con cada pequeña evolución en nuestro propio intelecto acumulativo. Puede sonar un poco exagerado / hipérbole, pero en realidad es una realidad práctica de cualquier sistema de ingeniería. No puede simular hasta que haya observado lo suficiente. La medición es la clave de los sistemas físicos. También es la clave para los sistemas virtuales. Y los datos son la forma en que existe esta clave. Casi pienso que tiene un problema humano muy complejo (digamos que el diagnóstico de los conjuntos de datos sobre el cáncer a través de la genómica) y luego dejo que los datos exploren esa relación de manera monte-carlo, hasta que pueda delinear todos los rincones, esquinas, fisuras y caras de esta distribución de probabilidad para uso de ingenieros algorítmicos. Una vez que la forma de la distribución comienza a emerger, podemos aplicar más y más brillo algorítmico para acelerar la exploración de nuestro espacio desconocido. (o hiperespacio para el caso, si es un modelo en cascada !!!).

Nuevos conjuntos de datos continuarán inspirando a la próxima generación de científicos algorítmicos. Posiblemente, no hay fin en absoluto. Más datos, se entrelazan (el término científico es complicado) a través del tejido del universo físico (incluido todo lo que contiene), para traernos nuevas y novedosas estructuras (dentro de los datos). Estas estructuras se exploran y descifran para los algoritmos del mañana. círculo “viciosamente generoso”, si se puede llamar.

Espero que no esperes una respuesta simple en blanco o negro a esta pregunta. Si los datos o los algoritmos son más importantes ha sido ampliamente debatido por expertos (y no expertos) en los últimos años y el TLDR; es que depende de muchos detalles y matices que llevan algún tiempo entender.

Respondí una pregunta bastante similar hace algún tiempo: en el aprendizaje automático, ¿son siempre más datos mejores que mejores algoritmos? Le recomiendo que comience leyendo esa respuesta, que tal vez podría abordar el 80% de esta pregunta y regrese aquí. Hay algunas diferencias leves pero importantes en esta pregunta que abordaré a continuación.

Primero, la pregunta a la que me vinculé se refiere al aprendizaje automático (ML), mientras que esta es sobre Inteligencia Artificial (IA). ¿Es eso lo mismo? Bueno no exactamente. De hecho, ML es un subcampo de IA en el que específicamente necesitas datos para entrenar algoritmos. AI incluye otros enfoques que se basan en la lógica o las reglas y no requieren datos de la misma manera o cantidad que ML. En otras palabras, si estamos de acuerdo en que no siempre es el caso que los datos sean más importantes que los algoritmos en ML, debería ser aún menos si hablamos del campo más amplio de la IA.

Dicho esto, y como mencioné en mi respuesta a ¿Qué piensa el mercado que significa AI (Inteligencia artificial) en comparación con ML (aprendizaje automático) ?, a la mayoría de las personas podría no importarles mucho la diferencia entre ML y AI y las usarán indistintamente . De hecho, muchas personas hoy en día usarán IA como sinónimo de Deep Learning, que es en sí mismo un tipo particular de enfoque de aprendizaje automático. Entonces, creo que sería bueno abordar esta pregunta desde el punto de vista particular de los avances recientes en Deep Learning:

En los enfoques modernos de Deep Learning, ¿los datos son más importantes que los algoritmos?

Bueno, de nuevo, sí y no. Es cierto que estos enfoques son muy “hambrientos de datos”. Sin entrar en muchos detalles, los algoritmos de aprendizaje profundo tienen muchos parámetros que deben ajustarse y, por lo tanto, necesitan una gran cantidad de datos para obtener modelos algo generalizables. Entonces, en ese sentido, tener una gran cantidad de datos es clave para obtener buenos conjuntos de capacitación para esos enfoques.

De hecho, algunos han explicado que existe una relación directa entre la aparición de grandes conjuntos de datos públicos como Imagenet y los avances de investigaciones recientes. Sin embargo, tenga en cuenta que esto resalta que, al menos en algunos dominios, la existencia de conjuntos de datos públicos hace que los datos sean menos una ventaja competitiva.

Fei-Fei Li en Twitter

Fei-fei Li , directora del laboratorio de IA de Stanford

Además, lo interesante de algunos de esos algoritmos y enfoques es que a veces pueden ser “pre-entrenados” por el propietario del conjunto de datos y luego aplicados por muchos usuarios. En estos casos, los datos tienden a ser menos necesarios. Una manera fácil de entender esto es lo siguiente: si tiene que entrenar un modelo para traducir del inglés al español, todo lo que necesita hacer es reunir un gran conjunto de datos y entrenar el modelo una vez. El modelo en sí lleva toda la información, por lo que cualquiera que pueda obtenerla ya no necesita los datos originales. Por ejemplo, el famoso modelo Googlenet de 22 capas está disponible para descargar en diferentes modelos (por ejemplo, el modelo Keras).

Entonces, una vez más, incluso para estas aplicaciones ávidas de datos, la respuesta no siempre es clara: es necesario tener grandes cantidades de datos para aprovechar los últimos avances. Dicho esto, si está tratando de impulsar el estado del arte y encontrar aplicaciones muy concretas, sí, necesitará tener datos internos que pueda aprovechar para entrenar su nuevo enfoque de aprendizaje profundo.

Diré “Sí”, hay una clara tendencia en esta dirección.

Antes de comenzar a explicar, quiero dejar en claro que estoy considerando solo el aprendizaje automático, no todo el campo de IA.

Creo que nadie se opondría a la afirmación de que “dado que tiene un buen algoritmo, lo más importante es la cantidad de datos”. Pero la pregunta es, ¿tenemos un algoritmo “bueno”?

Después de muchas décadas de estudios en aprendizaje automático y avances en aprendizaje profundo en los últimos años, la respuesta se está volviendo cada vez más hacia “Sí, tenemos buenos algoritmos”. Considere la trama que copié a continuación. Este es un ejemplo común que se utiliza para explicar por qué el aprendizaje profundo es tan poderoso. Mejora cada vez más cuando proporciona más datos a un sistema de aprendizaje profundo, mucho más que los métodos más antiguos.

Esto es lo que la gente ha estado experimentando en la práctica. He experimentado, y escuché de muchos otros investigadores, que puedes probar diferentes arquitecturas de aprendizaje profundo y estrategias de capacitación, pero al final lo que más importa es la cantidad de datos que tienes. Esto es lo crucial que determina el rendimiento.

En resumen, después de décadas de investigación en aprendizaje automático, especialmente con los desarrollos recientes en aprendizaje profundo, ahora tenemos buenos algoritmos. Por lo tanto, los datos se han convertido en el determinante más importante del rendimiento, como nunca antes, debido a los logros en el campo.

Para respaldar mi respuesta, daré un ejemplo de Google. Ahora han comenzado a ingresar al campo de la medicina, especialmente para el análisis automatizado de imágenes patológicas, radiológicas y microscópicas. Y no necesitan décadas de investigación para obtener mejores algoritmos, ya lo tienen. Solo necesitan datos. Y esto es lo que están haciendo: están trabajando en negociaciones con los hospitales para obtener acceso a los datos.

Si está pensando a corto plazo, los datos son más importantes que el algoritmo. Muchos investigadores del aprendizaje automático llaman a los datos el “combustible del cohete” del aprendizaje automático. En términos generales, un modelo mediocre capacitado en una gran cantidad de datos superará ampliamente a un gran modelo capacitado en una pequeña cantidad de datos.

Sin embargo, el estado del arte es solo el estado del arte. Para tener avances (como Alpha Go, Wavenet o arte fotorrealista), necesitamos personas que continúen investigando nuevas formas de hacer aprendizaje automático. Ninguna cantidad de datos puede imbuir a Alpha Go con inteligencia a nivel humano al escribir novelas épicas, inventar tecnologías médicas que salvan vidas, jugar baloncesto o, obviamente, hacer predicciones de alta calidad con menos datos (como lo hacen los cerebros humanos).

Los datos son más importantes si desea usarlos en un negocio real hoy; Algoritmo / modelo es más importante si desea volar las mentes de las personas y ampliar el potencial de la humanidad.

Bueno, ambos son datos importantes y también algoritmos. Cuando hablamos de Inteligencia Artificial y Aprendizaje automático, los datos y el Algoritmo tienen la misma importancia. déjame explicarte en un lenguaje muy simple con ejemplo.

¿Por qué los datos son importantes? : Porque necesitamos entrenar la máquina, para que esa máquina pueda tomar sus propias respuestas / decisiones. Los datos son importantes para hacer un aprendizaje automático efectivo. Para entrenar la máquina, necesitamos datos para analizar en la máquina con análisis semántico, análisis de texto, procesamiento de lenguaje natural usando NLTK.

¿Por qué el algoritmo es importante? : Para calibrar la eficiencia de cómo la máquina aprenderá de los datos analizados, y en cuánto tiempo recibirá capacitación. El algoritmo es un factor para decidir la eficiencia del aprendizaje automático, ya sea que podemos implementarlo usando Python, Matlab o R.

Para obtener el mejor aprendizaje automático, necesitamos combinar un conjunto de datos perfecto y un algoritmo eficiente. Al cargar los datos en el algoritmo y procesarlos, podemos lograr un buen mecanismo de aprendizaje automático e inteligencia artificial.

Espero que esto ayude..!! 🙂

Gracias.. ! Si tiene alguna consulta puede enviar un mensaje / comentario.

PD: – Escribo solo sobre emprendimiento, programación, aprendizaje automático, inteligencia artificial. Así que si me sigues, ¡no perderé tu tiempo! 🙂

Veamos ambos lados de la ecuación.

Todos dicen que más datos son mejores, pero creo que esto es una simplificación excesiva.

Considere un estudio de altura en hombres y mujeres. Después de haber medido 1000 hombres y mujeres, ¿cuánto va a mejorar la precisión de su estimación de la altura promedio al medir 10000 hombres y mujeres? ¿Cuánto por medir 1 millón de individuos?

Por otro lado, habiendo medido 10000 individuos exclusivamente blancos, ¿cuánto va a mejorar el valor de sus datos si incluye una muestra representativa de la población con otras razas? Probablemente mucho, porque mejoró la calidad de su conjunto de datos.

Luego está la cuestión de obtener realmente los datos. Algunos son muy, muy difíciles de encontrar. Por ejemplo, no todos tienen acceso a una cohorte de gemelos monocigóticos. También es muy difícil trabajar con datos que provienen antes de la era digital. Alguien tiene que acceder físicamente al material, convertirlo y codificarlo en un formato apropiado para el análisis. Esto es laborioso y valioso.

Por otro lado de la ecuación, existe la posibilidad de que alguna organización de alto perfil tenga un algoritmo muy elaborado y muy secreto. Sin embargo, a pesar del trabajo de algunos individuos extremadamente inteligentes, no es muy probable que una sola entidad tenga un beneficio duradero y muy significativo más allá de lo que generalmente se conoce en la literatura científica. Ligeramente mejor, probablemente, pero no innovador. Incluso si un algoritmo es realmente innovador, los resultados se filtran, el código se modifica mediante ingeniería inversa, la gente habla, espía espía y se descubren cosas después de un tiempo.

También puede preguntarse si la experiencia con un algoritmo dado (parámetros de ajuste, por ejemplo, o el diseño de una red de aprendizaje profundo) está disponible o no. Claramente, si Tesla contrata a todos los especialistas en inteligencia artificial, probablemente será mucho mejor que cualquier otra persona que tenga acceso a los mismos datos y algoritmos. Pero, aquí también, los especialistas se mudan de una compañía a otra y todos los días se capacitan nuevos. Es posible tener una ventaja, pero incluso con un equipo de especialistas todo en uno, realmente no puede esperar hacerlo diez veces mejor que un competidor.

En conclusión, creo que la clave no es simplemente tener un conjunto de datos (que puede ser robado / copiado o muestreado o simulado, incluso con gran dificultad). La clave es tener una fuente de datos privada protegida . Incluso si los datos se roban, se vuelven viejos rápidamente, pero una fuente de datos nunca pasa de moda.

Entonces, sí, la mejor información supera a los mejores algoritmos, en mi opinión. Y la mejor fuente de datos es la forma más segura de producir los mejores datos.

En las técnicas basadas en ML y DL, los datos son muy importantes. Cuantos más datos, mejor funcionaría cualquier método ML / DL. En muchos de los modelos con la misma cantidad de datos, su rendimiento varía en la mayoría del 5 por ciento de precisión. Los datos son el factor clave. Pero para obtener lo mejor de los datos, debe usar el modelo que ofrece un mejor rendimiento / precisión .

Uno de mis profesores, el profesor Danny Kopec (de bendita memoria. Era un hombre increíblemente agradable), que escribió un libro sobre IA unos años antes de su fallecimiento prematuro, teorizó que la IA es una combinación de hombres, métodos y máquinas. En otras palabras, las personas cuya inteligencia condujo a avances en IA, los métodos o algoritmos que se les ocurrieron y las máquinas que construyeron para realizar estas tareas. Ciertamente, la recopilación de datos es importante, pero es cómo se interpretan esos datos lo que importa más.

Para hablar realmente sobre IA necesitas tres cosas: base de conocimiento (datos), capacidad de proceder y razonamiento.

No diría que los datos son más importantes que los algoritmos o al revés porque simplemente no pueden existir el uno sin el otro cuando se trata de IA. Los datos son importantes para que el algoritmo funcione correctamente, pero una de las características del algoritmo puede ser la recopilación de datos, por lo que me parecen bastante inseparables.

Los datos crean una posición más defendible porque, a menos que sean robados, sus competidores no pueden recrearlos.

Los algoritmos son importantes, pero un gran número está en el dominio público; Existen varias formas de implementar un algoritmo, por lo que las reglas de copyright son difíciles de aplicar incluso si el algoritmo es robado; cuando las personas cambian de trabajo, traen su experiencia con ellos, pero no traen los datos en los que trabajaron en su empleador anterior …

… Y SIN LOS DATOS CORRECTOS, UN ALGORITMO NO GENERA NINGÚN VALOR.

Los bebés humanos tienen una capacidad de aprendizaje mucho mayor, con fracciones de consumo de energía, que cualquier computadora moderna o previsible, y todo con lo que pueden interactuar es su entorno inmediato.

Es difícil creer que la simple adquisición de más y más datos sea la respuesta.

Si y no. Por ejemplo, si desea mejorar el rendimiento de imagenet, puede obtener más datos por el costo del aumento masivo de cómputo de capacitación y 100k para un conjunto de datos.

O puede agregar conexiones residuales.

Esto no es para minimizar la importancia de los datos, sino para prevenir contra las creencias de “terminar con todo”.

También tenga en cuenta que están hablando de un negocio que es bastante diferente.

Definitivamente si. Sin datos, sin algoritmos y, por lo tanto, sin IA. El algoritmo de IA necesita datos para ser entrenado y ajustado. No hay otra manera. No existe un algoritmo inteligente que funcione desde cero sin datos.

Los datos se han utilizado para vencer a los jugadores de ajedrez.

Los datos se utilizan todos los días para publicidad dirigida.

Los datos se utilizan para tratar de comprender el clima (meteo, por ejemplo)

Los datos son el futuro, la gestión de Big Data es la clave. Mire la forma en que Google elige sus herramientas, todo gira en torno a Big Data, eso no es por ninguna razón.

No en realidad no. Los sistemas actuales necesitan muchos datos, porque aún no hemos descubierto cómo nuestros cerebros a veces pueden aprender de un solo ejemplo. Una vez que tengamos esto bajo control, una vez que podamos hacer que los sistemas se generalicen mejor, necesitaremos menos datos para lograr lo mismo (entrenar a un NN para una tarea específica).

Dicho esto, he visto gatos en poses muy inusuales y peculiares. Asumo que seguiremos aprendiendo de por vida, ajustando pesos que definan el significado de cosas como “gato”, “árbol” y “casa”, pero ajustaremos los pesos solo para ejemplos “excepcionales”.