Cómo explicar el aprendizaje automático a un niño

Elegiría un problema de clasificación binaria universalmente accesible: aprender qué alimentos son deliciosos y cuáles son asquerosos.

Queremos enseñarle a una computadora a reconocer qué alimentos son deliciosos y qué alimentos son asquerosos. Pero la computadora no tiene boca ni forma de probar la comida. En cambio, debemos enseñarlo mostrándole ejemplos de alimentos (“datos de entrenamiento etiquetados”). algunos de los cuales son alimentos deliciosos (“ejemplos positivos”) y algunos de los cuales son asquerosos (“ejemplos negativos”). Para cada ejemplo etiquetado, también proporcionamos a la computadora formas de describir los alimentos (“características”).

Hagamos esto más concreto. Tenga en cuenta que es posible que desee elegir ejemplos más adaptados a los gustos de su hijo.

Algunos ejemplos positivos etiquetados como delicioso: helado de chocolate, pizza, fresas.

Algunos ejemplos negativos etiquetados como asqueroso: anchoas, brócoli, coles de Bruselas.

En un sistema de aprendizaje automático real, querría más datos de capacitación, pero tres ejemplos positivos y tres ejemplos negativos deberían ser suficientes para comunicar el concepto.

Ahora necesitamos algunas características. Aquí hay tres: dulce, salado, vegetal. Tenga en cuenta que estas son características binarias: a cada alimento se le asigna un valor de “sí” o “no” para cada característica.

Alimentos Dulce Salado Crujiente De Verduras Etiqueta
helado SI NO NO NO YUMMY
pizza NO SI SI NO YUMMY
fresas SI NO NO NO YUMMY
anchoas NO SI NO NO YUCKY
brócoli NO NO NO SI YUCKY
coles de Bruselas NO NO NO SI YUCKY

Ahora que tenemos nuestros datos de capacitación, el trabajo de la computadora es aprender una fórmula (“modelo”) de ella. De esa manera, cuando la computadora encuentra un nuevo alimento, puede usar el modelo para decidir si el alimento es delicioso o desagradable.

Un tipo de modelo es un sistema de puntos (“modelo lineal”). Para cada característica, se le asigna un cierto número de puntos (“peso”) si es un SÍ pero no puntos si es un NO. El modelo luego suma los puntos para que un alimento obtenga una puntuación. El modelo tiene un límite: si el puntaje está por encima del límite, el modelo decide que la comida está DELICIOSA; Si el puntaje está por debajo del límite, el modelo decide que la comida es YUCKY.

Por ejemplo, el modelo podría asignar un peso de 3 para Sweet, 1 para Salty, 1 para Crunchy y -1 para Vegetable. Eso daría como resultado los siguientes puntajes:

helado: 3
pizza: 2
fresas: 3
anchoas: 1
brócoli: -1
coles de Bruselas: -1

Nuestros pesos facilitan la elección de un punto de corte: todos los ejemplos positivos tienen una puntuación de 2 o superior, mientras que todos los ejemplos negativos tienen puntuaciones de 1 o inferior.

No siempre podremos encontrar pesos y un límite que clasifique todos los ejemplos correctamente. E incluso si lo hacemos, podríamos terminar con un modelo que solo funciona para nuestros datos de entrenamiento pero que no funciona tan bien cuando le damos nuevos ejemplos (“sobreajuste”). Lo que queremos es un modelo que sea correcto la mayor parte del tiempo en los datos de capacitación pero que funcione bien en nuevos ejemplos (“generaliza”). Por lo general, los modelos simples generalizan mejor que los modelos complicados (“Navaja de Occam”).

No tenemos que usar un modelo lineal. Otro enfoque es construir un “árbol de decisión”. Es como el juego de 20 preguntas, donde solo puedes hacer preguntas de sí o no.

No es difícil llegar a un árbol de decisiones que siempre obtenga la respuesta correcta para los datos de capacitación. Aquí hay uno que funciona para los datos de entrenamiento en nuestro ejemplo.

¿Es un vegetal?

  • Si es así, entonces es YUCKY.
  • Si NO, ¿es dulce?
    • Si es así, entonces es delicioso.
    • Si NO, ¿es crujiente?
      • Si es así, entonces es delicioso.
      • Si NO, entonces es YUCKY.

Al igual que con los modelos lineales, tenemos que preocuparnos por el sobreajuste. No podemos dejar que el árbol de decisión se profundice demasiado. Eso significa que probablemente terminaremos con un modelo que comete algunos errores en nuestros datos de entrenamiento, pero se generalizará mejor a los nuevos datos.

Me he saltado los detalles de cómo se nos ocurren los pesos y el corte en el modelo lineal, o cómo se nos ocurren las preguntas (“divisiones”) en el árbol de decisión. Probablemente sea más matemática de la que el niño está listo, y demasiada matemática para algunos adultos también. Y ni siquiera hemos tocado modelos más sofisticados, ingeniería de características u otros desafíos de aprendizaje automático.

Pero es de esperar que esto sea suficiente para darle a un niño una idea de lo que significa “enseñar” una computadora usando el aprendizaje automático.

More Interesting

¿Hay algún caso de uso de IoT en el que 1 o más robots destinados a interactuar con humanos se comuniquen con otro conjunto de robots, en escenarios específicos?

¿Podemos construir un órgano biónico para el lenguaje?

¿Por qué los humanos están perdiendo la batalla contra las máquinas, las computadoras y la IA? ¿Cuál es la solución a esto?

¿Qué campo es mejor para el futuro de hoy, análisis de big data, inteligencia artificial o redes? No soy fuerte en programación.

¿Cómo puede una empresa utilizar la inteligencia artificial en aplicaciones móviles?

¿Cómo elegir la red neuronal para proyectos? ¿Qué red neuronal debo usar para detectar el equipaje abandonado usando el aprendizaje autodidacta?

¿Puedo obtener un M.Tech en inteligencia artificial de IIT además de completar mi BE en electrónica e instrumentación?

Como contador público, ¿debería preocuparme que la inteligencia artificial eventualmente reemplace los servicios que proporciono?

Si los robots van a ser humanos algún día, ¿cómo debería ser la función de costo y cómo pueden los humanos aprender de ellos mismos?

¿Qué campos de la psicología han contribuido más a la inteligencia artificial?

¿Cuál es la forma más rentable de producir Inteligencia general artificial (AGI o IA general)?

¿Qué tan bien funciona el sistema ai-one?

¿Cómo será el sistema operativo de la próxima generación?

¿Por qué el entrenamiento con la unidad softmax en redes neuronales es manejable si la función de partición es intratable?

¿Estoy atrapado entre tomar un título en ciencias de la computación enfocado en Inteligencia Artificial y un título en Ingeniería Mecatrónica? Detalles: