¿Cómo resumiría las ideas centrales del aprendizaje automático y el aprendizaje profundo?

La mayoría del aprendizaje automático / aprendizaje profundo se trata de aproximar alguna función subyacente verdadera:

  1. Formule una clase de funciones en la que pueda buscar fácilmente una buena aproximación de funciones. Por ejemplo, esto podría ser clasificadores lineales, una combinación lineal de algunas funciones básicas o el espacio de funciones inducido por una red neuronal profunda.
  2. Formule una función de pérdida que indique lo infeliz que está con las predicciones de la aproximación de su función actual. Para SVM, esto es pérdida de bisagra. Para los clasificadores de aprendizaje profundo, a menudo es una entropía cruzada.
  3. Formule un regularizador que le permita variar la complejidad de la aproximación de su función para que pueda ajustar la perilla de sobreajuste / falta de ajuste. Los ejemplos incluyen [matemática] l_2 [/ matemática], [matemática] l_1 [/ matemática], norma nuclear, etc.
  4. Realice la optimización para minimizar la suma de la pérdida y la regularización. El algoritmo de optimización suele ser SGD, a veces algo inteligente. Hasta hace poco, la gente estaba loca por la optimización convexa debido a SVM y otros aprendizajes de margen máximo. El advenimiento del aprendizaje profundo ha hecho que la optimización no convexa sea aceptable.

Centrarse en la parte de Deep Learning primero: es importante y emocionante, pero lo único que realmente significa la palabra “Deep” (IMO) es que ahora podemos entrenar redes neuronales con muchas capas ocultas, y eso no funcionó muy bien hace unas décadas. Hay una lista variada de ideas nuevas e inteligentes para hacer que el entrenamiento de la red neuronal funcione mejor y más rápido, pero fundamentalmente no hay tanta diferencia entre el entrenamiento de la red neuronal “profunda” y la vieja escuela. Sin embargo, el resurgimiento del trabajo aquí impulsado por su éxito está conduciendo a nuevas arquitecturas de redes neuronales que antes no eran entrenables y que están teniendo resultados impresionantes.

Sin embargo, volviendo a su pregunta sobre “ideas centrales”, para la parte de Aprendizaje profundo, consulte mi respuesta aquí para obtener más detalles: la respuesta de Eric Nichols a ¿Cuál es la diferencia entre el aprendizaje profundo y el aprendizaje automático habitual?

Ahora, para Machine Learning en general: a un nivel alto, se trata principalmente de aprender a aproximar una función de entradas a salidas, e implica una amplia gama de técnicas para hacerlo, basadas en el aprendizaje de los datos. También implica metodología: mejores prácticas para tratar con datos de capacitación y evaluar los resultados de un algoritmo de aprendizaje de una manera estadísticamente válida. El campo de Aprendizaje automático, además de proporcionar algoritmos prácticos para el aprendizaje, también proporciona herramientas teóricas (como la dimensión VC) para analizar el poder de varios algoritmos, comprender posibles espacios de hipótesis, etc., etc. Ver también Teoría del aprendizaje computacional – Wikipedia.

El comportamiento aprendido conlleva tres funciones cognitivas:
– capacidad de operar con información parcial dada, como si se hubiera proporcionado información completa
Para hacer esto, uno debe ser capaz de reducir la información completa en información parcial, reducir la complejidad. Esto se logra mediante técnicas de álgebra lineal, es decir, reducción de dimensionalidad. En álgebra lineal y física, esto va por descomposición de matriz y diagonalización y valores propios / componentes principales.
2) dado un conjunto de observaciones, el comportamiento aprendido consiste en extraer elementos comunes significativos (patrones subyacentes complejos / ocultos o no) y agruparlos en grupos de observaciones muy similares dentro de cada grupo y pronunciadas observaciones diferentes en grupos diferentes. Esto se conoce como agrupamiento.
La maximización de las expectativas es una técnica clave utilizada en el agrupamiento aglomerativo. Utilizado en marketing, y donde sea que la segmentación sea relevante. Hay otros tipos de agrupamiento, incluidos los jerárquicos. Usando diferentes métricas de distancia o disimilitud, la agrupación se puede personalizar. La agrupación es un aprendizaje no supervisado porque no hay capacitación involucrada. La entrada es un conjunto de observaciones y la distancia métrica.
3) y la tercera indicación del comportamiento aprendido es poder distinguir una naranja de una manzana o un guepardo de un impala; observar muchos casos y poder generalizar los detalles dados. Los homosapiens prehistóricos exhibieron estas capacidades, ya que era existencial sentir que un animal era un depredador peligroso. Y desde la distancia. El cerebro biológico hace esto muy bien. En la práctica, la clasificación implica el entrenamiento con observaciones etiquetadas y luego pedirle al clasificador que etiquete una observación desconocida / no etiquetada.

El cerebro ha evolucionado para abstraerse, generalizarse sin esfuerzo. Lanzar esto en construcciones programáticas de resolución de problemas implica el uso de varias herramientas y métodos diferentes y ha evolucionado a lo largo del tiempo.

Los perceptrones evolucionaron en redes neuronales a múltiples capas, aprovechando transformaciones complejas, lo que ahora se conoce como aprendizaje profundo. Se emplean convoluciones, transformada de Fourier, bucles de retroalimentación adaptativa. Del mismo modo que no podemos explicar cómo un cerebro conoce el mundo, sigue siendo difícil explicar el comportamiento de las redes neuronales.

¿Cómo se puede determinar el clasificador más eficiente? Comprender la fuente del sesgo de error, la varianza y la compensación entre ellos (sabiendo que la varianza y el sesgo no pueden reducirse simultáneamente) son fundamentales.
Practicar diligentemente la navaja de afeitar de Occam buscando el modelo más simple para resolver un problema dado, eliminando el sobreajuste, son signos de madurez en la práctica de ML.

More Interesting

¿Cuál es la diferencia entre una función de costo y una función de pérdida en el aprendizaje automático?

¿Cómo puedo procesar grandes conjuntos de datos con mi computadora portátil? En una competencia de minería de datos, hay un CSV de 1GB de información del cliente para procesar. ¿Hay alguna manera de procesarlo sin cargarlo todo en la RAM, o podría procesar solo una parte a la vez?

¿Cómo se compara Bing y DuckDuckGo con Google en términos de características y calidad? ¿Es Google el motor de búsqueda más utilizado porque la gente se ha acostumbrado demasiado?

En las tareas de recuperación de información o competencias de aprendizaje automático, he oído hablar de trenes y conjuntos de pruebas, pero ¿cuál es el "conjunto de prueba"?

¿Qué son las computadoras de control BRAIN?

¿Qué es el cuello de botella de von Neumann y cómo se puede evitar?

¿Qué está vendiendo IBM ahora?

¿Cuáles son algunas de las aplicaciones de inteligencia artificial y aprendizaje automático utilizadas en la gestión de la cartera de mercados de capital de finanzas corporativas?

¿Alguien ha integrado Scrum con un método de cascada tradicional como PRINCE2 o PMP? ¿Qué tan exitosos han sido tus intentos?

Soy un brogrammer exitoso. ¿Cómo hago la transición al jefe de cabello puntiagudo y / o al rockstar de la banda de chicos?

¿Quién puede decirme el método paso a paso para comenzar a aprender el aprendizaje automático desde cero, comenzar a trabajar independientemente y convertirlo como mi trabajo a tiempo completo?

¿Cuáles son las diferencias y similitudes entre varios términos como archivo de objeto, ejecutable, enlace dinámico, carga dinámica, tiempo de ejecución, tiempo de carga y tiempo de compilación?

¿Las computadoras podrán programarse en el futuro?

¿Qué consejo le darías a un estudiante universitario de CS?

¿Puede un modelo de aprendizaje automático reemplazar completamente un sistema basado en reglas?