¿Qué técnicas de aprendizaje automático se utilizan en la industria?

Trabajo en la industria y aquí están algunas de las técnicas y algoritmos de ML que he usado en los últimos meses:

1. Modelado de temas a través de modelos de asignación de Dirichlet latente.
2. Similitud de distribución a través de la indexación semántica latente.
3. Clasificación / regresión a través de SVM, regresión logística, árboles de decisión, CRF y metaclasificadores como votación y refuerzo.

Para la mayoría de estos, utilicé kits de herramientas existentes (CRFSuite, gensim, LIBLINEAR, LIBSVM, C5.0, Weka) y los algoritmos de aprendizaje e inferencia que fueron proporcionados por estos kits de herramientas.

Sin embargo, al hacer cosas más complicadas como modelos de predicción estructurados o inferencia bayesiana a través de MCMC, es probable que tenga que hackear los algoritmos de aprendizaje e inferencia existentes para satisfacer mis propios propósitos. Un gran ejemplo es la traducción automática estadística. Sé, por ejemplo, que la gente de Google SMT ha diseñado su propia versión eficiente del algoritmo de aprendizaje de parámetros del modelo. Otro ejemplo es que Microsoft implementó una versión personalizada a gran escala de un algoritmo de paseo aleatorio para su parafraseador contextual (http: //labs.microsofttranslator….).

En resumen, todo depende de lo que necesite hacer. La mayoría de las veces, las cosas ya están disponibles y se pueden modificar, pero de vez en cuando las cosas de “libro de texto puro” simplemente no son suficientes.

‘Uso SVM y LSI todo el tiempo, pero trato de evitar LDA porque no me gustan los métodos altamente paramétricos. Por ejemplo, me gusta el NMF y prefiero el NMF convexo (ala Jordan) sobre el NMF disperso (con parámetros ajustables). Agrego algunos hacks (es decir, etiquetas de clúster) para ayudarlo a producir resultados sanos.

Soy fanático de las SVM transductoras como SvmLin.

Creo que se adoptan muchos métodos porque son fáciles de instalar y usar.
A algunas personas les gustan las GUI. Algunos como python o código R. Prefiero los programas unix independientes.

No leo muchos libros de texto; Leo la literatura publicada y sigo a ciertos investigadores.

En mi humilde opinión, es importante comprender los fundamentos matemáticos de los métodos y comprender la motivación de por qué se publican ciertos artículos: ¿qué problemas están tratando de resolver y por qué? Por ejemplo, si LDA es tan bueno, ¿por qué alguien publicaría La Label-LDA? ¿Cuál es la intención? ¿Cómo surge esto en mi trabajo? ¿Puedo dar cuenta de estos problemas incluso si no puedo ejecutar su código? ¿Puedo hackear algo juntos?

Esto se debe a que los datos del mundo real son muy desordenados: las etiquetas a menudo son deficientes, faltan o simplemente están mal. Las distribuciones gaussianas que espera pueden ser altamente no gaussianas (es decir, multimodales). Por esta razón, es fundamental comprender los supuestos subyacentes de los métodos y el impacto cuando no se cumplen y cuando no importa.

Además, muchos métodos no son convexos y los solucionadores no son perfectos.
Hace muchos años, inventé mis propios métodos, codifiqué mis propios solucionadores, etc. Esto es menos necesario y, aunque me alegro de no tener que seguir haciendo esto, fue divertido.
Aún así, pueden surgir problemas por errores de redondeo, errores, etc.

Aún así, en estos días uno realmente puede confiar mucho en el código abierto

Debido a las nuevas tecnologías informáticas, el aprendizaje automático de hoy no es como el aprendizaje automático del pasado. Nació del reconocimiento de patrones y la teoría de que las computadoras pueden aprender sin ser programadas para realizar tareas específicas; Los investigadores interesados ​​en la inteligencia artificial querían ver si las computadoras podían aprender de los datos. El aspecto iterativo del aprendizaje automático es importante porque a medida que los modelos están expuestos a nuevos datos, pueden adaptarse de forma independiente. Aprenden de cálculos anteriores para producir decisiones y resultados confiables y repetibles. Es una ciencia que no es nueva, pero que está ganando un nuevo impulso.

Si bien muchos algoritmos de aprendizaje automático han existido durante mucho tiempo, la capacidad de aplicar automáticamente cálculos matemáticos complejos a grandes datos, una y otra vez, cada vez más rápido, es un desarrollo reciente. Aquí hay algunos ejemplos ampliamente publicitados de aplicaciones de aprendizaje automático con las que puede estar familiarizado:

  • ¿El auto de Google muy publicitado y autónomo? La esencia del aprendizaje automático.
  • ¿Ofertas de recomendación en línea como las de Amazon y Netflix? Aplicaciones de aprendizaje automático para la vida cotidiana.
  • ¿Sabes lo que dicen los clientes sobre ti en Twitter? Aprendizaje automático combinado con creación de reglas lingüísticas.
  • Detección de fraude? Uno de los usos más obvios e importantes en nuestro mundo de hoy.
  • Mediante el uso de algoritmos para construir modelos que descubran conexiones, las organizaciones pueden tomar mejores decisiones sin intervención humana. Obtenga más información sobre esta solución que está dando forma al mundo en que vivimos.

¿Quién lo está usando?

La mayoría de las industrias que trabajan con grandes cantidades de datos han reconocido el valor de la tecnología de aprendizaje automático. Al obtener información de estos datos, a menudo en tiempo real, las organizaciones pueden trabajar de manera más eficiente u obtener una ventaja sobre sus competidores.

Servicios financieros

Los bancos y otras empresas de la industria financiera utilizan la tecnología de aprendizaje automático para dos propósitos clave: identificar información importante en los datos y prevenir el fraude. Los conocimientos pueden identificar oportunidades de inversión o ayudar a los inversores a saber cuándo negociar. La minería de datos también puede identificar a clientes con perfiles de alto riesgo, o usar la vigilancia cibernética para identificar señales de advertencia de fraude.

Gobierno

Las agencias gubernamentales como la seguridad pública y las empresas de servicios públicos tienen una necesidad particular de aprendizaje automático, ya que tienen múltiples fuentes de datos que pueden extraerse para obtener información. Analizar los datos del sensor, por ejemplo, identifica formas de aumentar la eficiencia y ahorrar dinero. El aprendizaje automático también puede ayudar a detectar el fraude y minimizar el robo de identidad.

Cuidado de la salud

El aprendizaje automático es una tendencia de rápido crecimiento en la industria del cuidado de la salud, gracias al advenimiento de dispositivos y sensores portátiles que pueden usar datos para evaluar la salud de un paciente en tiempo real. La tecnología también puede ayudar a los expertos médicos a analizar datos para identificar tendencias o señales de alerta que pueden conducir a mejores diagnósticos y tratamientos.

Marketing y ventas

Los sitios web que recomiendan artículos que podrían gustarle en base a compras anteriores están utilizando el aprendizaje automático para analizar su historial de compras y promocionar otros artículos que le interesarían. Esta capacidad de capturar datos, analizarlos y usarlos para personalizar una experiencia de compra (o implementar una campaña de marketing) es el futuro del comercio minorista.

Petróleo y gas

Encontrar nuevas fuentes de energía. Analizando minerales en el suelo. Predicción de falla del sensor de refinería. Racionalización de la distribución de petróleo para hacerlo más eficiente y rentable. El número de casos de uso de aprendizaje automático para esta industria es enorme, y sigue expandiéndose.

Transporte

Analizar los datos para identificar patrones y tendencias es clave para la industria del transporte, que se basa en hacer que las rutas sean más eficientes y predecir posibles problemas para aumentar la rentabilidad. El análisis de datos y los aspectos de modelado del aprendizaje automático son herramientas importantes para las empresas de entrega, el transporte público y otras organizaciones de transporte.

More Interesting

¿Existe una versión de objetivos múltiples de regresión logística, regresión lineal, SVM, PCA, K-means o algún otro algoritmo de aprendizaje automático?

¿Cuáles son los casos de uso (existentes o futuros) en los que el uso de la Red Adversaria Generativa es particularmente interesante?

Puede aprendizaje no supervisado puede utilizar para determinar si alguien de la escritura / arte es más creativo que la escritura / arte de la mayoría de la gente?

¿Cuál es el valor de un curso de Coursera sobre aprendizaje automático por Andrew Ng para solicitar una maestría en Estados Unidos en las 20 mejores universidades?

¿Cómo debo comenzar con las redes neuronales recurrentes?

¿Cuáles son las implicaciones de privacidad del reconocimiento facial DeepFace de Facebook?

¿Qué nivel de experiencia en aprendizaje automático se espera de un científico de datos?

¿Cómo entrenamos un clasificador para el cual solo tenemos: 1) un conjunto de datos que son datos de entrenamiento explícitamente positivos y 2) un conjunto de datos que se desconoce (tiene el potencial de ser positivo o negativo)?

¿Puede el aprendizaje reforzado aprovechar la memoria o transferir el aprendizaje?

¿Cuáles son algunas de las estadísticas más importantes y más engañosas en la predicción de partidos de fútbol?

Word2vec: ¿Cómo puede el método de entrenamiento jerárquico soft-max de CBOW garantizar su autoconsistencia?

¿Cuáles son los fundamentos programáticos del procesamiento del lenguaje natural?

¿Cuál es el mejor clasificador que puedo usar en 'Reconocimiento facial en tiempo real' después de extraer funciones usando 'Alexnet'?

¿Qué es la regresión de Ridge en términos simples?

¿Qué son los espacios latentes en el aprendizaje de representación?