¿Cuáles son los principales aspectos del aprendizaje automático que utiliza Microsoft y cómo se aplican realmente?

Hablaré más sobre Leibniz : los fanáticos de los deportes disfrutan el poder del reconocimiento de entidades de Leibniz, que es un canal de resolución de entidades desarrollado por el grupo Interaction & Intent de Microsoft Research, SVC a principios de 2011.

¿Qué es la resolución de la entidad?
La resolución de entidad (o enlace de registro) es la tarea de encontrar la misma entidad en diferentes fuentes de datos. Por ejemplo, encontrar la misma película: Titanic a través de Imdb, Rotten Tomatoes y Netflix.

¿Cuál es la tubería entonces?
La tubería en sí es genérica de una manera que permite la ingestión de datos (en formato estandarizado) de las diversas fuentes de datos, permite el preprocesamiento y la normalización personalizados en los datos de entrada y permite configurar el uso de un algoritmo de aprendizaje particular (Regresión logística, Árboles de decisión, bosques aleatorios, SVM lineales, etc.). La canalización permite etiquetar datos para capacitación y evaluación, ejecutar capacitación y también evaluación para evaluar PR.

¿Cómo ayudó Leibniz?
La canalización es independiente de las fuentes de datos en sí misma, por lo tanto, se ha aplicado a varios problemas de resolución de entidades en su mayoría Bing.

Estos son a saber:

  1. Películas de Bing
  2. Bing Box (Bing en XBox)
  3. Eventos Bing
  4. Datos geoespaciales: para clasificación y relevancia.
  5. Aplicación Bing Sports
  6. Aplicación de viaje de Windows 8

Bing utiliza el aprendizaje automático en varias capas en su pila. Trabajo en el ranking de búsqueda donde usamos el aprendizaje automático en parte para clasificar documentos en una consulta (el problema de aprender a clasificar). Por lo general, las principales características de los algoritmos tomados en consideración son:

  • Función objetivo hacia la cual se entrena el algoritmo. La modificación de la función objetivo puede afectar significativamente la calidad y diversidad del conjunto de documentos clasificados.
  • Etiquetas de datos de entrenamiento ya que esto afecta directamente la salida del algoritmo. A veces, las etiquetas de entrenamiento deben ajustarse para ajustarse a los cambios que podrían haber tenido lugar entre el momento del etiquetado y el momento del entrenamiento.
  • Número de características ya que el cálculo de características se suma al tiempo de ejecución general.
  • Tiempo de ejecución del algoritmo (se debe justificar un aumento en el orden de un milisegundo).
  • Tiempo de entrenamiento del algoritmo.
  • Huella de memoria del modelo producido por la formación.
  • Ganancia de relevancia producida por el algoritmo.