¿Cuál es la diferencia entre todas las empresas que trabajan en el aprendizaje automático?

Hay tres tipos diferentes de empresas de Machine Learning e Inteligencia Artificial: The Superrich, los Servicers y los Innovators.

  1. Superrich: empresas que hacen aprendizaje automático Y tienen sus propios datos.
  2. Administradores: empresas que realizan aprendizaje automático con datos de otras personas.
  3. Innovadores: empresas que hacen aprendizaje automático y tienen que tener acceso a los datos.

Las tres empresas de este tipo pueden tener un éxito enorme y cada una tiene un sabor distinto.

Los Superrich son compañías como Google, Facebook, Baidu, Tencent, Amazon, Microsoft y otras. Hay muy pocas de estas empresas en el mundo, pero tienen una gran ventaja sobre todos los demás en el espacio de aprendizaje automático porque tienen acceso a grandes cantidades de datos limpios y estructurados. Los ingenieros que hacen aprendizaje automático pueden hacer lo que mejor saben hacer … predecir el futuro.

Los Administradores ayudan a otras empresas a utilizar grandes cantidades de datos. Estas compañías revisan los datos (a veces no estructurados) y desarrollan ideas. Estas empresas son esencialmente empresas de servicios porque trabajan directamente con los datos de sus clientes. Uno de los Servidores más exitosos es Palantir Technologies, que se hizo un nombre por sí mismo ayudando a las organizaciones gubernamentales a dar sentido a los datos. Salesforce.com también está creando iniciativas para hacer esto. Muchas otras compañías encajan en este molde (por ejemplo, una compañía que ayuda a las aerolíneas a optimizar sus precios). Y cualquier consultoría también encaja en esta categoría.

Los innovadores : son empresas que están trabajando en un problema específico pero no tienen acceso a sus propios datos y no son empresas orientadas a los servicios que ayudan a otros. Estas son empresas que desean utilizar datos para curar el cáncer, crear tecnología de automóviles autónomos y predecir el mercado de valores (como los fondos de cobertura). Algunas de estas empresas, como Two Sigma Investments y Point72 Asset Management, gastan cientos de millones de dólares en datos porque, a diferencia de Superrich, no generan toneladas de datos por sí mismas. Otro buen ejemplo de innovadores son Cruise Automation (automóviles autónomos y recientemente adquiridos por GM) y Flatiron Health (investigación sobre el cáncer). Flatiron Health sintió que tenía que adquirir una compañía de servicios de software, Altos Solutions, para obtener acceso a datos sin procesar. Por supuesto, una vez que estos innovadores obtienen los datos, todavía necesitan ponerlos de pie, limpiarlos, fusionarlos, unirlos y hacer un montón de Extraer, Transformar, Cargar (ETL).

Resumen: a medida que el acceso a los datos se democratice más, veremos que cada vez más innovadores comienzan y tienen éxito. Hoy, el Superrich tiene una gran ventaja, pero deberíamos ver más innovadores que se centren en una solución específica que gane en el futuro.

Todo es una gran pregunta. Comencemos con una simple diferenciación.

Dominios
Numérico.
Visual.
Lingüístico.
Operacional.

Numérico se basa en la relación entre números. Esto podría ser tan “simple” como predecir quién será el Superbowl según las estadísticas del juego.

Visual es generalmente una clasificación de cosas basada en una imagen.

Linguistic está extrayendo Knols de información para responder la pregunta planteada por un usuario.

Operacional es todo, desde un auto sin conductor, hasta un bot en un videojuego.

Metodología

Red neuronal / SGD
Epistemológica
Convergencia
N-Tree
Con guión
Heurístico
Determinista

Neural Network / SGD recibe la mayor parte de la publicidad. Este es un enfoque probabilístico que utiliza una función de recursión para agrupar cosas. Si bien decimos “predecir” es más como “bulto”, una limitación de una red neuronal es que no se puede usar para clasificar un resultado fuera de su entrenamiento original. Si se le da la tarea de predecir la longitud de un tercer lado de un triángulo, incluso si ha visto 3,4,5 no sabrá un cuadrado + b cuadrado = c cuadrado, por lo que obtendrá un error de 300,400,500 si el más grande conjunto de entrenamiento fue 12,16,20

Epistemológico utiliza las relaciones entre las cosas para crear analogías y completar datos faltantes utilizando datos similares. “¿Por qué mi gato no puede ser presidente?” “Debes tener 35 años para ser presidente, y los gatos no viven tanto” requiere epistemología.

La convergencia es la cantidad de solucionadores de ecuaciones que funcionan. Encuentran una función que predice un resultado modificando otra función. Esto es útil si solo tiene aproximadamente 3 variables, y el resultado final parece una función estándar.

N-Tree es un método mediante el cual se ponderan varias opciones posibles y el resultado final es una especie de puntaje acumulativo de esos. “¿Es un mamífero o un pez”
Tiene piernas +40 para mamíferos
Tiene agallas + 40 para peces
Tiene pulmones + 40 para mamíferos
Pone huevos + 25 para pescado
Tiene piel + 25 para mamíferos

Scripted no es realmente ML, pero las personas que hacen scripted afirman que sí. La secuencia de comandos es como “¿Cómo estás?” “Aparte de que me digan que tengo cáncer de páncreas y moriré en una semana, estoy bien” y el sistema dice “Si ‘Bien’ en respuesta, diga:” Me alegra escuchar eso ”

La heurística utiliza un proceso de eliminación para determinar el resultado más probable.

Deterministic utiliza un conjunto de reglas o cálculos para hacer una determinación. En el ejemplo del Triángulo, el sistema habría observado la relación entre lados y conocería a ^ 2 + b ^ 2 = c ^ 2 y funcionaría para cualquier valor de a y b.

Tipo de compañía:

Constructores de motores que crean nuevas tecnologías para que otros las usen. Como Google haciendo que Tensor fluya.

Los implementadores que usan un motor de otra persona y los datos que tienen para construir una solución.

Scripters que toman un motor y datos de otros y simplemente le ponen una bonita interfaz de usuario.

Fraudes que le dicen que están construyendo IA que hace cosas imposibles usando Brain Science, o que tienen números de precisión que son indignantes porque engañaron al conjunto de prueba.

Clase de riqueza:

He pasado 15 años y millones construyendo un motor de IA y algunos productos a su alrededor. Eso significa que es posible para mí hacer algo revolucionario.

Las empresas que solo tienen 6 meses de edad, no importa cuánto financiamiento tengan, no están creando propiedad intelectual, en el mejor de los casos están pegando legos juntos.

Hay compañías que sacaron su IP de la Academia, pero eso generalmente significa que están severamente obstaculizados por los límites de esa licencia.

Esta es una pregunta muy amplia.

Trataré de responder enfocándome en el aspecto técnico.

Para obtener una respuesta más centrada en los negocios, le aconsejo que revise una de Auren Hoffman .

Una de las mayores diferencias entre las diferentes empresas de aprendizaje automático es el tamaño de los datos a los que tienen acceso: desde los jugadores más importantes (Facebook, Google) hasta las empresas más pequeñas (que a menudo dependen de los datos proporcionados por sus clientes).

Otra diferencia es el tipo de aprendizaje automático que utiliza la empresa. Podría ser aprendizaje profundo [1], aprendizaje de refuerzo [2], aprendizaje automático estándar (regresión lineal, árboles y similares) o cualquier combinación de estas técnicas y muchas otras.

Finalmente, las empresas difieren según las aplicaciones en las que están trabajando: desde startups con un enfoque limitado hasta grandes gigantes (Facebook, Google).

Así que para resumir:

  1. Tamaño de datos accesible
  2. Tipo de algoritmos de aprendizaje automático
  3. Área de aplicación

Espero que esto ayude.

Asegúrese de seguirme para obtener más respuestas: http://quora.com/profile/Yassine

Notas al pie

[1] Aprendizaje profundo – Wikipedia

[2] Aprendizaje de refuerzo – Wikipedia

Yo diría que las compañías más grandes tendrán ingenieros con mayor educación debido a su mayor presupuesto. Pero hay muchas startups por ahí con grandes mentes. ML es un capítulo relativamente nuevo en IA; no hay muchos expertos