¿Es cierto que la cantidad de datos es, con mucho, la ventaja competitiva más importante para las empresas de aprendizaje automático (por ejemplo, en automóviles autónomos)?

La calidad de los algoritmos es, con mucho, la mejor ventaja competitiva, tener 100 automóviles autónomos con un algoritmo de alta calidad capaz de aprender de muy pocos ejemplos puede poner a una empresa muy por delante de sus competidores.

La mejor idea actual para resolver la tecnología de automóviles sin conductor es en torno a arquitecturas de redes neuronales profundas. Todos sabemos que estos algoritmos están hambrientos de datos, por lo que las empresas están reuniendo muchos datos de capacitación con el fin de mejorar la relación señal / ruido y para entrenar los algoritmos de aprendizaje de refuerzo profundo notoriamente difíciles de entrenar y esperar lo mejor que podamos tener autos sin conductor después de eso.

Sin embargo, la realidad es diferente, el aprendizaje profundo no es la solución definitiva para los automóviles autónomos. Si a la compañía A se le ocurrió un conjunto secreto de algoritmos que pueden aprender de la menor cantidad de datos posible, todo se inclinará hacia la compañía A incluso cuando solo tengan 100 autos de prueba frente a 10 000 para la compañía B.

Es como Yahoo search vs Google search. La primera vez que se lanzó Google, Yahoo se negó a comprar el joven motor de búsqueda, alegando que ya habían resuelto la búsqueda. Poco sabían que Google era otra cosa, un motor de búsqueda de mayor calidad. Avance rápido, Google obtuvo todo el tráfico de búsqueda de Internet, ¿dónde está ahora la búsqueda de Yahoo?

Así que ahora estamos en una burbuja de grandes datos, espere a que explote cuando nuevos estudiantes de alta calidad con algoritmos de transferencia de conocimiento entren en escena. Tales algoritmos pueden revolucionar el campo de aprendizaje automático (ML) llevándolo a un nivel completamente nuevo. Si la empresa A desarrolló esos algoritmos, lo más probable es que los mantenga en secreto comercial para obtener una ventaja competitiva.

Espero que esto ayude.

No siempre. La ventaja competitiva es una situación empresarial, por lo que la respuesta depende del dominio.

La cantidad de datos es imprescindible si compite por una aplicación horizontal: involucrar a millones de personas con una salida simple. Pero si compite en una vertical (técnica, legal, donde trabaja en resultados importantes), necesita los datos correctos, la experiencia en el dominio y una tonelada de trabajo para ordenar los datos. 100x de datos pueden matarte.

Mira lo que les sucedió a las empresas de inteligencia artificial que intentaron cambiar el juego para los fondos de cobertura. Muchos fallaron porque les tomó demasiado tiempo obtener, limpiar y explotar los datos que estaban comprando. La velocidad es la ventaja competitiva para los comerciantes. Ahora ML se reposiciona para obtener resultados rápidos con modelos más simples y operativos.

Asumiré … ¿La compañía b en este escenario siendo Tesla antes o después de que un tipo fuera decapitado forzó a un socio necesario a dejar de trabajar con Tesla y vender a IBM? El “Autopilot 2.0 (beta … still …)” no funciona tan bien como 1.0 que dejaron de usar después de que el tipo fue decapitado. La compañía A es cualquier compañía que no lo está desplegando en la calle en autos que venden porque eso sería extremadamente peligroso.

La compañía de automóviles autónomos con la mejor seguridad informática y la menor vulnerabilidad será la más competitiva a largo plazo. Los problemas de seguridad evidentes que enfrentarán una vez a escala serán la mayor amenaza para la seguridad física de los autos pirateados.

Después de que tienen una cierta cantidad de datos, más no hace mucho.

Cualquiera puede hacer que un auto se conduzca solo. Sin embargo, mantener una computadora conectada a Internet de manera segura es un asunto completamente diferente. Una vez en el camino, deberán mantenerse constantemente durante una vida útil (ahora más corta) del vehículo.

No hemos fabricado computadoras inquebrantables y prometemos que los autos sin conductor serán seguros porque pueden mejorarse con actualizaciones por Internet y una compañía de seguros completará donde sea necesario.

Google es probablemente mejor en seguridad informática que cualquier otra persona. Especialmente mejor que Tesla, Uber, etc.

Si observa la prisa por ser el primero a la luz de toda la historia del automóvil, no es el primero que recibe la gran recompensa, es el que lo hace bien.

Esto no es diferente. Lanzarlo al mercado es solo para asegurar más dinero de inversión. Su vida no vale la pena el esfuerzo de hacer algo bien, es la actitud y de eso se trata la libertad, son libres de impulsar las leyes de seguridad y hacer que sea más difícil para los demás más adelante. Solo hacerlo para que tengan más datos no les da una ventaja lo suficientemente grande como para que realmente importe considerar que un gobierno en algún lugar podría decir “queremos todos los datos de todos” y alentarlos a compartir datos en nombre de la seguridad.

Un nivel básico de competencia es relativamente fácil de lograr, ir más allá de eso llevará más avances más allá de solo más datos. Cuando Elon Musk decidió vender el piloto automático 1.0, no hubo avances importantes en nada más que el riesgo que Elon Musk estaba dispuesto a asumir. Una docena de compañías podrían hacer lo que Tesla hizo con Autopilot, pero no es lo suficientemente seguro para sus estándares.

Más datos no ayudarán a Elon Musk a tomar decisiones menos codiciosas, es su único movimiento.

La clave es la cantidad de datos ÚTILES con buenos algoritmos para encontrar los datos deseados o las conclusiones de los datos lo más rápido posible. La recuperación y el uso de los datos es al menos tan importante como los datos en sí. Un ejemplo simple sería para el sistema de localización de refugiados que escribí para la Cruz Roja. El ejército también escribió uno. La principal diferencia fueron los algoritmos de búsqueda utilizados. Pasé el tiempo ordenando los registros por adelantado y, por lo tanto, podría usar una búsqueda binaria para recuperar el registro deseado. El ejército no clasificó sus registros, a pesar de que tenían la misma información que recibí. Luego usaron un registro por búsqueda de registros, con 10,000–50,000 refugiados que ingresaron por la isla, las búsquedas del Ejército fueron minuciosamente lentas. Por lo tanto, los datos son importantes, los datos útiles son críticos, los algoritmos de almacenamiento y recuperación marcan la diferencia.

Esto fue mucho más cierto en muchos dominios hace 5 años, porque en realidad había diferencias bastante sustanciales en los tamaños de los conjuntos de datos a los que las personas tenían acceso. Pero hoy en día, tengo la sensación de que la mayoría de las empresas en espacios similares tienen acceso a datos de tamaño bastante similar, a menudo adquiridos de proveedores. Si tiene 100,000 muestras de entrenamiento y sus competidores solo tienen 100 (lo cual fue bastante común durante un tiempo), eso hace una gran diferencia. Pero si tiene 2,000,000 y sus competidores tienen 1,000,000, entonces los algoritmos ganan el día.

Depende. Si tiene excelentes datos, puede encontrar fácilmente características con un algoritmo de mala calidad. Si tiene un gran algoritmo, puede encontrar características con menos datos y datos imperfectos. La pregunta es, ¿cuál de estos es más preciso para el tipo de datos que alcanzarán los autos sin conductor? La respuesta es la última. El algoritmo en el que entrena suele ser tan importante como los datos, ya que de él puede obtener serias mejoras y desventajas.

More Interesting

Visión por computadora: ¿cómo es la detección de objetos usando los puntos clave SIFT escala / rotacionalmente invariante?

¿Es Cortana de Microsoft una copia flagrante de Siri de Apple?

¿Cómo se compara la industria del aprendizaje automático con las opciones de carrera dentro del desarrollo web?

¿Scikit-learn admite paralelismo, es decir, se puede usar en un grupo de máquinas que ejecutan tareas en paralelo?

¿Dónde entran en juego las funciones de activación en una red neuronal de convolución?

¿Cuáles son algunos buenos documentos con ejemplos del mundo real del aprendizaje de refuerzo inverso (IRL)?

¿TF-IDF está categorizado como una selección de características o una extracción de características?

¿Cuál es el plan de estudios de maestría de Stanford en AI / ML?

¿Qué significa ser modelo pre-entrenado en CNN? ¿Ya están entrenados en esas clases particulares?

¿Es posible utilizar el aprendizaje automático en la votación para que podamos incluir las razones de los votantes en lugar de sí / no?

¿Qué es una explicación intuitiva de la estructura de datos del árbol B?

¿Es posible generar datos de expresión genética artificial? Las imágenes a veces se pueden perturbar para aumentar el tamaño de las muestras con fines de aprendizaje automático.

¿Se siguen evaluando empíricamente las arquitecturas de redes neuronales profundas?

¿Por qué las redes neuronales artificiales son "cajas negras"?

¿Qué es la optimización de colonias de hormigas y cómo funciona en términos simples?