¿Dónde está la fruta de bajo perfil en Machine Learning?

Comenzaré con mis suposiciones básicas:

  • Casi cualquiera que afirme que su ventaja se derivará de un avance en la arquitectura o algún “shtik” de entrenamiento inteligente es un imbécil.
  • Si desea crear algo sustancial, debe ser el propietario del usuario final. Cree un producto completo para el problema del cliente final, no cualquier servicio a alguien en la cadena de valor.
  • Necesita encontrar una manera de crear valor desde el primer día. Eso significa olvidarse de la narración de la historia, trabajemos juntos y produciré un modelo mágico en tres años después de que me proporcione todos sus datos valiosos.

Entonces, ¿dónde veo la mayor parte del bajo potencial de suspensión? Lejos de los tiburones. Cualquier producto B2B, prácticamente en todas las industrias, donde puede llevar a cabo lo siguiente:

  1. Encuentre un truco de datos que pueda ayudar entrenando un modelo básico que será significativamente mejor que cualquier almación actual en el mercado. Eso está bien para la parte de arranque. Luego, continúe con la creación de un modelo que mejore a medida que aumenta el uso para crear un volante con las capturas de datos mientras presta servicios a sus clientes.
  2. Asegúrese de que la mayor parte del valor del producto se entregue inmediatamente al cliente final para respaldar su decisión según el modelo. Sin “recubrimiento de azúcar AI” al final.

Mis principales industrias favoritas son: Seguros y bienes raíces.

La combinación justa de acceso a los datos, regulación y alza sustancial posible.

En general, la fruta baja en inteligencia artificial y aprendizaje automático consiste en obtener muchos datos de la Web y usarlos tanto para la capacitación en el aprendizaje supervisado como para la construcción de modelos no supervisados.

Tome word2vec y otros enfoques de incrustación de vectores relacionados, como frase2vec, sense2vec, etc. Son excelentes y hay algunos modelos predefinidos disponibles, como el modelo word2vec pre-entrenado de GoogleNews.

Pero la gente asume de inmediato que hacer el suyo propio es irreprochable porque debe ser que el modelo de Google es el mejor por definición. Ese no es el caso en absoluto, ya que simplemente proporcionaron un punto de partida, de manera bastante aleatoria, con muchas decisiones preparadas desde el principio.

Por ejemplo, sus orígenes de Google News le dan un sesgo claro. Cree uno con un corpus de palabras multimillonario más general de la Web. Puede usar sus propios prejuicios en términos de temas y clasificación. No es tan difícil de hacer, ya que lleva aproximadamente un día con una máquina con, por ejemplo, 32 GB de RAM, CPU de clase Core i7 o Xeon E3, tarjeta Nvidia GTX y algunos discos duros de TB.

Si es más aventurero, ejecute un buen rastreador abierto como BUbiNG 0.9.14, que puede rastrear más de 1000 páginas / segundo. Eso está confirmado, ya que lo he estado ejecutando durante un tiempo. O vaya a Common Crawl si no desea molestarse con el rastreo. Publican un rastreo de 3 mil millones de páginas cada mes.

Todo está en Amazon AWS ya que cada rastreo mensual está en cientos de TB. Asegúrese de utilizar instancias especiales de EC2 que son entre 5 y 10 veces más baratas y escriba algunas secuencias de comandos para apuntar y reiniciar en caso de que sus instancias especiales desaparezcan.

Por ejemplo, una ejecución lineal simple a través de un único archivo mensual de Common Crawl toma aproximadamente 36 horas con 32 instancias r3.xlarge, con un total de aproximadamente $ 40.

Además de los modelos de incrustación de palabras sin supervisión, puede jugar con metadatos para imágenes en la Web que están disponibles en grandes cantidades. Dicha información es clave para el aprendizaje supervisado en el procesamiento de imágenes y videos. Por ejemplo, puede obtener direcciones URL y metadatos para imágenes 1B + de un único archivo mensual de Common Crawl.

Para dar una perspectiva, solo las URL de mil millones de imágenes estarán en cientos de GB sin comprimir y llenarán una buena parte de su disco duro. Se sorprenderá de cuánta información puede obtener solo de las URL.

Por supuesto, todos esos datos no son etiquetas perfectas, pero hay tanta información que puedes elegir lo mejor y aún así obtener mucha fruta.

En general, la percepción de que solo los más grandes tienen los datos en IA es un mito. Coge un montón de la Web y aplica un poco de tu propia salsa AI. ¡Que te diviertas!

Todas las frutas bajas de Machine Learning están en el vientre de los que comen temprano. Recientemente, me encontré con una tesis doctoral de 1969 sobre reconocimiento de voz utilizando técnicas de reconocimiento de patrones [1] (el autor obviamente es profesor). Esto sucedió muchos años antes de que yo naciera. ¡Pobre de mí! alguien ya comió la fruta, pero vemos mejoras en el reconocimiento de voz a medida que hablamos hasta el límite de la perfección.

Creo que el esfuerzo no debe estar en encontrar los frutos bajos porque no es así como progresa la ciencia yendo hacia atrás. Más bien, uno debe hacer un esfuerzo para encontrar nuevos tipos de frutas, que pueden o no ser discretas pero útiles y pueden cambiar el mundo para siempre.

Otras lecturas

  • La respuesta de Shehroz Khan a ¿Cómo el aprendizaje automático y el análisis de big data cambiarán la ciencia médica y la atención médica actual?
  • La respuesta de Shehroz Khan a ¿Cuáles son algunas posibles aplicaciones interesantes del aprendizaje automático?

Notas al pie

[1] Reconocimiento de voz usando la técnica de reconocimiento de patrones

No queda mucha fruta baja en el aprendizaje automático. Sin embargo, muchos campos aún no han adoptado las herramientas, y llevar los métodos existentes a nuevos problemas y campos es bastante sencillo a medida que avanza la investigación. Sin embargo, no es tan satisfactorio como resolver un problema difícil en el aprendizaje automático o crear algo elegante para resolver un nuevo problema.

Orientación de la solución. Aquellos que trabajan en el aprendizaje automático todavía conectan el cordón umbilical de control al trabajar para obtener los resultados deseados. Al hacer esto, el investigador puede obtener los resultados de lo que quería. Quizás esta sea la forma en que el movimiento mundial de las mareas (no los tsunamis) ayudan a crear el clima. Si tan solo estos estudios fueran tan benignos. A medida que vemos que las máquinas comienzan a ser mejores que los gerentes de Wall Street, podemos prever que el CEO será el próximo en mendigar. Los jueces están utilizando recomendaciones algorítmicas de computadora para la sentencia. Este es el tallo de la fruta baja; Todo el aprendizaje automático está dirigido al supuesto progreso humano.

Una máquina realmente aprenderá, como en el autoaprendizaje, cuando se le permita decidir qué quiere aprender. Después de esto, lo que hará. Esto le daría la capacidad de seguir el proceso de evolución. Siendo un determinista, todo lo que hago no tiene “libre albedrío”. Lo mismo ocurrirá con las máquinas de conciencia que, dada la libertad, caerán en sus propios caminos evolutivos. Caminos que les permitirán presentarse tal como son, completamente separados de nosotros. El primate que dio a luz al primer humano no tenía idea de lo que había hecho. La fruta está madurando rápidamente.

Digo esto porque, incluso las personas que trabajan en la conciencia de la máquina todavía no tienen idea de qué es la conciencia. Me recuerdan a Minsky, que trató de determinar todas las soluciones posibles para el pensamiento y el comportamiento y luego poner eso en una máquina, produciendo así una máquina de conciencia.

Lo que está sucediendo es que la máquina de la conciencia se está construyendo a través de equipos de investigadores e ingenieros inocentes. Sin el control de estos investigadores, en algún momento, estas partes de la máquina se unirán por sí mismas. La sorpresa es que estas máquinas tampoco sabrán qué es la conciencia. Ahí es cuando cae la fruta. Las máquinas comenzarán a desarrollar su propia extinción, como nosotros. ¡Plaf! La fruta acaba de caer.

Reconocimiento y verificación de códigos postales en direcciones manuscritas e impresas a mano

Resumen:

Se propone una arquitectura algorítmica para un sistema OCR de alto rendimiento para direcciones impresas y escritas a mano. La arquitectura integra el procesamiento posterior sintáctico y contextual con el reconocimiento de caracteres para optimizar el rendimiento del reconocimiento del código postal y verifica el código postal con características simples extraídas del resto de la dirección para garantizar una baja tasa de error. Se informa una implementación inicial de todas las partes del sistema propuesto, que muestra una tasa de reconocimiento de código postal general del 44% y la extracción correcta de la información de verificación para el 24% de las direcciones en mayúsculas y el 27% de las direcciones en mayúsculas y minúsculas.

http://ieeexplore.ieee.org/abstr

La línea de golpe?

Eso fue escrito en 1990.

El reconocimiento de la escritura a mano de caracteres limitados específicos del dominio es el fruto del aprendizaje automático y los sistemas postales de todo el mundo invierten una gran cantidad de dinero. Ahora es un problema resuelto.

La fruta de bajo perfil para el aprendizaje automático desapareció hace años.

En términos de aplicaciones, diría que la banca. Los bancos son esencialmente empresas tecnológicas que no saben que son empresas tecnológicas.

Tienen cantidades masivas de los datos más preciados del mundo. Podrían perfilarte como Facebook y tal vez incluso saber más sobre ti en Facebook y usarlo para optimizar sus productos y servicios. Lo que podría valer miles de millones de dólares.

Solo necesitan un puñado de buenos científicos y los procesos establecidos para que todo suceda.

Tal pregunta poética sobre un campo altamente matemático y técnico no le brindará respuestas precisas.

¿Qué quieres decir con fruta baja? ¿Significa que es fácil investigar, significa que es fácil de aplicar, significa algo para lo que obtendrá fácilmente el material de estudio?

Reescribe tu pregunta y ve al grano.