¿Cuáles son algunos ejemplos de empresas no tecnológicas que crean valor a través del uso de Big Data y qué tecnologías específicas están utilizando, por ejemplo, Hadoop, sistemas dedicados, SAP en formas novedosas, piratas informáticos, etc.

Cualquiera que haga computación científica.

La informática científica ha sido históricamente la fuente de problemas de big data (y en su mayor parte, soluciones). El año pasado, visité algunas startups de Silicon Valley con problemas de big data que sentí que podrían haber sido resueltas fácilmente por un físico computacional; Una de esas aplicaciones era para un procesador de imágenes a gran escala que necesitaba una implementación sólida del modelo Ising. Estoy relativamente convencido de que las startups parecen haberse olvidado de que las personas pueden haber resuelto algunos (pero de ninguna manera todos) de los problemas computacionales de big data, así que pensé que debería dar un saludo a algunos de los “viejos” escuela “solucionadores de problemas de big data.

Por ejemplo, considere las siguientes empresas (que tienen mucha gente técnica que está resolviendo problemas decididamente no relacionados con el consumidor) y sus problemas de big data:

IBM (empresa) – Supera los estereotipos (desafortunadamente comunes) de ‘Big Blue’ como solo el inventor de la PC. Solo considere los esfuerzos científicos de IBM como Blue Gene (computadora de propósito general creada inicialmente para resolver el gigantesco problema de datos que plantea la biología computacional) y la computación cuántica. Todos estos presentan enormes problemas de computación científica que pueden generar petabytes de datos. ¿Necesito decir mas?
Renaissance Technologies (fondo de cobertura) – James Simons, matemático y fundador de Renaissance, crea mucho valor para sus inversores. Hasta donde puedo decir, las técnicas estadísticas (especialmente la minería de textos) son especialidades de casi todos los empleados técnicos (léase: casi todos) en RenTech. Sin embargo, si crees en Quora User, quizás la experiencia de Simons con Gauge Theories te haya ayudado. Para ser honesto, debería nombrar prácticamente todos los fondos cuantitativos , pero dado que Renaissance es conocido por su visión (relativamente) abstracta de cualquier mercado ‘mercantilizable’ como máquina generadora de señales, sirven como un gran ejemplo de estadísticas para la victoria.
Amgen (empresa) y Genentech : al menos cuando trabajaba en Pharma, Amgen y Genentech eran reconocidos por sus grupos de química computacional y biología computacional. El futuro del diseño racional de medicamentos requerirá encontrar formas combinatorias para reducir el espacio de estado (estimado) de [matemáticas] \ aproximadamente 10 ^ {160} [/ matemáticas] posibles moléculas pequeñas y medicamentos biológicos.
PARC (empresa) – Ethernet nació aquí. Ahora trabajan para resolver problemas como la dependencia energética utilizando simulaciones masivas que generan terabytes de datos.
Liga Mayor de Béisbol – Sabermetrics para las masas de fantasía.

La razón principal por la que menciono Scientific Computing es porque actualmente estoy trabajando en problemas de datos gigantes en DE Shaw Research . Estamos tratando de hacer que la biología computacional esté un poco más fundada en la física, así como ayudar a que las computadoras sean útiles en nuestra búsqueda de medicamentos diseñados racionalmente. Si está interesado en algunos de nuestros problemas de datos, le sugiero que consulte algunas de las publicaciones de nuestro grupo, para tener una idea de los grandes problemas de datos en física / química de los computadores.

Ver: http://www.deshawresearch.com/pu…

Cómo explicar el aprendizaje automático y la minería de datos a personas no informáticas

¿Existe una incrustación del espacio euclidiano en el espacio hamming?

¿Cuáles son los últimos algoritmos y técnicas para la corrección ortográfica?

Al aplicar redes neuronales para la clasificación binaria, ¿hay algún beneficio para el conjunto de entrenamiento que tiene un número igual de 0 y 1?

¿Cómo se recuperan los datos de los discos duros que se han eliminado?

¿Qué habilidades de programación específicas necesitan los estudiantes para producir prototipos en el MIT Media Lab?

Tesco, la cadena de supermercados del Reino Unido ha hecho un trabajo fantástico al monetizar los datos de sus clientes. A través de su programa de tarjeta de fidelización, están rastreando los hábitos de compra de 16 millones de familias y registran 6 millones de transacciones por día. Usan una empresa llamada Dunnhumby para ayudarlos a ejecutar este programa. Estos datos le permiten a Tesco decidir qué artículos poner a la venta, dónde colocarlos en las tiendas y cómo administrar su flujo de productos. Las estimaciones colocan el aumento de las ventas como resultado de este esfuerzo en al menos un 12% (de los primeros ensayos, fuente http: //business.timesonline.co.u …)

Nicolas Kruchten

Trabajé para un importante proveedor de telefonía celular y tienen toneladas de datos. OK, una especie de empresa tecnológica, pero un entorno bastante único. No tuve mucho contacto con otras divisiones de la empresa de telecomunicaciones, como líneas fijas, Internet o redes centrales, pero no tengo dudas de que todos sus equipos también registran todo esto. Apuesto a que cualquier otra organización similar que tenga un montón de hardware disperso en un área grande o pequeña también recopila una gran cantidad de datos: compañías de petróleo y gas, compañías de generación y distribución de energía, compañías aéreas / ferrocarriles / camiones / compañías de logística, etc.

En un sistema de operador móvil, esencialmente cada equipo registra datos cada pocos segundos en varios almacenes de datos. Hay equipos de personas, tanto interna como externamente, cuyo trabajo es crear herramientas para generar informes, analizar esos informes y tomar decisiones basadas en esos informes tanto en tiempo continuo / casi en tiempo real como semana a semana. o nivel mes a mes.

Por ejemplo, una torre celular contará los intentos de conexión, la intensidad de la señal, los paquetes perdidos, el rendimiento de datos, etc. Esto nos permite analizar llamadas perdidas, fallas de acceso, velocidad de carga y descarga, etc. a lo largo del tiempo y el espacio. Estos datos pueden conducir decisiones minuto a minuto para enviar equipos de reparación y decisiones año a año para invertir en actualizaciones de fibra o antena.

Un problema mucho más interesante para mí fue el ajuste: todo este equipo tiene una gran cantidad de parámetros que pueden afectar estas métricas, por lo que idear estrategias para ajustarlos es bastante interesante: debe probar nuevos parámetros y observar su impacto. ¡mientras se ejecuta una red en vivo! La red es muy heterogénea en términos de antigüedad y configuración del equipo, por lo que incluso tratar de entender qué funciona y qué no funciona y por qué es un desafío multidisciplinario importante: ingenieros de RF, analistas, ingenieros de transporte (por ejemplo, los enlaces de regreso al núcleo red), ingenieros de redes principales, los proveedores que construyeron las antenas, los equipos de construcción, etc.

Nicolas Kruchten

More Interesting

¿Cuáles son algunos de los conjuntos de habilidades esenciales que debe tener un desarrollador de aprendizaje automático?

¿Existe algún uso práctico de la teoría de la información en los algoritmos de aprendizaje automático aplicados en la industria financiera?

¿Cómo funciona el modelo de atención con LSTM?

¿Podemos agregar la capa SVM como capa inferior en la arquitectura CNN para una mejor clasificación?

¿Qué tipo de sistema de recomendación usar con datos extremadamente escasos?

Cómo hacer frente al aprendizaje de la ciencia de datos

¿Cómo se pueden utilizar los autoencoders apilados para preentrenar una red neuronal que tiene más neuronas en las capas ocultas que entradas? es posible?

¿Debo aprender C ++, Python o Java para construir un sistema de aprendizaje automático de grado de producción?

¿Qué es una transformación de características en el aprendizaje automático?

¿Cómo determinar el refuerzo lateral en la pila? ¿Cuáles son las especificaciones simplificadas?