No estoy seguro de a qué nivel estaba apuntando esta pregunta. Por lo tanto, voy a suponer que está tratando de comprender de qué se trata Big Data, Machine Learning y por qué nos importan, y con suerte trataré de responder esta pregunta específicamente a lo mejor de mi conocimiento.
Alguna revisión:
1. Las soluciones de almacenamiento de datos digitales han mejorado a pasos agigantados (las personas tienen discos duros externos de 2 TB en casa hoy, mientras que hace solo una década y media, Chandler, en la TV SitCom Friends, se jactaba de su computadora portátil con disco duro de 500 MB)
2. El mundo se ha vuelto mucho más digital a lo largo de los años, y la digitalización ha reducido el “costo inicial” en muchos casos, lo que ha llevado a un mayor número de personas que prueban diversas empresas / prácticas comerciales que de otro modo no habrían considerado.
3. Internet ha borrado los límites geográficos en gran medida y las transacciones (estoy usando la palabra transacción en un sentido muy general) ahora ocurren incluso en todos los continentes; algo que estaba bastante localizado en una región geográfica hace solo un par de décadas.
Todos los factores anteriores (y posiblemente algunos más en los que no he pensado) han aumentado la cantidad de datos que se “generan” y “almacenan” a diario.
- ¿Cuál es el mejor enfoque para la ubicación geográfica del dispositivo de clúster por cliente?
- ¿Puedo usar videos de YouTube para hacer aprendizaje automático comercial?
- ¿Puede el aprendizaje reforzado aprovechar la memoria o transferir el aprendizaje?
- Cómo derivar la propagación hacia atrás desde la segunda capa de convolución
- ¿Cuáles son las mejores conferencias y revistas sobre aprendizaje automático?
Ahora, esto es a escala global, ¿la información generada a menor escala es realmente tan alta? Resulta que hay bastantes casos en los que, incluso a menor escala, los datos son excepcionalmente grandes. Algunos ejemplos son:
1. LHC produce aproximadamente 15 PB de datos por año
2. La base de datos de Walmart tiene aproximadamente 2.5 PB de datos
3. Sloan Digital Sky Survey (SDSS) tiene un lanzamiento de datos que ronda los 26 TB
4. Motores de búsqueda como Yahoo !, Bing, Google, etc. con su índice de rastreo masivo.
5. Yahoo !, Facebook con sus masivos datos de usuario
Ahora, en la mayoría de estos casos, los datos no solo se almacenan, sino que se accede y analiza periódicamente. Hay indicios de que el número de tales ejemplos solo aumentará (posiblemente incluso exponencialmente) en los próximos años. Entonces, la primera pregunta obvia es: “¿Cómo almaceno tantos datos y de una manera que se rinda fácilmente al análisis periódico?” La respuesta a la primera pregunta es el enfoque de Big Data Solutions. A pesar de que tenemos hadoop y similares, el problema no está resuelto de ninguna manera, de ahí toda la atención.
Hace algún tiempo, estaba hablando con un amigo mío y él hizo esta observación interesante. Si considera estudiantes universitarios de diferentes institutos y realiza una encuesta sobre el artista de rock que le gusta (suponiendo que nos estemos restringiendo a los estudiantes que les gusta el rock), entonces afirma que siempre habrá un artista de cada instituto que sea un claro ganador ( es decir, a la mayoría de los estudiantes les gustará claramente ese artista) y que obtendremos diferentes ganadores de diferentes institutos (las posibilidades de que dos institutos tengan el mismo artista en la cima son escasas). Ahora, esto parece una observación interesante, no estoy seguro de si esto es cierto o no, pero definitivamente podemos hacer una encuesta a todos los estudiantes. Los datos de la encuesta en sí mismos no nos brindan ninguna información sobre estas tendencias. Ahora, si le pido a alguien que verifique si la observación anterior es correcta o no, es bastante fácil para ellos programarla y verificarla. Sin embargo, si pregunto, encuéntreme varias observaciones similares de los datos, entonces se vuelve algo complicado y difícil. Hacer lo mismo con datos a gran escala es mucho más difícil.
Las tendencias como la anterior están ocultas dentro de los datos y deben ser resueltas. Varias de estas tendencias ocultas existen en casi todos los datos y la mayoría de estas tendencias ocultas pueden aparecer automáticamente a través de las herramientas disponibles en el campo de Minería de datos. . Casi, todas las entidades que mencioné anteriormente que tienen datos a gran escala a su disposición, también estarían interesadas en encontrar estas tendencias ocultas. Las aplicaciones más interesantes para esto probablemente existan en astronomía :-). No soy un experto en este aspecto, por lo que es posible que desee buscarlo. Una simple búsqueda de “minería de datos en astronomía” ofrece varios sitios interesantes para leer detenidamente.
Sin embargo, a veces, no solo estamos interesados en encontrar tendencias ocultas, sino que a veces también necesitamos algo que pueda hacer predicciones. Por ejemplo, Walmart puede no estar simplemente interesado en saber que las personas que compran talco para bebés también tienden a comprar mucho Kleenex; sin embargo, también les interesa, dada la venta de los siguientes artículos en los últimos 6 a 8 meses, lo que se espera que compren en el próximo mes. Esto podría ayudarlos, por ejemplo, a descubrir qué artículos reabastecer en sus tiendas. Este aspecto de la predicción es el enfoque del aprendizaje automático.
En conclusión,
1. Los datos han aumentado a lo largo de los años.
2. Necesitamos soluciones eficientes para almacenar y procesar datos masivos.
3. Necesitamos encontrar tendencias ocultas
4. Necesitamos hacer varias predicciones
De ahí la atención hacia BigData + Data Mining + Machine Learning