¿Por qué están recibiendo tanta atención Machine Learning + Big Data?

No estoy seguro de a qué nivel estaba apuntando esta pregunta. Por lo tanto, voy a suponer que está tratando de comprender de qué se trata Big Data, Machine Learning y por qué nos importan, y con suerte trataré de responder esta pregunta específicamente a lo mejor de mi conocimiento.

Alguna revisión:
1. Las soluciones de almacenamiento de datos digitales han mejorado a pasos agigantados (las personas tienen discos duros externos de 2 TB en casa hoy, mientras que hace solo una década y media, Chandler, en la TV SitCom Friends, se jactaba de su computadora portátil con disco duro de 500 MB)
2. El mundo se ha vuelto mucho más digital a lo largo de los años, y la digitalización ha reducido el “costo inicial” en muchos casos, lo que ha llevado a un mayor número de personas que prueban diversas empresas / prácticas comerciales que de otro modo no habrían considerado.
3. Internet ha borrado los límites geográficos en gran medida y las transacciones (estoy usando la palabra transacción en un sentido muy general) ahora ocurren incluso en todos los continentes; algo que estaba bastante localizado en una región geográfica hace solo un par de décadas.

Todos los factores anteriores (y posiblemente algunos más en los que no he pensado) han aumentado la cantidad de datos que se “generan” y “almacenan” a diario.

Ahora, esto es a escala global, ¿la información generada a menor escala es realmente tan alta? Resulta que hay bastantes casos en los que, incluso a menor escala, los datos son excepcionalmente grandes. Algunos ejemplos son:
1. LHC produce aproximadamente 15 PB de datos por año
2. La base de datos de Walmart tiene aproximadamente 2.5 PB de datos
3. Sloan Digital Sky Survey (SDSS) tiene un lanzamiento de datos que ronda los 26 TB
4. Motores de búsqueda como Yahoo !, Bing, Google, etc. con su índice de rastreo masivo.
5. Yahoo !, Facebook con sus masivos datos de usuario

Ahora, en la mayoría de estos casos, los datos no solo se almacenan, sino que se accede y analiza periódicamente. Hay indicios de que el número de tales ejemplos solo aumentará (posiblemente incluso exponencialmente) en los próximos años. Entonces, la primera pregunta obvia es: “¿Cómo almaceno tantos datos y de una manera que se rinda fácilmente al análisis periódico?” La respuesta a la primera pregunta es el enfoque de Big Data Solutions. A pesar de que tenemos hadoop y similares, el problema no está resuelto de ninguna manera, de ahí toda la atención.

Hace algún tiempo, estaba hablando con un amigo mío y él hizo esta observación interesante. Si considera estudiantes universitarios de diferentes institutos y realiza una encuesta sobre el artista de rock que le gusta (suponiendo que nos estemos restringiendo a los estudiantes que les gusta el rock), entonces afirma que siempre habrá un artista de cada instituto que sea un claro ganador ( es decir, a la mayoría de los estudiantes les gustará claramente ese artista) y que obtendremos diferentes ganadores de diferentes institutos (las posibilidades de que dos institutos tengan el mismo artista en la cima son escasas). Ahora, esto parece una observación interesante, no estoy seguro de si esto es cierto o no, pero definitivamente podemos hacer una encuesta a todos los estudiantes. Los datos de la encuesta en sí mismos no nos brindan ninguna información sobre estas tendencias. Ahora, si le pido a alguien que verifique si la observación anterior es correcta o no, es bastante fácil para ellos programarla y verificarla. Sin embargo, si pregunto, encuéntreme varias observaciones similares de los datos, entonces se vuelve algo complicado y difícil. Hacer lo mismo con datos a gran escala es mucho más difícil.

Las tendencias como la anterior están ocultas dentro de los datos y deben ser resueltas. Varias de estas tendencias ocultas existen en casi todos los datos y la mayoría de estas tendencias ocultas pueden aparecer automáticamente a través de las herramientas disponibles en el campo de Minería de datos. . Casi, todas las entidades que mencioné anteriormente que tienen datos a gran escala a su disposición, también estarían interesadas en encontrar estas tendencias ocultas. Las aplicaciones más interesantes para esto probablemente existan en astronomía :-). No soy un experto en este aspecto, por lo que es posible que desee buscarlo. Una simple búsqueda de “minería de datos en astronomía” ofrece varios sitios interesantes para leer detenidamente.

Sin embargo, a veces, no solo estamos interesados ​​en encontrar tendencias ocultas, sino que a veces también necesitamos algo que pueda hacer predicciones. Por ejemplo, Walmart puede no estar simplemente interesado en saber que las personas que compran talco para bebés también tienden a comprar mucho Kleenex; sin embargo, también les interesa, dada la venta de los siguientes artículos en los últimos 6 a 8 meses, lo que se espera que compren en el próximo mes. Esto podría ayudarlos, por ejemplo, a descubrir qué artículos reabastecer en sus tiendas. Este aspecto de la predicción es el enfoque del aprendizaje automático.

En conclusión,
1. Los datos han aumentado a lo largo de los años.
2. Necesitamos soluciones eficientes para almacenar y procesar datos masivos.
3. Necesitamos encontrar tendencias ocultas
4. Necesitamos hacer varias predicciones
De ahí la atención hacia BigData + Data Mining + Machine Learning

Un gran ejemplo prometedor es el Watson de IBM. (IBM Watson, ¿Watson avanza significativamente en el estado del arte en IA y, de ser así, cómo?)
La cantidad de promesa que ha demostrado es asombrosa. Creo que Watson solo tendrá un gran impacto en muchas cosas para empezar. Proyectos similares en el futuro cercano van a afectar las cosas drásticamente. ¡Los datos son hermosos!

Big Data no es más que grandes volúmenes de información y si no sabe qué hacer con ese volumen de información, entonces no tiene sentido tener esa información, ahí es donde entra en juego el aprendizaje automático. El aprendizaje automático lo ayuda a extraer conclusiones / inferencias de partes de esa gran información.

Toma un ejemplo:

Desea crear una herramienta de identificación de correo no deseado para sus correos electrónicos que detecte automáticamente el correo no deseado cada vez que ingrese un nuevo correo electrónico.
Por lo tanto, los correos electrónicos ya existentes en su buzón de correo actuarán como su “Big Data”, algunos algoritmos de aprendizaje automático “aprenderán” de los correos ya existentes en la bandeja de entrada, spam, etc. e intentarán encontrar un patrón para los correos que ya están en el correo no deseado caja. Si el correo electrónico entrante coincide más con el patrón de spam que con cualquier otro patrón (bandeja de entrada / enviado / borrador, etc.), el nuevo correo electrónico se enviará a correo no deseado.

Las organizaciones y empresas de todo el mundo deben concluir “¿quiénes son sus clientes potenciales?”, “¿Dónde invertir?”, “¿Cuál será la mejor estrategia?” etc. Dado que las respuestas a estas impactarán dramáticamente en cómo las organizaciones de todo el mundo se benefician / obtienen ganancias, necesitan aprendizaje automático para brindarles soluciones. Pero el aprendizaje automático sin mucha información / datos es como dispararle al pájaro con los ojos cerrados, donde no puede estimar qué tan rápido está volando, a qué altura está volando, o está volando en absoluto.
Para utilizar el aprendizaje automático, necesitará datos / información tanto como sea posible.

Piense cómo Facebook o Twitter recomendarían amigos / seguidores o Amazon le recomendaría qué productos comprar. Recopilan información sobre sus amigos, sus intereses, sus hábitos de compra, etc. y luego ejecutan algoritmos de ML para mostrarle recomendaciones.

Para extraer completamente información valiosa de Big Data, necesitamos herramientas avanzadas. La herramienta / tecnología que está hecha a medida para este Big Data es el aprendizaje automático. El aprendizaje automático es un método de análisis de datos que automatiza la construcción de modelos analíticos. Mediante el uso de algoritmos que aprenden de manera iterativa de los datos, el aprendizaje automático permite a las computadoras encontrar información oculta sin tener que programar explícitamente dónde buscar.

El aspecto iterativo del aprendizaje automático es importante porque a medida que los modelos están expuestos a nuevos datos, pueden adaptarse de forma independiente. Aprenden de cálculos anteriores para producir decisiones y resultados confiables y repetibles. Es una ciencia que no es nueva, pero está ganando un nuevo impulso. Los datos grandes se tratan de datos inmensos, por lo que los algoritmos de aprendizaje automático funcionarán perfectamente en estos enormes conjuntos de datos y proporcionarán información lo suficientemente valiosa como para que cualquier empresa pueda utilizarla para obtener grandes ganancias y Conocerá la psicología del cliente y será fructífero para todos y cada uno de los ámbitos.

El potencial para optimizar las ventas / procesos / compromiso del cliente / etc … junto con las herramientas para realizar prácticamente este potencial son los impulsores de interés en big-data + machine learning. Tenemos suficientes datos y herramientas utilizables para entregar realmente valor comercial.

La tecnología para capturar datos, almacenar datos y acceder a datos ha evolucionado mucho más rápido que la tecnología para analizar datos. Para Big Data y datos no estructurados, el aprendizaje automático sigue siendo una solución popular y a menudo única, ya que el resto de la teoría estadística se desarrolló en una era en la que los datos eran mucho más escasos

Daré una explicación social.

Porque es una innovación informática que puede consumir mucho capital. Es lo que buscan los grandes inversores.

Me pregunto si alguna gente de las comunidades de ML / BD está hablando con investigadores cualitativos. Están sucediendo muchas cosas en muchos de estos datos que son de naturaleza cualitativa. Los analistas cuantitativos están limitados por las preguntas que pueden hacer. Las personas cualitativas están capacitadas para identificar tendencias importantes en un mar de ruido. Sería interesante ver si su forma de pensar podría ser emulada usando ML.

More Interesting

¿Por qué utilizamos la política codiciosa de epsilon para la evaluación en el aprendizaje por refuerzo?

Cómo implementar SVM yo mismo

¿Cuál es la función de zeropad en CNN?

¿Cuál es el objetivo de la detección de fraude con tarjeta de crédito?

Cómo llamar a clasificadores y conjuntos de datos de WEKA a Netbeans IDE 7.1

¿Cómo reconoce la red neuronal convolucional los objetos de las imágenes sin la percepción o reconocimiento 3D?

¿Cuál es su opinión sobre los rastros de elegibilidad para el aprendizaje de la diferencia temporal? ¿Es solo una asignación de crédito o un truco de aceleración?

¿Qué requisitos previos debe tener para aprender la teoría de las redes neuronales artificiales?

¿Cómo aprendo el aprendizaje automático y el procesamiento de imágenes para aplicaciones móviles? Por ejemplo, para usar los mismos efectos de filtro en aplicaciones iOS y Android, ¿debería usar Python?

¿Por qué la red bayesiana no ha tenido tanto éxito como la red neuronal profunda?

¿Qué se debe considerar al decidir entre usar un algoritmo de filtrado colaborativo basado en el usuario y en el elemento?

¿Es posible una batalla de humanos contra máquinas en el futuro previsible?

¿Qué conocimientos de matemática / estadística y CS debo dominar (no matemático / stat / CS, pero graduado en ingeniería) para carrera / investigación en aprendizaje automático?

¿Qué es AdaBoost?

¿Se están realizando estudios actuales que utilicen la minería de datos o el aprendizaje automático en campos científicos?