¿Qué ha aprendido sobre el aprendizaje automático, la recuperación de información y la minería de datos después de unirse a una empresa de Internet que se ocupa de big data?

Mucho.

Breve resumen de los principales descubrimientos:

Hay mucho que se puede hacer con los datos. La mayor parte es elegante pero no tiene valor comercial. Elegir sabiamente. Déjate llevar por lo que quieres entregar, no por lo que sería genial construir.
Qué datos usar es la pregunta más importante. Descubrir cómo conectar los puntos entre diferentes áreas es un orden de magnitud más importante que saber cómo aprovechar al máximo los datos que provienen de un solo dominio.
La diferencia entre algoritmos es a menudo menor. La diferencia entre los métodos es a menudo enorme. Rara vez es la clave utilizar la regresión logística en lugar de un simple SVM. Sin embargo, es extremadamente importante tener la intuición que daría sugerencias en la línea de “filtrar por clics y ejecutar el filtrado colaborativo”.
Los datos siguen sorprendiendo incluso a las personas más experimentadas. La mayoría de las veces “los veteranos” tendrían una buena idea sobre cuál sería el resultado de cierto experimento o qué ideas valen o no vale la pena intentar. Pero de vez en cuando surgiría un caso contrario a la intuición y mantendría al equipo desconcertado durante varias horas o días. Esos son los momentos invaluables para aprender.
Las herramientas universales no valen la pena. Casi siempre es imposible predecir qué tipo de información sobre datos es la próxima gran cosa. Los intentos de construir una caja negra capaz de responder cualquier pregunta posible son en su mayoría inútiles. Cada nuevo tipo de experimento requeriría un nuevo código; esta es la idea para sentirse cómodo. Personalmente me encanta, pero algunas personas pueden tener reservas.

Actualización: Hice una publicación de blog con esta respuesta: Big Data Experience Takeaways.

Aprendizaje automáticoBig DataCiencia de datosdatosMinería dePregunta de encuestaRecuperación de información

¿Existen demostraciones efectivas de relevancia semántica?

¿Cuál es la diferencia entre tensorflow y CVX?

¿Las computadoras son ahora jugadores de póker más fuertes que los humanos?

Cómo modelar la siguiente situación probabilística

¿Cómo comenzarías en Computación ubicua y programación para ello?

¿Qué profesores / grupos / laboratorios están trabajando en el aprendizaje profundo en el MIT?

Pocas cosas aprendí después de unirme a la industria como una persona nueva y trabajando en proyectos relacionados con la minería de datos

Pocas cosas con respecto a los datos.

Google es la mayor amenaza sobre sus datos, quién sabe todo, incluso

A dónde vas
De quien hablas
Lo que navegas en internet
Tus detalles de contacto
Lo que te gusta y lo que compras
Sus datos bancarios, sí!

Facebook puede ser la próxima amenaza con respecto a la privacidad de los datos, quién sabe

Tu interés
Los detalles de tu familia, tus amigos
De quien hablas, de lo que hablas
Todo lo que haces en Whatsapp

No hay privacidad de datos en Internet, puede extraer datos de cualquier empresa. (Google, Facebook, Linkedin, Quora [todas las preguntas incluso con sus respuestas], yahoo o cualquier otra que se te ocurra)

Cuantos más datos tenga, más poderoso será

Para el análisis de redes sociales y las empresas orientadas a los datos, aumentar el compromiso del usuario y aumentar su red es más importante que los ingresos (mi observación personal)

Algunas cosas técnicas

Sentimiento del usuario (positivo, negativo, neutral), emociones (enojado, asco, sorpresa, feliz, triste) con respecto a cualquier producto, la entidad se puede calcular:)
La máquina puede ser entrenada para pensar como humano, basándose en datos históricos
La máquina puede entender el lenguaje natural del ser humano. (Si tiene información “12 de febrero de 1809 – 15 de abril de 1865” sobre Abraham Licoln, entonces la máquina puede decirle qué edad tiene Abraham Lincoln, los detalles de su carrera y mucho más)
Incluso el programa puede responder a sus preguntas, sí, es IBM Watson
Puede procesar cientos de GB de datos en un segundo, existen herramientas para esto
El procesamiento de datos no estructurados es una de las mejores ofertas en ciencia de datos
Puede crear un programa, que automáticamente escribe y publica artículos. Lectura de los detalles del mercado de valores de cualquier empresa. Natural Language Generations es lo que necesita saber.

Mihran Kalaydjian

No he trabajado con ninguna de las compañías mencionadas anteriormente; Pero una cosa que me destaca es que el software utilizado para procesar Big Data es el mismo. Son los datos en sí mismos los que parecen ser la pieza valiosa del pastel. Todas las compañías que mencionó tienen grandes cantidades de datos; y eso es lo que los hace funcionar. Cada uno tiene acceso al software del otro (o tiene la capacidad de rivalizar entre sí para crear un software similar); pero la gran diferencia es que cada uno tiene diferentes tipos de datos. Esa será la ventaja competitiva en los próximos años de muchas empresas. Esto incluye Amazon y otros minoristas.

Pathan Karimkhan

La minería de datos es el tema de conversación de la industria tecnológica, ya que las empresas están generando millones de puntos de datos sobre sus usuarios y buscando una forma de convertir esa información en mayores ingresos. La minería de datos es un término colectivo para docenas de técnicas para obtener información de los datos y convertirla en algo significativo.

También necesita dispositivos adicionales para administrar los datos.

Mihran Kalaydjian

More Interesting

Redes neuronales artificiales: ¿Qué determina si un problema de clasificación no trivial para el aprendizaje profundo se puede dividir en capas convolucionales en lugar de capas completamente conectadas?

Durante el aprendizaje automático para la detección de objetos, ¿cómo puedo simular el efecto de la iluminación de diferentes días en mi conjunto de datos de entrenamiento?

¿Cuáles son los mejores software de aprendizaje automático de código abierto para reconocimiento facial?

¿Es realmente posible comenzar una carrera seria de IA / ML con el objetivo final de trabajar en un lugar como OpenAI, Google o DeepMind a través del autoestudio?

¿Por qué algunas personas confunden las estadísticas con el aprendizaje automático?

¿El aprendizaje automático va a derrocar al sistema dinámico?

¿Cuáles son las mejores técnicas para crear vectores de oraciones para el procesamiento del lenguaje natural?

¿Cuáles son los temas que debo saber antes de comenzar el aprendizaje automático?

¿Cuál es la entrada para un clasificador Naive Bayes?