¿Con qué frecuencia los científicos de datos usan Matlab?

Los científicos de datos usan Matlab raramente y a un ritmo decreciente. Los principales idiomas para los científicos de datos son R y Python.

Según Stack Overflow Trends, las búsquedas de Matlab alcanzaron su punto máximo en 2015 y han estado disminuyendo constantemente desde entonces, mientras que Python y R han crecido rápidamente en el volumen de uso / búsqueda.

Esto, por supuesto, no es un proxy perfecto para el uso de un lenguaje por parte de los científicos de datos, pero es indicativo de la popularidad general del idioma. Además, dado que la ciencia de datos se ha vuelto mucho más popular, podemos suponer que un lenguaje utilizado en ciencia de datos debería crecer en popularidad. De hecho, el crecimiento en Python es casi seguro debido a sus aplicaciones de ciencia de datos (¿Por qué Python está creciendo tan rápido? – Stack Overflow Blog).

Matlab se usa hasta cierto punto en la academia porque Mathworks ofrece licencias académicas gratuitas, pero rara vez se usa en la industria debido a los altos costos de las licencias. La “ciencia de datos” generalmente se refiere a la práctica aplicada en la industria, por lo que me siento aún más seguro en mis afirmaciones aquí.

En mi experiencia personal, entre las empresas donde he trabajado y los lugares donde he entrevistado, los científicos de datos se dividen aproximadamente 50/50 entre Python y R. La gente podría haber conocido a Matlab, pero cuando la mayoría de los científicos de datos usan Python o R, es importante aprender uno de esos para colaborar.

En Quora Data Science, usamos Python, que funciona especialmente bien con nuestra base de código Python. Si esto le interesa, estamos contratando: científicos de datos, gerentes de ciencia de datos, pasantes de ciencia de datos y nuevos graduados en ciencia de datos.

La ciencia de datos no está en la descripción principal de mi trabajo, pero lo hago con bastante frecuencia, y dado que trabajo en MathWorks, generalmente comienzo con MATLAB y, ocasionalmente, con Python según sea necesario, porque MATLAB puede llamar a los módulos de Python: Llamar bibliotecas de Python

El lenguaje que use realmente debería depender de la tarea en cuestión. Si está haciendo un análisis estadístico simple de datos numéricos tabulares con solo visualizaciones e informes como salida, puede usar prácticamente cualquier cosa.

Piense de dónde provienen los datos (ascendente), a dónde va su resultado (descendente) en todo el flujo de trabajo. Luego comienza a ver qué opción se adapta mejor a sus necesidades.

Por ejemplo, si sus fuentes de datos son sensores que transmiten datos, ¿qué debe hacer? Aquí hay un ejemplo divertido de cómo procesas un feed de cámara web en tiempo real:

Resolver un rompecabezas de Sudoku usando una cámara web

Los científicos de datos deben saber cuán importante es que procese datos sin procesar de manera estandarizada y repetible para la escalabilidad. Y el procesamiento de imágenes y la visión por computadora son cada vez más importantes para los científicos de datos. Una vez que IoT despega, lo mismo ocurre con otro tipo de datos del sensor. Hace poco leí que Spotify usa espectrogramas de audio en sus recomendaciones de Discover Weekly. La magia que hace que las listas de reproducción de Discoverify Weekly sean tan buenas, y MATLAB es realmente bueno en ese procesamiento de señales.

Ahora hablemos sobre el río abajo. Como ejemplo, discutí por qué Netflix no podía usar la solución ganadora del Premio Netflix en una publicación de blog aquí: Loren sobre el arte de MATLAB

En pocas palabras, no pensaron en el problema de implementación posterior cuando diseñaron el concurso. La mejor práctica es usar un entorno diferente para la creación de prototipos (necesita una iteración rápida) y para la producción (necesita escalabilidad), y por lo tanto, debe pensar en cómo mover sus modelos de un entorno a otro. A menudo, las personas tienen que volver a implementar manualmente el código para mover el algoritmo al entorno de producción, pero este es un proceso que requiere mucho esfuerzo y no es de extrañar que tengamos escasez de científicos de datos.

La mayoría de los lenguajes de uso de producción pueden incorporar módulos C / C ++, y MATLAB ofrece opciones para generar código C / C ++ directamente desde el código MATLAB, que resuelve el problema de implementación.

Aquí hay un ejemplo de implementación de un código MATLAB en iPhone y Android usando esta metodología.

MATLAB para iPhone y Android de forma fácil

Para obtener más información sobre cómo se usa MATLAB en el contexto de la ciencia de datos, visite esta página Análisis de datos

Depende

En la Academia, a menudo se usa Matlab, y en general ofrece un soporte mucho mejor que Python o R. Por cierto, estoy bien versado en los tres idiomas.

No diría que uno es mejor que el otro, pero Matlab cuesta mucho dinero, por lo que para las startups con pocos fondos, comprar una licencia no es realmente una opción.

Hola, en Dataiku nuestros científicos de datos no usan tanto Matlab. Matlab es bastante útil si desea realizar un procesamiento de imágenes o si necesita crear algoritmos potentes. Pero como no es gratis y es demasiado pesado, nuestro DS utiliza algunas soluciones. Al igual, nuestro software DSS les permite usar un poco de Python y evitar quedarse atascados con cosas tan grandes. Si desea saber más al respecto, le sugiero que eche un vistazo a este tema de Kaggle sobre Matlab, R o Python.

Matlab es una gran herramienta para crear prototipos de algoritmos y soluciones, tanto en la Academia como en la industria, puede usarlo para probar rápidamente ideas, algoritmos y variantes sin necesidad de pasar mucho tiempo programando.

La frecuencia con la que se usa depende de quién lo esté usando y cuál es el problema que debe resolverse, pero diría que se usa más de lo que imaginamos.

Luis

Los científicos de datos de la nueva escuela apenas usan Matlab, principalmente trabajan en Python. En mi caso, nunca he usado Matlab, pero he oído que es extremadamente poderoso.

Me gradué en 2012, en aquellos días, solía trabajar en Stata o Excel. Todo lo que puedo decir ahora es que no he abierto Stata desde allí.

Me gustaría resaltar, si te gusta Matlab, definitivamente debes usarlo como tu arma principal.

Hola,

En mi experiencia no demasiado. He usado bastante Matlab cuando trabajaba en un laboratorio de ingeniería. Cuando me mudé a un entorno de estadísticas / ciencia de datos más tuve que agregar R a mi caja de herramientas, porque la gente estaba usando R o Python. Fueron 5 años, pero las cosas no han cambiado en ese sentido.

Espero eso ayude

Muy raramente en comparación con R y Python. Una gran parte de esto, en mi opinión, se debe a que la mayoría de los paquetes estadísticos se desarrollan en R y Python en lugar de Matlab.

More Interesting

¿Por qué el bosque aleatorio (scikit-learn) usa tanta memoria? ¿Existen otras implementaciones además de scikit-learn que son más eficientes en memoria?

¿Cómo continuaría preparándose para una entrevista de ciencia de datos sobre estructuras de datos y algoritmos en R?

¿Qué empresas están haciendo aprendizaje automático real en lugar de ciencia de datos hacky?

¿Hay alguna organización / empresa que trabaje en big data y análisis de datos en o alrededor de Pune?

¿Desde dónde debería comenzar para aprender el desarrollo de big data?

¿Por qué hay tanta locura por la ciencia de datos en estos días?

¿Cuáles son algunos buenos paquetes de R para el análisis de datos cualitativos?

¿Existe alguna buena información para el aprendizaje automático de pronóstico de demanda de capacitación? Estoy buscando datos de ventas de series temporales con muchos atributos.

¿Cuál es una mala manera de comenzar a aprender ciencia de datos, aprendizaje automático y aprendizaje profundo?

¿Qué gráficos de Nvidia, GeForce o Quadro, son los mejores para aplicaciones de análisis de datos grandes, modelado computacional y ciencia de datos?

¿Cuáles son algunos de los principios de ingeniería de software que todo científico de datos debe conocer? ¿Cómo los aprendes?

¿Es una buena idea obtener un doctorado en Data Science si quiero trabajar en la industria?

Estoy interesado en la ciencia de datos. Pero no tengo conocimiento sobre Linux, SQL o ningún lenguaje de programación. ¿Puedo seguir persiguiendo esto?

¿Cuál es la diferencia entre especialización y generalización en DBMS?

¿Hay algún beneficio al agregar las características originales junto con las reducidas por PCA?