¿Cuál es el lenguaje más utilizado para el aprendizaje automático en la industria?

En la industria, la gente prefiere Python y R para el aprendizaje automático.

Python y R tienen las diferentes funcionalidades.

R: Pros y contras

Pro: una imagen dice más que mil palabras

Los datos visualizados a menudo se pueden entender de manera más eficiente y efectiva que los números sin procesar solos. R y la visualización son una combinación perfecta. Algunos paquetes de visualización imperdibles son ggplot2, ggvis, googleVis y rCharts.

Pro: ecosistema R

R tiene un rico ecosistema de paquetes de vanguardia y comunidad activa. Los paquetes están disponibles en CRAN, BioConductor y Github. Puede buscar en todos los paquetes R en Rdocumentation.

Pro: R lingua franca de ciencia de datos

R es desarrollado por estadísticos para estadísticos. Pueden comunicar ideas y conceptos a través del código R y los paquetes, no necesariamente necesita una formación en informática para comenzar. Además, se adopta cada vez más fuera de la academia.

Pro / Con: R es lento

R fue desarrollado para facilitar la vida de los estadísticos, no la vida de su computadora. Aunque R puede ser experimentado como lento debido a un código mal escrito, existen múltiples paquetes para mejorar el rendimiento de R: pqR, renjin y FastR, Riposte y muchos más.

Con: R tiene una curva de aprendizaje empinada

La curva de aprendizaje de R no es trivial, especialmente si proviene de una GUI para su análisis estadístico. Incluso encontrar paquetes puede llevar mucho tiempo si no está familiarizado con él.

Python: pros y contras

Pro: cuaderno de IPython

IPython Notebook facilita el trabajo con Python y los datos. Puede compartir fácilmente cuadernos con colegas, sin tener que instalar nada. Esto reduce drásticamente la sobrecarga de código de organización, salida y archivos de notas. Esto le permitirá pasar más tiempo haciendo un trabajo real.

Pro: un lenguaje de propósito general

Python es un lenguaje de propósito general que es fácil e intuitivo. Esto le da una curva de aprendizaje relativamente plana y aumenta la velocidad a la que puede escribir un programa. En resumen, ¡necesita menos tiempo para codificar y tiene más tiempo para jugar con él!

Además, el marco de prueba de Python es un marco de prueba incorporado de baja barrera de entrada que fomenta una buena cobertura de prueba. Esto garantiza que su código sea reutilizable y confiable.

Pro: un lenguaje multipropósito

Python reúne a personas con diferentes orígenes. Como lenguaje común y fácil de entender que los programadores conocen y que los estadísticos pueden aprender fácilmente, puede crear una herramienta única que se integre con cada parte de su flujo de trabajo.

Pro / Con: Visualizaciones

Las visualizaciones son un criterio importante al elegir el software de análisis de datos. Aunque Python tiene algunas bibliotecas de visualización agradables, como Seaborn, Bokeh y Pygal, quizás haya demasiadas opciones para elegir. Además, en comparación con R, las visualizaciones suelen ser más complicadas, y los resultados no siempre son tan agradables a la vista.

Con: Python es un retador

Python es un desafío para R. No ofrece una alternativa a los cientos de paquetes esenciales de R. Aunque se está poniendo al día

Hay muchos idiomas utilizados para el aprendizaje automático o en la amplia categoría de análisis de datos. Tienen su propio conjunto de diversas implementaciones útiles de algoritmos de aprendizaje y análisis y son aplicables en una amplia gama de escenarios diferentes. Y con un enfoque renovado en el análisis exploratorio de datos y una amplia oportunidad de análisis predictivo y prescriptivo utilizando el aprendizaje automático, se espera que la fuerza de estas herramientas crezca para resolver problemas más complejos. Una serie de herramientas de aprendizaje automático e idiomas se identifican como favoritos claros del buscador en este dominio.

Kaggle (Your Home for Data Science), una plataforma para analistas de datos e investigadores para casos de uso de análisis de datos experimentales y comerciales, analizó las herramientas utilizadas por las personas en la red. Descubrieron que R, Matlab, Sas, Weka (Java), SPSS ( IBM SPSS – IBM Analytics ) son las 5 herramientas principales utilizadas en el análisis de datos, con 543 de 1714 usuarios que prefieren R seguido de 200 usuarios que prefieren Matlab.

Del mismo modo, R es la Lingua Franca para el análisis de datos y el aprendizaje automático. Pero con el tiempo Python también emerge como una herramienta muy útil en el aprendizaje automático y el análisis de datos. En una encuesta realizada por KDNugets (SAS vs R vs Python: ¿Qué herramienta prefieren los profesionales de Analytics?) Entre más de 1000 profesionales sobre R, SAS y la proliferación de Python , se observó que aproximadamente el 42% de los usuarios prefieren R en comparación con el 20% de python y descansar como SAS. en un lapso de un año, Python creció significativamente.

El análisis de Kaggle también coloca a R en la parte superior de la tabla para un lenguaje favorable para el análisis de datos y el aprendizaje automático ( http://machinelearningmastery.co …)

Python es el lenguaje más preferido en el dominio de aprendizaje automático. Al igual que el tensorflow (MLL) que está en tendencia ahora y Python es un incentivo aquí.

Muchas otras bibliotecas avanzadas de ML usan python.

Así que adelante.

Aunque no conozco estos idiomas, pero al realizar una capacitación en línea sobre Data Science & Machine Learning en eDX.org, llegué a saber que R y Python son dos idiomas conocidos como estándar de la industria para Data Science y Machine Learning.

More Interesting

¿Qué herramienta es mejor para aprender una red neuronal AI, C ++ o MATLAB?

¿Cuánto costaría desarrollar la capacidad de reconocimiento de escritura a mano?

¿Qué debo hacer si determino que los resultados de mi conjunto de datos de entrenamiento difieren mucho de los resultados de mi conjunto de datos de prueba?

¿Cómo puede una red neuronal ser capaz de razonamiento simbólico? ¿Cómo puede unir variables?

¿Cuáles son los temas de investigación sobre aprendizaje profundo para la tesis de maestría?

¿Cuáles son los problemas con el enfoque de clasificación uno contra todos?

¿Dónde puedo encontrar corpus de texto médico en inglés para entrenar mis datos?

¿Por qué deberíamos considerar muestras negativas en un sistema de recomendación basado en comentarios implícitos?

¿Qué tipos de características se extraen de los archivos de voz utilizando predicción lineal y predicción no lineal?

¿Es un análisis de regresión múltiple más útil / perspicaz para la relación entre IV y DV que un ANOVA?

En una CNN, cuando la convolución se realiza entre 6 fuentes y 16 mapas como en LeNet, ¿cómo se hacen las convoluciones?

¿El procesamiento del lenguaje natural reemplaza la búsqueda elástica?

¿Qué métodos de aprendizaje automático lo llevarán al top 10 de las competencias de kaggle?

Visión por computadora: ¿cómo sé qué vector de características en un vector combinado es más confiable?

¿Qué es la perplejidad en el análisis bayesiano?