El aprendizaje automático es otro término para las estadísticas, generalmente utilizado en el contexto de las empresas de informática o tecnología. Tiene un montón de entradas, quiere algo fuera del sistema y el sistema “aprende” a producir la salida estadísticamente más deseable. El campo académico “aprendizaje automático” consta de métodos para hacer esto y reinvenciones de cosas ya descubiertas en estadística:
Modelado Estadístico vs Aprendizaje Automático
Big data es una palabra de moda que utilizan los consultores, los CTO y los CIO para ir a conferencias costosas, volar alrededor del mundo, recoger proyectos de integración multimillonarios, crear una industria completa de libros, materiales, cabeceras informadas, etc. Su significado literal, aunque nadie parece estar de acuerdo con él, es “lo que estamos usando en este momento no puede hacer frente a lo que tenemos”. En la mayoría de las empresas, ese estado es permanente debido a infraestructuras de TI disfuncionales y altamente políticas, por lo que obtener cifras de ingresos limpias es un proceso de 6 meses. Debido a que necesitaban algo “nuevo” para justificarlo, los magos de la burbuja decidieron enfocarse en las cosas que los ejecutivos más molestos no entenderían, y decidieron etiquetar “big data” con “social” y “móvil” (aprendiendo a usar el correo electrónico fue lo suficientemente difícil para muchos de ellos). Eventualmente, la Ley de Moore y la falta de dólares duros producidos de la nada se ponen al día con “Big Data“, a menos que sean los “expertos” los que se trasladan a nuevas y más prestigiosas posiciones de burbuja en otras compañías o (incluso mejor) en institutos de investigación gubernamentales. y “think tanks” o los gerentes que se jubilan o son promovidos por responsabilidad.
Los sistemas distribuidos solo significan cierto grado de arquitectura de computadora paralela o concurrente. En lugar de tener una cabeza, tienes muchas cabezas que trabajan juntas. Si su estrategia unánime para lidiar con lo que usted piensa que es “Big Data” cuando quiere hacer algo de “aprendizaje automático” es irremediablemente ineficaz porque compró una solución de terceros instalada por una empresa de subcontratación en las profundidades de los suburbios de Bangalore, usted naturalmente pensará que la única forma de resolver ese problema, en lugar de escribir un software más eficiente que pueda manejar el problema en el hardware existente, es contratar nuevos expertos y gastar aún más millones para que su intento poco eficiente y mediocre de resolver el problema pueda corre un poco más rápido (después de todo, dado que lograste su despliegue, es tu bebé y no puedes matarlo sin matar tu carrera con él). A menudo, ni siquiera es necesario que te provoquen problemas de rendimiento reales. El objetivo del gerente es gastar tanto dinero como sea humanamente posible y, según lo permita la junta directiva, tratará naturalmente de buscar la mayor cantidad de palabras de moda posible, para que pueda crear diapositivas más gigantescas, tener un mayor número de empleados y ser incluso menos responsable de lo que deberían ser plazos y objetivos muy simples que él es demasiado incompetente para lograr (o que su organización de TI está demasiado podrida para ser rescatable).
- ¿Qué tecnología de big data es mejor para el procesamiento de datos en tiempo real?
- ¿Hay algún tipo de versión de conjunto de datos y versión de código, estilo GitHub para Data Science? (más fácil de usar que GitHub)
- ¿Cuál es la forma de explorar mis datos más fácilmente?
- DeZyre o Udacity Nanodegree: ¿Cuál recomendarías para un aspirante a científico de datos?
- ¿Qué me preparará mejor para convertirme en científico de datos: un título universitario relevante o autodidacta a través de Coursera, Kaggle y proyectos paralelos?
Para el 0.001% de las empresas, cuyos fundadores fueron multimillonarios antes de los 30 años, existen problemas reales de “big data”, “sistemas distribuidos” y “aprendizaje automático”. Si hace esta pregunta, definitivamente no está trabajando en un lugar que enfrenta estos problemas. Si escuchas a alguien a tu alrededor decir cosas como “debemos adoptar una arquitectura NoSQL para que sea a escala web”, DEFINITIVAMENTE no estás enfrentando ninguno de estos problemas.
Fuente: experiencia dolorosa e insoportable. El mío y el de otros.