Usted no
Machine Learning (ML) es una metodología de fuerza bruta (con técnicas inteligentes de optimización y aproximación) para encontrar la señal en el ruido.
Es difícil saber de antemano qué va a ser importante. Además, diferentes algoritmos de ML pueden encontrar / encontrarán algunas características más o menos importantes. Por ejemplo, a los árboles no les gustan las características dispersas aunque puedan ser muy puras, mientras que SVM puede manejar muchas características dispersas. (Por ejemplo, los árboles tienden a ignorar las características que tienen alta precisión pero poca memoria). Los árboles también son inestables, por lo que ajustar las características o el Conjunto de entrenamiento puede hacer que obtengas un árbol muy diferente. Por otro lado, SVM necesita que sus datos estén normalizados y, a veces, no funcionan bien con características que son multimodales.
- ¿Cuáles son las clases que debo tomar como estudiante universitario de B.Tech para una carrera en Data Science y qué buscan exactamente las empresas durante las prácticas?
- ¿Cuáles son algunos modelos precisos o exitosos de calificación de crédito entre pares y qué técnicas y métodos utilizan?
- ¿Cómo determina una empresa el ROI de un científico de datos o equipo de ciencia de datos?
- ¿Debo seguir escribiendo aplicaciones móviles o ciencia de datos?
- ¿Por qué la ciencia de datos es una obsesión? ¿Es realmente exagerado?
Además, en mi experiencia, crear inteligentemente nuevas funciones a partir de combinaciones de otras funciones puede ser bastante poderoso. Es difícil saber cuáles de antemano.
Además, cuanto más grande y más representativo (es decir, estratificado) el conjunto de entrenamiento (TS), mejor. Algunas de las características más débiles pueden tener poder predictivo cuando el TS es más grande.
Los algoritmos de ML obtienen toda la gloria, pero el arte de las características y los conjuntos de entrenamiento es lo que proporciona el combustible.