¿Debería considerarse el paso de preparación / preprocesamiento de datos una parte de la ingeniería de características? ¿Por qué o por qué no?

Creo que hay un límite difuso entre estas dos áreas de tareas. Veo la preparación de datos más como una tarea técnica / computacional. Por ejemplo, si piensa en obtener los datos en el formato “correcto”, elegir la estructura de datos / base de datos adecuada, y así sucesivamente.

Luego, está la limpieza de datos, que también se puede agrupar en la categoría “preparación / preprocesamiento”. Aquí, es posible que desee pensar en detectar duplicaciones, cómo lidiar con valores atípicos y cómo lidiar con datos faltantes.

Para mí, la ingeniería de características es un poco diferente. Lo veo más como un paso de “creación de datos / características” en lugar de un paso de “desinfección” de datos. La ingeniería de características puede incluir todo tipo de transformaciones de características en ambas direcciones: espacios de características de dimensiones más altas (p. Ej., Polinomios), espacios de características de dimensiones más bajas (reducción de dimensionalidad como PCA, LDA, etc., hash, agrupación), o usted mantiene las dimensiones pero cambiar la distribución de sus datos (p. ej., transformación de registros, estandarización, escalado min-max, etc.)

Related Content

Recientemente instalé Ubuntu, ¿cómo debo comenzar a jugar con él?

¿Cómo es la práctica en FiscalNote?

¿Qué biblioteca utiliza Quora para realizar el aprendizaje automático y el procesamiento del lenguaje natural?

¿Cómo se estructura un virus informático?

Flip Video: ¿Por qué no puedo escuchar el sonido cuando abro un archivo .WMV?

¿Puedo hacer una maestría en CS solo con experiencia en econometría?

¿Cuál es actualmente la mejor plataforma de casa inteligente?

More Interesting

¿Tengo una comprensión correcta del uso de memoria de los procesos?

¿Cuáles son algunas buenas referencias para aprender sobre los diferentes tipos de técnicas de desarrollo ágil y cómo / cuándo aplicar cada una?

¿La ley de Moore está a punto de morir?

¿Resolver una versión restringida de un problema NP-completo en tiempo polinómico implica que todos los problemas NP-completos, cuando se restringen a esa versión, pueden resolverse en tiempo polinomial?

¿Cuáles son las ventajas y desventajas de la computadora?

¿Cómo se usan los BITS de computadora para representar las letras del alfabeto?

¿Cuáles son algunas aplicaciones (aplicaciones móviles) que se basan en IA o aprendizaje automático?

¿Qué tan grande es un yottabyte, una unidad de medida como un gigabyte? ¿Hay suficientes datos en el mundo para almacenar en un yottabyte?

¿Cuánto mejorará el procesamiento del lenguaje natural para 2025?

¿Cómo es ser estudiante de CS / Ingeniería en Tufts?

¿Cuál es la diferencia entre multiprogramación, multitarea, multiprocesamiento y ejecución múltiple?

¿Qué es mejor, inteligencia artificial o desarrollo de software?

¿Qué es un DEBE tener habilidades para un desarrollador de aprendizaje automático?

¿Cuáles son ejemplos de problemas que se creía que eran NP completos pero que en realidad son P?

¿Un curso de CS es fácil o difícil?

Web Analytics