¿Qué significa exactamente la ingeniería de características en el foro de Kaggle? La tecnología cambia la vida futura

¿Qué significa exactamente la ingeniería de características en el foro de Kaggle?

En mi opinión, la ingeniería de características es el acto para transformar los datos de entrada (o características) para que puedan alimentar los algoritmos de aprendizaje automático o hacer una mejor predicción a través de algoritmos de aprendizaje automático. A continuación se presentan varios aspectos importantes de la ingeniería de características, ilustraré cada uno de ellos a través del desafío de clasificación de Airbnb más reciente:

Abordar el valor de la señorita. En el desafío de airbnb, faltan algunas edades. Necesitamos completar los valores faltantes o eliminar todas las instancias que contienen valores faltantes.
Abordar los datos categóricos. En el desafío de airbnb, hay algunos valores de datos como ‘masculino’ o ‘femenino’ en género. Necesitamos hacer que las características que no contienen valores numéricos sean numéricas, por ejemplo, mediante el uso de variables ficticias. En el caso de género, ‘masculino’ debería ser 1 y ‘femenino’ debería ser 0, por ejemplo. Tenga en cuenta que si desea implementar clasificadores de árbol como bosque aleatorio, no necesitamos transformar datos categóricos.
Formateo de datos especiales . Por ejemplo, las cadenas de fecha no son valores numéricos, por lo que no podemos usarlas en el aprendizaje automático. Una buena idea es dividir la fecha en año, mes y fecha, por lo tanto, tres valores enteros.
Creando nuevas características. A veces, crear nuevas funciones puede mejorar el modelo. Un ejemplo muy ilustrativo es, por ejemplo, si queremos predecir el precio de la vivienda en un área determinada. Tenemos largo y ancho de la casa. Podemos crear servilmente el área de la casa. No todas las nuevas características tienen sentido así. A veces, simplemente multiplicamos dos características juntas o simplemente tomamos el registro natural de una determinada característica (para que la distribución de la característica se parezca más a la distribución normal).

De ninguna manera es una lista exhaustiva. Pero para una lista simple, aquí está. Espero eso ayude.