¿Alguien puede presentar un tutorial o un documento sobre cómo elegir el valor de ‘C’ en la función de regresión logística scikit-learn?

Del documento de scikit

C : float, default: 1.0

Inverso de la fuerza de regularización; debe ser un flotador positivo. Al igual que en las máquinas de vectores de soporte, los valores más pequeños especifican una regularización más fuerte.

De Coursera – Introducción de Andrew Ng al aprendizaje automático – en mis propias palabras.

La regularización se introduce en el modelo de aprendizaje para manejar el problema del sobreajuste (la hipótesis aprendida se ajusta bien a los datos de entrenamiento, pero no se generaliza a nuevos ejemplos en los datos de prueba).

Sobreajuste : si C es demasiado grande, la hipótesis aprendida será muy compleja. Por lo tanto, el modelo no se generalizará bien en nuevos datos. Este escenario se muestra en la parte derecha de la imagen.

Underfitiing : si C es demasiado pequeño, la complejidad de la hipótesis se reducirá. Por lo tanto, el modelo generalizó demasiado, lo que no es bueno. Esto se muestra en la parte izquierda de la imagen.

Buen ajuste: para encontrar el mejor ajuste que genere bien tanto en el tren como en el set de prueba,

  • Cree un rango de valores C C = […, .001, 0.1, 1, 10, 100,…]
  • Entrenar al modelo con cada valor de C
  • Probar el modelo y calcular la precisión de predicción
  • Seleccione el valor C para el que obtiene la mayor precisión.