¿Qué enfoque debo tomar para manejar los datos de desequilibrio para crear un modelo de aprendizaje automático?

Aquí hay una sugerencia:

  1. Use polos opuestos opuestos en la diagonal. Esto crea datos exclusivos, con dos combinaciones para cada cuatro categorías: una en sentido horario y otra en sentido antihorario.
  2. Justifique los supuestos a nivel de sistemas de alguna manera, si es necesario. Por ejemplo, las máquinas podrían ‘entender’ que los opuestos crean exclusiones, porque los neutrales están excluidos. Las combinaciones involucran todos los datos, porque se supone que los datos son coherentes, para resolver el problema con la incoherencia matemática. Solo ciertas combinaciones por proceso de eliminación expresan todas las categorías en términos de categoría A. Las combinaciones para quadra en términos de Categoría A son AB: CD y AD: CB, ya que los opuestos deben permanecer en posiciones opuestas.
  3. Ahora, uno puede encontrar lógicas similares o sacar conclusiones basadas en estas formas de oraciones. Puede ser útil darse cuenta de que los estados y las cualidades son intercambiables, porque los humanos no hacen tanta distinción entre los estados y las cualidades. Ahora puede obtener conclusiones sofisticadas como “Los estoicos hermosos son sensibles a la fealdad” y “Las personas sensibles hermosas hacen estoicos feos”. ¡Observe cuán coherente y elegante es esto!
  4. Pregunta: ¿pero es AI? ¿O es algo más definido? Tal vez sea algo diferente tanto de los humanos como de la IA: ¡un sistema de conocimiento que tanto los humanos como las IA podrían usar con buenos resultados!

Más sistemas en: Teoría de sistemas (formal, aplicada, rúbrica, etc.)

Vea también mi publicación reciente con enlaces a artículos relacionados, etc.: la respuesta de Nathan Coppedge a ¿Qué sería un avance de IA en el lado del consumidor?

Sospecho que quiere decir “¿cómo debo lidiar con los datos desequilibrados w / r / t machine learning?”, Pero no estoy seguro. Los datos de desequilibrio son metadatos que definen las características de la falta de equilibrio, y en sí son una forma de tratar con datos desequilibrados, por lo que si realmente pregunta qué debe hacer con respecto a los datos de desequilibrio, la respuesta se explica por sí misma: desequilibrio en su modelo aplicando los datos de desequilibrio para ajustar su evaluación de estímulos. En otras palabras, si sus datos de desequilibrio dicen que el Caso A está sobrerrepresentado en un 100% en comparación con el Caso B, entonces el peso de los estímulos del Caso B duplica el valor de los estímulos del Caso A.

Sugeriría editar la pregunta para hacer que el problema sea más articulado y completo. Suponiendo que estoy en lo correcto, ¿qué hay de desequilibrado en sus datos y cómo lo sabe? ¿Un caso o escenario está excesivamente representado? ¿Por cuanto? ¿Y qué temes que suceda?