¿Cómo se puede usar Big Data contra nosotros?

Big Data se está utilizando contra nosotros en este mismo momento de muchas maneras. Algunos ejemplos:

Cada negocio razonablemente sofisticado le ofrece el precio más alto que probablemente acepte, le ofrece más ventas / ventas cruzadas en cada oportunidad posible, optimiza las prácticas de facturación para maximizar los ingresos y la retención, y apunta a las comunicaciones para aumentar su probabilidad de gastar más.
El comercio de valores automatizado ha elevado los precios de las acciones por encima del valor que tendrían en un mercado no automatizado, lo que crea ganadores y perdedores.
Los principales gobiernos mantienen registros de sus llamadas telefónicas y correos electrónicos. Mantienen registros de su paradero a través de diversos medios, incluidas cámaras de tráfico, registros de teléfonos celulares y cámaras de seguridad. Podría decirse que estas cosas benefician el bien común, aunque puede encontrarlas utilizadas en su contra personalmente.
Las compañías de seguros de automóviles están comenzando a recopilar datos que pueden controlar su estado físico para conducir y las ubicaciones que frecuenta. Una vez más, posiblemente por el bien común, pero puede ser usado en su contra personalmente.
Los abogados pueden extraer las redes sociales, el historial web, etc. para presentar un caso en su contra.
El software inmobiliario ofrece una ventaja a los inversores en el mercado de la vivienda residencial, lo que aumenta los precios para los propietarios de viviendas.

Etcétera etcétera.

Big DataBig Data AnalysisData AnalysisData Science

¿Vale la pena aprender inteligencia empresarial tradicional en el momento del big data?

¿Cómo obtiene Seth Stephens-Davidowitz sus datos de Google?

¿El éxito del aprendizaje profundo es una noticia falsa?

¿Qué son los datos en bruto en las estadísticas?

¿Cuál es la mejor manera de dominar la ciencia de datos en R?

¿Qué tipo de pruebas estadísticas se pueden realizar en modelos estadísticos versus conjuntos de datos?

Soy partidario del uso de datos de manera efectiva y veo que el uso de Big Data cambia fundamentalmente la forma en que brindamos servicios y, en última instancia, vivimos nuestras vidas en el futuro. Sin embargo, dado que el alcance del impacto es tan grande, existe un requisito esencial en la industria para garantizar que se entregue de manera segura y responsable.

Los datos se utilizan para entrenar modelos que hacen predicciones sobre lo que puede suceder en el futuro y, a menudo, cuantos más datos tengamos, mejores serán los modelos que podamos entrenar. Y por “más” me refiero a más ejemplos, pero también incluye más atributos de información. Actualmente, estos modelos están en gran parte en manos de personas capacitadas en las disciplinas de estadística y aprendizaje automático. Entienden las probabilidades, el sesgo y la varianza, y pasan mucho tiempo para asegurarse de que los modelos no sobrepasen o no cumplan con los datos. También entienden y miden la precisión del modelo y se aseguran de que esto se tenga en cuenta al implementar el modelo. Esto es importante porque los resultados pueden afectar la vida de las personas. Pueden influir si puede obtener una hipoteca o si sus radiografías se diagnostican correctamente, etc. Sin embargo, no hay suficientes personas con este nivel de habilidad para satisfacer la demanda mundial de aprendizaje automático, por lo que la tecnología se está empaquetando y comercializando para que sea más accesible implementarla.

Al hacer esto, debemos asegurarnos de no permitir que la tecnología se convierta en una caja negra mágica y perder el enfoque en las pruebas, la medición y la comprensión del rendimiento de los modelos. Si reunimos conjuntos de datos amplios y los incorporamos a los modelos de aprendizaje automático, y no entendemos realmente cómo funciona el modelo y simplemente escupe una decisión, entonces comenzamos a tomar un camino que puede permitir que segmentos de la sociedad caigan en las grietas del error. Nuestros modelos.

Por ejemplo, suponga que tiene un excelente crédito y un buen ingreso. Usted va al sitio web de un banco, solicita una hipoteca y es rechazado. Estás sorprendido, el sitio no dice por qué y llamas al servicio al cliente y tampoco pueden decirte por qué. Entonces vas a otro banco y luego a otro y sigues siendo rechazado. Ahora, potencialmente hay un rasgo común con todos estos modelos que lo califica como de alto riesgo. Tal vez fue donde naciste, cuántas veces te has casado, cuántos dependientes tienes. Tal vez sea válido, tal vez no lo sea, pero sin visibilidad sobre las razones por las que te quedas en un agujero negro de aprendizaje automático.

Tal vez este no sea un gran ejemplo, los bancos ganan dinero proporcionando crédito, por lo que realmente deben ser muy diligentes con los modelos que crean y comprenderlos muy bien, y asegurarse de que los “falsos negativos” no les estén haciendo perder ingresos, es decir, hay un “costo” de tomar decisiones equivocadas. Pero, ¿qué pasa cuando no hay un gran costo para los falsos negativos?

Si tomamos otro ejemplo, tal vez esté solicitando un nuevo trabajo. Asistes a la entrevista, lo asumes, eres muy hábil para el papel y crees que lo has hecho bien. Están a punto de hacerle una oferta y dicen que quieren hacer una verificación de antecedentes para asegurarse de que todo esté bien. Proporcionas información básica, nombre, fecha de nacimiento, número de seguro social, etc. y un poco más tarde regresan y dicen que no eres apto para el puesto. Sin ninguna otra razón. Y lo mismo sigue sucediendo una y otra vez por toda la ciudad.

Ahora, este es un escenario inventado, pero supongamos que todos estos empleadores potenciales están utilizando una agencia de evaluación externa y esta agencia recopila una gran cantidad de datos oficiales (gubernamentales, criminales) y en línea (redes sociales) para alimentar una evaluación modelar y escupir un puntaje de “Buen empleado”. Ahora, el costo de hacer un “falso negativo” es bajo, simplemente contratan a la siguiente persona que obtenga una buena puntuación, pero para las personas que obtienen una puntuación baja y faltan roles, las razones de esto pueden no estar claras. Y las razones podrían volverse obtusas. Tal vez el modelo te califique bajo porque eres amigo de alguien en las redes sociales que ha sido condenado por fraude. Tal vez te “gustó” algo en la universidad que abogaba por una actividad ilegal. Tal vez le contaste una broma en línea, una broma que claramente era una broma para todos tus amigos, pero para una computadora puede calificarte como sexista. O tal vez la compañía de detección está comprando datos del proveedor de la tarjeta de fidelidad de su tienda y ha decidido que es más riesgoso porque compra dos paquetes de seis cervezas por semana. Simplemente no lo sabe, todo lo que sabe es que sigue obteniendo un “no” cuando está claramente calificado para el papel.

Una vez más, estos son escenarios inventados, pero si esto sucediera, se puede ver que los aspectos de la sociedad se sentirían como aspectos de sus vidas “decididos por las computadoras”. Esto no es realmente justo, está siendo decidido por las personas que construyeron los modelos y no fueron lo suficientemente diligentes como para garantizar que se implementaron de manera adecuada para que aquellos que los usaban entendieran el error y el razonamiento.

Por lo tanto, los riesgos son claros, pero, por supuesto, el uso de datos combinados con el aprendizaje automático tiene un enorme potencial positivo para beneficiarnos a todos en nuestra vida diaria. Desde una mejor atención médica, una mejor interacción con la tecnología, una mejor satisfacción en el trabajo hasta cambiar todo el equilibrio y las relaciones entre el trabajo y la vida. Pero hagamos esto, todos tenemos el deber de garantizar que esta tecnología se implemente de manera responsable y brinde un camino positivo hacia adelante.

Jeb Stone

More Interesting

¿Se considera que R no es adecuado para Big Data en comparación con Python?

¿Qué se siente ser un científico de datos en Tesla?

¿Puedo usar películas con subtítulos como conjunto de datos de entrenamiento para el reconocimiento de voz?

¿Qué se sigue investigando en bosques aleatorios?

¿Debo aprender R o Tableau primero?

He realizado mi pasantía en una empresa B2B y he realizado algunos análisis de datos como el porcentaje de daños, el retorno al origen y algunos otros. ¿Qué más puedo hacer con estos datos?

¿Consejos prácticos para el aprendizaje automático?

Cómo crear un cuaderno Jupyter en AWS

¿Es la ciencia de datos una sólida trayectoria profesional o simplemente otro rol sensacional que desaparecerá después de unos años de prominencia?

¿Qué es exactamente la minería de datos y cuál es su importancia?