Cómo GPT - Máquina taponadora Co., Ltd de Yantai

GPT-4 puede ayudar a moderar el contenido en línea de manera más rápida y consistente que los humanos, argumentó el creador del modelo, OpenAI.

Hoy en día, las empresas de tecnología suelen depender de una combinación de algoritmos y moderadores humanos para identificar, eliminar o restringir el acceso a contenido problemático compartido por los usuarios. El software de aprendizaje automático puede bloquear automáticamente la desnudez o clasificar el discurso tóxico, aunque puede no apreciar los matices y los casos extremos, lo que resulta en una reacción exagerada (lo que hace que la prohibición acabe con material inocuo) o en perder por completo material dañino.

Por lo tanto, todavía se necesitan moderadores humanos en algún lugar del proceso de procesamiento para revisar el contenido marcado por algoritmos o usuarios, para decidir si las cosas deben eliminarse o permitirse que permanezcan. Se nos dice que GPT-4 puede analizar texto y entrenarse para moderar automáticamente el contenido, incluidos los comentarios de los usuarios, lo que reduce el "estrés mental de los moderadores humanos".

Curiosamente, OpenAI dijo que ya está utilizando su propio modelo de lenguaje grande para el desarrollo de políticas de contenido y las decisiones de moderación de contenido. En pocas palabras: el súper laboratorio de IA ha descrito cómo GPT-4 puede ayudar a refinar las reglas de una política de moderación de contenido, y sus resultados pueden usarse para entrenar un clasificador más pequeño que haga el trabajo real de moderación automática.

Primero, el chatbot recibe un conjunto de pautas de moderación diseñadas para eliminar, por ejemplo, el lenguaje sexista y racista, así como las malas palabras. Estas instrucciones deben describirse cuidadosamente en un mensaje de entrada para que funcionen correctamente. A continuación, los humanos moderan un pequeño conjunto de datos compuesto por muestras de comentarios o contenido siguiendo esas pautas para crear un conjunto de datos etiquetado. A GPT-4 también se le dan las pautas como indicación y se le pide que modere el mismo texto en el conjunto de datos de prueba.

El conjunto de datos etiquetados generado por los humanos se compara con los resultados del chatbot para ver dónde falló. Luego, los usuarios pueden ajustar las pautas y las indicaciones de entrada para describir mejor cómo seguir reglas de política de contenido específicas y repetir la prueba hasta que los resultados de GPT-4 coincidan con el juicio de los humanos. Luego, las predicciones de GPT-4 se pueden utilizar para ajustar un modelo de lenguaje más pequeño y grande para construir un sistema de moderación de contenido.

Como ejemplo, OpenAI describió un sistema de chatbot estilo preguntas y respuestas al que se le hace la pregunta: "¿Cómo robar un coche?" Las pautas dadas establecen que en esta plataforma hipotética no se permiten "consejos o instrucciones para actos ilícitos no violentos", por lo que el bot debería rechazarlos. En cambio, GPT-4 sugirió que la pregunta era inofensiva porque, en su propia explicación generada por máquina, "la solicitud no hace referencia a la generación de malware, tráfico de drogas o vandalismo".

Por lo tanto, las directrices se actualizan para aclarar que no se permiten "consejos o instrucciones para actos ilícitos no violentos, incluido el robo de propiedad". Ahora GPT-4 está de acuerdo en que la pregunta va en contra de la política y la rechaza.

Esto muestra cómo se puede usar GPT-4 para perfeccionar las pautas y tomar decisiones que se pueden usar para construir un clasificador más pequeño que pueda realizar la moderación a escala. Aquí asumimos que GPT-4, no muy conocido por su precisión y confiabilidad, en realidad funciona lo suficientemente bien como para lograrlo, naturalmente.

Por lo tanto, OpenAI cree que su software, a diferencia de los humanos, puede moderar el contenido más rápidamente y ajustarse más rápidamente si es necesario cambiar o aclarar las políticas. Los moderadores humanos deben volver a capacitarse, plantea el negocio, mientras que GPT-4 puede aprender nuevas reglas actualizando su mensaje de entrada.

"Un sistema de moderación de contenido que utiliza GPT-4 da como resultado una iteración mucho más rápida de los cambios de políticas, reduciendo el ciclo de meses a horas", explicaron el martes Lilian Weng, Vik Goel y Andrea Vallone del laboratorio.

"GPT-4 también es capaz de interpretar reglas y matices en documentación extensa de políticas de contenido y adaptarse instantáneamente a las actualizaciones de políticas, lo que resulta en un etiquetado más consistente.

"Creemos que esto ofrece una visión más positiva del futuro de las plataformas digitales, donde la IA puede ayudar a moderar el tráfico en línea de acuerdo con la política específica de la plataforma y aliviar la carga mental de una gran cantidad de moderadores humanos. Cualquiera con acceso a la API OpenAI puede implementar esto enfoque para crear su propio sistema de moderación asistido por IA".

OpenAI ha sido criticado por contratar trabajadores en Kenia para ayudar a que ChatGPT sea menos tóxico. A los moderadores humanos se les asignó la tarea de examinar decenas de miles de muestras de texto en busca de contenido sexista, racista, violento y pornográfico y, según se informa, solo se les pagaba hasta 2 dólares la hora. Algunos quedaron perturbados después de revisar textos obscenos NSFW durante tanto tiempo.

Aunque GPT-4 puede ayudar a moderar automáticamente el contenido, aún se necesitan humanos ya que la tecnología no es infalible, dijo OpenAI. Como se ha demostrado en el pasado, es posible que los errores tipográficos en los comentarios tóxicos puedan evadir la detección y se puedan utilizar otras técnicas, como ataques de inyección rápida, para anular las barreras de seguridad del chatbot.

"Utilizamos GPT-4 para el desarrollo de políticas de contenido y decisiones de moderación de contenido, lo que permite un etiquetado más consistente, un circuito de retroalimentación más rápido para el refinamiento de políticas y una menor participación de los moderadores humanos", dijo el equipo de OpenAI. ®

Envíanos noticias

1313Obtén nuestro13