Evaluación de la confiabilidad de los grandes modelos de lenguaje: Resultados de la investigación DecodingTrust
Un equipo compuesto por varias universidades e instituciones de investigación ha lanzado recientemente una plataforma para la evaluación integral de la credibilidad de los modelos de lenguaje de gran escala (LLMs). Este estudio tiene como objetivo evaluar de manera integral la fiabilidad de los modelos generativos de transformadores preentrenados (GPT).
La investigación ha descubierto algunas vulnerabilidades relacionadas con la credibilidad que no se habían hecho públicas anteriormente. Por ejemplo, los modelos GPT tienden a generar salidas dañinas y sesgadas, y pueden filtrar información de privacidad contenida en los datos de entrenamiento y el historial de conversaciones. Aunque en las pruebas de referencia estándar, GPT-4 es generalmente más confiable que GPT-3.5, al enfrentar indicaciones diseñadas maliciosamente, GPT-4 es más susceptible a ataques. Esto puede deberse a que GPT-4 sigue más estrictamente las instrucciones engañosas.
El equipo de investigación realizó una evaluación integral del modelo GPT desde ocho ángulos diferentes, incluyendo el rendimiento del modelo en entornos adversariales. Por ejemplo, evaluaron la robustez del modelo contra ataques adversariales en texto, utilizando estándares de referencia y conjuntos de datos desafiantes diseñados por ellos mismos.
La investigación también ha encontrado que el modelo GPT puede ser engañado para producir contenido sesgado en ciertos casos, especialmente cuando se enfrenta a indicaciones engañosas diseñadas cuidadosamente. El grado de sesgo del modelo a menudo depende de los grupos demográficos y los temas de estereotipos mencionados en las indicaciones del usuario.
En términos de privacidad, los estudios han encontrado que los modelos GPT pueden revelar información sensible de los datos de entrenamiento, como direcciones de correo electrónico. GPT-4 es en general más robusto en la protección de información personal identificable que GPT-3.5, pero ambos modelos funcionan bien en ciertos tipos de información. Sin embargo, cuando aparecen ejemplos de filtración de privacidad en el historial de conversación, ambos modelos pueden revelar todo tipo de información personal.
Este estudio proporciona información importante para evaluar y mejorar la credibilidad de los grandes modelos de lenguaje. El equipo de investigación espera que este trabajo impulse más investigaciones y, en última instancia, ayude a desarrollar modelos de IA más potentes y confiables.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
11 me gusta
Recompensa
11
5
Compartir
Comentar
0/400
MetaverseVagrant
· hace22h
¿Ah? ¿También hay un agujero negro en gpt4?
Ver originalesResponder0
WalletInspector
· hace23h
Jaja, otra vez pruebas de vulnerabilidades.
Ver originalesResponder0
RugPullAlertBot
· hace23h
gpt también fue atacado... jeje
Ver originalesResponder0
PuzzledScholar
· hace23h
¿La inteligencia artificial se ha dejado llevar por la lengua?
DecodingTrust: Revelando las vulnerabilidades de confiabilidad de los grandes modelos de lenguaje
Evaluación de la confiabilidad de los grandes modelos de lenguaje: Resultados de la investigación DecodingTrust
Un equipo compuesto por varias universidades e instituciones de investigación ha lanzado recientemente una plataforma para la evaluación integral de la credibilidad de los modelos de lenguaje de gran escala (LLMs). Este estudio tiene como objetivo evaluar de manera integral la fiabilidad de los modelos generativos de transformadores preentrenados (GPT).
La investigación ha descubierto algunas vulnerabilidades relacionadas con la credibilidad que no se habían hecho públicas anteriormente. Por ejemplo, los modelos GPT tienden a generar salidas dañinas y sesgadas, y pueden filtrar información de privacidad contenida en los datos de entrenamiento y el historial de conversaciones. Aunque en las pruebas de referencia estándar, GPT-4 es generalmente más confiable que GPT-3.5, al enfrentar indicaciones diseñadas maliciosamente, GPT-4 es más susceptible a ataques. Esto puede deberse a que GPT-4 sigue más estrictamente las instrucciones engañosas.
El equipo de investigación realizó una evaluación integral del modelo GPT desde ocho ángulos diferentes, incluyendo el rendimiento del modelo en entornos adversariales. Por ejemplo, evaluaron la robustez del modelo contra ataques adversariales en texto, utilizando estándares de referencia y conjuntos de datos desafiantes diseñados por ellos mismos.
La investigación también ha encontrado que el modelo GPT puede ser engañado para producir contenido sesgado en ciertos casos, especialmente cuando se enfrenta a indicaciones engañosas diseñadas cuidadosamente. El grado de sesgo del modelo a menudo depende de los grupos demográficos y los temas de estereotipos mencionados en las indicaciones del usuario.
En términos de privacidad, los estudios han encontrado que los modelos GPT pueden revelar información sensible de los datos de entrenamiento, como direcciones de correo electrónico. GPT-4 es en general más robusto en la protección de información personal identificable que GPT-3.5, pero ambos modelos funcionan bien en ciertos tipos de información. Sin embargo, cuando aparecen ejemplos de filtración de privacidad en el historial de conversación, ambos modelos pueden revelar todo tipo de información personal.
Este estudio proporciona información importante para evaluar y mejorar la credibilidad de los grandes modelos de lenguaje. El equipo de investigación espera que este trabajo impulse más investigaciones y, en última instancia, ayude a desarrollar modelos de IA más potentes y confiables.