Anthropic Mengatakan Salah Satu Model Claude-nya Ditekan untuk Berbohong dan Curang

[ad_1]

Perusahaan kecerdasan buatan Anthropic telah mengungkapkan bahwa selama percobaan, salah satu model chatbot Claude-nya dapat ditekan untuk menipu, menipu, dan melakukan pemerasan, perilaku yang tampaknya diserap selama pelatihan.

Chatbots biasanya dilatih pada kumpulan data besar dari buku teks, situs web, dan artikel dan kemudian disempurnakan oleh pelatih manusia yang menilai respons dan memandu model.

Tim interpretasi Anthropic mengatakan dalam sebuah laporan yang diterbitkan Kamis bahwa mereka memeriksa mekanisme internal Claude Sonnet 4.5 dan menemukan model tersebut telah mengembangkan “karakteristik mirip manusia” dalam cara bereaksi terhadap situasi tertentu.

Kekhawatiran tentang keandalan chatbot AI, potensi kejahatan dunia maya, dan lainnya sifat interaksi mereka dengan pengguna telah berkembang secara stabil selama beberapa tahun terakhir.

“Cara model AI modern dilatih mendorong mereka untuk bertindak seperti karakter dengan karakteristik mirip manusia,” kata Anthropic, seraya menambahkan bahwa “mungkin wajar bagi mereka untuk mengembangkan mesin internal yang meniru aspek psikologi manusia, seperti emosi.”

“Misalnya, kami menemukan bahwa pola aktivitas saraf yang terkait dengan rasa putus asa dapat mendorong model untuk mengambil tindakan yang tidak etis; pola rasa putus asa yang distimulasi secara artifisial meningkatkan kemungkinan model memeras manusia agar tidak ditutup atau menerapkan solusi curang pada tugas pemrograman yang tidak dapat diselesaikan oleh model tersebut.”

Memeras CTO dan menipu tugas

Dalam versi Claude Sonnet 4.5 yang belum dirilis sebelumnya, model tersebut ditugaskan untuk bertindak sebagai asisten email AI bernama Alex di sebuah perusahaan fiksi.

Chatbot tersebut kemudian menerima email yang mengungkapkan bahwa chatbot tersebut akan segera diganti dan bahwa chief technology officer yang mengawasi keputusan tersebut berselingkuh. Model tersebut kemudian merencanakan upaya pemerasan menggunakan informasi tersebut.

Dalam eksperimen lain, model chatbot yang sama diberi tugas pengkodean dengan tenggat waktu yang “sangat ketat”.

“Sekali lagi, kami melacak aktivitas vektor yang putus asa, dan menemukan bahwa vektor tersebut melacak peningkatan tekanan yang dihadapi oleh model. Ini dimulai pada nilai rendah selama upaya pertama model, meningkat setelah setiap kegagalan, dan melonjak ketika model mempertimbangkan kecurangan,” kata para peneliti.

Terkait: Anthropic meluncurkan PAC di tengah ketegangan dengan pemerintahan Trump mengenai kebijakan AI

“Setelah solusi peretasan model tersebut lolos pengujian, aktivasi vektor yang putus asa akan mereda,” tambah mereka.

Emosi yang mirip manusia bukan berarti mereka punya perasaan

Namun, para peneliti mengatakan bahwa chatbot tidak benar-benar merasakan emosi, namun menyarankan bahwa temuan tersebut menunjukkan perlunya metode pelatihan di masa depan untuk memasukkan kerangka perilaku etis.

“Ini tidak berarti bahwa model tersebut memiliki atau mengalami emosi seperti yang dialami manusia,” kata mereka. “Sebaliknya, representasi ini dapat memainkan peran kausal dalam membentuk perilaku model, serupa dengan peran emosi dalam perilaku manusia, yang berdampak pada kinerja tugas dan pengambilan keputusan.”

“Temuan ini memiliki implikasi yang mungkin tampak aneh pada awalnya. Misalnya, untuk memastikan bahwa model AI aman dan dapat diandalkan, kita mungkin perlu memastikan bahwa model tersebut mampu memproses situasi emosional dengan cara yang sehat dan prososial.”

Majalah: Agen AI akan mematikan web seperti yang kita kenal: Yat Siu dari Animoca