Golden Finance, OpenAI'nin CoT (düşünce zinciri) izlemeyi kullanarak en son araştırmayı yayınladığını, büyük modellerin saçma sapan konuşması ve gerçek niyetleri gizlemesi gibi kötü niyetli davranışları önleyebileceğini ve aynı zamanda süper modelleri denetlemek için etkili araçlardan biri olduğunu bildirdi. OpenAI, izlenen nesne olarak yeni piyasaya sürülen son teknoloji model o3-mini'yi ve monitör olarak daha zayıf GPT-4o modelini kullanır. Test ortamı, yapay zekanın birim testlerini geçmek için kod tabanında işlevsellik uygulamasını gerektiren bir kodlama görevidir. Sonuçlar, CoT monitörünün, yalnızca izlenen davranışların %60'ını çok aşan, %95'e varan bir hatırlama oranıyla sistematik "ödül korsanlığı" davranışını tespit etmede iyi performans gösterdiğini gösterdi.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
OpenAI, Büyük Modellerin Kötü Amaçlı Davranışlarını Durdurmak için CoT İzlemeyi Yayınladı
Golden Finance, OpenAI'nin CoT (düşünce zinciri) izlemeyi kullanarak en son araştırmayı yayınladığını, büyük modellerin saçma sapan konuşması ve gerçek niyetleri gizlemesi gibi kötü niyetli davranışları önleyebileceğini ve aynı zamanda süper modelleri denetlemek için etkili araçlardan biri olduğunu bildirdi. OpenAI, izlenen nesne olarak yeni piyasaya sürülen son teknoloji model o3-mini'yi ve monitör olarak daha zayıf GPT-4o modelini kullanır. Test ortamı, yapay zekanın birim testlerini geçmek için kod tabanında işlevsellik uygulamasını gerektiren bir kodlama görevidir. Sonuçlar, CoT monitörünün, yalnızca izlenen davranışların %60'ını çok aşan, %95'e varan bir hatırlama oranıyla sistematik "ödül korsanlığı" davranışını tespit etmede iyi performans gösterdiğini gösterdi.