Bit News Tsinghua KEG Lab baru-baru ini bekerja sama dengan Zhipu AI untuk bersama-sama meluncurkan generasi baru pemahaman gambar model besar CogAgent. Berdasarkan CogVLM yang diluncurkan sebelumnya, model ini menggunakan modalitas visual alih-alih teks untuk memberikan persepsi yang lebih komprehensif dan langsung tentang antarmuka GUI melalui agen GUI visual untuk perencanaan dan pengambilan keputusan. Dilaporkan bahwa CogAgent dapat menerima input gambar resolusi tinggi 1120×1120, dengan jawaban pertanyaan visual, pemosisian visual (Pentanahan), Agen GUI dan kemampuan lainnya, dalam 9 daftar pemahaman gambar klasik (termasuk VQAv2, STVQA, DocVQA, TextVQA, MM-VET, Paus, dll.) telah mencapai hasil pertama dalam kemampuan umum.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Tsinghua KEG Lab dan Zhipu AI bersama-sama meluncurkan CogAgent, model pemahaman gambar besar
Bit News Tsinghua KEG Lab baru-baru ini bekerja sama dengan Zhipu AI untuk bersama-sama meluncurkan generasi baru pemahaman gambar model besar CogAgent. Berdasarkan CogVLM yang diluncurkan sebelumnya, model ini menggunakan modalitas visual alih-alih teks untuk memberikan persepsi yang lebih komprehensif dan langsung tentang antarmuka GUI melalui agen GUI visual untuk perencanaan dan pengambilan keputusan. Dilaporkan bahwa CogAgent dapat menerima input gambar resolusi tinggi 1120×1120, dengan jawaban pertanyaan visual, pemosisian visual (Pentanahan), Agen GUI dan kemampuan lainnya, dalam 9 daftar pemahaman gambar klasik (termasuk VQAv2, STVQA, DocVQA, TextVQA, MM-VET, Paus, dll.) telah mencapai hasil pertama dalam kemampuan umum.