Bit News Tsinghua KEG Lab gần đây đã hợp tác với Zhipu AI để cùng nhau ra mắt một thế hệ mới của mô hình lớn hiểu biết hình ảnh CogAgent. Dựa trên CogVLM đã ra mắt trước đó, mô hình sử dụng các phương thức trực quan thay vì văn bản để cung cấp nhận thức toàn diện và trực tiếp hơn về giao diện GUI thông qua tác nhân GUI trực quan để lập kế hoạch và ra quyết định. Được biết, CogAgent có thể chấp nhận đầu vào hình ảnh độ phân giải cao 1120×1120, với trả lời câu hỏi trực quan, định vị trực quan (Grounding), GUI Agent và các khả năng khác, trong 9 danh sách hiểu biết hình ảnh cổ điển (bao gồm VQAv2, STVQA, DocVQA, TextVQA, MM-VET, POPE, v.v.) đã đạt được kết quả đầu tiên về khả năng chung.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Tsinghua KEG Lab và Zhipu AI cùng ra mắt CogAgent, một mô hình hiểu biết hình ảnh lớn
Bit News Tsinghua KEG Lab gần đây đã hợp tác với Zhipu AI để cùng nhau ra mắt một thế hệ mới của mô hình lớn hiểu biết hình ảnh CogAgent. Dựa trên CogVLM đã ra mắt trước đó, mô hình sử dụng các phương thức trực quan thay vì văn bản để cung cấp nhận thức toàn diện và trực tiếp hơn về giao diện GUI thông qua tác nhân GUI trực quan để lập kế hoạch và ra quyết định. Được biết, CogAgent có thể chấp nhận đầu vào hình ảnh độ phân giải cao 1120×1120, với trả lời câu hỏi trực quan, định vị trực quan (Grounding), GUI Agent và các khả năng khác, trong 9 danh sách hiểu biết hình ảnh cổ điển (bao gồm VQAv2, STVQA, DocVQA, TextVQA, MM-VET, POPE, v.v.) đã đạt được kết quả đầu tiên về khả năng chung.