Google 自主研發的多模態大模型 Gemini Ultra 宣稱在多個方面碾壓 GPT-4V,聽說讀寫能力樣樣通。不過近日有網友發現其展示功能影片造假、考試成績也有疑慮…
(前情提要:
Google最強AI「Gemini」爆造假!谷歌承認影片經剪輯、非即時語音、有用 Prompt
)
(背景補充:
Google新AI模型Gemini為何強大?iKala創辦人:ChatGPT難以對抗谷歌的生態版圖
)
本文目錄
那麼,Gemini 真的比 GPT-4 強嗎?
Google展示 Gemini 「聽說讀寫」 能力
Ultra 的 MMLU 「試卷」 疑為Google版
最大、最有能力、「最佳」、「最高效」,Google為其 12 月 7 日新發布的多模態大模型 Gemini 冠上了好幾個 「最」,與 OpenAI GPT-4 「比高還高」 的勝負欲呼之欲出。
區分為 Ultra、Pro、Nano 三個尺寸的 Gemini,不僅號稱在各種 「AI 考試」 中得了 「高分」,演示影片裡顯示的 Gemini 簡直就是 「聽說讀寫」 樣樣拿的 「超級工具」。
按照官方說法,Gemini Ultra 最為強大,兼具多模態能力、專業性與準確度,能以圖文、語音的形式輸入輸出不說,具體還能批改數學作業,指導運動員的動作與發力,還能夠執行復雜的繪製圖表、編碼等任務,在 MMLU(大規模多工語言理解)測試裡甚至 「超越了人類專家」。
不過,目前能供 C 端普通使用者體驗的是 Gemini Pro 版,按官方定位是 「在各種任務上擴充套件的最佳模型」,已整合至Google此前釋出的對話機器人 Bard 中;「在裝置上執行任務的最高效模型」 Gemini Nano 將置入Google智慧手機 Pixel8 Pro;而 「最大且最有能力,適用於高度複雜任務」 的 Gemini Ultra,Google的計劃是在明年年初開放給開發者和企業使用者。
有網友發現,Google給出的 Gemini Ultra 「考試成績」 用的是自家的 「試卷」(測試方法);而彭博社指出,Gemini 的演示影片非即時,網友們也覺得該影片有剪輯痕跡。
《元宇宙日爆》實測了 Bard 的數學能力,該對話機器人已植入了精調的 Gemini Pro 模型,結果顯示,Bard 對複雜的數學題仍有理解錯誤,尤其是識圖方面。
Gemini 是Google從頭構建的多模態人工智慧大模型。儘管在時間上落後 GPT-4 許多,但被Google以 「能力最強」 對外推出,「強」 的一面是 Gemini 的多模態能力。
它能夠同時處理和解析文字、影象、音訊、影片以及程式碼等多種資料型別,也就是說,使用者可以將各種形式的資訊輸入給 Gemini,它不僅能理解,還能分析甚至按你的需求處理任務。
目前,Gemini 還在 1.0 版,按規模不同分為 Ultra、Pro 和 Nano。Ultra 版本是適用於高度複雜的任務,而 Pro 版本則專注於多工處理,Nano 版本則針對移動裝置上的應用。三種版本有針對性地適用於多個不同場景,且在多項基準測試中展現出超群實力。
Google官方放出的宣傳影片展示了 Gemini 超強的多模態能力,相信看完後你會驚呼。
「超級模型」 Gemini Ultra 的背後有Google釋出的測試資料支撐。在 32 個廣泛用於測評大型語言模型(LLM)的學術基準中,它在 30 個上效能超過了大模型領域當前的技術水平。
Gemini Ultra 號稱以 90.0% 的得分成為第一個在 MMLU(大規模多工語言理解)上 「勝過人類專家的模型」,該測試使用數學、物理、歷史、法律、醫學和倫理學等 57 個學科的組合來測試世界知識和解決問題的能力。Gemini 在包括文字和編碼在內的一系列基準測試中超越了目前的技術水平。
MMLU 是一種針對大模型的語言理解能力的測評,包含了 57 個關於人類知識的多選題回答任務,涵蓋了初等數學、美國歷史、電腦科學、法律等,難度覆蓋高中水平到專家水平的人類知識,是目前主流的的大模型語義理解測評之一。
從Google給出的測試結果來看,Gemini 在理解複雜資料和執行高階任務方面將對 GPT-4 構成強有力的競爭。
谷歌稱 Gemini 在 MMLU 評估中首次超越人類專家
由於從一開始構建就基於多模態訓練,Gemini Ultra 理論上對文字、圖片、語音、影片、程式碼等各種形態的資訊都能理解,這就給 AI 應用和使用場景帶來了更多可能性。
例如在教育領域,藉助 Gemini Ultra 的多模態推理技能,凌亂的手寫筆記能被理解,學生解題時出錯的步驟能被發現,然後給出題目的正確解答和過程。這一套下來,不能說要淘汰教師吧,至少老師們也得到了一個高能 AI 助手。
Gemini 可以批改學生作業
在影片的理解與推理上,Gemini Ultra 甚至展現出 「足球教練」 的素養,能分析運動員的動作與發力,還會給出具體的改進建議。
Gemini 可理解影片內容並提供運動員指導建議
對於複雜的影象理解、程式碼生成、指令追蹤,Gemini Ultra 也不在話下。輸入影象與提示次 「我希望你用左上角子图中的函数,将其乘以1000,然后将其添加到左下子图中的函数中,生成matplotlib代码单个结果图。然后,Gemini Ultra就能完美执行逆向图形任务,推断生成绘图的代码、执行额外的数学转换并生成相关代码。
从Google给出的这些案例看,Gemini Ultra简直是”地表最强”的大模型,观众朋友们最想知道的是,这个大模型界的”超级赛亚人”,咱啥时候能用上?
按照Google的披露,从12月6号开始,Bard就会上传Gemini Pro的精细调整版本,用于更高阶的推理、规划、理解等,这是Bard自推出以来的最大升级。
需要注意的是,集成了Gemini Pro的Bard只提供英语支持,可在全球170多个国家和地区使用,计划在不久的将来扩展套件到不同的模态,支持新的语言和地区。也就是说,中文使用者目前还无法完美体验Gemini Pro。
Gemini Nano最先在Google的Pixel 8 Pro智能手机上应用,从WhatsApp开始,明年将支持更多的消息应用。
在未来几个月中,Gemini还将在更多的产品和服务中推出,包括Search、Ads、Chrome和Duet AI。也就是说,Google的搜索引擎中也将输入Gemini能力。
至于”最强”的Gemini Ultra,普通使用者还得等等。Google说,它正在进行信任和安全性检查,在推出前还得通过对人类反馈的微调和强化学习(RLHF)的进一步改进。
在这个过程中,Gemini Ultra会选择地给客户、开发人员、合作伙伴以及安全和责任专家拿来早期实验,等待反馈,然后在明年初向开发人员和企业客户开放。
展示的是最强的Gemini Ultra,但推出和使用要缓一缓,Google这样的操作很快就惹来了怀疑,真比GPT-4强吗?
彭博社就出来”打脸”说,Google的模型和OpenAI相比还仍有差距,现在这能力也仅凭演示,而影片演示还是录制的,又不即时,很可能是”精心调整的文字提示与静态影像”。彭博社还指出,Gemini的回答需要其他资讯的辅助,在真正的互动中需要暗示性很强的提示。
围观演示影片的网友们也觉得,影片中有很明显的剪辑痕迹,”强大的能力存在水分”。
而Google给Gemini Ultra考试的MMLU测评,被网友指出用的是自家出的”试卷”。在57个科目的多选题测试中,得了90分的Ultra,底下明显标着”CoT@32*”,这是Google自己除错的测评方案。如果Gemini Ultra scored 90 in Google’s adjusted testing scheme.
Academics can be too complex, but luckily Google has integrated Gemini into Bard, even though it’s a lower-end version called Ultra Pro. It claims to have multitasking capabilities, which is the most direct way for the general public to test Gemini.
“Meta Universe Day” directly chose math problems because ChatGPT is not proficient in math, and OpenAI considers math with unique correctness as the foundation for AGI. Let’s see if Bard, equipped with Gemini, excels in math.
We will use English for the questions. Question 1 is about calculating the volume of a cone, and question 2 is a slightly more difficult geometry proof.
The test results show that Gemini Pro can accurately identify images and text within pictures, and can solve simple math problems correctly. However, there are still noticeable errors when dealing with complex math problems. The error in question 2 is quite obvious; Bard incorrectly proves that EG and AB are perpendicular in step 2.
Does this mean that Bard is not powerful enough because it uses Gemini Pro? We can only wait for Ultra to join and test again.
Gemini Nano, which will be introduced in the Pixel 8 Pro smartphone, will be applied in the “Recorder Summary” and “Gboard Smart Replies” features.
According to Google, even if the phone is not connected to the internet, the recorder can provide summaries of conversations, interviews, presentations, and other content. The smart reply feature is similar to automated replies after ending a call. Gemini Nano can recognize the content of incoming messages and generate corresponding replies. However, currently, these two features only support English text recognition.
According to DeepMind’s proposed AGI evaluation framework, in the AGI-1 stage, artificial intelligence will be able to learn and reason across disciplines and modalities, demonstrate intelligence in multiple domains and tasks, such as question answering, summarization, translation, and conversation. It will achieve basic communication and collaboration with humans and other AIs, perceive and express simple emotions and values.
Based on the official releases from Google and actual testing experiences, it is worth anticipating and hopeful that the yet-to-be-released Ultra version will surpass the GPT-4 model. If this version’s multimodal capabilities can truly perform as demonstrated, then Google is not far from achieving its defined AGI.
Related Reports:
Supersedes GPT-4! Google unveils the “Gemini Native Multimodal Model”: AI surpasses human understanding, offline usability, equipped on Pixel 8 Pro
Google’s new AI model “Gemini” is coming! It is said to be five times more powerful than GPT-4 and can defeat OpenAI.
Tech Weekly Report: Google unveils Gemini, IBM launches quantum chip, Apple Vision Pro new application…
Tags:
AI
Gemini
Google
GPT-4