圖/content
Apple 推出小規模開源 AI 模型:與業界頂尖對手競爭
發布日期:7/26/2024
新聞視界時報 記者 張儷寶 整理報導
Apple 近日宣布推出兩組小規模開源人工智慧模型,分別擁有 69 億和 14 億個參數,展示了與 Mistral、Llama 3、Gemma 等競爭對手抗衡的實力。
根據 Apple 機器學習研究團隊科學家 Vaishaal Shankar 在「X」平台的說明,這兩組模型屬於「DCLM」(DataComp for Language Models)發展項目。
69 億參數的模型特別強調能與 Mistral AI 的 70 億參數模型相匹敵,並能與 Meta 的 Llama 3、Google 的 Gemma 以及阿里雲的開源模型 Qwen2 直接競爭。
Vaishaal Shankar 進一步表示,「DCLM」是真正形式的開源模型,其中 69 億參數的版本基於 OpenLM 框架,以 2.5 兆詞元(tokens)進行訓練,前後文長度各可對應 2K 組詞元。
在大規模、多任務的語言理解測試(MMLU)中,該模型達到了 63.7% 的得分,超越了 Mistral-7B-v0.3 的 62.7%,並接近 Meta Llama 3 8B 的 66.2%、Google Gemma 的 64.3% 和微軟 Phi-3 的 69.9%。
此外,這一模型在測試中使用了更少的算力。
在 14 億參數的版本中,Apple 與 Toyota 研究團隊合作訓練,以 2.6 兆詞元進行訓練。
該模型在大規模、多任務語言理解測試中達到了 41.9% 的得分,超過了微軟 Phi-1.5B 的 35.90%。
這些新模型的推出,不僅展示了 Apple 在人工智慧領域的研發能力,也為開源社群提供了更多選擇。
Apple 的這一舉措無疑將促進 AI 技術的進一步發展,讓更多人受益於這些先進的技術成果。