- QVAC Genesis II 將開放式 AI 訓練擴展至 1480 億個 token,涵蓋 19 個學術領域。
- 該數據集訓練模型解釋選擇並提升推理能力,而不僅僅停留於表層。
- Tether Data 公開釋出數據集,支持封閉 AI 系統之外的研究人員。
Tether Data 發布了 QVAC Genesis II,將其開放式合成教育數據集擴展至 1480 億個 token,涵蓋 19 個學術領域。此次更新在 Genesis I 的基礎上新增了 1070 億個 token,使該數據集成為全球最大、公開可用的 AI 預訓練合成教育資源。
QVAC 是 Tether Data 的人工智慧研究部門,該部門表示,這個數據集旨在加強 AI 模型的推理、解釋和決策能力,而不是僅僅學習表層模式。此次發布正值許多先進訓練數據集仍受限於專有系統之內,限制了獨立研究人員和學術機構的訪問權限。
數據集規模與學術覆蓋範圍
擴展後的數據集涵蓋 19 個學術領域,並針對結構化推理任務中的教育推理深度進行設計。QVAC 表示,規模的提升有助於為需要基於解釋輸出的模型提供更一致的訓練,而不僅僅是機率性文本預測。
因此,該數據集在預訓練過程中,著重於問題與答案的清晰性與因果關係。該數據集仍對研究人員、大學及在封閉平台之外工作的獨立開發者開放。
QVAC 以 Creative Commons Attribution–NonCommercial 4.0 授權條款發布 Genesis II,延續了 Genesis I 的授權方式。該組織表示,這一授權支持研究用途,同時保留署名和非商業限制。數據集及相關模型可通過 Hugging Face 獲取,並附有詳細文件及訪問工具。
全新選項級推理方法
Genesis II 的核心是一種名為「選項級推理」的新數據生成方法。該方法評估多選題中的每一個答案選項,包括正確選項和常見誤解。
該方法並非將正確答案視為最終輸出,而是分析每個選項為何正確或錯誤。QVAC 表示,這一過程強化了有效推理,同時直接針對訓練數據中的錯誤假設。
這一方法是在 Genesis I 引入的失敗分析框架基礎上構建的。兩種技術結合,形成雙重方法流程,確保每個生成項目都能帶來教學價值。
根據QVAC引用的獨立評估,基於 Genesis II 數據訓練的模型在推理準確性上表現更佳,並能更一致地給出清晰答案。因此,該數據集將訓練重點從流暢性轉向結構化理解。
相關閱讀:Tether 提交收購 Juventus Football Club 的提案
開放研究與去中心化 AI 目標
QVAC 表示,此次發布符合其支持本地及去中心化 AI 發展的更廣泛努力。該計劃旨在實現模型訓練與部署,無需依賴中心化雲端平台。
通過擴展開放訓練基礎,Tether Data 希望消除小型研究團隊面臨的結構性障礙。Tether 執行長 Paolo Ardoino 表示:「當前大多數 AI 訓練優化的是流暢性,而非理解能力。」
「透過這次發布,我們正推動訓練重心從數量轉向結構、推理與清晰度,」Ardoino 補充道。他指出,開放存取讓研究人員能夠開發可解釋且可靠的 AI 系統。
技術論文《QVAC Genesis II:擴展最大且最高品質多領域教育合成數據集以用於預訓練》已發佈於 QVAC 研究部落格。QVAC 亦在其官方網站上發布了詳細的常見問題解答及相關資料。
隨著 AI 系統擴展至教育、科學及金融服務(包括金融科技應用),結構化數據集能否重塑智慧系統的學習與運作方式?
