【
儀表網 儀表研發】7月9日,中國科學院自動化研究所在2021世界人工智能大會(WAIC2021)上就人工智能的最新進展進行報告,發布了自動化所研發的跨模態通用人工智能平臺——“紫東太初”。
“紫東太初”跨模態通用人工智能平臺以多模態大模型為核心,基于全棧國產化基礎軟硬件平臺,可支撐全場景AI應用。多模態預訓練模型被廣泛認為是從限定領域的弱人工智能邁向通用人工智能路徑的探索。“紫東太初”跨模態通用人工智能平臺瞄準成為實現通用人工智能的目標,對促進智能世界的發展具有重要意義。
依托面向超大規模的高效分布式訓練框架,自動化所構建了具有性能優良的中文預訓練模型、語音預訓練模型和視覺預訓練模型,并開拓性地通過跨模態語義關聯實現了視覺-文本-語音三模態統一表示,構建了三模態預訓練大模型,賦予跨模態通用人工智能平臺多種核心能力。
“紫東太初”兼具跨模態理解和生成能力。與單模態和圖文兩模態相比,其采用一個大模型就能夠靈活支撐圖-文-音全場景AI應用,具有了在無監督情況下多任務聯合學習、并快速遷移到不同領域數據的能力。引入語音模態后的多模態預訓練模型,可實現共性圖文音語義空間表征和利用,并直接實現三模態的統一表示。特別的是,該研究使“以圖生音”和“以音生圖”成為現實,為更廣泛、更多樣的下游任務提供了模型基礎支撐,達成AI在如視頻配音、語音播報、標題摘要、海報創作等更多元場景的應用。
此外,自動化所研發團隊還提出了弱關聯三模態數據的語義統一表達,可同時支持三種或任兩種模態弱關聯數據進行預訓練,有效降低了多模態數據收集與清洗成本。
總結來說,此跨模態通用人工智能平臺包括三大關鍵技術和六大核心能力。三大關鍵技術是多模態理解與生成的多任務統一建模、面向國產化軟硬件的高效訓練與部署、多模態預訓練模型架構設計與優化。六大核心能力體現為多模態統一表示與語義關聯、跨模態內容轉化與生成、預訓練模型網絡架構設計、標注受限自監督模型學習、模型適配與分布式訓練、模型輕量化與推理加速。
會上,自動化所長徐波展示了基于“紫東太初”平臺打造的虛擬人“小初”,并進行通用多模態大模型的人機對話演示,展示了不同模態間的互相轉換和生成實例,涵蓋視頻描述、智能問答、圖像檢索、吟詩作賦、中文續寫、雙語翻譯、語音識別等多個功能。這表明,通過圖文音三模態的關聯與協同能夠有效提升機器的理解和生成能力。
“大數據+大模型+多模態”將改變當前單一模型對應單一任務的人工智能研發范式,多模態大模型將成為不同領域的共性平臺技術,是邁向通用人工智能路徑的探索,具有廣闊的應用前景;全棧國產化通用人工智能平臺的實踐對我國實現AI領域科技創新具有重要意義。
所有評論僅代表網友意見,與本站立場無關。