圖片、文字、語音都能理解這個AI平臺是“全能”選手-中國信息化?中國信息協會

圖片、文字、語音都能理解這個AI平臺是“全能”選手

來源：科技日報作者：發布時間： 2021-07-12

圖片、文字、語音都能理解這個AI平臺是“全能”選手

“小初，請以天宮為主題作首詩吧？”

“天宮生殿開成，萬花垂露照初。稠云不掩國志，飛天當觸明霞。”

“你能看懂這個視頻嗎？”

“視頻中，火箭正在發射。”

“小初，圖片中航天員正在干什么？”

“航天員正穿著航天服站在機械臂上遨游太空。”

　……

7月9日，在2021世界人工智能大會（WAIC2021）上，中國科學院自動化研究所所長徐波發布了自動化所研發的跨模態通用人工智能平臺——“紫東太初”。基于“紫東太初”平臺打造的虛擬人“小初”在大會現場賺足了眼球。它不僅能讀懂圖片、看懂視頻、中文續寫、雙語翻譯，而且能吟詩作賦，生動證明了通過圖片、文字、語音三種模態的關聯與協同，可以有效地提升機器的理解和生成能力，讓AI接近人類想象力。

“紫東太初”平臺是跨模態通用人工智能平臺，以多模態大模型為核心，基于全棧國產化基礎軟硬件平臺，可支撐全場景AI應用。“所謂跨模態是指它可以理解語音、文字和圖片等多種模態信息；所謂全棧國產化是指這個平臺的底層算力、模型、框架等都是自主研發的。”徐波解釋道。

多種模態預訓練模型被廣泛認為是從限定領域的弱人工智能邁向通用人工智能路徑的探索。依托面向超大規模的高效分布式訓練框架，自動化所構建了具有業界領先性能的中文預訓練模型、語音預訓練模型、視覺預訓練模型，并開拓性地通過跨模態語義關聯實現了視覺、文本、語音三種模態統一表示，構建了三模態預訓練大模型，賦予跨模態通用人工智能平臺多種核心能力。

徐波介紹，“紫東太初”兼具跨模態理解和生成能力。與單模態和圖片、文字兩種模態相比，“紫東太初”采用一個大模型就可以靈活支撐圖片、文字以及語音的全場景AI應用，具有了在無監督情況下多任務聯合學習、并快速遷移到不同領域數據的強大能力。

“引入語音模態后的多模態預訓練模型，可實現共性圖片、語音和文字的空間表征和利用，并突破性地直接實現三模態的統一表示。”徐波說，特別值得強調的是，該平臺首次讓“以圖生音”和“以音生圖”成為現實，對更廣泛、更多樣的下游任務提供模型基礎支撐，讓AI能夠在視頻配音、語音播報、標題摘要、海報創作等更多場景實現應用。

同時，研發團隊還提出了弱關聯三模態數據的語義統一表達，可同時支持三種或任兩種模態弱關聯數據進行預訓練，有效降低了多模態數據收集與清洗成本。

“‘紫東太初’跨模態通用人工智能平臺包括三大關鍵技術和六大核心能力。”徐波說，三大關鍵技術分別是多模態理解與生成多任務統一建模、面向國產化軟硬件的高效訓練與部署、多模態預訓練模型架構設計與優化。六大核心能力則體現為多模態統一表示與語義關聯、跨模態內容轉化與生成、預訓練模型網絡架構設計、標注受限自監督模型學習、模型適配與分布式訓練、模型輕量化與推理加速。

徐波表示，“大數據+大模型+多模態”將改變當前單一模型對應單一任務的人工智能研發范式，多模態大模型將成為不同領域的共性平臺技術，是邁向通用人工智能路徑的探索，具有廣闊的應用前景。

同時，全棧國產化通用人工智能平臺的實踐將使人工智能研發的規則發生重大變革并逐漸形成壁壘，對我國實現AI領域科技創新、占領核心技術高地具有重要的戰略意義。