第二屆中國(guó)國(guó)際供應(yīng)鏈促進(jìn)博覽會(huì)11月26日在北京正式開幕。鏈博會(huì)吉祥物“鏈氪”來(lái)到數(shù)字科技展區(qū),遇到了一位神秘人物↓↓↓
總臺(tái)央視記者 張道峰:數(shù)字詩(shī)人李白是由人工智能大模型生成的,也就是我們常說(shuō)的生成式人工智能,而做出這一大模型的是一家成立還不到一年的人工智能創(chuàng)新中心。
廉士國(guó)是創(chuàng)新中心首席人工智能科學(xué)家,他給我們現(xiàn)場(chǎng)拆解了人工智能大模型的運(yùn)作過(guò)程。
生成一個(gè)數(shù)字詩(shī)人李白要分三步:先由文字生成圖片,圖片生成視頻,文字再生成語(yǔ)音跟視頻進(jìn)行融合。不過(guò),看似簡(jiǎn)單的三步,做起來(lái)卻不容易。
中國(guó)聯(lián)通人工智能創(chuàng)新中心首席AI科學(xué)家兼技術(shù)總師 廉士國(guó):首先要訓(xùn)練一個(gè)語(yǔ)言模型,它大概需要40TB的數(shù)據(jù),這個(gè)數(shù)據(jù)量大概相當(dāng)于400萬(wàn)本電子書的數(shù)據(jù)量。
有了語(yǔ)言模型的基礎(chǔ),才能繼續(xù)訓(xùn)練文生圖、文生視頻等多模態(tài)大模型,背后還需要大量“數(shù)據(jù)對(duì)”,也就是數(shù)據(jù)之間的聯(lián)系,比如文字和圖片對(duì)應(yīng)的數(shù)據(jù),圖片和視頻對(duì)應(yīng)的數(shù)據(jù)等。
中國(guó)聯(lián)通人工智能創(chuàng)新中心首席AI科學(xué)家兼技術(shù)總師 廉士國(guó):大概需要10億對(duì)文字圖像對(duì),從圖像再到視頻,大概在百億對(duì)的級(jí)別。
不過(guò),有了海量數(shù)據(jù)才是第一關(guān),然后是“數(shù)據(jù)標(biāo)注”,就是要把數(shù)據(jù)轉(zhuǎn)化為機(jī)器學(xué)習(xí)算法能理解的形式。
總臺(tái)央視記者 張道峰:想什么就能設(shè)計(jì)出什么,看似簡(jiǎn)單的過(guò)程,背后其實(shí)是一條全新而龐大的人工智能產(chǎn)業(yè)鏈在支撐。數(shù)字詩(shī)人李白能夠作詩(shī),算法、數(shù)據(jù)等等這條鏈的每一個(gè)環(huán)節(jié)都在發(fā)揮作用。
算法、數(shù)據(jù)、算力的高效協(xié)同,構(gòu)成了生成式人工智能快速發(fā)展的重要鏈條?,F(xiàn)在,大模型技術(shù)賦能千行百業(yè),像“李白作詩(shī)”這樣的“文物活化”技術(shù)正在走進(jìn)我們的生活。
(總臺(tái)央視記者 王琰 朱繼華 朱虹 張道峰 邵晨)