“大家好,我是人工智能主持人,這是我來新華社的第一天”,這段自我介紹,來自于正在烏鎮(zhèn)召開的互聯(lián)網(wǎng)大會(huì)。搜狗公司與新華社合作開發(fā)了全球第一個(gè)全仿真智能合成主持人,其嘴唇動(dòng)作和面部表情都是基于新華社的兩位真人主播。
據(jù)報(bào)道,AI合成主播,突破了以往語(yǔ)音圖像合成領(lǐng)域中,只能單純創(chuàng)造合成形象,并配合語(yǔ)音輸出唇部效果的約束,極大地提高了觀眾信息獲取的真實(shí)度。同時(shí),利用“搜狗分身”技術(shù),“AI合成主播”還能實(shí)時(shí)高效地輸出音視頻合成效果。在“搜狗分身”技術(shù)的支持下,使用者通過文字鍵入、語(yǔ)音輸入、機(jī)器翻譯等多種方式輸入文本后,將獲得實(shí)時(shí)的播報(bào)視頻。這種操作方式將極大減少新聞媒體在后期制作的各項(xiàng)成本,讓新聞視頻的制作效率有了極大的提高。
英國(guó)廣播公司(BBC)就此與計(jì)算機(jī)科學(xué)、人工智能與機(jī)器人領(lǐng)域的專家進(jìn)行了交流。
邁克爾伍爾德里奇(Michael Wooldridge)是牛津大學(xué)(University of Oxford)計(jì)算機(jī)科學(xué)教授,他的研究領(lǐng)域包括人工智能和多智能體系統(tǒng)。伍爾德里奇在接受BBC采訪時(shí)表示,這位主持人努力讓自己看起來很自然,但是怎么看都會(huì)覺得有些怪異,這可能是因?yàn)楫a(chǎn)生了恐怖谷效應(yīng):當(dāng)機(jī)器人與人類相似程度超過一定程度的時(shí)候,人類對(duì)他們的反應(yīng)便會(huì)突然變得極其反感,即哪怕機(jī)器人與人類有一點(diǎn)點(diǎn)的差別都會(huì)顯得非常顯眼刺目。
邁克爾伍爾德里奇將新華社的主持人描述為,“細(xì)微的不真實(shí)”,他說持續(xù)看上幾分鐘都是很困難的,主持人的發(fā)音極為平緩,同一韻律,缺乏節(jié)奏感。他還指出,人們通常愿意相信真人主播,因?yàn)橹鞑ピ陂L(zhǎng)期的新聞播報(bào)中帶給人情感上的信任個(gè)感。如果只是看一段由電腦生成的虛擬視頻,就失去了關(guān)注與主播的聯(lián)系。
謝菲爾德大學(xué)(University of Sheffield)人工智能和機(jī)器人技術(shù)榮譽(yù)教授諾爾·夏基認(rèn)為這是一個(gè)有益的嘗試。他說:“隨著時(shí)間的推移我們能看到技術(shù)的改善。”