設萬維讀者為首頁 廣告服務 技術服務 聯繫我們 關於萬維
簡體 繁體 手機版
分類廣告
版主:納川
萬維讀者網 > 天下論壇 > 帖子
Sora來了,ChatGPT更牛了!
送交者: 湮滅之城 2024年02月15日19:50:30 於 [天下論壇] 發送悄悄話


眾所周知,我們的世界已經進入了一個讀圖時代,這是因為一張圖片,其中所包含的信息可能勝過萬語千言!

儘管人類文明交流的方式是通過語言和文字開始的,但我們周邊的世界畢竟是彩色的、三維的、動態的,是包含有大量視覺信息的。

所以,倘若我們通過一段簡單的描述性文字,便可以直接生成一幅在你心中想象出的、這世界上原本不存在的圖片,而且這圖片幾乎可以滿足現實世界中人們所有的觀察習慣或邏輯的話,結果一定十分震撼。

人工智能OpenAI做到了,儘管仍然有着不少瑕疵。

那麼,倘若將圖片換成具有動態效果的視頻,而且依然是通過一段簡單的描述性文字直接生成的話,這無疑標誌着AI又向前邁進了一大步!

這,就是OpenAI今天發布的“索拉”(Sora)。儘管它發布的不是產品、而是技術所達到的效果,但這已經令人震撼了。

就在不久前的20234月,紐約一家名為Runway AI的初創公司發布了一項技術,讓人們只需在電腦屏幕上的方框中輸入一句話,就能生成一段視頻,比如:生日派對上的一頭奶牛,或者使用智能手機正在聊天的一條狗……只是,這短短四秒的視頻畫面模糊,動態不流暢,還存在扭曲,但它卻清楚地表明,AI技術在這個領域中的突破不遠了。

果然,僅過了10個月,就在今天,OpenAI讓我們看到了Sora

人們在短短的時間裡,就見證了ChatGPT的推進:從聊天機器人的GPT 4,到靜態圖像生成器DALL-E 3,到了現在的即時視頻生成器Sora,一步一個腳印。人們現在已經開始期待着利用Sora可以大大提高經驗豐富的電影製作人的工作效率,甚至完全取代經驗不足的數字藝術家等目的。

當然,OpenAI在此領域裡不乏競爭者,比如像GoogleMetaFacebookInstagram)這樣的科技巨頭,以及像Runway這樣的初創公司。

Sora是什麼意思?它是OpenAI背後的技術團隊為這一應用所起的名字,取自日語的“天空”一詞。按照技術大牛布魯克斯(Tim Brooks)和皮布爾斯(Bill Peebles)的說法,這名字“讓人聯想到無限的創造潛力”。

以下是通過簡捷的描述性文字(放在視頻的下面)生成的視頻,所有視頻均由Sora直接生成,未經任何修改:

https://vp.nyt.com/video/2024/02/14/115631_1_15OPENAI-VIDEO-3_wg_720p.mp4 

視頻1:幾頭巨大的長毛猛獁象踏着雪白的草地走來,它們長長的毛髮隨風輕揚,遠處是白雪覆蓋的樹木和壯觀的雪山,午後的光線加上飄渺的雲朵和遠處高高掛起的太陽營造出溫暖的光暈,低機位的視角以精美的攝影和景深捕捉到了大型毛茸茸的哺乳動物,令人驚嘆。


https://vp.nyt.com/video/2024/02/14/115628_1_15OPENAI-VIDEO-1_wg_720p.mp4 

視頻2:一個矮小蓬鬆的怪物跪在一根融化的紅蠟燭旁。藝術風格為三維寫實,注重光影和質感。畫中的怪物睜大眼睛、張開嘴巴凝視着火焰,充滿了驚奇和好奇。它的姿勢和表情傳達出一種天真和俏皮的感覺,仿佛是第一次探索周圍的世界。暖色調和戲劇性燈光的使用進一步增強了畫面的溫馨氛圍。


https://vp.nyt.com/video/2024/02/14/115630_1_15OPENAI-VIDEO-2_wg_720p.mp4 

視頻3:美麗的東京雪後熱鬧非凡。鏡頭穿過熙熙攘攘的城市街道,跟隨幾位正在享受美麗雪景和在附近攤位購物的人們。絢麗的櫻花花瓣與雪花一起隨風飛舞。


https://vp.nyt.com/video/2024/02/14/115632_1_15OPENAI-VIDEO-4_wg_720p.mp4 

視頻4:一個華麗渲染的珊瑚礁紙藝世界,到處都是五顏六色的魚類和海洋生物。

 

目前,Sora可以生成一段大約1分鐘的視頻,其耗時僅為幾分鐘。如果你仔細觀察,會發現它們並不完美,其中會包含某些奇怪的和不合邏輯的圖像。這是未來技術需要完善的地方,當然這並不容易!

為了讓公眾能夠實時體驗到這項技術的真實感,公司CEO奧特曼今天還特意在X平台上直播了一段時間,網友可以提交自己想要生成的視頻的描述性文字,奧特曼當場通過系統生成視頻,從提交文字到視頻上傳完畢,大約耗時1520分鐘,這當中包括了輸入、輸出所占用的時間。至於效果,略低於上述官網給出的視頻,應該說已經相當不錯了。

該系統是生成式AI的一個範例,就像之前可以即時創建文本、圖像和聲音一樣,系統通過分析數字數據進行學習,在本例中,分析的是視頻和描述視頻內容的字幕。

Sora的技術團隊在接受採訪時表示,公司尚未正式發布Sora,因為他們正在與一小群學者和其他外部研究人員分享這項技術,並且正在進行大量的測試。

布魯克斯博士說:“發布Sora的目的是讓人們通過預覽這個即將出現的技術,讓人們能看到它的能力,同時能給我們提供有益的反饋。”

Sora使用的是所謂的擴散模型(diffusion model),即從一個看起來像靜態噪音那樣的視頻生成開始,然後通過多個限制條件和多個步驟去除噪音,逐漸變成特定的視頻。它可以一次性生成整個視頻,也可以將原有的視頻進行擴展,生成更長的視頻。有業內專業人士評價,與之前的靜態圖片生成技術相比,視頻生成的技術難度在於:如何達到幀與幀之間在時間和空間上的關係一致性,並支持不斷變化場景的真實性和邏輯性。特別是通過讓模型可以一次預見多幀畫面,來確保被攝體即使暫時離開視線也能保持不變,等等。

目前,公司在已經製作的視頻上打上了水印,以識別其是由AI生成的,但你很難發現它們。

OpenAI 拒絕透露該系統是從多少視頻中學到了知識、通過怎樣的算力達到現在這樣的速度以及這些視頻的來源,只是說訓練包括公開的視頻和從版權持有者那裡獲得授權的視頻。人們對該公司用於訓練其技術的數據知之甚少,這很可能是因為它想保持對競爭對手的優勢,同時避免因使用了受版權保護的材料而被起訴。

安全性始終是開發團隊最關注的內容。目前技術人員正在與“紅方”人員(他們都是錯誤信息、仇恨內容和偏見等領域的專家)合作,對模型進行對抗性測試,以便從中發現系統中潛在的危險性,以及可能被濫用的種種可能。

一旦進入產品階段,其文本分類器將檢查並拒絕輸入極端暴力、性內容、仇恨圖像、名人肖像或他人知識產權的內容……

不可否認的是,這項技術無疑可能成為一種快速、廉價的製造網絡虛假信息的方式,讓人們更加難以辨別網上信息的真偽。有專家甚至警告,這種東西可能還會左右一場競爭激烈的選舉!



0%(0)
0%(0)
  一分鐘視頻足夠讓廣告行業翻天覆地  /無內容 - ylord789 02/15/24 (9)
標 題 (必選項):
內 容 (選填項):
實用資訊
回國機票$360起 | 商務艙省$200 | 全球最佳航空公司出爐:海航獲五星
海外華人福利!在線看陳建斌《三叉戟》熱血歸回 豪情築夢 高清免費看 無地區限制
一周點擊熱帖 更多>>
一周回復熱帖
歷史上的今天:回復熱帖
2023: 炸了北溪(3)/ 王毅出擊
2023: 美國的數理教授
2022: 二十大江胡無阻, 習近平繼續江湖戲
2022: 衡陽艦載滿而歸,無人知道,地人天人道
2021: 仇恨亞裔罪犯增 亞裔大家站起來zt
2021: 有史以來最冷漠最自私的中國人民
2020: 中國知識分子,不做奴才,便是右派。
2020: 對世衛組織人員專訪爆料
2019: 華南理工4位院領導被爆篡改研究生複試
2019: 人生而平等是相對的,不平等才是絕對的