原來Sora 是這樣生成影片的 | 最新消息

Sora與其他AI視頻生成平台有什麼區別？

對於那些關注 AI 發展的人來說，Sora 的出現確實是相當令人眼睛為之一亮，雖然說影片生成的技術，在之前也有像是 Runway 和 Stability AI 等公司推出過影像生成模型，但產生的影片長度大多不超過 18 秒，而 Sora 在這一領域的表現更加出色。Sora 最大的亮點之一，在於能夠生成長達 60 秒的高畫質影片，這一點在以往的模型中是難以達到的。但 Sora 的真正魅力遠不止於此，它如何實踐這一點，成了大家關注的焦點。

Sora 如何運作的？

Sora 結合了兩種強大的 AI 模型：Diffusion 模型和 Transformer 模型。

Diffusion 擴散模型在圖片生成領域已經展現出其強大的能力，從之前介紹過的 Stable Diffusion 中就可以看得出來。而 Transformer 模型則是近年來自然語言處理(NLP)領域的相當備受重視的一種模型。

在 Sora 的工作原理中，Diffusion 模型負責逐步構建和精煉影片中的每一張圖、每一格，或是中國用語上的「每一幀」，就像是在水中逆向擴散墨水，逐步勾畫出清晰的圖像。而 Transformer 模型則負責理解輸入的文字描述，將這些描述轉化為影像創作的指令，確保生成的內容不僅在視覺上吸引人，同時也與輸入的描述密切相關。

想像一下，Diffusion 模型像是一位畫家，擅長從一片混沌中逐步勾勒出清晰的畫面；而 Transformer 模型則像是一位導演，確保這些畫面能夠準確地表達故事的內容和情感。實際舉個例子。

當你告訴 Sora 要創造一個關於宇宙探險的影片時，Diffusion 模型會開始繪製星球、太空船和領航員，而且一張一張的生成。同時，Transformer 模型則會確保這些畫面按照你的故事情節順序排列，從而形成一個連貫的影像敘事，最後把這些都結合起來，就成為我們看到的動態影像了。

Sora 做出來的影片為什麼如此真實？

如果再深入 Sora 的核心來看的話，Sora 會將影像資料分成一小塊一小塊的內容，並轉化為結合了空間 XYZ 軸與時間 Timecode的「時空 Patch」，Sora 可以更詳細的掌握影片中的每一個元素，例如這個人是在畫面上的哪個位置，什麼時間點要開始做什麼…等資訊。

比如說，當創造一個足球賽的影片時，Sora 不僅要確保足球的運動軌跡自然流暢，還要注意球場上每位球員的位置變化，甚至是觀眾的反應，這也造就了 Sora 可以把一個影片做得如此真實的原因，因為 Sora 可以透過時空 Path 注意到每一個細節，並且在時間順序上保持合理的狀況（當然也包含了 Diffusion 和 Transformer 建立了非常真實的畫面）。

Sora 與未來的影片生氣如何發展？

Sora 的出現不僅代表了 AI 生成影片技術的一大飛躍，也暗示著我們即將邁入一個全新的影像創作時代。創作者能夠借助 Sora 這樣的工具，將最大膽的想象轉化為現實，無論是製作一部科幻大片，還是記錄一個小故事，Sora 都能提供前所未有的支援和可能性。

具體而言，Sora 的技術創新將使得以下幾個方面的願景成為可能：

無限創意的影像內容生成： 借助 Sora，即使是沒有影像創作背景的人也能夠輕鬆生成高品質的影片內容，表示教育工作者可以創造更加生動的教學材料，企業可以快速製作宣傳影片，而藝術家則可以實現他們的視覺藝術創意。
提升影片生產效率： 對於專業的影片製作團隊來說，Sora 能夠大幅度提升工作效率，特別是在預覽草稿、特效製作、甚至是故事板開發階段。能夠幫助團隊在投入大量資源製作實際影片之前，快速試驗和調整創意。
為視覺效果設定新標準： 隨著技術的不斷進步，Sora 未來的版本將能夠生成越來越逼真的視覺效果，甚至達到與現實生活無法區分的程度。這不僅會為電影和電視產業帶來革命性的變化，也將為虛擬現實（VR）和增強現實（AR）應用開闢更多想像的空間。

總之，Sora 的出現確實是一個里程碑，雖然目前還僅是測試階段，OpenAI 的員工也說了短期內暫時不會公開給大眾使用，但是目前放出來的這些效果已經讓大家印象深刻了。隨著技術的發展和完善，可以期待看到更多像 Sora 這樣的創新，當然另外一方面要擔心的，就是這類的技術或許也等於是在和人類競爭工作，但這又是另外一個議題。以上就是這次跟大家分享，關於 Sora 如何生成影片的說明。