Accucrazy logo

ImageBind :Meta 開源型多模態學習的革新之作,將 6 種感知緊密結合!

ImageBind:Meta 開源型多模態學習的革新之作,將 6 種感知緊密結合!

 

 

 

ImageBind

你有想過一張照片或是一段聲音,能夠成為電腦學習世界的途徑嗎?這不再是科幻小說的概念,而是真實存在的技術!這種技術就是多模態學習(Multimodal learning),而最近由 Meta 公司推出的一個開源 AI 模型,ImageBind,就是這種技術的最佳範例!

 

 

多模態學習(Multimodal Learning)
ImageBind -2

首先,我們要了解一下什麼是多模態學習(Multimodal Learning)。我們人類理解世界的方式是多模態的,比如我們看見一隻貓,我們不僅可以看到它的外型,還可以聽到它的叫聲,甚至可以摸到它的毛皮。這些都是不同的 “模態”,而我們的大腦會自動將這些信息整合起來,形成一個完整的認識。而多模態學習,就是讓電腦也能夠這樣做。

 

一開始,為了讓電腦能夠理解圖片,研究人員發明了一種方法,讓電腦能夠從大量的圖片和文字中學習。他們用一個特殊的技術,讓電腦能夠將圖片中的物品和文字中的描述聯繫在一起。

 

 

這樣一來,電腦就可以在看到一個物品時,想起它的名字和它的特點。

 

 

不過,僅僅讓電腦看懂圖片還不夠,研究人員希望讓電腦能夠像我們一樣聽懂聲音。於是他們又研究了一種方法,讓電腦能夠從大量的影片和聲音中學習。他們讓電腦分析影片中的圖片和聲音,然後找出它們之間的關聯。

 

 

這樣一來,電腦就可以在聽到一個聲音時,想起它可能對應的圖像。

 

 

最後,有了這些基礎,研究人員又想出了一個更加聰明的方法,讓電腦能夠同時學習圖片和聲音。他們將圖片和聲音的學習方法融合在一起,創建了一個叫做 ImageBind 的模型。

ImageBind -3

方法如同論文中提到:「 One Embedding Space To Bind Them All 」。

在一個嵌入空間( Embedding Space )中連接不同的模型,這個模型可以讓電腦在看到一張圖片時,自動想起與之相關的聲音,反之亦然。這樣,電腦就可以更好地理解我們的世界,並且幫助我們做更多有趣的事情!

 

跨模態偵測與生成

近期 Meta 執行長 Mark Zuckerberg 發佈下列這一則 ImageBind 的示範影片:

影片中提供給這個模型一張老虎的圖像和一段瀑布聲音的音訊,它會結合這些輸入數據,可以生成老虎從瀑布旁經過的影片。

https://www.facebook.com/zuck/videos/957710632033177/?mibextid=v7YzmG

 

如果您向這個模型提供的 Prompt 是:“小生物”(文字)、“熱帶雨林”(圖像)、“雨聲”(音訊)以及一張鳥的照片(IMU)這樣的輸入數據,它會結合這些數據,生成一個熱帶小精靈的影片。

 

1.使用圖片搜尋聲音(Using an image to retrieve audio)

想像一下,你有一張火車的照片,但你想知道火車的聲音是什麼樣子的。有了 ImageBind,你只需要給它看一下照片,它就能想起火車的聲音,然後進行生成。這讓我們更容易地找到我們想要的聲音,而不需要花時間在網上搜尋。

2.使用聲音搜尋圖片(Using audio to retrieve images)

如果你剛聽到了一首歌,歌中唱到了美麗的夕陽,但你沒辦法看到它。沒關係,ImageBind 可以幫你!告訴它你想看夕陽的圖片,它就會自動找到一些美麗的夕陽圖片給你看。這樣,你就可以欣賞到歌曲描述的美景了。

3.使用文字搜尋圖片和聲音(Using text to retrieve images and audio)

你知道,有時候我們想要找到一些圖片或聲音,但我們不知道該怎麼形容它們。這時,你可以試試 ImageBind。只要把你想要的東西用文字描述一下,比如「小狗叫聲」,它就會幫你找到一些可愛的小狗叫聲和相關的圖片。這樣,你就能更快地找到你想要的資料了。

4.使用聲音和圖片搜尋相關圖片(Using audio and images to retrieve related images)

有時候,我們會想知道某個聲音和圖片的相關圖片是什麼。例如:你可能想知道吉他的聲音與什麼樣的圖片相關。只要給 ImageBind 播放吉他的聲音,並給它看一張吉他的照片,它就會幫你找到一些與吉他音樂相關的圖片。這樣,你就可以更好地了解吉他音樂和相關的圖片了。

5.使用聲音生成圖片(Using audio to generate an image)

最後,我們來看一個非常酷的功能:使用聲音生成圖片!想像一下,你聽到了一個很有趣的聲音,比如鸚鵡的叫聲,但你不知道鸚鵡長什麼樣子。這時,你可以讓 ImageBind 幫你畫一張鸚鵡的圖片。只要讓它聽聽鸚鵡的叫聲,它就能想象出鸚鵡的模樣,然後把它畫出來。這樣,你就可以知道鸚鵡到底是什麼樣子了。

 

零樣本識別任務

ImageBind -4

除此之外,ImageBind 還具有零樣本識別任務( Zero-shot )的能力。這意味著它不需要大量的訓練數據就能夠理解和創造出新的內容,這些特點使得 ImageBind 在許多新的難題中表現出色,甚至比那些專門為某一種情況訓練的模型還要優秀。

 

 

參考資訊:本文部分資訊由 AI 整理為參考所撰寫之報導。


GPT-4 與 Pinecone 共同孕育的 AI 小寶貝: BabyAGI ,陪伴您成長的得力助手!|Accucrazy 肖準行銷

Jarvis 的現實化身:AutoGPT,市場調查與競爭分析的全方位數位諸葛亮!|Accucrazy 肖準行銷

從 AI 到 AIGC :一場革命性的科技進化論,正活生生在我們眼前上演!|Accucrazy 肖準行銷

RLHF :從人類的反饋中學習,引領大型語言模型走向新境界!|Accucrazy 肖準行銷

開啟記憶之鑰:1 分鐘教你掌握 RNN 與 LSTM 數據預測的秘密!|Accucrazy 肖準行銷


想瞭解更多科技行銷相關消息嗎?快追蹤我們吧!


Hello , 我是Jemmy , 一位對未知領域的好奇寶寶。

面對每天接踵而來的新科技,我們能做的除了【恐懼】,更需要去【暸解】。

接下來每個月將透過我個人的角度,分析科技及行銷圈大小事,

帶著大家更深入的方式探討未來科技發展。

more insights