fb_segment02

影像辨識一直是 Facebook 或各個科技公司所發展的技術,例如 FB 上強大的自動 Tag 人功能,相信你也見識過 (甚至做過受害者),而他們近日更將其新技術公開予公眾,讓更多人參與發展,期望技術更進一步。

據其述,目前的辨識技術,最常見是如下圖左邊兩種︰(a) 知道照片內有甚麼,及 (b) 知道物件在哪裏,但現在的技術就是 (c) 進一步標識每個具體物件。

fb_segment01

簡單來說,新的演算技術有三個程序︰

1) DeepMask – 勾劃出物件的輪廓

2) SharpMask – 仔細分析出物件的細節

3) MultiPathNet – 通過前兩項的線索,將物件正確辨認出來

他們運用卷積神經網絡 (Convolutional Neural Network, CNN) 從無數影像中學習 (對 FB 來說很容易找到圖庫吧),透過數以千萬計的參數及影像圖像分佈,以辨識出影像,而非從照片裏近乎無限的細節,搜尋出照片裏的物件。下圖可以看到 DeepMask 會粗淺地勾劃出事物輪廓。

fb_segment03

下圖則是以 SharpMask 分析影像裏的細節,最後以 MultiPathNet 辨認出物件︰

fb_segment04

這種技術可以如何應用呢?據其所述可能性非常多,而最首先受惠的要算是影像搜尋技術吧?這樣將可讓搜尋技術變得更精確,更有意義。其次就是讓電腦 / 網絡能「讀出」影像的內容,於是就算是視障人士也可以玩 Facebook,並聆聽 Facebook 講解照片裏有甚麼。

除此以外,還可大大強化 AR 擴充實境的技術,不再只是玩 Pokemon Go,甚至應用到商業、健康管理等多方面 (如下圖)。

fb_segment05

至於下一步要做的,就是將有關辨識技術,套用在攝錄影片及直播影片中,不單能辨認到影片裏移動的人與物,也可進行互動,甚至能夠為 Facebook Live 帶來更多不同的玩法與可能性。

如有興趣了解更多及詳細內容,可按以下連結瀏覽。

Research at Facebook via Pop Photo