VGG19實作物件辨識(狗的品種信心指數)_使用Tensorflow

 





VGG 這個名字來自牛津大學的 Visual Geometry Group。2014 年,Karen Simonyan 和 Andrew Zisserman 發表了這套架構,論文名稱是 Very Deep Convolutional Networks for Large-Scale Image Recognition。
這篇工作是以 ImageNet 大規模影像辨識任務為背景,核心問題很直接:如果在同樣類型的卷積網路設計下,只是把深度一路往上推,效果會不會更好? 
當然論文的答案是肯定的,而且效果相當顯著。
VGG16 和 VGG19 是非常經典的一代。它們不是最省參數的模型,也不是今天速度最快的模型,但它們做了一件很重要的事:很有系統地證明「把網路加深」真的能讓影像辨識更好。
這個觀念,後來幾乎影響了整個 CNN 發展方向。

VGG 系列其實有好幾種配置,但最有名的是 VGG16 和 VGG19。這裡的 16、19,不是指總共只有 16 層或 19 層所有運算,而是指 有權重的層數(weight layers)。
VGG16:13 個卷積層 + 3 個全連接層
VGG19:16 個卷積層 + 3 個全連接層

主要就是 VGG19 比 VGG16 再更深一些。兩者都延續同一種設計哲學:結構很整齊、規則,更容易理解。
它把 CNN 設計簡化成一種很清楚的原則:反覆堆疊小型卷積核,然後逐步加深網路。只要用夠小、夠一致的 3×3 卷積,並把深度推上去,就能做出非常強的模型。

2014 年 ImageNet(ILSVRC 2014),當年的 ImageNet 視覺辨識競賽,VGG 團隊在那一年的比賽中,拿下定位任務第 1 名,分類任務第 2 名。
雖然分類冠軍是 GoogLeNet,但 VGG 仍然成為整個電腦視覺領域最有代表性的里程碑之一。









留言

這個網誌中的熱門文章

何謂淨重(Net Weight)、皮重(Tare Weight)與毛重(Gross Weight)

外貿Payment Term 付款條件(方式)常見的英文縮寫與定義

鼎新ERP_會計系統_總帳管理_財務參數設定_傳票處理