發表文章

目前顯示的是有「電腦視覺」標籤的文章

VGG19實作物件辨識(狗的品種信心指數)_使用Tensorflow

圖片
  VGG 這個名字來自牛津大學的 Visual Geometry Group。2014 年,Karen Simonyan 和 Andrew Zisserman 發表了這套架構,論文名稱是 Very Deep Convolutional Networks for Large-Scale Image Recognition。 這篇工作是以 ImageNet 大規模影像辨識任務為背景,核心問題很直接:如果在同樣類型的卷積網路設計下,只是把深度一路往上推,效果會不會更好?  當然論文的答案是肯定的,而且效果相當顯著。 VGG16 和 VGG19 是非常經典的一代。它們不是最省參數的模型,也不是今天速度最快的模型,但它們做了一件很重要的事:很有系統地證明「把網路加深」真的能讓影像辨識更好。 這個觀念,後來幾乎影響了整個 CNN 發展方向。 VGG 系列其實有好幾種配置,但最有名的是 VGG16 和 VGG19。這裡的 16、19,不是指總共只有 16 層或 19 層所有運算,而是指 有權重的層數(weight layers)。 VGG16:13 個卷積層 + 3 個全連接層 VGG19:16 個卷積層 + 3 個全連接層 主要就是 VGG19 比 VGG16 再更深一些。兩者都延續同一種設計哲學:結構很整齊、規則,更容易理解。 它把 CNN 設計簡化成一種很清楚的原則:反覆堆疊小型卷積核,然後逐步加深網路。只要用夠小、夠一致的 3×3 卷積,並把深度推上去,就能做出非常強的模型。 2014 年 ImageNet(ILSVRC 2014),當年的 ImageNet 視覺辨識競賽,VGG 團隊在那一年的比賽中,拿下定位任務第 1 名,分類任務第 2 名。 雖然分類冠軍是 GoogLeNet,但 VGG 仍然成為整個電腦視覺領域最有代表性的里程碑之一。