第25個冬天

發表文章

目前顯示的是有「電腦視覺」標籤的文章

VGG19實作物件辨識(狗的品種信心指數)_使用Tensorflow

- 3月 27, 2026

VGG 這個名字來自牛津大學的 Visual Geometry Group。2014 年，Karen Simonyan 和 Andrew Zisserman 發表了這套架構，論文名稱是 Very Deep Convolutional Networks for Large-Scale Image Recognition。這篇工作是以 ImageNet 大規模影像辨識任務為背景，核心問題很直接：如果在同樣類型的卷積網路設計下，只是把深度一路往上推，效果會不會更好？當然論文的答案是肯定的，而且效果相當顯著。 VGG16 和 VGG19 是非常經典的一代。它們不是最省參數的模型，也不是今天速度最快的模型，但它們做了一件很重要的事：很有系統地證明「把網路加深」真的能讓影像辨識更好。這個觀念，後來幾乎影響了整個 CNN 發展方向。 VGG 系列其實有好幾種配置，但最有名的是 VGG16 和 VGG19。這裡的 16、19，不是指總共只有 16 層或 19 層所有運算，而是指有權重的層數（weight layers）。 VGG16：13 個卷積層 + 3 個全連接層 VGG19：16 個卷積層 + 3 個全連接層主要就是 VGG19 比 VGG16 再更深一些。兩者都延續同一種設計哲學：結構很整齊、規則，更容易理解。它把 CNN 設計簡化成一種很清楚的原則：反覆堆疊小型卷積核，然後逐步加深網路。只要用夠小、夠一致的 3×3 卷積，並把深度推上去，就能做出非常強的模型。 2014 年 ImageNet(ILSVRC 2014)，當年的 ImageNet 視覺辨識競賽，VGG 團隊在那一年的比賽中，拿下定位任務第 1 名，分類任務第 2 名。雖然分類冠軍是 GoogLeNet，但 VGG 仍然成為整個電腦視覺領域最有代表性的里程碑之一。下方是Colab上實測VGG19的辨識結果

閱讀完整內容