發表文章

目前顯示的是有「Image Caption」標籤的文章

CV看圖說故事_Phase1.COCO資料集載入與劃分

圖片
COCO 是一個大規模的物件偵測、分割與影像描述資料集。COCO 有幾項特色: Object segmentation Recognition in context Superpixel stuff segmentation 330K images (>200K labeled) 1.5 million object instances 80 object categories 91 stuff categories 5 captions per image 250,000 people with keypoints COCO數據集 資料LINK http://images.cocodataset.org/zips/train2014.zip http://images.cocodataset.org/zips/val2014.zip  http://images.cocodataset.org/annotations/annotations_trainval2014.zip 下載解壓後存放至Jupyter Notebook專案之下,檔案大小依序分別如下(過程要等一段時間) val2014.zip 大小6.18GB train2014.zip 大小12.5GB annotations_trainval2014.zip 大小241MB 記得解壓縮存放到./data相對目錄下 訓練與驗證影像的描述文字可在 annotations 子資料夾內中的  captions_train2014.json 或 captions_val2014.json JSON 檔中找到,而所有影像都放在 train2014 或 val2014 資料夾中。 關於JSON檔案格式基本上 可以使用如下程式碼,先觀察到有以下四個主要KEY值 info、image、license 和 annotation import json valcaptions = json.load( open ( './data/annotations/captions_val2014.json' , 'r' )) trcaptions = json.load( open ( './data/annotations/captions_train2014.jso...