Image Caption可應用的不同生活情境_論文研究Idea與可利用的公開資料集探討_車損拍照產生理賠報告/室內照產生房屋描述(裝修前後驗收、格局敘述)
Image Caption可應用的不同生活情境,其實除了在盲人輔助生活以外應用,根據文獻回顧可以發掘只要工作模式涉及這類既定模式「拍照後有需要寫報告」,基本上都還滿容易能夠被應用的。
而研究過程中最麻煩也是讓人擔憂的問題就在於資料來源易取得性,此外對於IRB的問題有點困難,加上無醫學背景就不探討醫療報告生成這部分資料集應用範疇。
1.汽車損傷拍照到快速理賠,產生車損理賠報告。
應用自動車輛損傷檢測與在汽車保險業引起了極大的關注。
Vehicle Damage Detection Using Artificial Intelligence: A Systematic Literature Review
CarDD: A New Dataset for Vision-based Car Damage Detection
CarDD 包含 4,000 張高解析度的車輛損傷影像,具有超過 9,000 個經良好註記的六類損傷實例(範例如圖 1 所示),但預設該資料集並沒有對應理賠或車損文字描述,因此對應文字敘述的前置準備是大工程。
Coco Car Damage Detection Dataset
根據過往研究論文主要會和特定保險公司合作,並且理賠內容都比較沒對外公開。在Kaggle上有人曾利用BLIP 模型為 CarDD 資料集生成了對應的 Captions,並以 COCO 格式標註。這直接解決了 CarDD 缺乏文字描述的問題。
Blip for Captioning Car Damage
這邊參照到(2024)「CAR DAMAGE DETECTION AND CAPTION GENERATION USING DEEP LEARNING」論文,在過去曾有學者做過類似研究只是他們該論文中並沒有用上述的公開資料集,而是自己準備私用非公開資料集。
CAR DAMAGE DETECTION AND CAPTION GENERATION USING DEEP LEARNING
車輛損傷檢測與描述生成在加速理賠、車輛檢驗與汽車維修流程方面扮演重要角色。本文提出一個端到端的深度學習框架,將 YOLOv7 物件偵測模型與基於 Transformer 的自然語言處理(NLP)模組整合,以自動定位並描述車輛損傷。系統在偵測多種損傷類別(如凹陷、刮痕與擠壓區域)方面展現高準確度,並能生成連貫且具語境相關性的描述。所提出的方法提供可擴展且可靠的解決方案,減少人工工作並提升汽車產業中損傷評估的一致性。
而在以下論文中
(2025) YUNet_LLMClaimReport: An Enhanced Automobile Insurance Fraud Detection and Automated Claim Report Generation Using Large Language Models
主要貢獻:
提出一個整合 偵測+分割+金額估算+LLM 報告生成 的 end‑to‑end 保險理賠詐欺偵測框架。
主要限制:
真實保險資料屬於專有且具隱私,完整 dataset 不公開,難以完全重現結果。
主要資料來源是埃及某汽車保險公司 2020–2023 年的理賠影像,共 4,000 張車損照片,含人工標註的 bounding box 與 segmentation mask。因為保險公司資料具隱私與商業機密,完整資料集「未公開,無對外下載連結」。5,000 份來自同一家埃及保險公司的理賠報告,同樣因隱私不公開,只釋出 50 份匿名樣本於同一 GitHub 專案中。
論文在附錄 Appendix A 說明:提供 100 張匿名化樣本影像,以及程式碼,放在 GitHub上
https://github.com/anponnus/roboflow
不過很可惜這邊下載下來發現跟論文敘述有落差,並沒有理賠報告....。
不過很可惜這邊下載下來發現跟論文敘述有落差,並沒有理賠報告....。
- 用 YOLOv11 做車損物件偵測。(用 Ultralytics 在 2024 推出的 YOLOv11m,強化 backbone)在作者自建資料上 mAP50 = 0.9424,且參數比 YOLOv8 少約 22%。
- 用 U-Net 做影像分割(像素級 segmentation),精確畫出受損區域的像素範圍,IoU 約 0.85。
- 用一個微調過的 GPT‑3.5‑turbo LLM,根據影像分析結果與文字描述,自動生成保險理賠報告(含損害描述、詐欺風險、估計理賠金額)。
- 並用一個 線性迴歸模型 估算理賠金額,結合在報告裡。
對影像前處理:
- 4,000 張高畫質車損照片,resize 成 640×640、normalize 到 0–1,做旋轉、翻轉、縮放等 data augmentation。
- 7:2:1 分成訓練/驗證/測試。
對文字:
- 理賠敘述做 tokenization(分詞處理)、lemmatization(詞形還原)、去除 stop words,當作微調 LLM 的輸入。
- 訓練資料:5,000 份保險理賠報告(包含結構化欄位+自然語言敘述+詐欺標記)。
- 7:2:1 切訓練/驗證/測試。
- 輸入:
- 處理過的 claim description(文字)
- YUNet 的損害類別與信心分數、分割特徵
- 詐欺機率、預估理賠金額
- 輸出:
- 一份結構化的保險理賠報告,包含損害項目、信心分數、金額、詐欺狀態等。
2.拍一堆室內照片 → 自動生成整戶房屋描述(提升房仲效率)
(2024)3D 房間的室內語義場景圖,用以描述物件之間的關係。
ZInD 資料集包含 1575 戶真實住宅,包含 67448 張空房間的全景圖像。每個房間包含數張 360 度全景圖,分為主要與次要全景圖。
它包含 1575 間住宅的 3150 則真實描述,每間住宅都有多張無序的室內全景圖像。這些描述包含房間連通性的細節以及跨多層樓房間特徵的一致性細節。每則真實描述是由該住宅的一個或多個段落組成。
主要全景圖的標註包含每個房間的格局以及 W/D/O(窗/門/開口)細節。此外,房間標籤也是資料集標註的一部分。
為了促進室內環境理解領域中新型的多模態(影像、幾何、語言)研究方向,學者提出對 Zillow Indoor Dataset(ZInD)的一項創新擴充,命名為 ZInD-Tell。
首先,學者們介紹一種從 ZInD 原始結構資料中擷取幾何資訊的有效技術,該技術促成了使用 GPT-4 生成準確的真實描述。接著採用人機互動(human-in-the-loop)的方法以確保這些描述的品質。
為了展示此資料集的龐大潛力,學者們建立了 ZInD-Tell 基準測試,聚焦於兩個示範性任務:基於語言的居家檢索與室內描述生成。此外,提出一個端到端、零樣本的基線模型 ZInD-Agent,該模型能處理無序的全景影像集合並生成居家描述。
這項技術在提升房仲效率與改善購屋者的使用體驗方面具有重大潛力。想像一位專注於物件說明的房仲,拍攝了一棟多層建築中每個房間的多張 360 度全景照。人工撰寫詳細且精確的物件說明既繁瑣又耗時,且容易出錯。例如,仲介需要將全景圖對齊、在撰寫說明時記錄所有細節。若有一個端到端的模型能自動從這組全景圖生成連貫的說明,將能大幅減少仲介的手動工作量。此外,潛在客戶也可以用語言描述來搜尋語意上相關的物件,例如「我想要兩間臥室相鄰一個大餐廳」,即可找到與其需求高度符合的房源。
(2021)Knowledge driven Description Synthesis for Floor Plan Interpretation
格局圖 → 幾房幾廳、動線、空間關係的敘述
此篇研究則是直接把平面配置圖轉成文字描述,並指出應用包含 real estate(房地產)與室內路徑規劃。
(2020)Indoor Scene Change Captioning Based on Multimodality Data
室內場景變更描述
有研究把「改動前/改動後」的室內場景,用文字描述「改了什麼」,本質上很貼近裝修前後、驗收、屋況變更紀錄這種需求。
....待整理
4.安衛/危害報告(Safety / Hazard)
....待整理
留言
張貼留言