發表文章

兩階段目標檢測發展史(R-CNN,Fast R-CNN,Faster R-CNN)

圖片
  在探討RCNN之前可以先大概知道一個目標檢測發展歷史時間軸 最早期CNN提出之後,陸續從2014年到2016年雙階段目標檢測的技術陸續被提出。 在目標檢測技術的發展歷程中,兩階段式偵測方法是一個很重要的里程碑。 它的核心概念是:先找出可能存在目標的區域(Region Proposal),再對這些區域進行分類與邊界框回歸。這類方法的代表模型依序包括 R-CNN、Fast R-CNN、Faster R-CNN,可以看出整體演進方向就是:從準確率提升,逐步走向更高效率與端到端訓練。 https://medium.com/nerd-for-tech/research-summary-object-detection-upto-fast-rcnn-43d5944f4f6f 1. R-CNN(Region-Based CNN) 提出時間:2014 年 作者:Ross Girshick 論文名稱: Rich feature hierarchies for accurate object detection and semantic segmentation 論文連結: Rich feature hierarchies for accurate object detection and semantic segmentation(2014初版8頁) www.cv-foundation.org/openaccess/content_cvpr_2014/papers/Girshick_Rich_Feature_Hierarchies_2014_CVPR_paper.pdf Rich feature hierarchies for accurate object detection and semantic segmentation Tech report (v5)(21頁) https://arxiv.org/abs/1311.2524 R-CNN 是早期兩階段目標檢測的重要代表作,首次明確將 Region Proposal(區域提議) 的概念引入目標檢測流程中。 它先透過 Selective Search 從影像中產生大量大小不一的候選區域(約2000個候選框),再將每一個候選區域分別送入 CNN 萃取特徵,最後使用 SVM 進行分類,並搭配 Bounding Box R...

VGG19實作物件辨識(狗的品種信心指數)_使用Tensorflow

圖片
  VGG 這個名字來自牛津大學的 Visual Geometry Group。2014 年,Karen Simonyan 和 Andrew Zisserman 發表了這套架構,論文名稱是 Very Deep Convolutional Networks for Large-Scale Image Recognition。 這篇工作是以 ImageNet 大規模影像辨識任務為背景,核心問題很直接:如果在同樣類型的卷積網路設計下,只是把深度一路往上推,效果會不會更好?  當然論文的答案是肯定的,而且效果相當顯著。 VGG16 和 VGG19 是非常經典的一代。它們不是最省參數的模型,也不是今天速度最快的模型,但它們做了一件很重要的事:很有系統地證明「把網路加深」真的能讓影像辨識更好。 這個觀念,後來幾乎影響了整個 CNN 發展方向。 VGG 系列其實有好幾種配置,但最有名的是 VGG16 和 VGG19。這裡的 16、19,不是指總共只有 16 層或 19 層所有運算,而是指 有權重的層數(weight layers)。 VGG16:13 個卷積層 + 3 個全連接層 VGG19:16 個卷積層 + 3 個全連接層 主要就是 VGG19 比 VGG16 再更深一些。兩者都延續同一種設計哲學:結構很整齊、規則,更容易理解。 它把 CNN 設計簡化成一種很清楚的原則:反覆堆疊小型卷積核,然後逐步加深網路。只要用夠小、夠一致的 3×3 卷積,並把深度推上去,就能做出非常強的模型。 2014 年 ImageNet(ILSVRC 2014),當年的 ImageNet 視覺辨識競賽,VGG 團隊在那一年的比賽中,拿下定位任務第 1 名,分類任務第 2 名。 雖然分類冠軍是 GoogLeNet,但 VGG 仍然成為整個電腦視覺領域最有代表性的里程碑之一。 下方是Colab上實測VGG19的辨識結果

Deep Visual-Semantic Alignments for Generating Image Descriptions(neuraltalk)

karpathy - Deep Visual-Semantic Alignments for Generating Image Descriptions(neuraltalk) https://cs.stanford.edu/people/karpathy/deepimagesent/ https://github.com/karpathy/neuraltalk https://github.com/karpathy/neuraltalk2 https://katefvision.github.io/LanguageGrounding/Slides/70.pdf 官方更新第二版的程式碼專案:https://github.com/karpathy/neuraltalk2 原始出處論文:http://arxiv.org/pdf/1412.2306v2.pdf Pytorch實作版本 Neuraltalk2-pytorch (4 stars) https://github.com/nke001/neuraltalk2.pytorch neuraltalk2.pytorch     Python 2.7 (no coco-caption version for python 3) https://github.com/raoyongming/neuraltalk2.pytorch ImageCaptioning.pytorch (1500 stars) https://github.com/ruotianluo/ImageCaptioning.pytorch Tensorflow實作版本 Neuraltalk2 in tensorflow (2 stars) https://github.com/yiyang92/neuraltalk2-tensorflow neuraltalk2-tensorflow (58 stars) https://github.com/ruotianluo/neuraltalk2-tensorflow  https://ruotianluo.github.io/2016/08/04/neuraltalk2-tf/ Programming in Lua (first edition) https://...

賽局理論期中報告參考資料

  https://castrodavid.dev/posts/the-tech-debt-dilemma/ https://newsletter.pragmaticengineer.com/p/manu https://goomics.net/#2012-02-28_gdrive_launch https://goomics.net/62 https://medium.com/hackernoon/game-theoretical-reasons-software-projects-fail-the-prisoners-dilemma-reputational-damage-and-4129c6bdf0eb

[NLP]如何使用SpaCy語法依存器針對英文語句去建構關係樹

圖片
程式範例 主幹 chef → 主詞 prepared → 核心動詞 meal → 受詞 也就是: The chef prepared a meal. 修飾資訊 The 修飾 chef a 修飾 meal delicious 修飾 meal for the guests 補充這頓 meal 的對象/用途 第一段表格表頭定義 Word:目前這個詞 Dependency:它的依存關係類型 Head:它依附到哪個核心詞 Relation:它底下直接帶哪些子節點 第一句:The det chef [] The 是限定詞(det,determiner) 代表The 是用來限定 chef 的冠詞 第二句:chef nsubj prepared ['The'] chef 是 nsubj,也就是名詞主詞 它依附到 prepared 它的子節點有 The chef 是動詞 prepared 的主詞,而 The 又是 chef 的修飾詞。 第三句:prepared ROOT prepared ['chef', 'meal', '.'] prepared 是整句的 ROOT,代表這句話的核心動作是 prepared 它的子節點有: chef meal . 第四句:a det meal [] a 是限定詞 修飾 meal a 是 meal 的冠詞 第五句:delicious amod meal [] delicious 是 amod 也就是形容詞修飾名詞 它修飾 meal 第六句:meal dobj prepared ['a', 'delicious', 'for'] meal 是 dobj 也就是直接受詞 , prepared 的受詞是 meal 它依附到 prepared 它底下還有三個子節點: a delicious for 第七句:for prep meal ['guests'] for 是介系詞(prep) 它依附到 meal 子節點是 guests spaCy 這次的分析是把 for 掛在 meal 底下,也就是偏向把它看成: a delicious meal for the guests 第八句:the det guests [] the 是冠詞 修...

T-SQL筆記64_清空當前SSMS開啟的Session視窗下的temp table

  DECLARE @d_sql NVARCHAR(MAX) SET @d_sql = '' SELECT @d_sql = @d_sql + 'DROP TABLE ' + QUOTENAME(name) + '; ' FROM tempdb..sysobjects WHERE name like '#[^#]%' AND OBJECT_ID('tempdb..'+QUOTENAME(name)) IS NOT NULL IF @d_sql <> '' BEGIN     PRINT @d_sql     EXEC( @d_sql ) END Ref: https://stackoverflow.com/questions/5497450/drop-all-temporary-tables-for-an-instance

賽局理論_ Chapter 06 Game theory_筆記

圖片
http://huizhoukexie.com/sys-nd/1336.html 賽局理論 賽局理論主要是用來分析雙方(至少2人以上,太多也不好)利害、對立關係或交涉的工具。 主要是研究理性者互動策略選擇,研究人類互動行為的方法。(比方:國家對立、選舉、貿易經濟戰、組織內問題、經營公司店家等) 當個人之最佳行動抉擇於他人行動或預期行動時,可協助釐清情勢。 目的在於發掘穩定及可預測的互動結果,學者將穩定可預測之結果稱之為 均衡(Equilibrium) 。 關鍵步驟:發覺在給定期他參與者策略下,找出參與者的 最適反映(Best Response) 。 賽局理論就是在研究策略性互動,通常會需要有 參與者(players) 至少兩人 參與者可能採取的策略(possible strategies) 報酬(Payoff) 之後要進行的就是俯瞰問題思考模式,對於複數的人或組織間所發生的狀況,用客觀角度俯瞰分析全貌,將其視為一場賽局。絕大部分人都不擅長俯瞰思考。 最適反映(Best Response) 在給定或預期其他參與者將選擇之色略下,能帶給自身最大報酬的策略。 報酬表(Payoff Table) 用於描述有兩個或三個參與者於不同策略組合下的參與者報酬。 參與者的策略分解於行和列,行和列下的數字,分別表述所對應策略組合下,行與列參與者的報酬。 納許均衡(Nash Equilibrium) 納許是美國數學家,他提出:「我們應該預期每個人都會考慮其他參與者的策略,並據此做出最佳決策。」 在包含兩個或以上參與者的非合作賽局中,假設每個參與者都知道其他參與者的均衡策略的情況下,沒有參與者可以透過改變自身策略使自身受益時的一個概念解。 納許均衡可大致分為 純策略均衡 (Pure Strategy) 和 混合策略均衡 (Mixed Strategy) 。 優勢策略(Dominant Strategy) 簡而言之,自己的某個策略,對對手所有的策略都是最適回應。當賽局中存在優勢策略時,便會產生讓人非選該策略不可的強大理由,此狀態就稱為優勢策略均衡。 囚犯困境(The Prisoner’s Dilemma) 之所以難下抉擇,是因為刑期不僅取決於自己認罪與否,也取決於別人認罪與否。 嫌疑犯1 跟 2各自是否認罪? 若兩人都不招就各判關1年 兩人都招就各判關4年 其中一方招對方不招,則招的一方直...

[論文筆記]Deep Learning-Based Short Story Generation for an Image Using the Encoder-Decoder Structure(Visual Story Writer)

圖片
Deep Learning-Based Short Story Generation for an Image Using the Encoder-Decoder Structure https://ieeexplore.ieee.org/abstract/document/9512087/ 研究問題 為解決影像生程說明文字篇幅 過於簡短、死板、單薄 。韓國學者們KYUNGBOK MIN、MINH DANG、HYEONJOON MOON(韓國首爾世宗大學-電腦科學與工程博士)嘗試想透過結合影像描述資料集和人工蒐集故事語料庫,來進行短篇故事描述生成(Short Story Captioning,SSCap)。提出所謂的Visual Story Writer Model,藉此來協助故事創作者找尋靈感。 作者想驗證,是否能從一張圖片出發,不只描述「圖中有什麼」,而是進一步寫出像恐怖或愛情風格的短故事,同時維持語意關聯與上下文一致性。 資料集和前處理 本研究使用兩大資料來源: 1.故事語料庫 作者自行從 Smashwords 線上電子書平台爬取蒐集免費小說,挑選字數超過 20,000 字的作品,以降低雜訊與過短文本影響。最後建立了兩種文類的故事資料集: 愛情(romance):500 篇 恐怖(horror):621 篇 於2021年之前學者們爬取Smashwords線上電子書平台,檔案格式為pdf,因此還需要透過pdf2txt的函式庫來轉換為純文字。接續透過python nlp的函式庫做前處理(論文中僅提到移除空白列),最終會將所有電子書文榜都儲存至單一一份檔案中。 透過一種包含結合循環神經網路(RNN)和encoder-decoder架構的無監督式學習框架。 (2026~至今Smashwords線上電子書平台檔案下載下來都是epub格式,因此解析純文本過程會需要另外研究。) 2.Conceptual Captions 資料集 影像描述資料集選用Google於2018年所釋出的 Conceptual Captions 資料集 ,共 涵蓋超過330萬對image跟captions。 包含超過 330 萬組 image-caption pairs,比 MS-COCO 更大且更具多樣性。 目前官方下載點已經失效。 針對Conceptual Captions 資料集,學者們則是將...

早期深度學習框架Theano_學習資源連結

Theano Deep Learning Tutorial for Beginners https://www.projectpro.io/data-science-in-python-tutorial/theano-deep-learning-tutorial-#mcetoc_1fff7t26h2381 https://speech.ee.ntu.edu.tw/~tlkagk/courses_MLSD15_2.html https://speech.ee.ntu.edu.tw/~tlkagk/courses/MLDS_2015_2/Lecture/Theano%20DNN.ecm.mp4/index.html https://speech.ee.ntu.edu.tw/~tlkagk/courses/MLDS_2015_2/Lecture/Theano%20DNN.pdf https://speech.ee.ntu.edu.tw/~tlkagk/courses/MLDS_2015_2/Lecture/Theano%20RNN.pdf https://mail.tku.edu.tw/myday/teaching/1042/SCBDA/1042SCBDA09_Social_Computing_and_Big_Data_Analytics.pdf

Python epub電子書檔案解析_中文斷句處理_以國家科幻叢書十一_機器人風波(The Soul of the Robot)為例

圖片
  此次實驗採用 好讀平台 上面的 書名:機器人風波(The Soul of the Robot) 作者: 巴靈頓・貝雷(Barrington J.Bayley) 譯者:王凱竹 https://www.haodoo.net/?M=Share&P=1010490641#gsc.tab=0 作者簡介: 巴靈頓.貝雷 出生於英國伯明翰,一九六零年代科幻小說新浪潮運動在英國的推手之一。 寫作風格憂鬱、陰沉,影響後來多名英國科幻作家。 這個平台的定位有點類似台灣版本的 日本青空文庫 青空文庫是蒐集了日本國內著作權已經進入公有領域的文學作品的數位圖書館。 程式碼範例ver1. """ 【免責聲明 / Disclaimer】 1. 本程式僅供技術研究與學術交流使用,不保證程式碼完全無誤或適用於特定商業目的。 This code is for technical research and academic exchange only. There is no guarantee of accuracy or fitness for any particular purpose. 2. 使用者應確保所處理之 EPUB 檔案具備合法授權。本程式作者不承擔因非法使用版權 作品(如未經授權之重製、散佈或進行機器學習訓練)所產生之法律責任。 Users are responsible for ensuring they have legal authorization for the EPUB files. The author assumes no liability for legal issues arising from unauthorized use of copyrighted works (e.g., reproduction, distribution, or ML training). 3. 請遵守相關著作權法規。針對已受版權保護之作品,建議僅在「合理使用」範圍內操作。 Please comply with copyright laws. For protected works, operations should be limited to the sco...