第25個冬天

發表文章

目前顯示的是 2026的文章

賽局理論期中報告參考資料

- 3月 26, 2026

https://castrodavid.dev/posts/the-tech-debt-dilemma/ https://newsletter.pragmaticengineer.com/p/manu https://goomics.net/#2012-02-28_gdrive_launch https://goomics.net/62 https://medium.com/hackernoon/game-theoretical-reasons-software-projects-fail-the-prisoners-dilemma-reputational-damage-and-4129c6bdf0eb

閱讀完整內容

[NLP]如何使用SpaCy語法依存器針對英文語句去建構關係樹

- 3月 23, 2026

程式範例主幹 chef → 主詞 prepared → 核心動詞 meal → 受詞也就是： The chef prepared a meal. 修飾資訊 The 修飾 chef a 修飾 meal delicious 修飾 meal for the guests 補充這頓 meal 的對象／用途第一段表格表頭定義 Word：目前這個詞 Dependency：它的依存關係類型 Head：它依附到哪個核心詞 Relation：它底下直接帶哪些子節點第一句:The det chef [] The 是限定詞（det，determiner）代表The 是用來限定 chef 的冠詞第二句:chef nsubj prepared ['The'] chef 是 nsubj，也就是名詞主詞它依附到 prepared 它的子節點有 The chef 是動詞 prepared 的主詞，而 The 又是 chef 的修飾詞。第三句:prepared ROOT prepared ['chef', 'meal', '.'] prepared 是整句的 ROOT，代表這句話的核心動作是 prepared 它的子節點有： chef meal . 第四句:a det meal [] a 是限定詞修飾 meal a 是 meal 的冠詞第五句:delicious amod meal [] delicious 是 amod 也就是形容詞修飾名詞它修飾 meal 第六句:meal dobj prepared ['a', 'delicious', 'for'] meal 是 dobj 也就是直接受詞， prepared 的受詞是 meal 它依附到 prepared 它底下還有三個子節點： a delicious for 第七句:for prep meal ['guests'] for 是介系詞（prep）它依附到 meal 子節點是 guests spaCy 這次的分析是把 for 掛在 meal 底下，也就是偏向把它看成： a delicious meal for the guests 第八句:the det guests [] the 是冠詞修...

閱讀完整內容

T-SQL筆記64_清空當前SSMS開啟的Session視窗下的temp table

- 3月 19, 2026

DECLARE @d_sql NVARCHAR(MAX) SET @d_sql = '' SELECT @d_sql = @d_sql + 'DROP TABLE ' + QUOTENAME(name) + '; ' FROM tempdb..sysobjects WHERE name like '#[^#]%' AND OBJECT_ID('tempdb..'+QUOTENAME(name)) IS NOT NULL IF @d_sql <> '' BEGIN PRINT @d_sql EXEC( @d_sql ) END Ref: https://stackoverflow.com/questions/5497450/drop-all-temporary-tables-for-an-instance

閱讀完整內容

賽局理論_ Chapter 06 Game theory_筆記

- 3月 14, 2026

http://huizhoukexie.com/sys-nd/1336.html 賽局理論賽局理論主要是用來分析雙方(至少2人以上，太多也不好)利害、對立關係或交涉的工具。主要是研究理性者互動策略選擇，研究人類互動行為的方法。(比方:國家對立、選舉、貿易經濟戰、組織內問題、經營公司店家等) 當個人之最佳行動抉擇於他人行動或預期行動時，可協助釐清情勢。目的在於發掘穩定及可預測的互動結果，學者將穩定可預測之結果稱之為均衡(Equilibrium) 。關鍵步驟:發覺在給定期他參與者策略下，找出參與者的最適反映(Best Response) 。賽局理論就是在研究策略性互動，通常會需要有參與者(players) 至少兩人參與者可能採取的策略(possible strategies) 報酬(Payoff) 之後要進行的就是俯瞰問題思考模式，對於複數的人或組織間所發生的狀況，用客觀角度俯瞰分析全貌，將其視為一場賽局。絕大部分人都不擅長俯瞰思考。最適反映(Best Response) 在給定或預期其他參與者將選擇之色略下，能帶給自身最大報酬的策略。報酬表(Payoff Table) 用於描述有兩個或三個參與者於不同策略組合下的參與者報酬。參與者的策略分解於行和列，行和列下的數字，分別表述所對應策略組合下，行與列參與者的報酬。納許均衡(Nash Equilibrium) 納許是美國數學家，他提出：「我們應該預期每個人都會考慮其他參與者的策略，並據此做出最佳決策。」在包含兩個或以上參與者的非合作賽局中，假設每個參與者都知道其他參與者的均衡策略的情況下，沒有參與者可以透過改變自身策略使自身受益時的一個概念解。納許均衡可大致分為純策略均衡 (Pure Strategy) 和混合策略均衡 (Mixed Strategy) 。優勢策略(Dominant Strategy) 簡而言之，自己的某個策略，對對手所有的策略都是最適回應。當賽局中存在優勢策略時，便會產生讓人非選該策略不可的強大理由，此狀態就稱為優勢策略均衡。囚犯困境(The Prisoner’s Dilemma) 之所以難下抉擇，是因為刑期不僅取決於自己認罪與否，也取決於別人認罪與否。嫌疑犯1 跟 2各自是否認罪? 若兩人都不招就各判關1年兩人都招就各判關4年其中一方招對方不招，則招的一方直...

閱讀完整內容

[論文筆記]Deep Learning-Based Short Story Generation for an Image Using the Encoder-Decoder Structure(Visual Story Writer)

- 3月 08, 2026

Deep Learning-Based Short Story Generation for an Image Using the Encoder-Decoder Structure https://ieeexplore.ieee.org/abstract/document/9512087/ 研究問題為解決影像生程說明文字篇幅過於簡短、死板、單薄。韓國學者們KYUNGBOK MIN、MINH DANG、HYEONJOON MOON(韓國首爾世宗大學-電腦科學與工程博士)嘗試想透過結合影像描述資料集和人工蒐集故事語料庫，來進行短篇故事描述生成(Short Story Captioning,SSCap)。提出所謂的Visual Story Writer Model，藉此來協助故事創作者找尋靈感。作者想驗證，是否能從一張圖片出發，不只描述「圖中有什麼」，而是進一步寫出像恐怖或愛情風格的短故事，同時維持語意關聯與上下文一致性。資料集和前處理本研究使用兩大資料來源： 1.故事語料庫作者自行從 Smashwords 線上電子書平台爬取蒐集免費小說，挑選字數超過 20,000 字的作品，以降低雜訊與過短文本影響。最後建立了兩種文類的故事資料集：愛情(romance)：500 篇恐怖(horror)：621 篇於2021年之前學者們爬取Smashwords線上電子書平台，檔案格式為pdf，因此還需要透過pdf2txt的函式庫來轉換為純文字。接續透過python nlp的函式庫做前處理(論文中僅提到移除空白列)，最終會將所有電子書文榜都儲存至單一一份檔案中。透過一種包含結合循環神經網路(RNN)和encoder-decoder架構的無監督式學習框架。 (2026~至今Smashwords線上電子書平台檔案下載下來都是epub格式，因此解析純文本過程會需要另外研究。) 2.Conceptual Captions 資料集影像描述資料集選用Google於2018年所釋出的 Conceptual Captions 資料集，共涵蓋超過330萬對image跟captions。包含超過 330 萬組 image-caption pairs，比 MS-COCO 更大且更具多樣性。目前官方下載點已經失效。針對Conceptual Captions 資料集，學者們則是將...

閱讀完整內容

早期深度學習框架Theano_學習資源連結

- 3月 03, 2026

Theano Deep Learning Tutorial for Beginners https://www.projectpro.io/data-science-in-python-tutorial/theano-deep-learning-tutorial-#mcetoc_1fff7t26h2381 https://speech.ee.ntu.edu.tw/~tlkagk/courses_MLSD15_2.html https://speech.ee.ntu.edu.tw/~tlkagk/courses/MLDS_2015_2/Lecture/Theano%20DNN.ecm.mp4/index.html https://speech.ee.ntu.edu.tw/~tlkagk/courses/MLDS_2015_2/Lecture/Theano%20DNN.pdf https://speech.ee.ntu.edu.tw/~tlkagk/courses/MLDS_2015_2/Lecture/Theano%20RNN.pdf https://mail.tku.edu.tw/myday/teaching/1042/SCBDA/1042SCBDA09_Social_Computing_and_Big_Data_Analytics.pdf

閱讀完整內容

Python epub電子書檔案解析_中文斷句處理_以國家科幻叢書十一_機器人風波(The Soul of the Robot)為例

- 3月 01, 2026

此次實驗採用好讀平台上面的書名：機器人風波（The Soul of the Robot）作者: 巴靈頓・貝雷（Barrington J.Bayley）譯者：王凱竹 https://www.haodoo.net/?M=Share&P=1010490641#gsc.tab=0 作者簡介：巴靈頓．貝雷出生於英國伯明翰，一九六零年代科幻小說新浪潮運動在英國的推手之一。寫作風格憂鬱、陰沉，影響後來多名英國科幻作家。這個平台的定位有點類似台灣版本的日本青空文庫青空文庫是蒐集了日本國內著作權已經進入公有領域的文學作品的數位圖書館。程式碼範例ver1. """ 【免責聲明 / Disclaimer】 1. 本程式僅供技術研究與學術交流使用，不保證程式碼完全無誤或適用於特定商業目的。 This code is for technical research and academic exchange only. There is no guarantee of accuracy or fitness for any particular purpose. 2. 使用者應確保所處理之 EPUB 檔案具備合法授權。本程式作者不承擔因非法使用版權作品（如未經授權之重製、散佈或進行機器學習訓練）所產生之法律責任。 Users are responsible for ensuring they have legal authorization for the EPUB files. The author assumes no liability for legal issues arising from unauthorized use of copyrighted works (e.g., reproduction, distribution, or ML training). 3. 請遵守相關著作權法規。針對已受版權保護之作品，建議僅在「合理使用」範圍內操作。 Please comply with copyright laws. For protected works, operations should be limited to the sco...

閱讀完整內容

程式碼內嵌網站

- 2月 28, 2026

好用的程式碼內嵌網站 https://hilite.me/

閱讀完整內容

特徵類型及常見特徵工程手法

- 2月 27, 2026

https://www.geeksforgeeks.org/machine-learning/what-is-feature-engineering/ 在機器學習(深度學習)中關鍵絕大部分在特徵工程而特徵工程關鍵則在所謂領域知識。特徵類型數值型:有不同轉換方式，函數、條件式子皆可。(舉例:坪數、年齡、身高、體重) 類別型:一種類別對應一種數值分數。(舉例:行政區、性別、花種類、....) 二元特徵:僅True(1)/False(0)兩種數值特徵，可當作類別型或數值型排序型特徵: 介於數值型與類別型特徵之間，類似考試的百分等級(0~99)。有名次、大小關係，也可能並非連續數字。通常當作數值型特徵處裡，若作為類別型特徵就會失去可排序特性。時間型特徵: 若取總秒數可轉為數值型特徵，但會失去週期特徵(月、季、星期) 直接用本身可做為類別型特徵，但會失去排序依據資訊，類別數量也過大無意義。常見特徵工程手法特徵工程是將現實(可能非數值)資料轉換為對應數值型分數的過程捨棄或調整離群值 : 若只有少數幾筆資料和其他數值差異極大，則無法標準化處理。一種做法是直接移除，會挖一個洞。(若離群值數量真的很少的話建議用此做法) 一種做法是將離群值進行調整類別型資料編碼標籤編碼(Label Encoding): 類似編列流水號概念，依序將新出現的類別編新代碼。已出現類別編上已使用的代碼，缺點是該數值大小順序皆無意義。假設我們有一個「顏色」變數，將 red 指定為 0 、 green 為 1 、 blue 為 2 。獨熱編碼(One Hot Encoding): 為改良數字大小無意義問題，將不同類別分別獨立為一欄。缺點是當類別數量越多時，會需要較大記憶空間與計算耗時成本。假設我們有一個「顏色」變數，其具有三個標籤 red 、 blue 和 green 。為了讓機器學習算法能夠處理，這些標籤都必須轉換為數值形式。透過創建三個新欄位（每個欄位對應一個標籤）來實現，其中對應標籤的欄位使用 1 ，其他顏色欄位則使用 0 。時間特徵分解:時間欄位該怎麼做處理、劃分呢(週期循環特徵) 最直覺方法就是依照原始意義來分欄處理，或加上第幾週or星期幾。但是某些欄位(例如:時分秒)和目標值關係極低，是否有更有意義的特徵呢? 可透過週其概念來合成一些重要特徵聯想有哪幾種...

閱讀完整內容

Windows作業系統環境下安裝Ruby_Wikipedia語料庫截取純文本wp2txt_WikiExtractor_gensim解析讀取wiki資料

- 2月 18, 2026

Ruby預設環境會有類似node.js的npm install的cli (定位就跟微軟開發者在用的nuget差不多、或python的pip install....) 叫做gem 相關Ruby開源套件貢獻者會在此網站平台做釋出 https://rubygems.org/ 在一些自然語言語料庫收集任務最為知名的就是維基百科 https://dumps.wikimedia.org/ 當然要注意的是wikimedia有對下載者進行了速率限制，並將每個 IP 位址的連線數上限設為 3 個。目的是確保每個人都能以合理的下載速度存取檔案。在這邊要從官方網站的Database backup dumps進去也就是所有跨語言的公開WIKI媒體資料完整副本，以嵌入 XML 的維基文本來源檔案和元資料形式提供。官方有釋出dumps出來的文本壓縮檔無法直接解析需要特殊前處理 https://dumps.wikimedia.org/backup-index.html 看 Wikipedia 網域抓語言代碼： https://en.wikipedia.org/ → enwiki https://zh.wikipedia.org/ → zhwiki https://ja.wikipedia.org/ → jawiki 比方說日本語言的最新dumps資料網址 https://dumps.wikimedia.org/jawiki/latest/ 英文語言的最新dumps資料網址 https://dumps.wikimedia.org/enwiki/latest/ https://dumps.wikimedia.org/enwiki/20260201/ 中文語言的最新dumps資料網址 https://dumps.wikimedia.org/zhwiki/latest/ https://dumps.wikimedia.org/zhwiki/20260201/ 舉例這邊針對英文和中文各自bz2做下載 enwiki-latest-pages-articles.xml.bz2 zhwiki-latest-pages-articles.xml.bz2 wiki中文語料庫僅3GB相較英文WIKI的23.2G來的小很多 Solution1. wp2txt 剛好涉及到裝wp2txt https://...

閱讀完整內容