發表文章

研究所網文經驗參考

研究所生活全攻略:16個 碩士班常見問題 、深度分析與建議 https://geo1995.com/tips-%EF%BD%8Daster-degree/ 研究生README|怎麼讀Paper https://vocus.cc/article/65f44c89fd89780001663cb3 做研究之十八般武藝 https://www.csie.ntu.edu.tw/~b90057/use/research_how_to.pdf 要不要考研究所-找與報paper篇 https://hackmd.io/@today-is-researchday/rfdb#%E6%80%8E%E9%BA%BC%E7%9C%8B%E8%AB%96%E6%96%87%E8%B7%9F%E5%A0%B1%E8%AB%96%E6%96%87 [轉貼] 做一次好的論文報告 https://www.ptt.cc/bbs/NTHU_NVLab/M.1242219101.A.90E.html 研究生應有的觀念與態度—談我碩博士的求學生涯 https://nurse.cgust.edu.tw/var/file/31/1031/img/323/280941560.pdf 研究生在幹嘛? #第一次報Paper!講到我口好渴呀 https://www.youtube.com/watch?v=JMuGunjNfXM 如何在閱讀研究文獻中保持批判性 https://vocus.cc/article/659eab09fd8978000131b9ad 解析期刊論文:十七個具備批判性思考的提問技巧及範例 https://www.editing.tw/blog/structure/%E8%A7%A3%E6%9E%90%E6%9C%9F%E5%88%8A%E8%AB%96%E6%96%87-%E5%8D%81%E4%B8%83%E5%80%8B%E5%85%B7%E5%82%99%E6%89%B9%E5%88%A4%E6%80%A7%E6%80%9D%E8%80%83%E7%9A%84%E6%8F%90%E5%95%8F%E6%8A%80%E5%B7%A7%E5%8F%8A%E7%AF%84%E4%BE%8B.html https://awec.ntu.edu.tw/wp-content/uploads/2023/11/%...

[自然語言]術語筆記_語言模型N-gram(看前N-1個token,來預測下一個詞)、Corpus(語料庫)

圖片
https://books.google.com/ngrams/graph?content=*&year_start=1800&year_end=2022&corpus=zh&smoothing=3 上圖為Google Books的語料庫可發現 的這個字頻率出現最高 Language Model (語言模型) 如果說我們有一個由m個詞組成的序列(也就是一個句子),我們希望計算句子的概率。 根據鍊式規則,可得: p(w₁, w₂, …, wₘ) = p(w₁) * p(w₂ | w₁) * p(w₃ | w₁, w₂) … * p(wₘ | w₁, …, wₘ₋₁) 根據馬可夫鏈假設可得 p(w₁, w₂, …, wₘ) = p(wᵢ | wᵢ₋ₙ₊₁, …, wᵢ₋₁) Corpus/Corpora ( 語料庫 ) 語料庫是一個由真實文字或音訊組成並整理成資料集的結構化文本數據集。是自然語言處理(NLP)系統的基礎。 它可以包含從報紙、小說、食譜、廣播節目到電視節目、電影以及推文等各類內容。 https://botpenguin.com/glossary/corpus N-gram模型(看前N-1個token,來預測下一個詞) 是一種LM(Language Model),語言模型是一個根據機率判別的模型,其輸入是一句話(單詞的有順序性序列),輸出也就是這一句話的機率,也就是這些單詞的聯合機率(joint probability)。 常應用在「錯字修正」、「選字推薦」等。 以n-1個字來做input,預測之後應該output捨麼字。比方4-gram model就會用前3個字來預測第4個字output為何? 比方以Google Books語料庫N-gram推測 滷肉 下一個字機率最大是出現 "飯" N-gram模型定義(等號左側就為句子出現的合理性機率) 當 n=1 時,一個一元模型(Unigram)為,每個單詞出現機率連乘的機率,只看自己: 當 n=2 時,一個二元模型(Bigram)為,前一個單詞條件下再去計算第二個單詞的機率: 當 n=3 時,一個三元模型(Trigram)為,看前2個單詞去預測下一個單詞的機率: N-gram的N愈大愈好嗎? 當N值較大:對字詞的約束性更高,具有更高的辨識力,複雜度較高。 當N值...

[自然語言]術語筆記_詞袋模型BOW(Bag of Words)&詞集模型(Set of Words)

圖片
https://sep.com/blog/a-bag-of-words-levels-of-language/ 詞袋模型BOW(Bag of Words)-One-hot表示法 最早用於提取文本特徵提取手法 將文本直接簡化為一系列集合,不考慮語法和詞序關係,每個詞互相獨立。 該方式也被稱作詞袋模型(Bag of Words,BOW),只是把詞直接裝進袋子中,詞和文本關係就相當於文本是一個袋子。 早期較簡易的模型,對文本中資訊較多丟失。 最早被提出是為了解決文檔分類問題,目前也有應用魚NLP、CV等領域。 具體作法 對料語進行清理,並完成分詞,比方有一句話如下: 大魚吃小魚也吃蝦米,小魚吃蝦米。 對每個詞進行編號,形成字典(順序無關的流水號) {"大魚":1,"吃":2,"小魚":3,"也":4,"蝦米":5} 用0,1代表該詞是否在文本中出現,從而將文本紀錄為一個特徵向量。 大魚吃小魚也吃蝦米 =>[大魚,吃,小魚,也,蝦米] => [1,2,1,1,1]   吃出現兩次 小魚吃蝦米 => [0,1,1,0,1] 詞集模型(Set of Words) 若不考慮詞頻,減少模型複雜度則就稱為Set of Words。 常用在短文本分析。 大魚吃小魚也吃蝦米 =>[大魚,吃,小魚,也,蝦米] => [1,1,1,1,1]   One-hot表示法

[論文筆記]BLEU: a Method for Automatic Evaluation of Machine Translation

圖片
年份:2002年 論文連結:https://aclanthology.org/P02-1040/ 研究問題 本篇論文探討學者們為了解決機器翻譯評估效率,提出了一個快速又低廉並且與語言無關,替代人工評估但又保留人為評估特性、每次運行邊際成本極低的方法與BLEU基準。 BLEU(Bilingual Evaluation Understudy)為一種用於自動評估機器翻譯品質的指標。由IBM研究員2002年所提出。主要根據N-gram匹配,核心思想是透過比較機器生成的翻譯與參考翻譯之間的n-gram(連續n個詞)匹配情況來度量翻譯品質。 BLEU的取值範圍坐落於0~1之間,越靠近1代表機器翻譯品質越好。 研究背景 為了讓機器翻譯技術能進步,更有效率低廉成本的評估方法於早期就屬於一個大問題。 根據更早期學者文獻(Hovy,1999; White and O’Connell, 1994)探討到,對於機器翻譯成效評估面向主要聚焦於翻譯的充分性(adequacy)、忠實度(fidelity)和流暢度(fluency)。 早期人類對於機器翻譯評估,絕大部分都採用人工評估方式。此類方式需要耗費數週甚至數月才能完成,時間成本極高也無法將人力重複疊代。 不利於研發「每天改模型就要回歸測」的需求。 如何衡量翻譯表現?學者們認為只要翻譯越接近專業的人類翻譯,就越好。為了評估機器翻譯品質,人們通常根據數值化度量標準,衡量其與一或多位人類參考翻譯接近程度。 因此學者們的機器翻譯評估系統主要涵蓋兩個要素 1.一個數值化的翻譯接近度度量指標 2.一個高品質的人類參考翻譯語料庫 通常給定一個原文句子,一定會有不只一句翻譯。這些翻譯在用詞或詞序上仍可能有所不同,就算用同樣詞彙。 比方以下翻譯範例,共有兩種候選翻譯句子。雖然看似表達語意差不多,但品質卻大相逕庭。 Candidate 1: It is a guide to action which ensures that the military always obeys the commands of the party.(這是一份行動指南,確保軍隊始終服從黨的指令。) Candidate 2: It is to insure the troops forever hearing the activity guidebook that party...

PL-SQL筆記5_ORA-06550_PLS-00428: 在此SELECT敘述句中預期會出現一個INTO子句

 在PLSQL Develoepr 想進行腳本測試時 DECLARE   v_groupName VARCHAR2(300); BEGIN   v_groupName := 'some group name';   SELECT R.*     FROM ROLE_TABLE R,          USER_ROLE_RELATION UR,          USER_CONTACT UC    WHERE R.ROLE_NAME = v_groupName      AND R.ROLE_ID   = UR.ROLE_ID      AND UR.USER_ID  = UC.USER_ID; END; 報以下錯誤 ORA-06550: 第四行,第 3 個欄位: PLS-00428: 在此SELECT敘述句中預期會出現一個INTO子句 原因: 要在 PL/SQL 區塊裡查詢 → 必須用 INTO 或 Cursor。 在 PL/SQL 區塊裡,不可能直接寫裸的 SELECT。 若不想用 INTO,就不要包在 PL/SQL 區塊裡,直接寫 SQL 查詢。

Seminar期末報告參考

  Engineering Blog https://www.coupang.jobs/en/life-at-coupang/engineering-blog/#posts Accelerating Coupang’s AI Journey with LLMs https://www.coupang.jobs/en/life-at-coupang/engineering-blog/accelerating-coupang-s-ai-journey-with-llms Meet Coupang’s Machine Learning Platform https://www.coupang.jobs/en/life-at-coupang/engineering-blog/meet-coupang-s-machine-learning-platform/?utm_source=chatgpt.com#1_ 你不知道的酷澎數據軍火庫 https://www.ithome.com.tw/voice/159892 【貫徹數據至上原則的關鍵基礎建設】酷澎PB級數據平臺大解析 https://www.ithome.com.tw/news/159882 酷澎如何擁抱生成式AI,開發到應用技術細節一次看 https://www.ithome.com.tw/news/166732

CV看圖說故事_Phase1.COCO資料集載入與劃分

圖片
COCO 是一個大規模的物件偵測、分割與影像描述資料集。COCO 有幾項特色: Object segmentation Recognition in context Superpixel stuff segmentation 330K images (>200K labeled) 1.5 million object instances 80 object categories 91 stuff categories 5 captions per image 250,000 people with keypoints COCO數據集 資料LINK http://images.cocodataset.org/zips/train2014.zip http://images.cocodataset.org/zips/val2014.zip  http://images.cocodataset.org/annotations/annotations_trainval2014.zip 下載解壓後存放至Jupyter Notebook專案之下,檔案大小依序分別如下(過程要等一段時間) val2014.zip 大小6.18GB train2014.zip 大小12.5GB annotations_trainval2014.zip 大小241MB 記得解壓縮存放到./data相對目錄下 訓練與驗證影像的描述文字可在 annotations 子資料夾內中的  captions_train2014.json 或 captions_val2014.json JSON 檔中找到,而所有影像都放在 train2014 或 val2014 資料夾中。 關於JSON檔案格式基本上 可以使用如下程式碼,先觀察到有以下四個主要KEY值 info、image、license 和 annotation import json valcaptions = json.load( open ( './data/annotations/captions_val2014.json' , 'r' )) trcaptions = json.load( open ( './data/annotations/captions_train2014.jso...

Vision Transformers_相關專業術語與原理_一些最具影響力的純視覺 Transformer

圖片
  Vision Transformers(視覺變換器) 事實上在ViT被發展出來之前,已有帶視覺注意力的 RNN 與混合 CNN-Transformer 模型。 ViT 的前身 RNNs with Visual Attention(具視覺注意力的循環神經網路) Show, Attend and Tell: Neural Image Caption Generation with Visual Attention https://arxiv.org/abs/1502.03044 https://arxiv.org/pdf/1502.03044 最早主要提出了自動根據一張影像來生成一段文字描述 注意力機制在自然語言處理之外的最早應用之一,是使用視覺注意力來生成影像描述。 在這裡,卷積神經網路會先處理影像並輸出一些特徵圖。 接著配備注意力機制的解碼器,RNN 會一次產生一個詞元來生成描述。 解碼器在每個解碼步驟使用注意力層,專注於影像中恰當的部分。 模型生成了描述「A woman is throwing a Frisbee in a park」,可觀察到當解碼器即將輸出單字「Frisbee」時,它將注意力集中在哪個輸入影像的區域:很明顯,大部分注意力都集中在飛盤上。其他還有像是聚焦在一個小女孩或一隻狗等,都是聚焦在英文句子主詞的注意力。 注意力機制的另一個額外好處是,它們讓人更容易理解促使模型產生輸出的原因。 模型會具有可解釋性,當模型犯錯時,這尤其有用。 在2016年論文中就有探討到如下案例。 "Why Should I Trust You?": Explaining the Predictions of Any Classifier https://arxiv.org/abs/1602.04938 https://arxiv.org/pdf/1602.04938 例如,如果一張在雪地裡散步的狗的影像被標註為「在雪地裡散步的狼」,那麼你可以回頭檢查模型在輸出「狼」這個詞時注意了什麼。你可能會發現它不只注意到狗,也注意到雪,這暗示了一個可能的解釋:也許模型學會透過檢查周遭是否有大量雪來區分狗與狼。 該論文提出了另一種可解釋性的方法:在分類器某次預測的局部鄰域內,學習一個可解釋的模型來解釋該預測。 以下一些最具影響力的純視覺 Transformer,只...

學校圖書館電子資源

  本站首頁 » 圖書館資源懶人包 » 電子書 » 商業周刊、天下雜誌、科學人..等雜誌及熱門中文電子書線上看 https://news.lib.nycu.edu.tw/researches/ebooks/%e5%95%86%e6%a5%ad%e5%91%a8%e5%88%8a%e3%80%81%e5%a4%a9%e4%b8%8b%e9%9b%9c%e8%aa%8c%e3%80%81%e7%a7%91%e5%ad%b8%e4%ba%ba-%e7%ad%89%e9%9b%9c%e8%aa%8c%e5%8f%8a%e7%86%b1%e9%96%80%e4%b8%ad%e6%96%87%e9%9b%bb/ https://nycu.ebook.hyread.com.tw/index.jsp https://nycu.airitibooks.com/Home/Index https://reading.udn.com/udnlib/nycu/

在 Windows 用 Docker 快速跑起 SonarQube社群版10.6_針對.net framework專案

圖片
之前做過直接在本地架設Sonarqube的掃描儀錶板環境 https://coolmandiary.blogspot.com/2022/01/sonarqubewindows.html 時隔3年補充筆記透過Docker並用較新版本的來示範如何用Docker來建置原始碼掃描環境 這邊假設你電腦Windows 已安裝 Docker Desktop for Windows,並啟用 WSL2 後端 (Docker Desktop → Settings → General → Use the WSL 2 based engine) Step1.在自行指定目錄下 E:\Docker\Sonarqube,準備好一個yaml。 version : "3" services : sonarqube : image : sonarqube:10.6.0-community depends_on : - db environment : SONAR_JDBC_URL : jdbc:postgresql://db:5432/sonar SONAR_JDBC_USERNAME : sonar SONAR_JDBC_PASSWORD : sonar SONAR_SEARCH_JAVAADDITIONALOPTS : "-Dnode.store.allow_mmap=false,-Ddiscovery.type=single-node" volumes : - sonarqube_data:/opt/sonarqube/data - sonarqube_extensions:/opt/sonarqube/extensions - sonarqube_logs:/opt/sonarqube/logs ports : - "9000:9000" db : image : postgres:14-alpine environment : POSTGRES_USER : sonar POSTGRES_PASSWORD ...