學術活動
您當前的位置:首頁 > 新聞動態(tài) > 學術活動
【09.24】“青年科技工作者園地”舉行第161次活動:基于大語言模型的開源威脅情報獲取、基于微調大模型的BESIII文獻知識抽取方法研究
文章來源:  2024-09-23
】 【】 【

“青年科技工作者園地”舉行第161次活動


時間:2024年9月24日(本周二) 下午 2:30

地點:二樓會議室(東莞同事和同學通過視頻)

主持人:張正德老師

ZOOM會議信息:83936709104/422157


報告人:苑新陽

報告題目:基于大語言模型的開源威脅情報獲取

報告簡介:網絡安全威脅情報獲取是開展安全防御工作中的關鍵任務。最近,大語言模型技術的進步展現了其在自然語言處理和理解上的強大能力,同時也為威脅情報的獲取提供了一種新的思路。本報告提出了一種基于LLMs的威脅情報獲取方法,無需人工掃描工具或查詢相關的網站和平臺就能夠基于用戶需求自主獲取威脅情報,節(jié)省了大量的時間和人力成本。進一步的,為了解決大語言模型在處理威脅情報時存在的知識局限性和時效性障礙,我們結合思維鏈技術提出了一種框架,幫助大語言模型使用工具來獲取OSINT?;谏鲜隹蚣埽覀儤嫿艘粋€用于獲取開源情報的Agent,它能夠將邏輯推理問題分解為多個步驟,并使用工具逐步解決。同時,我們還開發(fā)了供Agent動態(tài)調用以解決問題的工具箱。為了驗證該框架的有效性,我們設計了一組測試數據集,并通過四個評估指標測試Agent的性能。實驗結果表明Agent在獲取OSINT時均取得了較高的準確率,且在特定情報獲取問題上的準確率相比與其對應的基座大語言模型取得了大幅度提升。


報告人:劉媛媛

報告題目:基于微調大模型的BESIII文獻知識抽取方法研究

報告簡介:大型通用磁譜儀BESIII是高能物理領域的粒子物理大科學裝置,是世界上最先進的研究粲物理的設施。研究賽博士科研智能體智能化完成BESIII實驗相關的物理分析任務的過程中,還需重點解決大語言模型缺少BESIII實驗知識而存在的幻覺現象。知識圖譜的事實性、時效性和邏輯嚴謹性使其成為大語言模型的絕佳能力補充。

此報告主要分享基于BESIII文獻進行知識抽取構建知識圖譜的方法。通過對BESIII文獻知識圖譜的知識建模,定義數據的關系框架;基于高能物理領域的高能·溪悟大語言模型進行二次預訓練和微調,得到BESIII知識抽取大模型;針對不同的文檔內容,兩階段完成知識抽取任務,最后設計提示策略和自我增強階段,指導BESIII知識抽取大模型更有效地完成知識抽取任務。

知識抽取是構建知識圖譜中的一大核心環(huán)節(jié),本方法能顯著提升知識抽取的高效性和準確性,有利于加速知識圖譜構建流程的持續(xù)迭代演進。最終,將BESIII實驗知識圖譜應用至賽博士科研智能體,有望提升其物理分析邏輯推理能力和自我反思減少幻覺能力,從知識中發(fā)現規(guī)律,產生新認知,加速科學發(fā)現。


附件下載:

地址:北京市918信箱 郵編:100049 電話:86-10-88235008 Email:ihep@ihep.ac.cn
中國科學院高能物理研究所 備案序號:京ICP備05002790號-1 文保網安備案號: 110402500050