第27頁(第1/2 頁)
唐念根據提示登進伺服器,資料是從74萬篇中醫古籍中採集出來的65萬種藥材,裡面有很多別名、錯名、重複等幹擾項,需要先刪除重複、冗餘或噪聲資料,再人工標註並對資料進行歸類。
唐念以前做過機器學習方面的比賽,懂得歸類問題的基本步驟,一般先是建立詞彙表,獲取每個詞的ebeddg,然後使用n進行特徵提取,最後挑選演算法做二分類。
唐念憑藉多年工作形成的肌肉記憶,搭建了個演算法框架,把65萬條資料灌進去,結果出來後拿著對照組驗證準確度。
陳知禮從辦公桌前走出,走到她身後,只掃一眼得出結論:「過擬合了,重測。」
「……」
唐念只好刪掉記錄,又重新跑了一遍,陳知禮看一眼,仍不滿意:「我說的重測是讓你換一種演算法,不是讓你拿著3000萬美金的gpu在這磨時間,消耗效能,ok?」
「……」
那你一開始說清楚啊!
「還有,你樣本選的有問題,sote得到的增強樣本有誤差,可能已經偏離了原來的語義,大概是文字ebeddg後距離向量處於高維空間,需要對映到低維再處理。」
唐念沒聽懂,一臉茫然地看著他。
「看我幹什麼,資料增強不會做就去查資料,瞪著一雙大眼只會喘氣嗎?」
他的火氣太明顯,唐念懂了,他根本就不是讓她來幹活的,尋個理由拿她撒氣罷了,所以無論她做什麼都不可能令他滿意。
「你說話就說話,大聲吼什麼,我怕狗叫!」
她最近根本沒得罪他,上課不遲到,文獻也好好翻譯完了,都不知道他在這發的什麼神經。
當然,犯病是不需要理由的。
陳知禮目光忽然移過來,唐念也看著他,四目相對,誰也不服誰。
唐念是娃娃臉的長相,眼睛圓,面板奶白,鼻頭微翹,齊劉海蓋住細長的眉,五官精緻得像漫畫裡走出的少女。
此刻她正直勾勾瞪著他,有點奶兇奶兇的。
陳知禮冷淡地回視一眼,眼神嘲諷:「這不是挺會懟嘛。」
「……」
「跟我就能伶牙俐齒,怎麼被別人欺負的時候嘴皮子就沒這麼溜,只會點頭哈腰說對不起了。」
「你跟他道的什麼歉,難道就聽不出來他是在故意找你麻煩?」
「你脾氣越好他就越是得寸進尺,這個道理都不懂?」
雖然他這話說的很不中聽,但似乎是在為她謀不平,唐念還真不需要:「不用你管。」
她坐回電腦前繼續工作,把幾個演算法梳理一遍,調參重跑,想早點幹完,早點離開是非之地。
「沒人想管你。」
陳知禮也沒心情和她吵,接了個電話。
隨後,把門闔上,下樓去了。
是韓琦教授團隊打來的電話。
這次合作他們負責資料的採集和入庫,以建立大型中醫漢語語料庫。這些資料不僅來源傳統中醫知識,還可能來自網頁資料、小說資料、各大醫院問診、手寫醫囑等,資料的整理和收集就變得非常繁瑣且複雜。
韓琦教授團隊畢竟只精通中醫,不懂技術,所以陳知禮這邊會給予技術支援。
「陳老師有時間嗎?」
「你說。」
「我們目前已經把45家中醫院校還有400多家中醫機構的診斷記錄收集起來,目前有個問題是這類資料大多是手寫,字跡潦草,我們很難用掃描識別的方式轉化為電子版,人工辨別的話則成本太高,您這邊有沒有好的辦法?」
陳知禮想了想,覺得這事在電話裡一時半會說不清楚:「我下週抽空過去看一下。」