本報(bào)訊 (記者張嬙)近日,國(guó)家數(shù)據(jù)局在《關(guān)于推進(jìn)行業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)行動(dòng)的實(shí)施方案(征求意見(jiàn)稿)》中,首次提出“探索詞元交易等新型交易模式”。華通集團(tuán)所屬青島數(shù)據(jù)集團(tuán)緊跟關(guān)于詞元交易的戰(zhàn)略部署,依托青島在全國(guó)率先建立的行政事業(yè)單位數(shù)據(jù)資產(chǎn)管理與收益分配機(jī)制,完成了從“計(jì)條數(shù)”到“算詞元”的范式演進(jìn),落地了全國(guó)首個(gè)詞元計(jì)量收益分配體系。
“傳統(tǒng)數(shù)據(jù)流通交易一直面臨計(jì)費(fèi)難題,數(shù)據(jù)有的是結(jié)構(gòu)化的單值字段,有的是非結(jié)構(gòu)化的長(zhǎng)文本、表格或圖像,按‘條’或‘字段’計(jì)費(fèi),無(wú)法準(zhǔn)確度量數(shù)據(jù)量的多少,更無(wú)法體現(xiàn)數(shù)據(jù)的真實(shí)價(jià)值。”青島數(shù)據(jù)集團(tuán)首席數(shù)據(jù)官、青島數(shù)據(jù)資產(chǎn)登記評(píng)價(jià)中心主任趙傳啟對(duì)此感觸頗深,“數(shù)據(jù)要素市場(chǎng)要真正流動(dòng)起來(lái),必須破解多源數(shù)據(jù)融合分賬這一難題。而解決之道,恰恰在于引入詞元作為數(shù)據(jù)價(jià)值的基本計(jì)量單位?!?/p>
在這一邏輯下,青島數(shù)據(jù)集團(tuán)落地了全國(guó)首個(gè)詞元計(jì)量收益分配體系,將各類數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一的詞元單位進(jìn)行價(jià)值核算。為確保平穩(wěn)過(guò)渡,青島數(shù)據(jù)集團(tuán)采取了“字段計(jì)量+詞元計(jì)量”雙軌并行策略,以兩者的加權(quán)平均值作為最終貢獻(xiàn)量。
以醫(yī)療數(shù)據(jù)為例,在轉(zhuǎn)化為詞元單位時(shí),只保留性別、年齡、病種等用于模型訓(xùn)練的特征值,實(shí)現(xiàn)原始數(shù)據(jù)“可用不可見(jiàn)”,既消除了隱私泄露風(fēng)險(xiǎn),又為精準(zhǔn)計(jì)量掃清了障礙。在此基礎(chǔ)上,通過(guò)加權(quán)系數(shù)體現(xiàn)不同數(shù)據(jù)的稀缺性與重要性。比如,常見(jiàn)病種如高血壓,數(shù)據(jù)的系數(shù)設(shè)為1.2,而罕見(jiàn)病種如肌肉萎縮癥,數(shù)據(jù)的系數(shù)可設(shè)為3.0,從而在收益分配中體現(xiàn)差異。
這套機(jī)制試運(yùn)行以來(lái),高價(jià)值數(shù)據(jù)集占比已超過(guò)40%,較去年同期增長(zhǎng)了兩倍以上。后續(xù),青島數(shù)據(jù)集團(tuán)還將在詞元收益分配機(jī)制基礎(chǔ)上,進(jìn)一步探索詞元交易的市場(chǎng)化路徑。