編者按:數(shù)字信息時(shí)代人們獲取新聞的方式越來越高效,但是獲取新聞中關(guān)鍵信息的效率卻很低。而 NLP 領(lǐng)域的新聞標(biāo)題生成任務(wù) (News Headline Generation)則可以基于新聞?wù)?,自?dòng)生成包含關(guān)鍵信息的簡短標(biāo)題,使讀者可以高效地獲知新聞中的重要內(nèi)容。
為了開展新聞標(biāo)題生成任務(wù)的研究,微軟亞洲研究院的研究員們構(gòu)建了個(gè)可以離線評測個(gè)性化新聞標(biāo)題生成方法的基準(zhǔn)數(shù)據(jù)集:PENS(PErsonalized News headlineS)數(shù)據(jù)集;同時(shí)還提出了一種個(gè)性化新聞標(biāo)題生成的通用框架,并且對其進(jìn)行了效果評估。該論文 “PENS: A Dataset and Generic Framework for Personalized News Headline Geneation" 已被 ACL 2021 收錄。
在數(shù)字信息時(shí)代,由于文本信息的數(shù)量、傳播速度都以指數(shù)形式增長,因此導(dǎo)致信息過載問題日趨嚴(yán)重。以新聞為例,每天新發(fā)布的新聞消息不計(jì)其數(shù),用戶難以在有限的時(shí)間內(nèi),從海量的新聞中篩選出感興趣的文章進(jìn)一步閱讀,因而用簡明的語言概括新聞的關(guān)鍵信息非常重要。在 NLP 領(lǐng)域,新聞標(biāo)題生成任務(wù)(News Headline Generation)可以基于新聞?wù)?,自?dòng)生成包含關(guān)鍵信息的簡短標(biāo)題,使讀者高效地獲知新聞中的重要內(nèi)容。由于標(biāo)題本身是對新聞?wù)牡母叨雀爬?,因此生成?biāo)題的簡潔性、流暢性和事實(shí)一致性,對該技術(shù)來說是一項(xiàng)挑戰(zhàn)。
近年來,隨著用戶個(gè)性化服務(wù)的普及與人工智能技術(shù)的進(jìn)步,新聞網(wǎng)站等內(nèi)容平臺(tái)希望通過標(biāo)題來吸引讀者的閱讀興趣,但同時(shí)又要避免“標(biāo)題黨"現(xiàn)象的發(fā)生。因此,生成個(gè)性化新聞標(biāo)題成為標(biāo)題生成領(lǐng)域的一個(gè)全新研究方向。
什么是個(gè)性化新聞標(biāo)題呢?舉個(gè)例子,有一篇報(bào)道籃球比賽的新聞,其潛在的用戶受眾通常是比賽球隊(duì)的球迷。如果新聞標(biāo)題不考慮用戶的閱讀興趣,只是客觀地描述比賽結(jié)果,那么輸球一方的球迷進(jìn)一步閱讀這條新聞的概率可能較小,因?yàn)楫?dāng)他們看到標(biāo)題時(shí)就已經(jīng)知道自己支持的球隊(duì)輸了比賽,再具體了解輸球過程的意愿就會(huì)相對較低。但是,如果考慮用戶的閱讀興趣,對不同球隊(duì)的球迷呈現(xiàn)個(gè)性化的標(biāo)題(如圖1所示),那么即使是輸球方的球迷,可能也愿意去了解這條新聞的內(nèi)容。比如,以球迷支持的球星為標(biāo)題的核心詞,突出球員的個(gè)人表現(xiàn)。
© 微軟亞洲研究院
圖1:個(gè)性化新聞標(biāo)題的實(shí)例
個(gè)性化新聞標(biāo)題生成任務(wù)的定義是:給定用戶歷史閱讀行為數(shù)據(jù)和候選新聞內(nèi)容,生成用戶專屬的不同新聞標(biāo)題。生成的標(biāo)題既要引起用戶的閱讀興趣,提高用戶進(jìn)一步閱讀、獲取更高點(diǎn)擊和閱讀量的可能,又要兼顧新聞標(biāo)題的事實(shí)一致性,保證用戶的閱讀質(zhì)量,避免成為標(biāo)題黨。它有兩個(gè)重點(diǎn)子任務(wù):
①學(xué)習(xí)用戶的個(gè)性化閱讀興趣:通過用戶歷史閱讀行為信息,可以對用戶的個(gè)性化閱讀興趣建模,從而學(xué)習(xí)用戶的個(gè)性化表示;
②生成個(gè)性化新聞標(biāo)題:將用戶的個(gè)性化表示算法與新聞標(biāo)題生成算法融合,實(shí)現(xiàn)為不同閱讀興趣的用戶生成不同的新聞標(biāo)題。
因此,以個(gè)性化標(biāo)題展示的新聞,由于更能引起用戶的閱讀興趣,進(jìn)而可能獲得更高的點(diǎn)擊和閱讀量,將成為新聞平臺(tái)關(guān)注的新興研究領(lǐng)域。
可離線評測的數(shù)據(jù)集 PENS
開展個(gè)性化新聞標(biāo)題生成的研究,需要一個(gè)大規(guī)模的數(shù)據(jù)集,以開展離線評測。否則,當(dāng)測試不同算法的表現(xiàn)時(shí),研究者可能需要不斷重復(fù)線上 A/B 測試,或者通過組織人工評價(jià)的方式來觀察算法效果,不但實(shí)現(xiàn)成本高,而且公平性及可復(fù)現(xiàn)性均難以保證。
為了進(jìn)一步研究個(gè)性化新聞標(biāo)題的生成,微軟亞洲研究院的研究員們構(gòu)建了PENS(PErsonalized News headlineS)數(shù)據(jù)集,該數(shù)據(jù)集是個(gè)離線評測個(gè)性化新聞標(biāo)題生成方法的基準(zhǔn)數(shù)據(jù)集,且所有數(shù)據(jù)基于 Microsoft News 用戶的匿名化新聞點(diǎn)擊記錄構(gòu)建,同時(shí)包含了用戶行為信息和新聞?wù)Z料信息。
PENS 的新聞?wù)Z料庫包含了約11萬則英文新聞文章,每篇新聞文章都由四部分內(nèi)容組成:新聞ID、新聞標(biāo)題、新聞?wù)暮托侣勵(lì)悇e標(biāo)簽。所有訓(xùn)練和測試數(shù)據(jù)中出現(xiàn)的新聞,都與語料庫中文章的新聞 ID一一對應(yīng)。 PENS 的訓(xùn)練數(shù)據(jù)集則包含了匿名用戶的新聞曝光日志(Impression Log),其中包括44萬名匿名用戶的50萬次新聞曝光日志,以及每名用戶的歷史點(diǎn)擊信息。具體而言,每一條訓(xùn)練數(shù)據(jù)都由五部分內(nèi)容組成:用戶 ID、曝光時(shí)間戳、點(diǎn)擊新聞列表、未點(diǎn)擊新聞列表、用戶歷史點(diǎn)擊新聞列表。所有列表中出現(xiàn)的新聞按曝光時(shí)間排序。
為了滿足離線評測的需求,研究員們邀請了103名以英語為母語的高校學(xué)生(以下簡稱“標(biāo)注者"),人工創(chuàng)建 PENS 的測試數(shù)據(jù)集。其構(gòu)造過程分為兩個(gè)階段:階段,每位標(biāo)注者瀏覽1000條從新聞?wù)Z料庫中隨機(jī)抽取的新聞標(biāo)題,并從中選擇少50個(gè)自己感興趣的標(biāo)題,視為該用戶的歷史點(diǎn)擊行為;第二階段,每位標(biāo)注者為另外200篇新聞?wù)淖珜懶闹械睦硐霕?biāo)題。這些人工撰寫的新聞標(biāo)題由專業(yè)新聞編輯審查質(zhì)量。低質(zhì)量的標(biāo)題會(huì)被刪除(例如過長、過短或與正文不符),剩余合格的標(biāo)題作為相應(yīng)用戶的個(gè)性化新聞標(biāo)題的 標(biāo)準(zhǔn)。
研究員們認(rèn)為,這些標(biāo)注者雖然不具備專業(yè)的新聞編輯素養(yǎng),但其人工撰寫的標(biāo)題能夠充分反映他們的個(gè)性化閱讀興趣,因此可以作為測試時(shí)的“標(biāo)準(zhǔn)答案"。終,這103名標(biāo)注者構(gòu)建的點(diǎn)擊行為數(shù)據(jù)和撰寫的2萬多個(gè)個(gè)性化新聞標(biāo)題構(gòu)成了 PENS 的測試數(shù)據(jù)集。在此數(shù)據(jù)集上,個(gè)性化新聞標(biāo)題生成方法可以采用文本生成中常采用的評價(jià)指標(biāo)來評估其效果,如 BLEU、ROUGE 等。
VNS012 14AK FNV R
VNS011 14AK EAR K
VNS011 14SAKEAR 8P1.1
VNS012 14AKEAR 8P1.X
VCS0 9614AKVRZ 5P0.5P0+2*0GF6G
VCSO 9614SKERZ 5PO+1*OGF6G
VCS0 9614AKVRZ 5P0.5P0+2*0GF6G
VCSO 9614SKERZ 5PO+1*OGF6G
VNSO 33 FN14 AKVRZ 40.40
VNS0 22 FN 18 AK VR H 9P1.9P1+2*PQ55
VV8LB3WK4DA11-6Z+6Z-B-A110-X
V8RB3DDDD-4Z+4Z-B-A060
UNS022.18EAR SS 8557-C2
VNS02-18 AKARHU//SS8557-C1//SPOHN & BURKHARDT
VNSO33FN14AKVRHU 40.40
VNSO4FN18SKERZU
VNSO33FN18AKVRHD40.40
VNS04FN14AKEB
UNS022FN18KKUR12 9P1 9P1
VCS07211KKVR H10.PN+OEGP 10U
VNSO13FU18KKVR10.30
VCS09614AKERZ40
VCS09614AKEBZ40
VCS09614AKERZ40
VNSO2 FN 11SKEZ20
VNSO311AKA8P2
VNS022FU18KKVR 5P0.5P0
VNS022FU18AKVRHD 5P0.5P0
VNS022FU18AKVRHDVSS
VNSO 3FN14SKERZ40
NSO2 FN 11SKEZ20
VNSO311AKA8P2
CS0VRH72*72
杰斯曼主令 VV64.3SJ F NO:0.001 1607/2-02
杰斯曼主令 VV64.3SJ F NO:0.001 1607/1-01
CS17214ERZ10
CS17214KKVRZ10.10
UNS022FN18KKUR 1Z 9P1
UNS02FN18SKER 1Z 9P1
VNSO22.18KKEAR9P1.9P1 KOM NR 2024205-5 5/07帶編碼器及凸輪
VNSO22.18AKEARH 9P1.9P1 KOM NR 2024205-6 5/07帶編碼器及凸輪
VNSO 2 18 SK FNER2
VNS022FN18AKVRIPZ 5PO.5PO
VNS022FU18KKVRIPI 5PO.5PO
VNSO 3 FN 18 SK ER Z 40
VNSO 33 FN 18 AK VR Z 40,40
PL300-5KO-0-5KO AAV S256
VNS033FN18AKVRIPZ40.40
VCS07211ER HDFUZ240 帶安全按鈕
VCS09611AKERTBP2+1XOGF6B/2067889.4.2
VNS02218KKEARHDUZ9P19P1+2VER8G
VNS02218KKEARHDUZ9P19P1
VNSO22FN18AKVRIPZ5P0.5PO 2*OELG
VNSO22FU18AKVRIPZ5P0.5PO 3*OELG
NSO 4FN 14 E G1 nach SS 11555-7B