<dd id="saiiy"></dd>
  1. <s id="saiiy"></s>

    1. <s id="saiiy"></s>
      1. <span id="saiiy"><blockquote id="saiiy"></blockquote></span>

        基于半監督學(xué)習的潛在老年用戶(hù)識別方法

        發(fā)布時(shí)間:2025-06-12 18:18:20   來(lái)源:心得體會(huì )    點(diǎn)擊:   
        字號:

        余晨,張澤,吉晶

        (中移信息技術(shù)有限公司,廣東深圳,5 180481)

        目前在老年人市場(chǎng)研究方面,主要總結有兩部分,一方面是對銀發(fā)市場(chǎng)的市場(chǎng)前景、經(jīng)濟潛力、現狀問(wèn)題等方面的專(zhuān)業(yè)評析研究,另一方面是對于老年特定人群或特定行為進(jìn)行了一些數據技術(shù)識別。魏姍姍[1]等基于手機信令數據,建立了貝葉斯分類(lèi)器進(jìn)行老年人群識別。馮先成[2]等采用前饋神經(jīng)網(wǎng)絡(luò )算法對空巢老人手機用戶(hù)進(jìn)行識別分析。李力行[3]等基于通話(huà)費用、上網(wǎng)費用及時(shí)長(cháng)及短信費用等電信數據進(jìn)行空巢老人評判指標設計。呂子陽(yáng)[4]等通過(guò)建立廣義回歸神經(jīng)網(wǎng)絡(luò )(GRNN)、概率神經(jīng)網(wǎng)絡(luò )(PNN)和誤差逆傳播神經(jīng)網(wǎng)絡(luò )(ВPNN)三種神經(jīng)網(wǎng)絡(luò )模型建立易跌倒老人識別模型。潘宇欣[5]等提出基于隨機森林和行為相似性的兩層行為識別算法用以識別老人居家行為。趙春陽(yáng)[6]構建一種卷積神經(jīng)網(wǎng)絡(luò )和循環(huán)神經(jīng)網(wǎng)絡(luò )相結合的混合模型對老年居家行為進(jìn)行識別,以提高老年居家生活質(zhì)量。劉琳[7]利用不同的神經(jīng)網(wǎng)絡(luò )模型對老人日?;顒?dòng)所產(chǎn)生的傳感器數據進(jìn)行活動(dòng)識別。周潔[8]使用Logistic 回歸、隨機森林、XGВoost 算法建立腦卒中風(fēng)險預測模型,實(shí)現老年人高血壓并發(fā)癥高危個(gè)體識別。李彩福[9]等運用反向傳播神經(jīng)網(wǎng)絡(luò )機器學(xué)習算法構建衰弱前期預測模型,為早期識別社區老年衰弱前期高危人群提供參考。張慶莉[10]結合模式識別技術(shù)、語(yǔ)音信號處理技術(shù)、語(yǔ)音情感識別技術(shù),使用高斯混合模型進(jìn)行了老年人語(yǔ)音情感識別研究。

        關(guān)于老年人群體的識別方面較多使用的有監督算法,根據已有的是否老年人標簽進(jìn)行分析挖掘,例如常用的貝葉斯分類(lèi)、隨機森林、反向傳播神經(jīng)網(wǎng)絡(luò )等,但結合現實(shí)的業(yè)務(wù)需求,較多業(yè)務(wù)場(chǎng)景是需要挖掘識別潛在用戶(hù)中的老年人群體,但是受限于已有數據的采集信息范圍,面向大部分潛在客戶(hù)都是無(wú)法有明確標簽標記是否為老年人,因此有監督算法在現實(shí)場(chǎng)景中的作用發(fā)揮有限。針對上述問(wèn)題,本文提出一種基于用戶(hù)通信數據的潛在老年用戶(hù)識別模型,通過(guò)PU learning 算法在半監督場(chǎng)景下對未有明確標記的數據樣本進(jìn)行老年人群體判別,同時(shí)使用AutoEncoder 算法得到誤差閾值同步進(jìn)行判別,最后為提升識別的準確性,對兩種算法均識別出的綜合老年人群根據結果預測概率和預測閾值進(jìn)行1-5 分賦值,計算綜合得分,取綜合得分大于等于8 分的人群識別為老年用戶(hù)。

        ■2.1 理論基礎

        2.1.1 PU learning 算法

        通常有監督算法是一種針對有明確正負標簽的兩類(lèi)樣本的二值分類(lèi)器,但大多數情況下現有訓練樣本是已標記的正樣本和未標記樣本,其中未標記樣本包括正樣本和負樣本[11],PU learning 算法則是針對這樣場(chǎng)景的一種學(xué)習算法。首先對樣本做軟標簽,正樣本記為1,未標記的樣本記為-1,準備標簽0 作為確認的負樣本。其次構建分類(lèi)器,選用隨機森林算法,保留每個(gè)樣本的預測概率,并取正樣本預測概率的最大值和最小值作為真實(shí)區間。第三更新軟標簽,對于未標記樣本中,預測概率大于真實(shí)區間最大值的記為1,預測概率小于真實(shí)區間最小值的記為0。最后基于每次迭代構建的分類(lèi)器,每次重新定義真實(shí)區間,將未標記標簽區分為正樣本和確定的負樣本。不斷更新直到循環(huán)結束或不產(chǎn)生新的0、1 標簽,從而得到最終的判別結果。

        2.1.2 AutoEncoder 算法

        自編碼器是一類(lèi)在半監督學(xué)習和非監督學(xué)習中使用的人工神經(jīng)網(wǎng)絡(luò ),其功能是通過(guò)將輸入信息作為學(xué)習目標,對輸入信息進(jìn)行表征學(xué)習[12-13]。構建一個(gè)神經(jīng)網(wǎng)絡(luò )模型,將已有正樣本標簽數據作為輸入進(jìn)行模型訓練,模型通過(guò)加解密盡量還原正樣本標簽數據的特征,得到正樣本標簽數據的還原誤差范圍。把樣本標簽數據放到模型中,通過(guò)還原誤差閾值的區分觀(guān)察兩者區分度判斷識別效果。根據模型測試效果選取合適的還原誤差閾值,對預測樣本進(jìn)行輸出結果分析,根據是否大于設定的閾值來(lái)進(jìn)行人群識別。

        ■2.2 模型設計

        通常情況下,潛在用戶(hù)群體的識別往往具備較為明顯的群體特征以及能夠獲得明確的樣本標簽,這些因素幫助機器學(xué)習算法通過(guò)較小的學(xué)習成本達到相對優(yōu)秀的識別效果。但在一些特殊場(chǎng)景下,原始數據中大量行為模糊的正樣本混雜在負樣本中,而不可靠的負樣本將極大程度上影響模型的準確性。因此在此場(chǎng)景下需要采用一些半監督算法對待識別用戶(hù)群體進(jìn)行分類(lèi),減少混雜樣本的干擾、提升模型的準確性。潛在老年用戶(hù)識別問(wèn)題即為此類(lèi)場(chǎng)景,設計基于用戶(hù)通信數據的潛在老年用戶(hù)識別模型如圖1 所示。

        圖1 基于用戶(hù)通信數據的潛在老年用戶(hù)識別模型

        基于用戶(hù)通信數據的潛在老年用戶(hù)識別模型的具體步驟如下所示:

        步驟1:對原始數據集進(jìn)行數據預處理和特征提取。部分算法對異常值較為敏感,可根據字段定義及字段之間邏輯關(guān)系去除異常值。

        步驟2:對新構建的數據集分為訓練集D 和測試集T。其中訓練集D 包含兩類(lèi)樣本:正樣本D1和待定樣本Dn,待定樣本即為不可靠的負樣本。

        步驟3:選擇PU learning 算法、AutoEncoder 算法作為學(xué)習器展開(kāi)訓練。

        步驟3-1:在PU learning 算法中,采取兩步法進(jìn)行模型構建。在第一步中選擇一種二分類(lèi)學(xué)習器對訓練集D 進(jìn)行訓練,得到對應預測概率P。根據正樣本D1對應的最大概率和最小概率得到正樣本真實(shí)區間(P1,P2)。以該區間作為劃分依據,訓練集D 中概率超過(guò)P2的待定樣本與正樣本D1合并確定為新的正樣本,低于P1的待定樣本確定為新的負樣本,從而產(chǎn)生新的三分類(lèi)訓練集Da,包含正樣本Da1,負樣本Da2和處于(P1,P2)區間的待定樣本Dan。第二步選擇一種三分類(lèi)學(xué)習器,對訓練集Da進(jìn)行訓練。根據正樣本Da1對應的最大概率和最小概率得到新的真實(shí)區間(Pa1,Pa2),按第一步相同的劃分原則更新訓練集Da,進(jìn)行反復訓練迭代,每次重新定義真實(shí)區間,將待定樣本Dan區分為正樣本和確定的負樣本直到循環(huán)結束或不產(chǎn)生新的0、1 標簽。

        步驟3-2:在A(yíng)utoEncoder 算法中,即構建一個(gè)神經(jīng)網(wǎng)絡(luò )模型,將正樣本D1作為輸入進(jìn)行模型訓練,模型通過(guò)加解密盡量還原D1的特征,根據還原結果確定D1的平均絕對誤差mae 范圍。

        步驟4:將測試集T 代入完成訓練的PU learning 和AutoEncoder 模型中進(jìn)行模型評價(jià)優(yōu)化,分別產(chǎn)生標簽為1 的預測結果T1和T2。

        步驟5:根據預測結果T1的概率范圍均分為5 個(gè)區間并由低到高賦予1-5 分,根據預測結果T2的mae 范圍均分為5 個(gè)區間并由低到高賦予1-5 分,兩項預測結果數據集合并,兩模型共同命中的用戶(hù)根據其概率值和mae 值所落區間相加計分,使識別人群總得分區間保持在[0,10]之間,根據實(shí)際業(yè)務(wù)要求以閾值分數以上的預測數據作為最終輸出結果。

        在實(shí)際生活中,經(jīng)常存在子女為父母代辦手機號碼或父母使用子女手機副卡的情況,此類(lèi)老年人用戶(hù)無(wú)法通過(guò)實(shí)名制身份證篩選獲得,導致各類(lèi)推薦信息無(wú)法觸達。因此模型目標為基于用戶(hù)通信數據識別隱藏在年輕人手機號碼下的老年人群體。

        ■3.1 數據預處理與特征提取

        本文抽取某省用戶(hù)的通訊行為數據作為原始數據集。對原始數據集進(jìn)行數據清洗,剔除異常值、極端值,補充缺失值,并針對不同特征之間量綱差別較大的問(wèn)題,采用極大極小歸一化的方式對數據進(jìn)行標準化。

        通過(guò)對原始數據集的特征進(jìn)行重建和相關(guān)性篩選,選擇了5 個(gè)維度中分別選擇44 個(gè)和19 個(gè)比較有代表性的特征作為PU learning 和AutoEncoder 算法的輸入特征進(jìn)行模型建設。方案特征舉例說(shuō)明如表1 所示。

        表1 方案特征舉例說(shuō)明

        ■3.2 樣本設置

        抽取原始數據集中10 萬(wàn)真實(shí)老年人群作為正樣本,10萬(wàn)待識別人群作為待定樣本,組成訓練集,隨機抽取近20萬(wàn)人群作為測試集,使測試集符合真實(shí)年齡分布。為了獲得更好的評估模型效果,本文在測試集設置時(shí)對待測樣本進(jìn)行了處理,將待測樣本中特征較為明顯的部分年輕人群體作為真實(shí)負樣本進(jìn)行標注,觀(guān)察算法的識別效果。訓練集、測試集樣本分布如表2。

        表2 樣本分布表

        ■3.3 模型結果分析

        3.3.1 模型評價(jià)指標

        受不可靠負樣本的影響,測試集中其他待定樣本的分類(lèi)結果不能說(shuō)明模型實(shí)際效果。因此在此類(lèi)模型的評價(jià)指標中,主要關(guān)注正樣本和真實(shí)負樣本之間的查準率和查全率。此外,其他待定樣本中預測為正的樣本數占其他待定樣本總數的比例(r)將作為一項輔助指標進(jìn)行觀(guān)測。

        根據樣本真實(shí)類(lèi)別與學(xué)習器預測類(lèi)別的組合,在常規的真正例(TP)、假正例(FP)、真反例(FN)、假反例(TN)四種情形之外,對其他待測樣本中的預測結果為正的樣本記為XP,預測結果為負的樣本記為XN,如表3 所示。精準率P、召回率R、待定樣本識別比例r 分別定義為公式(1)~(3)。

        表3 真實(shí)類(lèi)別與預測類(lèi)別說(shuō)明

        3.3.2 PU learning 模型分類(lèi)能力分析

        PU learning 兩步法計算時(shí),使用隨機森林作為二分類(lèi)學(xué)習器對訓練樣本進(jìn)行訓練預測,得到正樣本對應的概率區間[0.45,0.7]。以該區間作為劃分區間對待定樣本進(jìn)行分類(lèi)標記,訓練集中概率超過(guò)0.7 的待定樣本與上一輪的正樣本合并確定為新的正樣本,低于0.45 的待定樣本確定為新的負樣本,從而產(chǎn)生三分類(lèi)訓練集,包含正樣本、負樣本和處于[0.45,0.7]區間的待定樣本。對該訓練集采用隨機森林作為三分類(lèi)學(xué)習器進(jìn)行數據集的多輪迭代更新,循環(huán)9 次后,停止產(chǎn)生新的正負樣本,學(xué)習器訓練完成。以該模型對測試集進(jìn)行預測,得到結果如表4 所示。

        表4 PU learning模型分類(lèi)結果

        根據預測結果可知,模型正樣本查全率為12092/15683=80.59%,查準率為12092/(12092+3139)=79.39%,其他待定樣本識別比例r=32305/138051=23.4%。說(shuō)明模型在對能夠識別絕大部分老年人,同時(shí)也將年輕人的誤判比例控制在了一定程度。其他待定樣本識別比例在23.4%左右。

        3.3.3 AutoEncoder 模型分類(lèi)能力分析

        選擇訓練集中的正樣本進(jìn)入AutoEncoder 模型訓練,模型設定參數包括完整訓練次數、批數據量和學(xué)習率epoch=50,batch=1000,lr=0.001,得到模型損失函數曲線(xiàn),如圖2 所示。由圖可知,loss 函數在10 個(gè)epoch 之內極速下降,隨后趨于穩定,模型完成收斂。計算正樣本的平均絕對誤差mae,繪制正樣本平均絕對誤差mae 的分布圖并確定正樣本的mae 閾值為0.06,如圖3 所示。

        圖2 損失函數曲線(xiàn)圖

        圖3 mae 分布圖

        根據預測結果可知,模型查全率為12565/15683=80.12%,查準率為12565/(12565+4134)=75.24%,其他待定樣本識別比例r=35348/138051=25.61%。說(shuō)明模型對潛在老年人用戶(hù)群體具有一定的識別能力,同時(shí)誤判相對較少。其他待定樣本識別比例在25.6%左右。

        表5 AutoEncoder模型分類(lèi)結果

        3.3.4 識別結果輸出

        由于半監督算法是利用已有標簽對未標記標簽進(jìn)行預測,易受樣本質(zhì)量、特征有效性等因素的影響,進(jìn)而影響到模型整體的準確性和泛化能力。為降低上述因素影響、提高識別人群的可靠性、滿(mǎn)足不同業(yè)務(wù)經(jīng)營(yíng)要求,對兩種算法識別的正例概率區間[0.5,1]和mae 區間[0,0.06]進(jìn)行等分,分別形成5 個(gè)概率區間并由低到高賦值1-5 分,兩者相加產(chǎn)生0-10 分的分值區間,計算人群的綜合得分。

        根據實(shí)際業(yè)務(wù)需求和專(zhuān)家經(jīng)驗判斷,本文確定綜合得分較高(>=8 分)的老人人群作為業(yè)務(wù)營(yíng)銷(xiāo)的目標人群,輸出老年人13543 人。由于正樣本可根據實(shí)名制年齡準確提取,因此輸出老年人數即為正樣本總數15683 人??傆嬢敵隼夏耆巳藬?9226 人,占總體人群19.01%。

        表6 輸出結果分析表

        本文針對現有潛在老年人識別業(yè)務(wù)場(chǎng)景中有監督算法實(shí)用性不大的問(wèn)題,提出一種基于中國移動(dòng)數據,結合PU learning 算法和AutoEncoder 算法的老年人識別算法,通過(guò)對未有明確標記的數據樣本進(jìn)行分類(lèi)器迭代標記以及輸出誤差閾值,并結合兩種算法結果進(jìn)行綜合得分計算,根據得分識別老年人群,以此提升老年用戶(hù)群的識別準確率。通過(guò)數據驗證結果可以得出老年人用戶(hù)群識別占比符合大數據統計結果。由此,基于中國移動(dòng)數據與各行業(yè)數據的融合互補,提高銀發(fā)市場(chǎng)用戶(hù)識別準確率,向其推薦適配的適老化服務(wù)產(chǎn)品,能夠更有利于社會(huì )養老結構優(yōu)化,從而促進(jìn)社會(huì )穩定與經(jīng)濟效益發(fā)展。

        猜你喜歡區間標簽樣本你學(xué)會(huì )“區間測速”了嗎中學(xué)生數理化·八年級物理人教版(2022年9期)2022-10-24用樣本估計總體復習點(diǎn)撥中學(xué)生數理化·高一版(2021年2期)2021-03-19全球經(jīng)濟將繼續處于低速增長(cháng)區間中國外匯(2019年13期)2019-10-10無(wú)懼標簽 Alfa Romeo Giulia 200HP車(chē)迷(2018年11期)2018-08-30推動(dòng)醫改的“直銷(xiāo)樣本”知識經(jīng)濟·中國直銷(xiāo)(2018年8期)2018-08-23不害怕撕掉標簽的人,都活出了真正的漂亮海峽姐妹(2018年3期)2018-05-09隨機微分方程的樣本Lyapunov二次型估計數學(xué)學(xué)習與研究(2017年3期)2017-03-09標簽化傷害了誰(shuí)公民與法治(2016年10期)2016-05-17村企共贏(yíng)的樣本中國老區建設(2016年1期)2016-02-28區間對象族的可鎮定性分析北京信息科技大學(xué)學(xué)報(自然科學(xué)版)(2016年6期)2016-02-27
        国产另类无码专区|日本教师强伦姧在线观|看纯日姘一级毛片|91久久夜色精品国产按摩|337p日本欧洲亚洲大胆精

        <dd id="saiiy"></dd>
        1. <s id="saiiy"></s>

          1. <s id="saiiy"></s>
            1. <span id="saiiy"><blockquote id="saiiy"></blockquote></span>