app上架市場(chǎng)后要注意哪些問(wèn)題
添加時(shí)間:2020/11/13 15:37:59 瀏覽人數(shù):
什么是內(nèi)容興趣偏好標(biāo)簽?zāi)?
簡(jiǎn)單來(lái)說(shuō)就是分析用戶(hù)喜歡看的文章類(lèi)型,得到用戶(hù)的興趣偏好,在這樣的基礎(chǔ)上,對(duì)用戶(hù)進(jìn)行內(nèi)容的個(gè)性化推薦和push推送,來(lái)有效促進(jìn)app的活躍并拉長(zhǎng)用戶(hù)生命周期。
這件事情簡(jiǎn)單來(lái)說(shuō)其實(shí)就是兩步走:
一是,給文章進(jìn)行分類(lèi),也就是我們俗稱(chēng)的給文章打標(biāo)簽。
二是,給用戶(hù)打標(biāo)簽,也就是用戶(hù)閱讀了哪些類(lèi)型的文章,相應(yīng)的就會(huì)獲取到自己的興趣偏好標(biāo)簽。
那么在實(shí)際操作中真的如此簡(jiǎn)單嗎?看似簡(jiǎn)單的兩個(gè)環(huán)節(jié),究竟是如何實(shí)現(xiàn)的呢?
一是人工對(duì)文章進(jìn)行標(biāo)注,優(yōu)點(diǎn)是準(zhǔn)確,缺點(diǎn)是效率低,對(duì)于算法要求大量樣本的要求,成本非常高。
而另一種方式則是通過(guò)一些開(kāi)源網(wǎng)站提供的關(guān)鍵詞進(jìn)行模型訓(xùn)練,比如可以從搜狗詞庫(kù)獲取,優(yōu)點(diǎn)是成本低,但缺點(diǎn)也很明顯,由于不同的分類(lèi)體系對(duì)部分分類(lèi)的理解不一致,導(dǎo)致分類(lèi)并不夠準(zhǔn)確,后期需要耗費(fèi)大量的人力進(jìn)行矯正。
第三種方式是和一些資訊類(lèi)app進(jìn)行合作,獲取他們的文章以及分類(lèi)作為樣本,例如目前做的比較好的如今日頭條、uc等都是不錯(cuò)的選擇。我們當(dāng)時(shí)其實(shí)都嘗試了(一把辛酸淚)。
獲取樣本以后,就是算法模型的訓(xùn)練及其檢驗(yàn)了。算法模型的訓(xùn)練原理,即通過(guò)對(duì)樣本文章進(jìn)行分詞,抽取實(shí)體,建立特征工程,將每一個(gè)特征詞作為向量,擬合出一個(gè)函數(shù),這樣,當(dāng)有新的文章時(shí),該文章通過(guò)分詞,并通過(guò)模型計(jì)算出結(jié)果。但模型并不是能夠有樣本一次性就能準(zhǔn)確的,模型還需要進(jìn)行測(cè)試和矯正。
APP開(kāi)發(fā)
通過(guò)了測(cè)試的模型也并不是一勞永逸的,仍然可能在后期出現(xiàn)一些分類(lèi)不準(zhǔn)確的問(wèn)題,這可能是樣本造成的,也可能是算法模型造成的。這需要我們找出這些異常的文章及其分類(lèi),并矯正分類(lèi),再次作為訓(xùn)練樣本投喂給模型,進(jìn)行模型的矯正。一方面,我們可以對(duì)轉(zhuǎn)化率比較低的分類(lèi)的文章進(jìn)行人工抽檢,確定問(wèn)題是否出在算法。另外,在這里,由于每一篇文章的標(biāo)簽都被賦予了一個(gè)值,我們可以為這些值設(shè)置一個(gè)閾值,當(dāng)最高值低于某個(gè)閾值,這些文章及其標(biāo)簽將被召回,由人工進(jìn)行標(biāo)注和矯正,并在此投入樣本庫(kù)中。
文章標(biāo)簽的計(jì)算,由于文章具有多種標(biāo)簽的可能,并非一些二分類(lèi)非此即彼的結(jié)果,因此我們采用的方式是,通過(guò)相似性算法,模型計(jì)算出文章的標(biāo)簽,并賦值,值越高則說(shuō)明和這類(lèi)標(biāo)簽越接近,并被打上相應(yīng)標(biāo)簽。
至此,文章打標(biāo)簽的部分就已經(jīng)完成了。
如何給用戶(hù)打標(biāo)簽
給用戶(hù)打標(biāo)簽的方式其實(shí)也可以包含兩種,統(tǒng)計(jì)類(lèi)的打標(biāo)簽及算法類(lèi)的打標(biāo)簽。
統(tǒng)計(jì)類(lèi)相對(duì)簡(jiǎn)單粗暴式的以用戶(hù)一段時(shí)間閱讀的文章類(lèi)型作為用戶(hù)的興趣偏好。
而算法類(lèi)則會(huì)增加更多的影響因素,包括文章閱讀的數(shù)量,閱讀的時(shí)間間隔,文章與當(dāng)前熱點(diǎn)事件的關(guān)系、用戶(hù)屬性因素等等。
前者在算法資源不足同時(shí)運(yùn)營(yíng)需求量大的情況下可以先行,而后者可以在前者的基礎(chǔ)上切分一部分流量對(duì)算法模型進(jìn)行驗(yàn)證和調(diào)整,不斷優(yōu)化。
但在用第一種方式進(jìn)行時(shí)我們發(fā)現(xiàn),用戶(hù)在一段時(shí)間內(nèi)閱讀的文章類(lèi)型并不是穩(wěn)定的,大部分用戶(hù)會(huì)有一個(gè)或者幾個(gè)主要的興趣偏好,這些類(lèi)型閱讀的文章篇數(shù)會(huì)更多,但同時(shí),用戶(hù)也會(huì)或多或少的閱讀一些其他類(lèi)型的文章,甚至有些用戶(hù)是看到哪里算哪里,什么都會(huì)看。
基于這樣的情況,我們需要對(duì)用戶(hù)的興趣偏好進(jìn)行排名,即通過(guò)對(duì)用戶(hù)一段時(shí)間內(nèi)每種文章類(lèi)型閱讀的文章數(shù)進(jìn)行排名,并取用戶(hù)top 10的標(biāo)簽,清晰告訴運(yùn)營(yíng)用戶(hù)喜歡什么類(lèi)型的文章,這些類(lèi)型中,用戶(hù)喜歡類(lèi)型的優(yōu)先級(jí)是怎樣的,便于運(yùn)營(yíng)同學(xué)進(jìn)行推送選擇。
因此,用戶(hù)的標(biāo)簽也需要更加靈活,能夠讓運(yùn)營(yíng)同學(xué)基于事件發(fā)生時(shí)間及事件發(fā)生次數(shù)等權(quán)重進(jìn)行靈活組合選擇用戶(hù)群。
由于目前push推送很大一部分是由人工進(jìn)行的,從選擇文章,到選擇用戶(hù),到文章和用戶(hù)的匹配,在正式進(jìn)行推送前一般都會(huì)進(jìn)行大批量的A/B test ,而資訊文章的類(lèi)型非常多,僅一級(jí)標(biāo)簽已經(jīng)達(dá)到30+種,二級(jí)標(biāo)簽從100到幾百不等,總體的標(biāo)簽極有可能會(huì)有成千的標(biāo)簽,單靠運(yùn)營(yíng)同學(xué)進(jìn)行推送,是絕對(duì)無(wú)法完成的。
因此,在運(yùn)營(yíng)資源有限又無(wú)法實(shí)現(xiàn)自動(dòng)化的的情況下一般運(yùn)營(yíng)同學(xué)會(huì)對(duì)標(biāo)簽進(jìn)行測(cè)試,并選擇其中覆蓋用戶(hù)量大且轉(zhuǎn)化率較高的標(biāo)簽。但同時(shí)這樣的情況就會(huì)導(dǎo)致部分興趣偏好比較小眾的用戶(hù)被排除出推送的人群。
服務(wù)熱線(xiàn):0316-2636468 13831639196
聯(lián)系人:李女士 郵編:065000
地址:河北省廊坊市廣陽(yáng)區(qū)浙商廣場(chǎng)A座503-505室|【營(yíng)業(yè)執(zhí)照】| 冀ICP備16000861號(hào)-6| 冀公網(wǎng)安備13100302000967號(hào)
友情鏈接:廊坊短視頻營(yíng)銷(xiāo) | 廊坊小程序開(kāi)發(fā) | 華美橡塑| 廊坊APP開(kāi)發(fā)| 北京APP開(kāi)發(fā)