當前位置:太原熱線 > 房產 > 正文

居理新房研究院:低頻長周期場景下的算法設計

來源:軟廣 責任編輯:管理員 發表時間:2019-07-11 15:32 點擊:
居理新房作為國內最大新房電商平臺,一直致力于深入探索數據在房產流通中的應用價值,提升居理新房用戶的購房體驗。2018年,居理新房在業內率先成立了AI大數據研究院,從而更加系統化的挖掘數據的決策力和洞察力,通過大數據和AI技術發現和解決業務和產品核心問題,為業務的高速增長和用戶體驗的持續升級提供動力。
  日前,居理新房大數據VP張惟師在公開場合發表演講。他表示,目前居理新房已經打造了獨特的線上線下閉環的生態系統。
  新房業務場景客單價極高,頻率極低,對比新聞信息流、廣告推薦、快消商品等,是產業互聯網中典型算法不友好場景。居理新房搭建了復用性和擴展性都比較好的算法平臺,可以通過一些靈活的配置,實現相關監控、任務調度、模型校驗、可視化頁面以及AB Test。算法平臺底層支持多種算法引擎包括機器學習模型平臺(Spark-MLlib,Xgboost)、深度學習平臺(Tensorflow,Pytorch)以及圖相關模型,通過pipeline的方法整合數據流和算法引擎。
  以優選客戶識別算法為例,張惟師從以下方面介紹了居理新房的算法設計思路。
  一、樣本選擇
  如何選擇正負樣本?比較直觀的做法將“最終是否發生認購行為”作為正負樣本的評估依據。
  在居理新房的業務場景下,由于房屋交易業務轉化率低,從線上訪問UV到最終房屋認購,比例在萬分之幾左右。
  為了解決樣本稀疏問題,通過設置了一個代理目標,將是否發生帶看行為作為正負樣本的評估依據。帶看行為發生在認購行為之前,發生認購行為占帶看比例約十分之一,周期也可從一到兩個月縮減到兩周左右。
  樣本在一個周期T內,將是否被帶看作為正負樣本的評估依據。另外可以后續模型訓練時,提高具有多次帶看行為或者發生認購行為的權重。在一個時間周期T內,可能存在跟單不完全的情況,但這部分比例在10%以內,可以忽略。由于正負樣本比例差異較大,在樣本量較大的情況下,這種比例可以接受,但在樣本量較少的情況下,正負樣本比例差異導致模型學習困難,因此在訓練模型前可以先對樣本進行采樣預處理。常見的樣本采樣方法有欠采樣和過采樣。欠采樣是保持數據集正樣本數量不變,根據一定比例去隨機抽取負樣本,過采樣是通過已有正樣本來構造虛擬正樣本,來減小正負樣本差異,常見的過采樣方法有SMOTE等。但是采樣方法會影響數據集中的正負樣本分布,在關注概率值的分類等業務場景下,需要對模型輸出的概率進行校準。
  二、特征工程
  在特征工程中,特征類型主要有以下三類,信息來源類、用戶App行為類、用戶粘性類。
  其中信息渠道來源是指用戶是來自百度、Feed、廣點通等平臺,多設備、多賬號等主要是用于衡量用戶是否發生過作弊行為。
  用戶App行為類特征是占比最大的一類特征,主要是指用戶在留電話號碼前,在App上點擊、瀏覽、搜索等行為。
  用戶粘性類特征是一些抽象統計特征,其中訪問深度是指App頁面用戶訪問最長的路徑,廣度是指App中用戶使用的功能的數量。
  三、模型調優
  模型主要采用的傳統模型LR、RF、XGBoost、LightGBM,也嘗試了使用Deep Learning等,但實際效果不如傳統模型好。
  在當前場景下樣本數量少,而且版本更新迭代較快的時候,常遇到數據分布不一致的問題。產品迭代了新的版本,但離線模型訓練用的還是老的數據,而線上用的新版數據,這種信息不一致將拉低模型效果。當前采用的方案是時間窗口滾動的方式來訓練模型,并盡量剔除一些可能因為版本導致數據不一致的特征,努力將影響降至最低。
  在無論是深度學習還是傳統機器學習,參數調優的方法大同小異,主要是網格搜索(Grid Search)、人工參數調優以及分城市閾值調優。網格搜索調優雖然不能一定找到最優解,但是花費時間較短。另外也嘗試了一些貝葉斯優化的方法,它和grid search有的區別就是它會根據上一輪做算法的參數結果去選擇最有可能產生最優算法參數方向去優化這個參數,利用貝葉斯優化自動幫忙尋找參數優化方向。貝葉斯尋優容易陷入局部最優,需要多進行幾輪貝葉斯優化,手工選出里面的極大值。分城市閾值調優是遇到的另一個更嚴重的一個場景,由于居理新房業務分布在全國12個城市,而且每個城市有自己不同的特點,用戶的行為都不一樣,在模型分類時,每個城市應采取不同的閾值。在本身整體數據量就不多情況,每個城市的數據量更少,這種情況下或者將城市信息加入特征,或者每個城市都分別訓練一個模型。
  四、可解釋性分析
  整個房產行業的客單價都比較高,每個客戶都特別的寶貴。若將好線索誤判,沒有為客戶好好服務將會導致較大的損失。
  對于居理新房的業務人員(客服、咨詢師)而言,模型預估結果會與他們原有的一些工作模式和習慣矛盾,需要向業務人員解釋模型預估結果。當算法去服務于業務團隊的時候,這種可解釋性顯得尤為重要。
  通過xgboost計算得到的特征重要性(feature importance)不一定是完全可解釋的,和特征在決策森林中出現的次數相關。但特征在決策森林里面出現的次數越多并不能說明特征越重要。這里采用的是SHAP來進行可解釋性分析,SHAP計算的是一個特征加入到模型時的邊際貢獻,考慮了該特征在所有的特征序列的情況下不同的邊際貢獻。在SHAP圖中,縱坐標是特征列表,橫坐標是從負數到正數的取值范圍,表示對模型輸出值的影響。留電口、渠道特征是從SHAP方法來看是最為重要的特征。一般來說通過搜索渠道來的用戶,購房的意向較強烈,這個也和基本認知符合。另一個比較顯著的特征pv_p_select_city,表示切換城市的動作越多,購房意向越弱。
  五、實際效果
  從模型效果來看,客戶認購量提升了十七個百分點,基本達到了算法預期目標。從認購到帶看的目標變化,將周期從兩個月縮減到了兩周,后續希望能找到一個更好的指標來代替帶看,進一步縮短模型周期。另外居理新房還做了很多線下數據的累積,如咨詢師與客戶的電話錄音、交通行為等,通過這些離線數據能大概分析出咨詢師和客戶的行為。目前不同的城市數據累積量不同,等數據量積累到一定程度,可以為不同的城市設置獨立的模型。另外模型融合(stacking)是后續優化的方向,看能不能做出更有意思的效果。目前的模型是基于無線數據,PC數據相對無線來說,用戶行為比較少,下一步是跨站整合PC和無線的數據。
(責任編輯:管理員)
  • 圖片新聞
  • 土地拍賣預告起價2.2億 晉陽街商
  • 上半年土地市場頻現“地王” 出
  • 新地王!起價3億多太原城南兩地
  • 國土部掛牌督辦4起違法違規案 涉
關于我們 | 投訴報料 | 網站地圖 | 廣告服務 | 聯系我們
Copyright © 2011 taiyuan1.com.cn 太原熱線 版權所有,未經授權禁止復制或鏡像,本站保留所有權利
晉ICP備11035916號-1
快中彩开奖号码