李昊:越隱秘的數據采集越不容易被欺詐
鉅亨網新聞中心 2015-04-16 17:26
Wecash閃銀聯合創始人 李昊
金融界網站訊 4月16日,2015年互聯網金融投資與並購大會在北京中關村國家自主創新示范區展示交易會議中心舉行,金融界網站全程直播此次會議。
Wecash閃銀聯合創始人李昊分享移動互聯網大數據信用評估實踐。
以下為會議實錄:
李昊:大家好!我是來自Wecash閃銀,非常感謝這次機會跟大家做一個分享,Wecash閃銀是一個非常年輕的公司,到今天差不多剛好滿一周歲的樣子,閃銀是一小部分做小微金融的草根,和一大批的互聯網極客公司的創業公司。
2013年的時候我們在想兩個問題,第一個是隨著互聯網,特別是移動互聯網大潮的推進,越聚越多的人在使用智慧手機,2014年年底時候中國有6.18億的互聯網網民,越來越的數據在網上產生,並且沉淀在互聯網上面,考慮用互聯網和移動互聯網的數據來給用戶做評估,這是第一點。第二,從線下獲取小微金融客戶的方式有非常高昂的成本,我們考慮利用移動互聯網粉絲營銷的模式,降低小微金融的復合成本。
為了解決這些問題,我們創辦了閃銀這家公司,閃銀的業務模式有C2B2B,之后我們會把一些用戶對接到線下的P2P平,消費金融公司,小貸公司,以及一些共用經濟的場景中,比如說租房和租車,讓這些服務商能夠給一些用戶提供與信用相關的服務。
今天時間比較有限,所以我就不按照PPT跟大家講了,下面主要講兩點,一個是我們在利用移動互聯網數據做信用評估上面所注重的一些地方,另外是在貨客方面的一些經驗。
首先我們做了四個結合,第一個結合是線上和線下的結合,一般我們講狹義的信用反映的是借貸過程中客戶的行為表現。因此傳統的金融業務中,主要還是依靠信用交易數據,比如說央行征信的報告,對用戶進行評估。其他的數據可以對信用數據進行有效的補充。還有一點我們有很多的用戶,是沒有任何信用記錄的白戶。中國有8億人在銀行是開戶的,目前為止央行的征信只覆蓋了3億多人,有4億多人的白戶的存在。為了做這些客戶,傳統一些業務中的數據主要依靠線下獲取的模式,主要是一些流水和資質認證,現在在一個較窄的范圍。
隨著移動互聯網的發展,為線上的數據獲取創造了機會,閃銀通過公開的一些API,網絡爬蟲,獲取了用戶在線上的數據,除了線上交易數據以外,還包括用戶在BBS社區,還有地方性網站發布的這些資訊,以及用戶相關的報導文獻。將這些資訊通過數據挖掘之后,可以形成數據畫像,反映這個用戶的教育背景,消費水平等資訊。單純依靠純粹線上數據來做風控,也會存在一些實名的征信較差,為了克服這一塊,閃銀將線上和線下的數據進行結合,首先第一點我們通過做了一個社交網絡的結合,線上的社交網絡大家熟知的微博和微信,線下的社交資訊是來源於用戶的通信記錄,我們將兩方面的社交網絡構成一個大的社交網絡。基於這些社交網絡,實現線上數據的一些實名,另外我們有一些合作方是線下的教育培訓機構,旅遊機構,還有一些零售機構,通過這些獲得線上和線下的數據進行交叉驗證補充。
同時還有一個非常重要的數據將線下和線上的數據打通,通過用戶授權之后的GPS的定位,還有基站可以獲得用戶線下的位置資訊,同時實現對用戶畫像更為精準的刻劃。
第二個結合是主動數據和被動數據的結合,我們在使用數據的時候,我們通過網絡爬蟲去爬取的數據,大部分是用戶主動發布的資訊。比如說他需要辦一個大額的信用卡,有的用戶積極回復一個帖子。這些數據是用戶主動去發布的,如果用戶不主動去發布,這些資訊就沒有了,就無從判斷。在實際業務中我們會發現做銷售業務的,或者公司的高管會有大量的互聯網資訊暴露度。
為了彌補很難發現的一些資訊,我們采用了一些被動的數據,無論你愿意與否,只要使用互聯網,就會有留在網上的數據,一部分是運營商的流量的數據,還有來自於DSP和DNP廠商的數據。基於這些設備的數據,可以增加數據的覆蓋面,解決一些偏差的問題,使我們的模型和規則有更好的預測和推廣性。
主動和被動還有另外一層含義,就是可不可以被用戶感知到,在傳統的業務上,用戶在填一個申請表的時候,他會感覺到你在采集他的資訊,有一些別有用心的欺詐客戶,他會刻意粉飾自己的數據,讓自己看上去比較OK的人。比如說用戶填寫資訊時候的錄入時長和回刪的次數,以及用戶的一些設備ID,IP的資訊,這些資訊相對來說比較不容易被感知和偽裝,就增強了信用變量的有效周期,並且也提高了一些抗欺詐的能力。
第三個結合是個體和群體的結合,以前做小微金融的時候,我們總說要做大數定律,把金額拆散,一個假設就是一個個體和另外一個個體,在違約行為上的概率彼此之間是相互獨立的,隨著互聯網社群的發展,對原有的大數定律有一定的挑戰。我們在這里就把一些基於社交網絡的數據,應用在其中,通過剛才我提到的把線上和線下結合的社交網絡,把用戶劃分為相應的群體,我們認為在過程中一個長度上,個人的行為是有傳染性的。
最後一個結合是貸前和貸后的結合,因為我們現在做的主要是基於消費金融場景和信用貸款場景的風險評估,這里面以前總是講說我們要把風險關在門外,這其實反過來講,恰恰也表明了一旦信用貸款放出去,客戶不管,追償的方式就會有很多的限制。而整個信用評估是橫跨整個信貸周期的,我們以前在做信用貸款的時候,我們對於用戶貸后的監控,一般是以月為單位,一個月進行一次訪談。隨著移動互聯網的出現,讓貸后的監控擴展到全天候24小時,我們會對用戶的行為進行相應的監控,第一時間做出預警和響應。同時可以有效去尋找一些客戶,傳統先下做消費金融的時候,我們會面臨一個問題,用戶怕失聯,額度比較低,只要能找到這個用戶就把錢還了,很多時候是找不到這個用戶在哪。借助於移動互聯網可以找到這個用戶,比如有一個用戶借完錢之后,換了工作,跑到另外一個城市,我們的合作伙伴貸后部門根據微信找到新的辦公地點,就聯系到了,他就立刻把這個錢還了。
通過這種構建,我們現在也在做一些黑名單的資訊共用,提升整體用戶的違約成本,有利於構建良好的信用氛圍。我們明顯感覺到我們應該辯證來看這個問題,大數據在做風控上有它的優勢和烈士,從根本上來說,風控是在一個開放的空間所解決的問題,不存在一個風控數據的B區間,我覺得我擁有這樣的數據,就沒有問題了,是不存在這樣的。大數據正好是擴充信用評估數據的邊界,對傳統信用的評估是一個強有力的補充。所以我也希望我們這些從業者能夠比較辯證的方式去看這個風控,現在業內有一些是反大數據,或者是唯大數據論的,這些都不是相對的科學。
大數據在風控的優勢是覆蓋面廣,更新比較迅速,用來反欺詐和監控,同時在用戶缺少傳統數據的時候,可以起到一定的替代作用。
劣勢主要在於有效數據的密度比較低,像交易這些數據都是中性的,和客戶之間信用關聯沒有那么強。所以在使用這些數據的時候,第一步需要沙里淘金,我們需要從大量的數據里面挑選出相對來說風險比較強的變量。第二,要經過多維的關聯,單一維度的風控數據不強,組合在一起就產生了具有較強風控的數據。
還有數據缺失比較嚴重,目前提供大數據的來源,就算是某寶,他的覆蓋率也不可能覆蓋所有的用戶。在做塑模的時候,基於邏輯回歸這樣的一種方式,實際上對數據帶有分布性假設的,這樣就會失效。解決這個問題,閃銀采用了三種方法,第一種方法是選取我們分布假設依賴度比較低的方式。再就是通過短期的快速迭代,做客群的細分,保證客群相對比較完整的。再就是不斷充實數據的來源,不同數據來源之間的邏輯相關性和替代性,因為有很多的數據彼此之間內涵的邏輯是類似的。
第三點就是反欺詐和隱私保護的一個博弈,越隱秘的數據采集越不容易被欺詐。因為時間的關係,我今天就分享到這里,謝謝!
- 掌握全球財經資訊點我下載APP
文章標籤
上一篇
下一篇