TurboFinancialGroup首席風(fēng)險官顧凌云先生
和訊互聯(lián)網(wǎng)金融消息 在深化金融改革的大背景下,互聯(lián)網(wǎng)金融已成為十八屆三中全會后金融改革的創(chuàng)新點,互聯(lián)網(wǎng)金融產(chǎn)業(yè)也迎來了迅猛發(fā)展的春天。面對新的歷史機遇,北京共鳴時代科技有限公司、杭州融都科技有限公司、融途網(wǎng)、零壹財經(jīng)聯(lián)合舉辦的“首屆互聯(lián)網(wǎng)金融資產(chǎn)交易峰會”2014年9月15日在北京舉行。本次大會,和訊互聯(lián)網(wǎng)金融作為戰(zhàn)略合作媒體將對本次大會進行全程報道。TurboFinancialGroup首席風(fēng)險官顧凌云先生,出席了會議并在主題演講中表示,真正的信用評估應(yīng)該包括傳統(tǒng)的數(shù)據(jù)、可替代的數(shù)據(jù)、用戶網(wǎng)上行為數(shù)據(jù)、社交網(wǎng)絡(luò)信息、用戶自己回答的信息,要把所有這些信息全部給綜合起來才可以。
以下為文字實錄:
顧凌云:大家好,我今天的題目是信用評估與大數(shù)據(jù)。因為我本人自己一直在做機器學(xué)習(xí),恰好碰上了這個好時代,就到這個金融領(lǐng)域里面看看有沒有合適的應(yīng)用。大數(shù)據(jù)這個詞最早是沒有的,很多人都是從2012年2月份,紐約時報那篇文章開始知道大數(shù)據(jù)。今天雖然我們講資產(chǎn)交易,也講金融,這里可能我要先潑一點冷水,因為到目前為止,在大數(shù)據(jù)領(lǐng)域當(dāng)中的投資已經(jīng)越來越熱,而且做得公司越來越多。有多少公司到底真正使用的是大數(shù)據(jù)?我相信幾乎沒有太多,讓我想到1999年、2000年,我剛到美國的時候目睹了所謂互聯(lián)網(wǎng)1.0版本破滅的過程,當(dāng)時我很清楚記得一個例子,有一家冷凍食品的快速公司,做豬肉,把豬肉送到舊金山市區(qū)里面,后來過了一段時間想了一下,他叫做互聯(lián)網(wǎng)豬肉冷凍快遞速食公司,這家公司后來就上市了,他用互聯(lián)網(wǎng)的方式送豬肉了嗎?顯然沒有。只是加了一個單詞,就做到了這點。
很多人都問我大數(shù)據(jù)是個什么東西?我認(rèn)為有一個例子可以比較好的解釋這個現(xiàn)象。我們很多人知道十多年前時候,如果我們用計算機,如果你的這臺計算機內(nèi)存是512兆,你應(yīng)該是相當(dāng)不錯的土豪。如果你有一個數(shù)據(jù),這跟數(shù)據(jù)恰好是513兆,這個數(shù)據(jù)用今天的概念來說并不大,但是如果513兆的數(shù)據(jù),希望一次弄到512的內(nèi)存當(dāng)中不可能,就需要做一系列研究方式方法,把它先拆分、處理,再重新從內(nèi)存當(dāng)中拿出來,再整合起來,如果用這樣一套方法處理一個513兆相對于512兆內(nèi)存的數(shù)據(jù),就是一個大數(shù)據(jù)的思維。如果今天把513兆的數(shù)據(jù),一次性上傳到了亞馬遜的AWS,如果通過這樣的方式進行運算,你也不是一大數(shù)據(jù)的方式。
我們先看一下大數(shù)據(jù)在美國金融當(dāng)中最直接的場景,就是所謂的信用評估體系。美國的信用評估體系很早,每個人之間都有一點制衡在里面,不敢把事情做得太絕。如果做了以后,不是明天就可以拍拍屁股走路的,一般會記錄在案。中國現(xiàn)在也在做,但是還不太成熟,在這個領(lǐng)域中有很多機會。美國的信用體系評估很簡單,就幾樣?xùn)|西,大家可以看到,首先第一是債務(wù)的歷史,這個聽起來是很正常的,如果你以前曾經(jīng)有過違約,顯然對你今后借款能力有質(zhì)疑的。第二是債務(wù),你總共欠了多少錢,這個也很重要,如果你即使告訴我你是比爾蓋茨,但如果今天你借的錢已經(jīng)超過了600億,也超過了你的償還能力,也是個問題。第三點信用歷史時間,如果你是在10年之前就有過一張信用卡,或者是相比另外一個人到今年才有第一張新的信用卡,我不能說哪個哪個之間的償還能力更強,但至少我會知道第一個人有更多的信用數(shù)據(jù),這個就是不一樣的。第四點是他的很多相關(guān)的其他因素都很重要。比如說最近有沒有買房,如果買房就有買房信用卡的記錄,有沒有買車?也有。這些東西全部加起來形成了美國現(xiàn)有的評分體系。
一般來說如果大家在數(shù)學(xué)相關(guān)領(lǐng)域工作的話就會知道,作為一個邏輯回歸也好,如果你把它的變量放得太多了,從某種程度上來說,你的這個模型處理起來就會比較麻煩一些。最主要一點它的深度比廣度要重要,對于我來說,我可能關(guān)心的是你過去20年,如果你有記錄,和你從最近一年當(dāng)中才有記錄,二者之間是不一樣的。
那么同樣,關(guān)注用戶的歷史遠遠多于現(xiàn)在,也許這個人一開始是個屌絲,最近突然發(fā)財了,可能他的償還能力就會有巨大的改變,但是這樣的因素有沒有體現(xiàn)在這個里面?很多人不知道。怎么樣把縱向和橫向廣度上的東西都放進來,這個就會顯得相對來說比較重要一點。
很多人都說你這個大數(shù)據(jù)到底在金融當(dāng)中有什么用處?為什么一講到這幾個理論以后就不怎么管用了?有兩塊不同的石頭,一塊石頭被做成了一塊臺階通向山頂寺廟的路上,同樣有另外一塊石頭被做成了佛像,晚上的時候他們相互之間在探討和聊天,當(dāng)做石階的那塊石頭,跟做成佛像的石頭說,憑什么你當(dāng)了佛像?我每天被萬人踩在腳底下。做成佛像的石頭跟他說那不一樣,雖然我們都是石頭,你只被切過六刀就被做成一塊放在腳底下的石頭,但是我是受盡磨難之后才成為這樣一塊佛像的。這是一樣的東西。如果你要是切一個人的歷史過程,切得太簡單,只能切出6刀或者只能切出30刀,用30個變量來衡量一個人,從某種程度上來說很困難。同樣一個人在不同的應(yīng)用和領(lǐng)域當(dāng)中也不一樣。他在同樣的一個場景,不同人面前表現(xiàn)出來的情況是千變?nèi)f化的,他如果今天在這個公司當(dāng)中呆了20年,不一定說明他是個好員工,很有可能是他沒有能力跳槽。如果你用另外一個角度評判這個人的話,你的評判標(biāo)準(zhǔn)和應(yīng)用變量應(yīng)該完全改變。但是非??上?,沒有人從這個角度上衡量一個人,所以這后邊有很多我想講到的東西。
美國的大部分人,為什么說美國是個比較穩(wěn)定的社會?就是因為它的中產(chǎn)階級比較多,從650分以上的人群絕對占到美國很大一部分,而相對來說屬于非常屌絲的人群是不多的。什么樣的銀行、什么樣的金融機構(gòu)在為不同的這些人群在進行服務(wù)呢?你就可以看到,非常明顯,如果中間條的顏色,你可以看到這個條的顏色越多,就說明競爭越激烈,越來越鴻海,這是個什么領(lǐng)域?這個領(lǐng)域就是信用分?jǐn)?shù)大于650分的領(lǐng)域。括美國四大國有銀行,都是主要信用卡的提供商,好處就是說你可以從他們當(dāng)中賺到交易費用,但是這幫人你是別指望給你分期付款的,包括我在內(nèi)每個月用的所有花費都會在當(dāng)月還掉。我不會讓銀行賺到這個錢的。競爭變得越來越激烈,這些人信用比較好,基本上拍下腦袋就可以決定把金融產(chǎn)品給他的。風(fēng)險比較低,所以當(dāng)然對應(yīng)的收益就不會特別大。小于550分的時候,就沒有什么企業(yè)在里面競爭了,用什么樣的方式才能解決這些領(lǐng)域當(dāng)中被服務(wù)的人呢?用大數(shù)據(jù)經(jīng)過千錘百煉的方式,你有千萬個變量來通過這種方式進行建模,來判斷這些人的信用到底能不能被納入到正常的體系當(dāng)中去,這就是我們做得事情。
我想說一下為什么最終會把風(fēng)控放到一個這么重要的角度上來。在我看來今天互聯(lián)網(wǎng)金融確實是一個非常熱的熱點,因為我本人不但自己做一家企業(yè),同時還投資其他的企業(yè)??梢钥吹交ヂ?lián)網(wǎng)金融當(dāng)中至少有四個這樣的熱點,第一個就是今天的P2P,美國的P2P最大的只有兩家,但在中國一個月之前我收到的報告,就已經(jīng)超過了2000多家,中國人跟美國人做事情的方式完全不一樣。我僅指P2P所謂的叫做債權(quán)的眾籌,而不是股權(quán)的眾籌;第二就是所謂的大數(shù)據(jù);第三個虛擬貨幣。這幾個都是相對來說比較有特點的地方。你可以看到,所有的這些熱點,尤其是P2P,我可以非常直接的說,今天中國到今天為止,也許9月15號的時候,P2P還有2000多家,我可以很負責(zé)的告訴你,6個月或者一年之后,P2P如果能剩下四分之一都是一個奇跡,很多P2P公司一定會死掉,或者被并購掉。在所有的熱潮慢慢退去的時候,在大浪慢慢退回海岸線的時候,到底誰會留下來,我們看得很清楚。剩下的我該做什么?這個時候風(fēng)控就會放到最顯著的地位上來。到地方銀行江蘇銀行、南京銀行(601009,股吧),他們越來越多的希望關(guān)注如何把風(fēng)控的東西放到一個越來越重要的地位上去。
我們可以看到,如果現(xiàn)在有兩個人需要借錢,當(dāng)然這兩個人都比較有名聲,如果是司馬懿今天要借錢,大家可以看看今天把的條件是什么樣?不錯跟曹操混了那么多年,日子過得也不錯。擁有過許20年的信用歷史,而且這個官級從養(yǎng)馬的開始一點點升上來,所以信用值也不錯,最近新的貸款查詢沒有,日子都過那么好了,還需要借錢嗎?可能也不需要了。而且貸款類型相對來說也非常豐富,才能蓋房子借過錢、買馬車借過錢,如果從美國典型的風(fēng)控角度來說,司馬懿絕對應(yīng)該借錢的。諸葛亮日子過得沒那么好,幫劉備把這塊地給搞下了,但是畢竟蜀國財政沒有那么好,收入只有3000塊錢,過去24個月還違約過一次,只有7年的信用歷史,最近還老是借錢,借過3次,貸款類型也不豐富,借過錢買過馬車,二者之間進行比較,毫無疑問大家都會選擇把錢借給司馬懿,而不借給諸葛亮,但是這是個典型的傳統(tǒng)的風(fēng)控模型??粗剡^去歷史,而不看重現(xiàn)在。
我們看看下一頁,就會看到兩個人不同的變化。司馬懿也會上網(wǎng)了,但是這個人上網(wǎng)的地址頻繁多變,總而言之就沒有在他自己的辦公室或者家里出現(xiàn)過,他給我一個很大的警示,是不是最近司馬懿開始有可能失業(yè)了?他剛剛申請了兩個發(fā)薪日貸款,借的款,還的也快。我們通過一種方式找到,他最近剛剛借了兩個發(fā)薪日貸款,雖然以前借過學(xué)生貸款不管用,所以即使他想違約,都沒有這個條件違約。他最近老是在許昌、洛陽、長安,這些所謂的大城市來回在走動,好像沒有一直呆在魏國的國都,這說明最近他可能有些頻繁的軍事行動。
諸葛亮之所以違約一次,原因是因為他被馬車撞了,醫(yī)療費太高,當(dāng)然因為醫(yī)保體系又不完善,所以必須要諸葛亮自己墊錢,所以日子混得不太好,付了很多錢。為什么信用值只有7年時間?因為他剛剛從南洋搬到成都,所以信用值只有7年時間,當(dāng)然沒有司馬懿長。而且最近5年從來沒搬過地方,可見生活職業(yè)都是相當(dāng)穩(wěn)定的,無論是劉備,還是他兒子對他都是不錯的。他為什么沒有申請過學(xué)生貸款呢?因為學(xué)生的時候,他是優(yōu)質(zhì)學(xué)生,他拿獎學(xué)金,所以當(dāng)然就沒有借過學(xué)生貸款,把所有這些信息全部綜合起來以后,就會發(fā)現(xiàn)大數(shù)據(jù)給我們帶來的是一個更全面的全景的描述,在大數(shù)據(jù)的場景當(dāng)中,如果有一個合適的建模的方式,能夠產(chǎn)生一個二維決策,那么你就可以看到,最終借款的人應(yīng)該是借給諸葛亮,而不應(yīng)該是借給司馬懿,這相對來說是比較故事性的例子。但實際上你在現(xiàn)實生活當(dāng)中,你會看到很多類似這樣的例子出現(xiàn)。
真正的信用評估應(yīng)該是這樣的,你應(yīng)該看到傳統(tǒng)的占很大一部分,但是可替代的數(shù)據(jù)商是另外一種,同時在網(wǎng)上體現(xiàn)出來的用戶行為是另外一部分,社交網(wǎng)絡(luò)的信息也是一部分,來自用戶自己的回答和信息是另外一部分,要把所有這些信息全部給綜合起來才可以。所以大家可以看到,在2.0版本當(dāng)中的成員介紹是這個樣子,在傳統(tǒng)數(shù)據(jù)當(dāng)中,我們只看到了深度沒看到廣度,現(xiàn)在更多是廣度上面想看一看。網(wǎng)絡(luò)上的數(shù)據(jù)也是很重要的,我們可以通過你IP地址直接從什么地方訪問來判斷你大概來自于什么樣的區(qū)域,當(dāng)然有可能你的IP地址是經(jīng)過IP地址的服務(wù)供應(yīng)商改變過以后的,這樣的人群有另外的方法來追蹤,他到底真正來自于什么地方。同樣你上網(wǎng)的時候,你使用的電腦類型,你用得蘋果還是PC,這直接導(dǎo)致兩個完全不同的消費類人群。你上網(wǎng)的時候瀏覽器版本用得是什么?如果你能通過合適的方法把它給結(jié)構(gòu)化,這也非常重要。
直接征詢用戶的答案也是很重要的,有的人說問用戶有什么用?尤其一個沒有誠信的社會。你可以在一個地方撒謊,你可以在兩個地方撒謊,但是如果我大數(shù)據(jù)采了千千萬萬的點,很難把千千萬萬的點在互相不矛盾的情況之下,把它給偽裝起來,如果真的能偽裝成這樣,那就不是一個欺騙的過程,所以很難通過大數(shù)據(jù)的方法讓一個人還能夠完全的編造一個不被識破的謊言,很難。
大數(shù)據(jù)模型理念,一切數(shù)據(jù)皆為信用數(shù)據(jù)。積少成多、匯流成海。我們剛才講的所有的那些關(guān)鍵的這些變量,如果單獨知道提出來一個,你對一個人進行判斷,那一定是50.1對49.9,沒有太大的用處能夠判斷出來這個人怎么樣,但是如果把所有的這些細小的因素全部結(jié)合在一起,冰凍三尺就會發(fā)現(xiàn)最后信用的指相同是非常強的指向,可以很準(zhǔn)確的判斷出來這個人到底在做什么。我們只看關(guān)聯(lián)不看因果,這是一個非常重要的觀點。在此之前做統(tǒng)計也好,做因果系統(tǒng)的時候,總是希望能找到原因判斷這些事情到底是不是靠譜。但是在大數(shù)據(jù)的情況之下,更多的我們認(rèn)為現(xiàn)在暫時不知道背后的原因,而并不是因為不知道原因等同它不靠譜。同樣名字聽起來很好,機器學(xué)習(xí),咱們都會深刻的體會到,實際上是我們悲催的學(xué)習(xí)機器,根本不是機器在學(xué)習(xí)我們。如何能夠更好的跟機器進行互相溝通,我們給他一個方法,或者給他一個事實,他能夠更快的從當(dāng)中提取出來,更多的是一種互動。
超級杯的這個例子,我本人在美國比較喜歡看美式橄欖球,一個是AFC,還有一個NFC,每個聯(lián)盟的冠軍會在最后的所謂的超級杯的決賽當(dāng)中決出當(dāng)中MFR的最終的總冠軍。超級杯指標(biāo)的意思就是說,如果我看到今年總冠軍的冠軍來自于AFC,而不來自于NFC,明年美國股市應(yīng)該是跌的,相反應(yīng)該是漲的。理論上來說二者之間沒有任何關(guān)系,如果真的這樣,美國絕對是世界上永遠的第一強國,但是這是不可能的。二者之間真的一點關(guān)系沒有嗎?我們仔細查過還真不是。因為AFC和NFC理論上來說,應(yīng)該是平均分布在美國東西南北州各個地方的,NFC和AFC兩個聯(lián)盟之間隊伍,在美國經(jīng)濟發(fā)達和欠發(fā)達地區(qū)之間并不是均衡分布,所有的球隊在球員購買,包括訓(xùn)練方面,他投入的資金也是不一樣的,所以從某種程度上當(dāng)經(jīng)濟在起飛過程當(dāng)中的時候,NFC很多球隊最早會受益的,NFC拿冠軍導(dǎo)致經(jīng)濟好有這個情況。
大數(shù)據(jù)的模型之二,我們認(rèn)為是數(shù)據(jù)的來源。這里更多的要講一下錯誤信息也是信息,比方設(shè)計這些網(wǎng)站的時候會問,你這個每個月工資是多少?因為到我們這里來申請的基本上屌絲比較多,他就會說每個月兩千美金,或者三千美金,但是經(jīng)常會看到有些人說我每個月的工資36000美金,你確定這是你一個月的工資,不是你一年的工資?他可以很簡單把36000除以12,我一個月是準(zhǔn)3000塊錢。我們有意不這樣說,因為我們認(rèn)為即使這樣的錯誤信息也體現(xiàn)了一個人的素質(zhì)。
第三點就是所謂的建模,總而言之,大數(shù)據(jù)當(dāng)中對所謂特征的變化,特征的提取和最后所謂獨立模型細節(jié)的建立,最后模型的整合都跟以前傳統(tǒng)統(tǒng)計上的理論有很大的區(qū)別。
最后這個是比較有意思的事情,這件事情在中國基本上不存在,但是在美國相對比較麻煩,大數(shù)據(jù)和相關(guān)立法之間的關(guān)系。相信中國在今后立法越來越完善也會碰到這樣的問題,信用評估上有些禁區(qū),這些禁區(qū)不能碰的。第一性別絕對不可以用的,來決定這個人到底信用值怎么樣,這是絕對不可以的。第二年齡,年齡沒有性別那么嚴(yán)重,但是年齡有要求,你問這個人的年齡,只能作為一個加分因素,而不能作為減分因素,年齡大家現(xiàn)在很多人也是不用的。第三種族,絕對不能觸碰的紅線,絕對不能根據(jù)你是亞洲人、黑人、白人還是拉丁裔,判定你的信用是好是壞。比如在中國你在街上開車或者在美國,墻上寫著字告訴你這個地方不能原地掉頭,就是因為太多人在這個地方原地掉頭了,所以才會樹個牌子,如果這個地方窄,你不用寫,也不會有人原地掉頭。禁止使用的這些東西,其實真正最能體現(xiàn)一個人的本質(zhì)。實際上從我們模型當(dāng)中能看得出來,這些不準(zhǔn)用的東西,如果你用的話,比千千萬萬的信息加在一起都有用。
大數(shù)據(jù)另外一個比較奇怪的應(yīng)用,就是它可以幫助你繞過一些法律上的紅線,這些法律上的紅線繞過并不是我們在打法律的擦邊球,而是因為事物的本質(zhì)就是由這幾個因素來決定的,這幾個因素你不讓我用,但是其他的模型又能準(zhǔn)確的判斷這個人,必然導(dǎo)致背后可以有的這些因素,A可以突出C,B又可以突出C,A和B之間必然有相關(guān)的。