地址:北京市密云區(qū)高嶺鎮(zhèn)政府辦公樓
王經(jīng)理 13393261468
Q Q:514468705/1049705527
郵箱:jhcxkj@163.com
毫無(wú)疑問(wèn),作為技術(shù)概念的"大數(shù)據(jù)"擁有光明的前途,它是人工智能的基石,是未來(lái)世界的"石油"。但作為生意的"大數(shù)據(jù)",在中國(guó)正走到一個(gè)關(guān)鍵的轉(zhuǎn)折點(diǎn)。
從業(yè)者都很焦慮。對(duì)大眾來(lái)說(shuō),2019年3月以來(lái),圍繞著"大數(shù)據(jù)"而密集發(fā)生的丑聞似乎是一種監(jiān)管加緊的信號(hào)——前有"315"晚會(huì)上集中曝光的大數(shù)據(jù)黑色產(chǎn)業(yè)鏈,后有號(hào)稱擁有8億國(guó)人真實(shí)信息的"大數(shù)據(jù)公司"——巧達(dá)科技被查。但對(duì)于一向嗅覺(jué)靈敏的中國(guó)大數(shù)據(jù)行業(yè)的從業(yè)者們來(lái)說(shuō),這并不突然。
從2017年底開(kāi)始,中央網(wǎng)信辦、工信部、公安部和國(guó)家標(biāo)準(zhǔn)委等部門就開(kāi)始密集合作,針對(duì)國(guó)內(nèi)大數(shù)據(jù)行業(yè)野蠻生長(zhǎng)中的各種亂象展開(kāi)各種行動(dòng)。進(jìn)入2018年,相關(guān)工作組先后多次對(duì)微信和淘寶等"國(guó)民級(jí)"應(yīng)用進(jìn)行隱私保護(hù)評(píng)估,提出整改意見(jiàn)。同時(shí),重點(diǎn)垂直行業(yè)和地方監(jiān)管機(jī)構(gòu)也明顯提高了約談?lì)l率。2019年2月,銀監(jiān)會(huì)和保監(jiān)會(huì)約談銀行高管,談及app收集信息的問(wèn)題;上海網(wǎng)信辦連續(xù)約談?shì)爡^(qū)內(nèi)應(yīng)用程序,而北京市公安部門也在"凈網(wǎng)2019"行動(dòng)中將"非法爬取數(shù)據(jù)"作為整治重點(diǎn)。
2019年1月,中央網(wǎng)信辦、工信部和公安部牽頭的多個(gè)機(jī)構(gòu)開(kāi)始對(duì)違規(guī)收集數(shù)據(jù)信息進(jìn)行專項(xiàng)治理,被業(yè)內(nèi)形容為"史上力度最大"的治理行動(dòng)。此后,相關(guān)部門還著手制定"大眾化應(yīng)用基本業(yè)務(wù)功能及必要信息規(guī)范",3月,工作組更直接在微信上開(kāi)通公眾號(hào)"App 個(gè)人信息舉報(bào)",直接接受用戶的侵權(quán)舉報(bào),并在4月就對(duì)30多款應(yīng)用提出整改要求。
在PingWest品玩與近10名來(lái)自大型互聯(lián)網(wǎng)公司數(shù)據(jù)部門以及"大數(shù)據(jù)公司"的從業(yè)者的接觸中,他們普遍認(rèn)為,315晚會(huì)"抓典型"和"巧達(dá)數(shù)據(jù)"被整治,更像是一系列行動(dòng)的結(jié)果,而非開(kāi)始。
"其實(shí)能感受到所有的環(huán)境都跟兩年前不同了,美國(guó)有Facebook出的事,歐洲又有GDPR(《通用數(shù)據(jù)保護(hù)條例》(General Data Protection Regulation,簡(jiǎn)稱GDPR,為歐盟條例——PingWest品玩注),以前覺(jué)得這都不影響我們國(guó)內(nèi)的業(yè)務(wù),但去年以來(lái)一扭頭卻發(fā)現(xiàn),國(guó)內(nèi)管得也更嚴(yán)了。"一家總部在杭州的電商公司相關(guān)數(shù)據(jù)算法部門的團(tuán)隊(duì)高層對(duì)PingWest品玩說(shuō)。
然而,無(wú)比焦慮的從業(yè)者們似乎仍然沒(méi)有意識(shí)到,監(jiān)管層面的變化背后,本質(zhì)還是國(guó)內(nèi)廣大用戶們數(shù)據(jù)隱私意識(shí)的覺(jué)醒。
"我們最近的政策法規(guī)研究以及行動(dòng)的節(jié)奏很大程度是受到大眾對(duì)隱私保護(hù)的意識(shí)覺(jué)醒的影響。"一名接近公安第三研究所網(wǎng)絡(luò)安全法律研究中心的人士對(duì)PingWest品玩透露。他們正參與到多部委聯(lián)合推進(jìn)的個(gè)人信息保護(hù)法律法規(guī)研究中。3月上線的"App 個(gè)人信息舉報(bào)"微信公號(hào)投訴平臺(tái),某種意義上就是在幫助法規(guī)制定者們更直接的感受大眾的態(tài)度。新華社的一篇報(bào)道介紹這個(gè)公眾號(hào)處理投訴的方式:"對(duì)于用戶實(shí)名舉報(bào)的信息,工作組逐一與舉報(bào)人溝通。"
很明顯,在監(jiān)管者以及廣大用戶看來(lái),"大數(shù)據(jù)"在中國(guó)作為一門生意,如今在各個(gè)環(huán)節(jié)都已出現(xiàn)必須糾正的問(wèn)題。
誰(shuí)的數(shù)據(jù),被誰(shuí)拿走了?
2018年4月23日晚,北京市公安部門公布了此前"巧達(dá)數(shù)據(jù)"被查案件的細(xì)節(jié)。這也與PingWest品玩與多位從業(yè)者探討時(shí)的判斷接近:一家被巧達(dá)數(shù)據(jù)爬取過(guò)簡(jiǎn)歷數(shù)據(jù)的公司,向公安舉報(bào)了巧達(dá)。之后北京警方在數(shù)個(gè)月的調(diào)查取證后,將其作為"凈網(wǎng)2019"行動(dòng)中的典型,予以處理并拘捕了公司實(shí)際控制人。
根據(jù)警方通報(bào):"嫌疑人通過(guò)利用大量代理IP地址、偽造設(shè)備標(biāo)識(shí)等技術(shù)手段,繞過(guò)該公司服務(wù)器防護(hù)策略,大量竊取存放在服務(wù)器上的用戶數(shù)據(jù)…… 經(jīng)初步查明,巧達(dá)科技公司采用技術(shù)手段在未經(jīng)授權(quán)的情況下,惡意竊取上述報(bào)案公司的用戶數(shù)據(jù),并將其用于自身經(jīng)營(yíng)。"
也就是說(shuō),巧達(dá)的問(wèn)題首先出在其過(guò)激的"爬蟲(chóng)"行為上。
"爬蟲(chóng)"指的是開(kāi)發(fā)者設(shè)計(jì)一套程式讓它按照一定規(guī)則,自動(dòng)抓取互聯(lián)網(wǎng)上的海量信息。一位曾在巧達(dá)數(shù)據(jù)短暫工作的員工對(duì)PingWest品玩表示,他們的團(tuán)隊(duì)有不少來(lái)自主流招聘平臺(tái)的員工,他們往往對(duì)前公司的系統(tǒng)比較熟悉,能夠更高效地爬取平臺(tái)上的簡(jiǎn)歷,在反爬蟲(chóng)措施出現(xiàn)之前完成足夠多的抓取。據(jù)他介紹,這種爬取招聘網(wǎng)站簡(jiǎn)歷的方式,在所謂的"簡(jiǎn)歷大數(shù)據(jù)"公司是一種常態(tài)。
與巧達(dá)數(shù)據(jù)收集數(shù)據(jù)方式相似的還有許多,比如總部位于上海的e成數(shù)據(jù)。e成數(shù)據(jù)的員工對(duì)PingWest品玩透露:這家公司的數(shù)據(jù)來(lái)自獵聘和智聯(lián)招聘等網(wǎng)站爬取,其官方網(wǎng)站聲稱"積累了1.3億份有效簡(jiǎn)歷"。今年3月,e成再次獲得C輪8000萬(wàn)人民幣的融資。
總部在武漢的"簡(jiǎn)尋",同樣主打爬取公開(kāi)簡(jiǎn)歷的生意,其官網(wǎng)顯示"產(chǎn)品可通過(guò)自然語(yǔ)義處理的技術(shù)爬取簡(jiǎn)歷",實(shí)質(zhì)也是通過(guò)爬蟲(chóng)技術(shù)爬取幾家主要的招聘網(wǎng)站,這家公司在去年完成千萬(wàn)級(jí)A輪融資。
此外從事類似生意的創(chuàng)業(yè)公司還有很多,多數(shù)處于天使輪階段。
"從這個(gè)角度看,巧達(dá)數(shù)據(jù)像是被當(dāng)作典型給抓了?;蛘咭彩且?yàn)樗龅奶罅恕?quot;上述員工說(shuō)。
此外,雖然此次的公告中沒(méi)有提及,但據(jù)PingWest品玩了解,巧達(dá)數(shù)據(jù)還涉及購(gòu)買"非法獲取的數(shù)據(jù)"的問(wèn)題。上述員工對(duì)PingWest品玩透露:他多次參與過(guò)團(tuán)隊(duì)在一些業(yè)務(wù)領(lǐng)域的競(jìng)標(biāo)活動(dòng),也就是多家"大數(shù)據(jù)公司"競(jìng)爭(zhēng)同一個(gè)服務(wù)客戶,嘗試為其提供數(shù)據(jù)分析等服務(wù)。而在競(jìng)標(biāo)前,他們往往會(huì)密集從黑市上買進(jìn)大批數(shù)據(jù)。
"巧達(dá)自己有許多接口能拿到簡(jiǎn)歷,并不會(huì)將大部分精力放到撞庫(kù)等做法上。但那些數(shù)據(jù)中介可就不是了,他們每天就是撞庫(kù),什么數(shù)據(jù)都有。"
"撞庫(kù)"指的是利用已經(jīng)泄露的用戶信息,去嘗試批量破解用戶在其他網(wǎng)站上的賬號(hào)。據(jù)巧達(dá)離職員工介紹,在特定的招標(biāo)前,他們會(huì)購(gòu)買與此次競(jìng)標(biāo)貼合的特定類型的數(shù)據(jù),用于提供更多維度的交叉驗(yàn)證,讓自己的數(shù)據(jù)能力在競(jìng)標(biāo)時(shí)看起來(lái)更強(qiáng)。
根據(jù)多家媒體此前的報(bào)道,這類提供敏感數(shù)據(jù)的"數(shù)據(jù)掮客"大量活躍在暗網(wǎng)中,鏈條大致是"黑客通過(guò)攻擊獲取數(shù)據(jù),之后在暗網(wǎng)賣給一些數(shù)據(jù)中介,數(shù)據(jù)中介再轉(zhuǎn)手多次,賣到那些需要這些數(shù)據(jù)進(jìn)行精準(zhǔn)營(yíng)銷的公司手里。"一位從事數(shù)據(jù)埋點(diǎn)的工程人員表示。
"所以,當(dāng)你看到最后這些公司花了多少錢買來(lái)這些高度隱私的真實(shí)數(shù)據(jù)時(shí),其實(shí)價(jià)格已經(jīng)翻了幾倍,而且這些數(shù)據(jù)只是露出水面的冰山一角,下面藏著的被獲取和交易的數(shù)據(jù),隱私和敏感度還要更高。"
這種生意隨著"精準(zhǔn)營(yíng)銷"和"個(gè)性推送"的走紅而需求大增,一些"明星公司"也開(kāi)始做起類似的生意。最典型的當(dāng)屬新三板上市的數(shù)據(jù)公司"數(shù)據(jù)堂"。
2018年7月,新華社報(bào)道,山東省破獲的"特大侵犯公民個(gè)人信息案"中,數(shù)據(jù)堂"在8個(gè)月時(shí)間內(nèi),日均傳輸公民個(gè)人信息1億3000萬(wàn)余條,累計(jì)傳輸數(shù)據(jù)壓縮后約為4000G",這些數(shù)據(jù)包括手機(jī)號(hào)碼、上網(wǎng)基站代碼等40余項(xiàng)信息要素,"記錄手機(jī)用戶具體的上網(wǎng)行為,甚至部分?jǐn)?shù)據(jù)能夠直接進(jìn)入公民個(gè)人賬號(hào)主頁(yè)"。 而將這些數(shù)據(jù)以產(chǎn)品的形式出售,是數(shù)據(jù)堂這類"大數(shù)據(jù)公司"的重要業(yè)務(wù)形式和收入來(lái)源。
據(jù)上述巧達(dá)員工透露,巧達(dá)數(shù)據(jù)自己其實(shí)也在扮演著"數(shù)據(jù)中介"的角色,其CEO曾高調(diào)地表示:"簡(jiǎn)歷是最有價(jià)值的自然人數(shù)據(jù)。巧達(dá)數(shù)據(jù)通過(guò)大數(shù)據(jù)及人工智能技術(shù)研發(fā)的認(rèn)知引擎,能夠快速還原網(wǎng)上自然人的清晰畫像。"本質(zhì)上這部分生意就是在販賣"真實(shí)數(shù)據(jù)",這與大部分的"數(shù)據(jù)中介"所從事的地下業(yè)務(wù)十分相似。
隨著大數(shù)據(jù)概念的興起,中國(guó)誕生了一大批自稱為大數(shù)據(jù)公司的初創(chuàng)企業(yè),它們?yōu)槟切┎痪邆鋽?shù)據(jù)采集、分析能力的大量的中小互聯(lián)網(wǎng)企業(yè)提供數(shù)據(jù)服務(wù),并借此積累起自己的數(shù)據(jù)。這種長(zhǎng)尾效應(yīng)讓他們的數(shù)據(jù)庫(kù)也十分可觀,他們往往像巧達(dá)數(shù)據(jù)一樣,一邊會(huì)從其他渠道購(gòu)買數(shù)據(jù),一邊也會(huì)以同樣方式銷售自己收集來(lái)的數(shù)據(jù)。這些大數(shù)據(jù)公司和以BAT為代表的本身?yè)碛泻A坑脩魯?shù)據(jù)的公司一同,成為數(shù)據(jù)最主要的歸處。
而據(jù)PingWest品玩接觸的包括百分點(diǎn)和同盾等在近幾年高調(diào)地將自己定義為"大數(shù)據(jù)公司"的數(shù)名現(xiàn)員工以及前員工證實(shí),他們普遍都購(gòu)入過(guò)來(lái)自"黑市"的數(shù)據(jù),且多發(fā)生在一些競(jìng)標(biāo)之前。
這種事實(shí)上違法的獲取方式,在這些大數(shù)據(jù)公司的PPT中,搖身一變以"外部購(gòu)買"的名義曖昧呈現(xiàn)。"其實(shí)業(yè)內(nèi)的人都知道這是什么意思,你能從哪買啊,最大的數(shù)據(jù)要么就在BAT手里,人家沒(méi)必要賣給你賺這點(diǎn)錢,要么在政府手里,不會(huì)賣給你。你能買到的有用的數(shù)據(jù),就只有那些渠道。"
對(duì)此,同盾科技對(duì)PingWest品玩表示,同盾的"合法合規(guī)始終貫穿于全業(yè)務(wù)流程??蛻粝蛲芴峤坏纳婕坝脩魝€(gè)人信息的分析服務(wù)需求、數(shù)據(jù)收集、使用等均經(jīng)最終用戶授權(quán)(未經(jīng)授權(quán)的同盾一律拒絕等),后經(jīng)同盾在云端分析后向客戶反饋分析結(jié)果,主要是返回一個(gè)概率的分值,及一些通過(guò)脫敏的標(biāo)簽。"
這背后的數(shù)據(jù)歸屬明顯存在嚴(yán)重問(wèn)題。黑產(chǎn)市場(chǎng)的數(shù)據(jù)掮客,一向是警方嚴(yán)打的對(duì)象,他們?cè)诜欠ㄊ圪u公民個(gè)人信息上的犯罪事實(shí)比較明顯,尤其在《網(wǎng)絡(luò)安全法》發(fā)布并實(shí)施之后,整治和懲罰都更加嚴(yán)格。與此同時(shí),通過(guò)爬蟲(chóng)進(jìn)行數(shù)據(jù)爬取的行為,在近些年也在產(chǎn)生越來(lái)越多的糾紛,監(jiān)管者也在處理過(guò)程中逐漸建立應(yīng)對(duì)的邏輯。
2015年,新浪微博將職場(chǎng)社交app脈脈告上法庭,指責(zé)后者在合作協(xié)議之外爬取了大量微博平臺(tái)上用戶數(shù)據(jù),并在合作終止后拒絕刪除數(shù)據(jù)。案件經(jīng)過(guò)近兩年審理后,在2017年初終審判決,脈脈被判"不正當(dāng)競(jìng)爭(zhēng)"。這起案件被許多律師視作標(biāo)桿性的判罰。其中明確的爬取其他平臺(tái)用戶數(shù)據(jù)時(shí)的"三原則",在之后貫穿于國(guó)內(nèi)的各類判罰中——當(dāng)兩個(gè)平臺(tái)希望就數(shù)據(jù)進(jìn)行分享合作時(shí),數(shù)據(jù)提供方應(yīng)首先取得自己用戶的同意,之后當(dāng)數(shù)據(jù)獲取方收集數(shù)據(jù)時(shí),應(yīng)獲得數(shù)據(jù)提供分的授權(quán),并且還需要再次告知用戶,并再次獲得他們的授權(quán)。也就是"用戶授權(quán)+平臺(tái)授權(quán)+用戶再授權(quán)"三原則。
在這種邏輯下,2017年大眾點(diǎn)評(píng)起訴百度爬取其網(wǎng)站數(shù)據(jù)的案子中,百度敗訴;2019年3月,天津市濱海新區(qū)人民法院就微信起訴抖音擅自獲取微信用戶數(shù)據(jù)一案,給出一份臨時(shí)禁令,要求抖音停止將微信/QQ開(kāi)放平臺(tái)授權(quán)登錄服務(wù)提供給多閃,停用此前獲得的微信用戶頭像和昵稱等。而今日頭條對(duì)PingWest品玩表示,"此案目前沒(méi)正式進(jìn)入實(shí)體審理,并沒(méi)有判決。"
盡管沒(méi)有直接對(duì)爬蟲(chóng)行為進(jìn)行約束的法律法規(guī),但在這些案例中,最常用到的法規(guī)包括《反不正當(dāng)競(jìng)爭(zhēng)法》中,第十二條第二款規(guī)定的"經(jīng)營(yíng)者不得利用技術(shù)手段……破壞其他經(jīng)營(yíng)者合法提供的網(wǎng)絡(luò)產(chǎn)品或服務(wù)正常運(yùn)行的行為"。而涉及刑事犯罪時(shí),往往觸犯了《刑法》第285條規(guī)定的"非法入侵計(jì)算機(jī)系統(tǒng)"罪。
爬蟲(chóng)的問(wèn)題在美國(guó)互聯(lián)網(wǎng)界也屢屢成為爭(zhēng)議的焦點(diǎn),其中《1986年計(jì)算機(jī)欺詐與濫用法》(CFAA)是經(jīng)常被援引的條款。CFAA規(guī)定,未經(jīng)授權(quán)及超過(guò)授權(quán)故意訪問(wèn)計(jì)算機(jī),并從有保護(hù)的計(jì)算機(jī)獲取信息,都構(gòu)成犯罪。嚴(yán)重者甚至可能是刑事犯罪。
不過(guò),2017年著名的"hiQ VS Linkedin" 的判決,卻顯示出與國(guó)內(nèi)大部分判決不同的思路。Linkedin指責(zé)創(chuàng)業(yè)公司hiQ爬取其網(wǎng)站數(shù)據(jù)時(shí)違法其使用條款,但hiQ認(rèn)為其爬取的都是公開(kāi)數(shù)據(jù)。最終加州法院"站"在了爬蟲(chóng)方一邊,認(rèn)為L(zhǎng)inkedin被爬取的數(shù)據(jù)都是網(wǎng)站上的"公開(kāi)數(shù)據(jù)",且單靠Linkedin單方面的條款和事后發(fā)出的警告,都不足以觸發(fā)《計(jì)算機(jī)欺詐與濫用法》,反而是LinkedIn有利用市場(chǎng)領(lǐng)先地位不正當(dāng)競(jìng)爭(zhēng)的嫌疑,法院要求它解除對(duì)hiQ爬蟲(chóng)設(shè)置的臨時(shí)禁令和IP封鎖。
研究個(gè)人信息數(shù)據(jù)保護(hù)的公眾號(hào)"Martin的讀書筆記"在分析這些爬蟲(chóng)判例時(shí)認(rèn)為:美國(guó)對(duì)爬蟲(chóng)"正在慢慢突破合同法思維和CFAA的限制,開(kāi)始更多考量公共利益的優(yōu)先性。"
但仔細(xì)觀察這些案例會(huì)發(fā)現(xiàn),無(wú)論是在國(guó)內(nèi)的案例還是美國(guó)案例中,更多的關(guān)注點(diǎn)在于平臺(tái)之間的數(shù)據(jù)歸屬爭(zhēng)議,卻往往有意無(wú)意回避了一個(gè)更重要的問(wèn)題:在平臺(tái)彼此爭(zhēng)奪數(shù)據(jù)歸屬的背后,真正產(chǎn)生數(shù)據(jù)的用戶對(duì)數(shù)據(jù)的歸屬擁有怎樣的權(quán)利?
要回答這個(gè)問(wèn)題,就需要弄明白用戶的數(shù)據(jù)究竟是如何被互聯(lián)網(wǎng)公司獲取的。
用戶知情權(quán)與"低隱私社會(huì)"之爭(zhēng)
"如果需要,其實(shí)我們可以還原你使用我們app時(shí)在屏幕上的所有操作。"一名總部在上海的O2O公司數(shù)據(jù)部門相關(guān)負(fù)責(zé)人對(duì)PingWest品玩表示。"你先點(diǎn)了哪里后點(diǎn)了哪里,你上下滑動(dòng)屏幕的速度,你停留在哪個(gè)產(chǎn)品時(shí)間較久,我們?cè)诤笈_(tái)都知道。相當(dāng)于給你的所有操作錄屏,并且傳回了我們這里。"
當(dāng)然,這些app并沒(méi)有真的給你錄屏,實(shí)現(xiàn)這種"恐怖"的數(shù)據(jù)收集,依靠的是"埋點(diǎn)"技術(shù)。也就是在特定的位置加入相應(yīng)代碼,收集用戶在這些位置的操作行為,并發(fā)回到后端進(jìn)行收集分析。這種技術(shù)早已是互聯(lián)網(wǎng)公司的標(biāo)配,如今常常以一個(gè)SDK(軟件開(kāi)發(fā)工具包)的形式添加在應(yīng)用程序里。用戶在使用應(yīng)用的過(guò)程中,不知不覺(jué)地就被應(yīng)用收集了所有數(shù)據(jù)。
而隨著精準(zhǔn)推薦的需求越來(lái)越高,采集數(shù)據(jù)的需求也跟著增加。"到最后,數(shù)據(jù)采集的埋點(diǎn)越來(lái)越多,幾乎成了全范圍的埋點(diǎn),管它有用沒(méi)用都先采集回來(lái)再說(shuō)。"上述O2O公司員工說(shuō)。而在這樣的思路下,許多對(duì)用戶來(lái)說(shuō)十分敏感的數(shù)據(jù)信息,也成了采集信息的目標(biāo)。據(jù)兩名知情人士對(duì)PingWest品玩稱,今日頭條已經(jīng)開(kāi)始采集用戶安裝應(yīng)用的列表,用于分析用戶的特征。而這樣的權(quán)限在其他一些大廠的數(shù)據(jù)采集中是"不敢碰"的。
而對(duì)于那些沒(méi)有能力自己埋點(diǎn),或自己埋點(diǎn)性價(jià)比不高的中小企業(yè)來(lái)說(shuō),則普遍選擇使用第三方的SDK(軟件開(kāi)發(fā)工具包),這些SDK由近年來(lái)誕生的"大數(shù)據(jù)公司"提供。
由于這些埋點(diǎn)和SDK的行為都是由互聯(lián)網(wǎng)應(yīng)用自己決定,缺少技術(shù)知識(shí)的用戶很難反過(guò)來(lái)進(jìn)行監(jiān)督,無(wú)法搞明白自己到底哪些信息被收集。更多時(shí)候,是分發(fā)這些應(yīng)用的應(yīng)用商店來(lái)對(duì)應(yīng)用的程序包進(jìn)行審核。其中,由于蘋果的封閉生態(tài),iOS系統(tǒng)的應(yīng)用都只能通過(guò)蘋果App Store分發(fā),蘋果對(duì)應(yīng)用調(diào)取的權(quán)限等規(guī)定更加嚴(yán)格,iOS系統(tǒng)向這些應(yīng)用分享的底層數(shù)據(jù)也較少。但作為開(kāi)源的Android系統(tǒng),可以獲取的底層數(shù)據(jù)權(quán)限相對(duì)更多。
"比如,同樣的一個(gè)應(yīng)用,Android版的往往能更加準(zhǔn)確地獲得用戶的位置數(shù)據(jù),就是因?yàn)樗讓拥腤i-Fi列表數(shù)據(jù)是可以獲得的,我通過(guò)分析Wi-Fi屬于哪個(gè)店鋪,結(jié)合GPS就能獲得更準(zhǔn)確定位,但iOS的Wi-Fi列表權(quán)限不開(kāi)放給第三方應(yīng)用。"一名資深A(yù)pp開(kāi)發(fā)人員表示。
而且,國(guó)內(nèi)各類應(yīng)用商店也更加魚(yú)龍混雜,在審核上尺度不一。這些因素在一起造成許多安卓應(yīng)用,在獲取權(quán)限和收集數(shù)據(jù)上變得十分貪婪。而盡可能多的獲取用戶各種行為數(shù)據(jù),也成了第三方大數(shù)據(jù)公司們競(jìng)爭(zhēng)的焦點(diǎn)。他們推出的SDK要求的權(quán)限不斷增加。
據(jù)了解Talking Data相關(guān)業(yè)務(wù)的人士介紹,其提供的SDK 有能力收集與用戶藍(lán)牙配對(duì)的其他移動(dòng)設(shè)備的信息,能夠收集Android用戶設(shè)備上的安裝程序列表,一方面可以用于借此分析用戶的喜好,另一方面也借此統(tǒng)計(jì)各類app的市場(chǎng)占有率,后者是其數(shù)據(jù)分析業(yè)務(wù)的重要組成。對(duì)此,Talking Data對(duì)PingWest品玩表示,他們的sdk并沒(méi)有監(jiān)控與藍(lán)牙匹配設(shè)備的能力。"我們提供的SDK是為應(yīng)用提供數(shù)據(jù)統(tǒng)計(jì)工具及分析服務(wù),通過(guò)在應(yīng)用中集成了SDK,來(lái)分析這些數(shù)據(jù)以了解應(yīng)用在不同終端設(shè)備上、使用平臺(tái)或應(yīng)用分發(fā)渠道的表現(xiàn)和用戶使用的情況。"Talking Data相關(guān)人士表示。
類似的模式普遍存在于這類通過(guò)提供SDK而進(jìn)行數(shù)據(jù)采集和分析業(yè)務(wù)的公司中。關(guān)注移動(dòng)互聯(lián)網(wǎng)行業(yè)的人會(huì)經(jīng)??吹饺鏣alkingData、易觀和個(gè)推等企業(yè)發(fā)布的行業(yè)份額類的數(shù)據(jù)報(bào)告,這背后就是基于它們廣泛提供的SDK。
而近幾年,這些公司都開(kāi)始主打"可視化無(wú)埋點(diǎn)SDK"技術(shù),讓購(gòu)買服務(wù)的公司可以通過(guò)直觀的可視化操作頁(yè)面完成數(shù)據(jù)采集——"使用者不需要有太多代碼知識(shí)"。
但這也引起一些技術(shù)人員的質(zhì)疑。"所謂無(wú)埋點(diǎn),其實(shí)是全埋點(diǎn),能埋的都埋了,能收集的都先收集走再說(shuō)。"一家在杭州某電商類創(chuàng)業(yè)公司從事數(shù)據(jù)分析的工程師對(duì)PingWest品玩表示。"而且,我認(rèn)為這種傻瓜化的產(chǎn)品和宣傳,其實(shí)造成的一個(gè)更危險(xiǎn)的問(wèn)題是,那些真的不懂或者不去關(guān)注這些第三方SDK的使用者,一方面不知道自己平臺(tái)的哪些數(shù)據(jù)共享給了這些第三方公司,另一方面甚至有時(shí)候不知道自己觸碰了用戶的哪些權(quán)限和數(shù)據(jù)。"
每個(gè)提供SDK服務(wù)的大數(shù)據(jù)公司,都會(huì)把收集來(lái)的數(shù)據(jù)中的一些"占為己有",從而豐富自己的數(shù)據(jù)資源,然后再把這些資源反過(guò)來(lái)集成到所謂的數(shù)據(jù)分析平臺(tái)上,賣給客戶。也就是說(shuō),這些數(shù)據(jù)并不是只用于收集者自己的平臺(tái),而是作為某種商品進(jìn)行了出售。
大數(shù)據(jù)公司百分點(diǎn)為此提出一個(gè)新的概念——"第二方數(shù)據(jù)":"指企業(yè)和合作伙伴共同擁有的數(shù)據(jù),所有權(quán)如何分配是商談出來(lái)的。在使用這些數(shù)據(jù)時(shí),也要遵循雙方共同的利益"。
但在這過(guò)程中,用戶卻完全缺席,這些數(shù)據(jù)采集過(guò)程中,很多都沒(méi)有經(jīng)過(guò)用戶的同意授權(quán),甚至是沒(méi)有明確告知用戶。最近頻頻出現(xiàn)的懷疑app"監(jiān)聽(tīng)"自己,指責(zé)輸入法泄露自己隱私等新聞,就都是來(lái)源于用戶的不知情。
在2016年時(shí),Google Play就曾集中下架一批使用TalkingData SDK的應(yīng)用,據(jù)Talking Data對(duì)PingWest品玩表示,當(dāng)初是因?yàn)镚oogle更新了其隱私政策,而使用了他們sdk的應(yīng)用開(kāi)發(fā)者并未能完全符合Google的隱私政策要求,因此造成暫時(shí)下架。那之后TalkingData單獨(dú)為Google Play 設(shè)計(jì)了一個(gè)專屬版本來(lái)幫助應(yīng)用開(kāi)發(fā)者滿足Google隱私政策的要求。而據(jù)上述知情人士介紹,對(duì)國(guó)內(nèi)各大Android應(yīng)用市場(chǎng)的版本,依然可以獲取被視為高度隱私的權(quán)限。"這樣的現(xiàn)象不只是TalkingData,類似個(gè)推等其他提供SDK服務(wù)的第三方公司,其實(shí)都有這樣的現(xiàn)象。"而絕大多數(shù)國(guó)內(nèi)Android用戶的app正是來(lái)自這些應(yīng)用市場(chǎng)。
對(duì)于這些數(shù)據(jù)采集的行為,大數(shù)據(jù)公司們的一個(gè)常用解釋是,數(shù)據(jù)已經(jīng)"脫敏"。但目前全行業(yè)并沒(méi)有關(guān)于脫敏的統(tǒng)一標(biāo)準(zhǔn),也沒(méi)有相關(guān)詳細(xì)法規(guī)。脫敏與否,完全成了大數(shù)據(jù)公司們的一種自覺(jué),全靠一家公司的"底線"和價(jià)值觀來(lái)決定。
而與此同時(shí),隨著各類公司對(duì)精準(zhǔn)營(yíng)銷和個(gè)性化推送等效果的更高要求,對(duì)"用戶畫像"的極度癡迷,客觀上形成了誰(shuí)越能無(wú)限逼近用戶的真實(shí)身份,誰(shuí)的數(shù)據(jù)服務(wù)就更有吸引力的事實(shí)。這種商業(yè)上的動(dòng)力和脫敏的安全考量之間出現(xiàn)了明顯矛盾。很多漏洞也因此出現(xiàn)和被利用。
比如,在目前的許多第三方大數(shù)據(jù)公司的數(shù)據(jù)庫(kù)中,在脫敏處理后,用戶數(shù)據(jù)也依然會(huì)被分配各自的獨(dú)立ID。但是很多app其實(shí)同時(shí)都在收集用戶的設(shè)備號(hào),其中主要的是手機(jī)的Mac地址和機(jī)器的IMEI號(hào)。前者全稱Media Access Control,是手機(jī)網(wǎng)卡的ID,用來(lái)定義網(wǎng)絡(luò)設(shè)備的位置。后者是 International Mobile Equipment Identity,相當(dāng)于機(jī)器的身份證。兩者都具有唯一性。盡管第三方公司將自己分配的獨(dú)立ID形容為一種將用戶真實(shí)身份去掉的方式,但顯然,只要將兩者對(duì)應(yīng),這些ID本身依然是一種真實(shí)信息。
而在電信實(shí)名制的當(dāng)下,想要讓ID直接變成真人,只需要一步:當(dāng)這兩個(gè)數(shù)據(jù)與電話號(hào)數(shù)據(jù)對(duì)應(yīng)上時(shí),用戶的真實(shí)身份就會(huì)徹底暴露。
今年315晚會(huì)上曝光的"探針盒子",就是用來(lái)完成這最后一步。據(jù)央視的調(diào)查,這個(gè)設(shè)備能在發(fā)現(xiàn)用戶手機(jī)信號(hào)后,識(shí)別出用戶手機(jī)的MAC地址和IMEI號(hào),并利用背后的"大數(shù)據(jù)技術(shù)",將這些設(shè)備號(hào)轉(zhuǎn)換成手機(jī)號(hào)碼。
隨著用戶被收集的數(shù)據(jù)種類越來(lái)越多,用戶的隱私變成了一張拼圖,要不要把用戶的真實(shí)信息"拼"出來(lái),完全取決手握這些拼圖的大數(shù)據(jù)公司們自己。
"目前很多案例都是集中在厘清平臺(tái)之間互相爭(zhēng)奪數(shù)據(jù)的問(wèn)題,但之后肯定不可避免的要深入到,用戶自己對(duì)個(gè)人數(shù)據(jù)的權(quán)利的問(wèn)題。" 接近公安部第三研究所的人士透露。
最近一年,各類公司過(guò)度收集用戶數(shù)據(jù)成為整治的重點(diǎn)。據(jù)新華社報(bào)道,中央網(wǎng)信辦、工信部、公安部和市場(chǎng)監(jiān)管總局在今年年初成立app違法違規(guī)收集使用個(gè)人信息專項(xiàng)治理工作組,"截至4月16日,舉報(bào)信息超過(guò)3480條,涉及1300余款app。對(duì)于30款用戶量大、問(wèn)題嚴(yán)重的app,工作組已向其運(yùn)營(yíng)者發(fā)送了整改通知。"
這些舉動(dòng)像是一種鋪墊,背后是相關(guān)部門對(duì)個(gè)人數(shù)據(jù)權(quán)利的思考。
上述人士表示,在個(gè)人數(shù)據(jù)權(quán)利方面,相關(guān)部門一直在密切研究歐盟的GDPR,也就是歐盟去年5月開(kāi)始實(shí)行的《通用數(shù)據(jù)保護(hù)條例》,它是全球現(xiàn)行的最嚴(yán)格的數(shù)據(jù)保護(hù)法案。而研究者對(duì)其過(guò)于嚴(yán)格的監(jiān)管仍存異議。
比如,GDPR中提到用戶的數(shù)據(jù)可攜權(quán),要求Facebook和Google等主要網(wǎng)絡(luò)將用戶的數(shù)據(jù)"還給"用戶,由用戶直接跨平臺(tái)掌握自己的所有數(shù)據(jù)。"這顯得過(guò)于激進(jìn)。"
"過(guò)去的那種寬松,事實(shí)上是兩方面原因,一是監(jiān)管跟不上業(yè)內(nèi)的技術(shù);另一個(gè)也是因?yàn)?,監(jiān)管方面還是有些傾向于管的太嚴(yán)會(huì)扼殺創(chuàng)新的觀點(diǎn)。"上述人士表示,這種傾向依然會(huì)繼續(xù)存在下去。
再比如,GDPR里的引言部分直接提出的"匿名化"的概念,規(guī)定個(gè)人數(shù)據(jù)要移除可識(shí)別的個(gè)人信息,與此同時(shí)在法案中對(duì)個(gè)人數(shù)據(jù)作出詳細(xì)羅列,位置數(shù)據(jù)、IP地址、MAC地址都屬于個(gè)人數(shù)據(jù)。這些數(shù)據(jù)在匿名化中必須抹去。
但作為對(duì)比,2019年4月10日,公安部第三研究所等機(jī)構(gòu)聯(lián)合發(fā)布的《互聯(lián)網(wǎng)個(gè)人信息安全保護(hù)指南》中,在提到個(gè)人信息的保護(hù)時(shí),則避免了使用"匿名化"這個(gè)比較激進(jìn)的概念。"我們的概念還是和歐盟GDPR的匿名化有些不同的,最后我們只是直接引用《網(wǎng)絡(luò)安全法》里的概念。" 相關(guān)人士表示。在這份指南中,對(duì)個(gè)人信息的保護(hù)要求的描述為"經(jīng)過(guò)處理無(wú)法識(shí)別特定個(gè)人且不能復(fù)原" 。
"總體上你能看到有兩個(gè)思路,保證用戶隱私肯定是第一位的,二則是,數(shù)據(jù)只在用戶手里是沒(méi)有價(jià)值的,所以還是要鼓勵(lì)公司對(duì)數(shù)據(jù)的合規(guī)處理。"上述人士透露。
最高人民法院司法案例研究院4月的一篇文章也透露出這樣的思路。文章指出,解決用戶個(gè)人數(shù)據(jù)保護(hù)的關(guān)鍵在于"區(qū)分包含用戶個(gè)人信息的原始數(shù)據(jù)與處理加工形成數(shù)據(jù)產(chǎn)品后的衍生數(shù)據(jù),并分別判斷歸屬"。文章認(rèn)為,原始數(shù)據(jù)歸屬于用戶,而衍生數(shù)據(jù)則歸屬于運(yùn)營(yíng)公司。這樣不僅能合理平衡雙方利益,更能"鼓勵(lì)網(wǎng)絡(luò)企業(yè)不斷進(jìn)行技術(shù)創(chuàng)新和產(chǎn)能創(chuàng)造,促進(jìn)社會(huì)總體財(cái)富增加的需要。"
這些年這種客觀上"先發(fā)展再監(jiān)管"的環(huán)境,導(dǎo)致許多互聯(lián)網(wǎng)公司根本的商業(yè)模式有很大一部分已經(jīng)是基于這種野蠻的數(shù)據(jù)收集以及分享的基礎(chǔ)上。此外,人工智能發(fā)展中最為關(guān)鍵的算法模型,也極度依賴這些數(shù)據(jù)。
海銀資本創(chuàng)始合伙人王煜全就認(rèn)為:在人工智能的競(jìng)爭(zhēng)中,焦點(diǎn)就落在數(shù)據(jù)上,隨著企業(yè)越來(lái)越多的把數(shù)據(jù)拿出來(lái)給機(jī)器訓(xùn)練,人類正進(jìn)入一個(gè)低隱私社會(huì),這成為一種不可逆轉(zhuǎn)的趨勢(shì)。
而這就導(dǎo)致事到如今,大數(shù)據(jù)從業(yè)者們對(duì)"隱私"的理解與用戶產(chǎn)生了差距,一提到保障隱私,大數(shù)據(jù)行業(yè)給出的應(yīng)對(duì)往往是"不再和其他平臺(tái)分享數(shù)據(jù)",而用戶希望的則是連你這個(gè)平臺(tái)自己也干脆不要收集我的數(shù)據(jù),出現(xiàn)了明顯的溝通障礙。
在這種情況下,監(jiān)管部門也不可避免的要面對(duì)兩難的處境。一個(gè)可能的方式是,首先讓用戶和大數(shù)據(jù)公司們回到一個(gè)能夠溝通的狀態(tài)中去。比如要求這些大數(shù)據(jù)公司用普通人聽(tīng)得懂的話向用戶說(shuō)明白每個(gè)數(shù)據(jù)采集行為的目的,獲得用戶的正式許可,并且通過(guò)一定的方式讓用戶分享利用他們數(shù)據(jù)生成的收益。同時(shí),在法律層面很難明確對(duì)數(shù)據(jù)歸屬進(jìn)行明確確權(quán)的情況下,可以通過(guò)更加嚴(yán)厲的事后懲罰機(jī)制,來(lái)提高過(guò)度收取用戶信息以及販賣用戶信息等行為的成本,也為用戶提供某種類似遺忘權(quán)的權(quán)利,讓他們擁有更強(qiáng)的事后防御能力。
在大數(shù)據(jù)時(shí)代,數(shù)據(jù)的確是擁有巨大潛質(zhì)的新石油,但若在用戶權(quán)利和行業(yè)發(fā)展之間無(wú)法正確權(quán)衡,這種新石油也一樣能帶來(lái)巨大的污染。
來(lái)源:精密空調(diào) http://mygoldentreasures.com