阿波羅網論壇

 找回密碼
 注冊
搜索
熱搜: 活動 交友
查看: 457|回復: 0

方濱興:大數據搜索要有隱私保護

[復制鏈接]

1

主題

1

帖子

11

積分

新手上路

Rank: 1

積分
11
發表於 2018-1-16 20:45:40 | 顯示全部樓層 |閱讀模式
網易財經12月14日訊 2016年網易經濟學家年會今日在北京舉行,論壇主題為“大國圖新 重啟增長”,經濟界精英齊聚一堂,共同探討中國經濟改革,網易財經全程直播。

在《2025科技展望》的分論壇中,中國工程院院士,中國網絡空間安全協會籌備組召集人方濱興在主題演講中表示,大數據的能力太強大,可能把個人隱私挖掘出來,要有隱私保護。

以下為文字實錄:

方濱興:剛剛魯白講的方面,我這個在他的前一個階段。這需要我做宣傳的一件事情。

我們先說現在我們搜索引擎,如果沒有搜索引擎互聯網不會走到今天,當然我說的搜索引擎不僅是百度、搜狗、谷歌這些,淘寶、當當沒有搜索引擎什麼東西都找不到,沒有搜索引擎什麼都不存在了。

受到大數據到來搜索數據在擴張,我們有很多信息都可以被你搜索到,有物聯網信息、移動物聯網的信息,地理軌跡數據等等,數據源在擴張,而不是像過去只是在互聯網上的信息。

第二,是我們的搜索空間也在擴張。過去我們僅僅在互聯網搜索,我們現在可以到物聯網、可以到電信網、可以到傳感網,可以到很多網搜索。它是一個網絡空間,什麼是網絡空間?網絡空間是包括互聯網、電信網,社交網絡、計算系統、通信系統、控制系統等虛擬空間。我們不是停留在傳統的互聯網上,用我們的行話到泛在網上。

第三,搜索內容也開始發生變化,過去搜的是簡單的信息,文字信息或圖片信息。現在空間上已經擴張了,我們搜索的有內容、還有時間、還有空間,像當當網的物流,京東的物流,都給你帶來時間軸,空間信息。

而內容本身也在擴張。過去內容就是文字本身、信息本身,或者圖片視頻。現在內容還包括人、包括物,這個物體在哪兒?這個人是怎麼回事。所以它們也是擴張。

再就是搜索模式在變化。傳統搜索模式搜的存在性信息。這個文字在哪個網頁有?拽出來看看網頁怎麼回事。往下搜到語義理解,現在打個“毛澤東”他給你履歷生平,你可能關心他背後的事情。

還有服務搜索,你搜索天氣預報,他知道你在北京告訴你北京天氣預報,你寫北京時間馬上告訴你現在幾點幾分,北京到海口的航線,馬上告訴你機票最近時間價格怎麼樣。提供服務,服務搜索。

往下還需要給我一個解決方案,給我一個答案,讓網絡給我一個智慧。這是我們下面要追求的事情。追求的新一代的搜索技術。我們現在有了這么多的變化,空間在變化,我們要有更大的空間獲取原始信息。

什麼叫解決方案?我們要到醫院去看病,我們到醫院看急診。現在搜什麼呢?現在片斷一個一個搜,附近有哪個醫院交通信息怎麼樣?這些信息都有,搜狗有搜索引擎,交通瀏覽器都有。但也就到這,再往下還要什麼?資源怎麼樣?床位怎麼樣?如果在大數據年代大家數據共享,醫院把床位情況共享出來,能不能接待我?

還有排隊掛號排隊,牌號器借給我們,知道排號情況怎麼樣。知道一個病人花多長時間,不斷有新的排隊的人進來,所有信息都綜合之後,搜索引擎會給你一個答案說:你到十公里內的醫院最好,不是到一公里外的醫院。因為什麼?因為各種因素,排隊它的醫療資源的數量,還有它的床位等等。

我們叫大搜索,因為我們面對Big data,用Big data是5個V,數據復雜、數據不確定,最後一個V有很多價值挖掘出來,誰給它挖掘?大搜索挖掘。

什麼是大搜索?面對泛在網人、空間、物體、內容,基於網絡空間大數據獲取的知識,從信息時間、位置角度給滿足用戶的搜索解答。

大搜索本質關繫到五個問題,各個角度上的信息。在泛在網的空間,不僅僅是互聯網。排號信息如果能共享出來,對你的企業肯定有很大好處。就跟攜程,能夠成功拿到所有酒店空房率的信息,它能幫你把用戶推薦進來。

如果我們醫院、銀行,所有長期排隊的這種,你把你的牌號信息分享出來,網上搜索時,參考你排號信息,這時服務質量馬上提高。整個均衡程度會擴張,三甲醫院有限的醫療資源可以服務於那些人再多必須到這排隊,到這看病的復雜。旁邊的醫院也要有人看,要有人引導。

第二個要有人理解。用戶提出一個問題到底是什麼?查一個信息到底想說什麼?我問番茄炒雞蛋,是先放雞蛋還是先放番茄。理解不了,網上一看有西紅柿炒雞蛋,把它關聯到一起。正確理解客戶意圖是解決問題的很重要的關鍵。

第三,我必須有知識組織,有足夠知識在這里放着。大搜索可以看成叫千億個為什麼。大家能想到的關於為什麼都來。我們搜索引擎本質是什麼?為什麼搜索引擎很快?因為有索引結構,把所有查的詞這樣的索引事先組織,只要我見過的索引馬上拿出來秒級響應。現在大搜索把問題當做索引,想有多少關鍵詞查詢,我組織多少問題查詢,我把所有問題組織好事先放在裡面,這就構成知識庫。

第四個要智慧解答。我給你解決方案,給你不是存在性信息。這叫向網絡要智慧,人工智能重新熱起來,也是這樣的原因。我們有這么多的數據,也許我們能夠比人獲得更精準的解決方案,然後展現出來。

後一個隱私保護。大數據的能力太強大,可能把個人隱私挖掘出來,要有隱私保護。

針對大數據的5個V,大搜索有5個S。第一個S是獲取。怎麼獲取信息?第二個S是感知。我要知道用戶真實意圖是什麼。第三個S是多元綜合。要把所有通道獲得的信息,針對你的問題做好解答准備。第四是智慧解答,這里有千億答案,你的問題怎麼恰好是我,不能格式劃分,愛怎麼說怎麼說,你的話可能這句話這三個答案是我需要的,很多答案是結構性需要補貼數據。我剛才說找醫院,實時找交通數據做計算性問題。

第五個是安全可信。稍微展開說一下。泛網獲取第一個原則,將來泛網獲取不僅僅是網頁,是整個網絡空間,包括物聯網、傳感網、電信網包括所有能夠獲得的信息,這些信息拿出來會有很多東西,但信息源太大了,不可能像搜索引擎一樣,把全部網頁搜索出來。

不可能怎麼辦?得分類解決。現在解決方法是把所有東西拿過來,做倒拍索引找東西。將來怎麼辦?構造足夠多的問題,比如上千億個問題,為每一個問題搜索信息,信息組織。我等於為將來組織上千億個答案做出它的准備。

對每一個問題來說,搜索信息量不是那麼大,而且搜索比較精準。

第二個是感知。現在怎麼感知?你給我什麼詞?當然現在已經有新的進步。有個定位信息,比如在北京查天氣預報,馬上給你北京天氣預報,因為能判斷你的IP從哪兒來的,這已經有進步。還不夠,還要有更多手段正確理解用戶想干什麼。

用戶有歷史性查詢,通過用戶歷史性查詢看到他的查詢有偏好。比如現在有大的環境,大家都在討論網易,網易財經。你一搜網易論壇,馬上想到是不是網易財經論壇,大家都在討論的問題,有一個背景我們叫時態。當然也有語義的理解,你說番茄,番茄跟西紅柿對應的,這些都是理解手段,正確理解用戶到底想提什麼樣的問題。

第三個是知識綜合。現在怎麼辦?現在搜索引擎只是簡單做一個PageRank,現在搜索引擎查一個網易財經,查了網易財經給每個網頁上有網易財經都拿出來,有上百萬頁都有網易財經怎麼辦?關心兩件事。有多少條鏈指向它?指向它鏈最多放在前面。還有一個人們查到點擊,查到不點擊,一點點往後退。這是簡單的PageRank。

這是一種服務方式,大搜索不一樣了,剛才我說對你有關的問題答案找出來。想找出來事先做了大量的關聯,現在一個可行的技術叫知識圖譜。比如我看到俞志晨,曾經北郵畢業,搞圖靈機器人,有一天你只查圖靈機器人,你找的人叫俞志晨。我要有大量的關聯,把所有關聯詞關聯出來,看你的問題,把最符合你敘述的答案找出來。

第四個是解決方案。解決方案關鍵是,你的問題是否能夠有現成的答案拿出來。我幹嘛現成可以現推。有很多可以現推,我們現在說的是搜索引擎,搜索引擎要秒級響應,你等不要說分鍾,等了四秒五秒都不行。今天沒有現推給你答案,問題進去了,可能算一天、兩天算出來,以後兩天三天後有人問這個問題就出來了。

比如說我們這裡面寫一個“為用戶求解出智慧答案”,我把“出”字索引,索引不出來。沒有這個東西。或者把“慧答”拿出來索引,在網上肯定有這個東西,發現你需要同樣檢索以後再用。

問題當時這么多有答案的東西,哪個跟你匹配上?這個是要解決的問題,你的意圖要和我做很好的構架。

以後在找醫院時,事先做好構架,當你說我找最快的治療醫院,或最快的提供什麼服務?做一個框架。你到那個銀行開戶取錢,最快屏幕服務。涉及到位置,把位置框上,涉及到排號距離、好評程度、資源佔用程度,這些參數一計算給你結果。判斷出來你需要的,效率馬上上來了。

當然還有一個,你的信息可能有隱私性我們要有一個配置。對人來說,比如方濱興要查你現在在哪兒?因為我們現在帶的東西都有定位信息。你在哪兒?我事先說好,如果是我的家人知道我在哪兒OK,精度兩米。

如果是我的工作同事工作期間精度三米,但非工作期間精度兩公里,知道我在這一帶甭管我在哪兒。你的朋友精度一百米,非工作期間兩百米。要有一個事先的判斷,通過判斷的問題。

剛才我說大搜索,一搜索一大堆的拿出來了。最後要有一個過濾,搜索結果是否能夠推出來一個人的精確,如果是你跟這個人有沒有關聯,有沒有得到授權,如果沒有給他打***。這樣有隱私保護體系,這樣大搜索工具不那麼可怕,否則的話每個人沒有隱私了,等於戴透視眼鏡看別人,這個社會就不那麼安寧了。

最後我給出信息,什麼是網絡空間大搜索。根據一定的策略和方法,從互聯網、物聯網、電信網等泛在網絡上實時、快速、精確地獲取各種物理實體,人物、信息,以及時間與位置屬性;具備洞察理解用戶搜索意圖的“智能”。

能夠對網絡空間各種對象進行高效地組織和管理、建模和索引;具備為用戶構建盡可能符合用戶需求答案的智慧;能夠以“向量”的方式提供智慧解答。

搜索內容由信息擴展到了物體、信息和人物,從傳統搜索麵對的虛擬世界拓展到了現實的物理世界。現在物理世界也可以搜了。

第二搜索結果可以從存在性信息破解到解決方案,理解用戶意圖給用戶構造答案。向網絡要智慧。 過去搜索結果,過去標量結果,現在是向量結果,呈現的是一種向量,帶有時間維、空間維等等。

最後,說一個結論,大數據搜索是搶占技術搜索高地。剛才我聽魯白的介紹我很有感觸,我們國家創新的環境不好,不好在哪兒?在國際社會上,他們有人跟我說,在硅谷聽一個新概念,大家首先想,這個東西沒准真能成,大家沒有新想象,突然你有新想法太好了,往前推一推。

但在中國提新概念,大家想你能幹成嗎?否定的聲音特別多。導致政府也猶豫,政府投資沒有給完全中國人提的新概念,投的大數據、雲計算等都是別人提的,這玩意兒沒人提就你提能行嗎?這是一個問題。


我們從兩個方面呼喚大搜索,沒有搜索引擎互聯網不可能走到今天,信息太海量了,通過搜索引擎掌握它。你們大家都知道有物聯網,誰真正感覺到物聯網在哪兒?那個東西只有在你身邊感受到它的存在。我戴了這個手錶,別人戴了你不知道,為什麼?物聯網沒有搜索引擎。

物聯網走不了太快。大搜索包含了物聯網的搜索,因為它是整個泛在網的空間。我們將來搞天氣網絡,配上搜索引擎不可能再用起來。

現在數據太海量了,直接要結果就好,數據太多了,對你就是噪音。我到底想干什麼,你你告訴我,我告訴他怎麼干。好的,我的報告到這。謝謝大家。
您需要登錄後才可以回帖 登錄 | 注冊

本版積分規則

手機版|阿波羅網

GMT+8, 2018-10-20 19:41

快速回復 返回頂部 返回列表