上海各界积极研究数据爬取治理议题-游戏王吧-筠连新闻
点击关闭

数据爬取-上海各界积极研究数据爬取治理议题-筠连新闻

  • 时间:

世界精神卫生日

他認為,數據爬取需要辯證看待。善意的爬蟲是一個對網站和用戶雙方有利的橋樑。例如搜索引擎爬取網站的所有頁面,提供給其他用戶進行快速搜索和訪問,給網站帶來流量。 但非法爬蟲會威脅到保存在網站服務器上的用戶個人和互聯網服務提供商數據,從而侵犯用戶隱私和服務提供商的商業信息,會帶來法律風險。在實際商業世界中,大量的案件都圍繞爬蟲者侵犯商業數據、形成不當競爭有關。

上海「數據治理系列沙龍」第四期——「數據爬取治理」分享會現場

數據爬取的基本原理是什麼?數據爬取是不是都是違法的?大數據環境下,如何對數據爬取進行規範和治理?10月11日,在上海社科院國際創新中心舉辦的上海「數據治理系列沙龍」第四期——「數據爬取治理」分享會上,多位法律專家和業界人士對這些問題做了深入探討。

朱易翔提到,從數據來源渠道分,爬蟲可分為網頁爬蟲和接口爬蟲。網頁爬蟲是根據網頁上的超鏈接進行遍歷,扒取網頁的數據信息,最常用於搜索引擎,這是早期的一類爬蟲。在大數據時代,新型的接口爬蟲則是通過精準構造特定 API 接口的請求,來獲得所需數據信息。目前引起問題的爬蟲公司往往是在網站或App上獲得用戶在註冊協議、隱私協議中自覺或無意的授權后,就利用授權信息登錄網站或接入API,獲取用戶個人數據以及網站數據。有些爬蟲甚至具備突破網站本身設置的控制能力,獲取被保護的數據。這些非完全公開、涉及用戶隱私和網站商業信息的數據正是爬蟲的危害來源。

騰訊網絡安全與犯罪研究基地高級研究員張寶峰認為,可以通過採取反爬技術技術措施、設置明確的反爬蟲聲明和版權信息以及及時監控、積極維權等手段防止惡意爬蟲。對於網絡爬蟲技術的合理應用,他提出,要遵守互聯網行業的Robots協議,還應檢查目標網站是否設置了IP壁壘、驗證機制等反爬蟲措施,避免採取規避認證系統、加密算法等手段獲取數據,避免主觀惡意;區別爬取數據的性質,應當避免爬取未獲得授權的個人信息、他人享有版權的內容、企業或機構內部數據、商業秘密等,制定禁止爬取的信息類型清單;限制數據使用目的,個人應嚴格在授權範圍內使用,商業目的使用避免「不勞而獲、食人而肥」形式的利用,避免造成對其他商業主體的替代,從而承擔不正當競爭的責任;控制爬取頻率和數量,避免因爬取頻率和數量給目標網站服務器造成較大負擔等。

黃道麗提到,對於個人信息、商業秘密、著作權數據、國家秘密之外的一般數據的爬取,一般不構成對民事財產權的侵犯,而更多的是面臨競爭法上的風險。 相應的,在刑事領域,一般也不構成財產類犯罪,更多的是面臨侵犯計算機信息系統安全及數據安全類犯罪的刑事責任風險。

翼盾(上海)智能科技有限公司CEO朱易翔介紹,數據爬取最初就像是一個搜索探測器,按照指定規則,通過遍歷網絡內容的方式,搜集、提取所需的網頁數據,被技術人員儲存或重新加工。發展至今天,數據爬取所獲得的信息多種多樣,不僅爬取互聯網網站上的信息,在不同場景下還爬取公民身份、電信、出行、社交、電商、銀行記錄等多個維度的數據。

數據爬取的技術原理數據爬取,是指利用「爬蟲」在互聯網上抓取信息的行為或過程。

上海市錦天城律師事務所高級合伙人吳衛明表示,需要釐清數據爬取的合理邊界。對象合法方面,需要判斷爬取的數據類型,避免爬取禁止收集的數據類型,並根據數據類型設置不同的准入門檻。手段合法方面,需要通過公開或合作的渠道,遵守權利聲明和公開規則的限制,不使用侵入方面或非法工具等。另外,在數據爬取中還需獲得個人信息主體、著作權人、信息系統權利人網站運營者等相應權利人同意。

阿里巴巴法律研究中心副主任顧偉基於企業實操的立場,分析了數據爬取問題的實務困境。他提到,當前半封閉的APP成為趨勢,數據爬取繞不過對加密技術的破解,往往存在法律風險。而大數據時代,AI等技術的發展又需要大量數據來支撐。另外,行業內競爭日益加劇,「搭便車」的行為風起,數據方面的競爭損害越發嚴重。他認為,當前需要以包容審慎的態度看待數據爬取問題,着重通過反不正當競爭法與製作權法解決爭議,通過立法規範爬取手段確保利益平衡,進而推動網絡平台有序開放數據。網絡運營者應當明確主張數據權屬、禁止爬蟲的協議保障,採取APP接口加密、訪問IP限制等技術措施,對明顯侵害合法權益的爬取行為進行取證,對明顯違法或者侵害公司合法權益的行為進行舉報或起訴,並積極尋求商業合作空間。

公安部第三研究所網絡安全法律研究中心主任黃道麗認為,數據爬取行為是否涉刑需綜合考量爬取的數據類型、爬取方式、爬取結果。數據類型方面,是否屬於法律所保護的數據,例如個人信息、著作權數據、商業秘密、國家秘密等。一般情形下,是否獲得權利人的合法授權直接影響着針對上述數據爬取行為的法律定性。爬取方式方面,需要看是否侵入了服務器,是否非法獲取了數據。爬取結果方面,是否破壞了對方網站、服務器等的正常運營都是影響罪與非罪判定的重要因素。總體而言,法益侵犯越大,風險越高。

上海數據治理沙龍是在上海市經信委和上海市委網信辦指導下,由上海數據治理與安全產業發展專業委員會主辦的公益性專業研討活動,主要針對數據治理與網絡安全前沿和熱點議題,匯聚研究、用戶、廠商、律所諮詢機構等各方專業力量展開持續交流,吸納各方意見和建議向國家和上海相關管理部門建言獻策,為推動上海數字經濟健康發展貢獻專業力量。本期沙龍由上海市錦天城律師事務所和賽博研究院承辦,上海社科院互聯網研究中心和阿里巴巴數據安全研究中心協辦。

數據爬取的相關治理上海市委網信辦政策法規處處長孫傑表示,隨着我國今年以來數據治理政策密集出台,數據爬取已經成為中央和各地網信監管部門重點關注的領域之一,上海各界積極研究數據爬取治理議題,探索有效的監管模式具有重要意義。上海市經信委軟件和信息服務業處劉文認為,當下各類互聯網企業都會涉及到不同類型的數據爬取應用,在監管趨嚴和合規壓力背景下,幫助企業規範自身數據爬取業務,提高企業合規能力成為保障上海數字經濟產業高質量發展的現實需求。

2019年1月中央網信辦、工信部、公安部、市場監管總局發佈了《關於開展App違法違規收集使用個人信息專項治理的公告》,開展對於個人數據爬取的專項執法活動;5月發佈的《數據安全管理辦法(徵求意見稿)》第十六條中明確規定網絡運營者採取自動化手段訪問收集網站數據,不得妨礙網站正常運行,此類行為嚴重影響網站運行,如自動化訪問收集流量超過網站日均流量三分之一,網站要求停止自動化訪問收集時,應當停止。

上海交通大學數據法律研究中心執行主任、法學院副教授何淵表示,從數據類型來看,數據爬取可能侵犯的法律權益包括「三安全一穩定」、「兩秘密一隱私」,例如計算機信息系統安全、公民個人信息、版權、國家秘密、商業秘密、市場競爭秩序等。從爬取方式來看,數據爬取存在非法獲取數據的法律風險,例如危害計算機信息系統安全,非法獲取公民個人信息,非法獲取商業秘密,破壞版權技術保護措施等。從爬取結果來看,存在不正當競爭類、侵犯著作權類及侵犯人格權類等非法利用數據的法律風險。

數據爬取的法律爭議數據爬取作為數據採集的一種高效實現形式,是國內外諸多互聯網企業極為通常甚至賴以生存的手段。但是隨着圍繞數據自動化技術進行爬取和挖掘行為急劇增多,帶來了數據權屬、知識產權和商業機密保護、個人信息隱私界限、不正當競爭等方面巨大爭議。近期,在金融、內容、電商等各類場景的數據爬取案件頻發,對互聯網和大數據商業業態產生重大影響,引起了產業界、監管者和全社會的廣泛關注。

今日关键词:施魏因施泰格退役