爬虫爬的好,牢饭吃到饱?

新闻
前几天分享的一篇《只因写了一段爬虫,公司200多人被抓!》相信大家看了后都会发问,我只是个写爬虫的,跟我有什么关系?到底什么样的爬虫才不犯法?今天这篇会解答你所有的疑问。

 前几天分享的一篇《只因写了一段爬虫,公司200多人被抓!》相信大家看了后都会发问,我只是个写爬虫的,跟我有什么关系?到底什么样的爬虫才不犯法?今天这篇会解答你所有的疑问。

[[279719]]

图片来自 Pexels

“你交代一下,总共抓了多少数据,在哪些网站抓的,数据干什么用了?看看够在里面呆几年。。。”警察语气凝重地对张强说。

程序员张强(化名),回忆起这两天来的经历,仍心有余悸。

张强,在一家大数据风控公司担任爬虫工程师,每当看到网上的段子,爬虫学得好,监狱进得早,他总是莞尔一笑,心想:关我毛事啊,我只是个程序员,要坐牢也是老板去坐吧,我又没拿数据去卖钱。

时间回到 9 月,某一天的上午,张强和同事们像往常一样上班,突然公司里来了一群警察,要求所有人双手离开电脑、手机等设备,全部靠墙站立,工程师小哥哥、小姐姐们哪里见过这个架势,都懵了,只得照办。

警察查封了公司,带走了公司所有人,于是有了前面的问话。

01.我只是个写爬虫的,跟我有什么关系?

许多程序员都有这样的想法,技术是无罪的,我只是个打工的程序员,公司干违法的业务,跟我没关系。。。只能说,程序猿们真是图羊图森破了。

我们先来看几个真实的法院判决案例:

案例一:数据拥有者有证据能够举证你的数据是抓取来的。如下,今日头条起诉上海晟品的法院宣判结果。

 

图片文字来自中国判决文书网

从文书描述来看,修改 UA、修改 device id、绕开网站访问频率控制这是写爬虫的基本,这些技术手法反而成了获罪的依据。

案例二:抓取用户社交数据,尤其是用户隐私相关。

 

图片文字来自新浪网

案例三:用爬虫技术扰乱对方网站经营规则,且牟利。比如这个:

 

图片文字来自中国永嘉公号

图上描述做搜索引擎排名的技术,其实就是利用爬虫技术规模化的访问网页。

在我们通常的认知里,因为互联网推崇分享精神,所以认为只要是网络公开数据就可以抓取。

但是通过上面的案例来看,有几个禁忌,抓取的数据最好不要直接商用,涉及社交信息/用户信息要谨慎。

老板交代你抓取敏感任务时,让老板先看下刑法第 285 条。公司从事违法业务,不代表个人行为就没事,只是还没入有关部门的法眼。

02.9 月成为大数据风控行业的“黑暗月”

同盾科技爬虫部门已解散。据报道,同盾科技爬虫部门已解散,员工集体待岗,并被建议不要离开杭州,否则有被抓风险;由于局面失控,蒋韬已出国避风头。

知情人士透露,魔蝎科技与新颜科技近期被查系同盾科技举报。之所以举报魔蝎科技,意在打击其背后的邦盛科技,后者是同盾科技的竞争对手。

紧接着,同盾科技发布“辟谣声明”,称蒋韬一直在国内照常处理公司事务;信川科技于 2018 年开始逐步调整业务,目前已停止全部相关业务,员工调至其他岗位;举报传言是无中生有,恶意中伤。

巧达科技被查封,全体员工被警方带走。有消息称招聘数据公司巧达科技被查封,全体员工被警方带走。

一位巧达科技前员工告诉笔者,“(最近)陆续有 HR 等非核心员工回家,但核心高管依然失联中。”

多位业内人士和律师认为,巧达科技出事可能与其未经授权获取和使用简历、“贩卖”简历信息等涉嫌侵犯用户隐私权、侵犯公民个人信息的行为有关。

公开资料显示,巧达科技成立于 2014 年 7 月,号称拥有中国最大的简历数据库,巧达科技数据库有 2.2 亿自然人的简历、简历累计总数 37 亿份。

此外,巧达科技还有超过 10 亿份通讯录,也就是说,它掌握了超过 57% 的中国人的信息。

这些获取渠道并不正规的数据为巧达科技带来了过亿的收入。2016 年,巧达科技全年收入 1.2 亿元,净利润 4800 万元;2017 年,巧达科技全年收入 4.11 亿元,净利润 1.86 亿元,净利润率超过 45%。

魔蝎科技负责人及员工被抓捕,涉案人员 120 余名。9 月 6 日,网友 TonyStark 爆料称,杭州西湖分局集结 200 余名警力,对涉嫌侵犯公民个人信息的魔蝎科技进行统一抓捕。

截止目前抓获涉案人员 120 余名,冻结资金 2300 余万元,勘验固定服务器 1000 余台,扣押电脑 100 多台,手机 200 余部。案件正在进一步侦办中。

 

随后,杭州市公安局西湖区分局向媒体证实,魔蝎科技的相关人员已经被经侦大队带走调查。

03.信号明显:“灰色”地带的监管力度在加强!

有业内人士分析表示,爬虫并不犯法,而是爬出后的信息如何使用,存在隐私侵权、数据滥用等风险,特别是在数据的授权、来源、用途十分不透明的情况下。

西南财经大学普惠金融与智能金融研究中心副主任陈文表示:“风控数据公司因为拥有用户的信息、关系图,在获客、营销、催收阶段都能助力现金贷机构。但数据来源大多处于灰色地域,对于个人隐私缺乏保护,存在广泛的数据滥用问题。”

针对这些问题,监管也在路上。今年 5 月 28 日,国家互联网信息办公室就《数据安全管理办法(征求意见稿)》(以下简称《办法》)公开征求意见。

对于网络运营者超出运营需要收集个人信息的行为,《办法》作出了限制性规定,对“网络产品核心业务功能运行的个人信息”以外的信息,网络运营者不得因个人信息主体未同意收集而拒绝提供核心业务功能服务。

针对网络爬虫等抓取网页的自动化手段,《办法》明确应不妨碍网站正常运行,并列明具体的访问收集流量不得超过网站日均流量的 1/3。

对数据泄露才确定网络安全负责人的问题,其明确数据安全责任人的任职要求,突出网络运营者主要负责人、数据安全责任人的姓名及联系方式等。

04.使用爬虫技术的公司,触犯了什么法律?

对爬虫技术应用不当的企业,可能涉及的罪名有三个:

侵犯公民个人信息罪

①爬取的数据信息属于公民个人信息范畴

公民个人信息,是指以电子或者其他方式记录的,能够单独或者与其他信息结合识别特定自然人身份,或者反映特定自然人活动情况的各种信息,包括姓名、身份证件号码、通信通讯联系方式、住址、账号密码、财产状况、行踪轨迹等。

②利用爬虫技术获取的公民个人信息为非法获取的

利用爬虫技术收集公民个人信息数据,应当获得被收集人的同意,尤其是在数据中包含身份证号、信用信息等敏感数据的情况下,还需要获得明示同意。

同时,利用网络漏洞非法下载、非法购买等行为,都属于“非法获取”公民个人信息。

③相关法律依据:《刑法》第 253 条

【侵犯公民个人信息罪】违反国家有关规定,向他人出售或者提供公民个人信息,情节严重的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。

单位犯前三款罪的,对单位判处罚金,并对其直接负责的主管人员和其他直接责任人员,依照该款的规定处罚。

敲黑板划重点,上面就是写爬虫程序员也在坐牢的法律依据。

构成非法获取计算机信息系统数据罪

①利用爬虫技术侵入计算机信息系统获取数据,或采用其他技术手段获取计算机信息系统数据。

任何组织或个人不得危害计算机信息系统安全;不得破坏计算机及其相关的配套的设备、设施(含网络)安全,破坏其运行环境安全、信息安全,影响其功能正常发挥。

因此企业若在爬取数据时,存在危害计算机信息系统安全的行为,包括破解被爬企业的防抓取措施、加密算法、技术保护措施等,则很有可能被认定为“侵入或以其他技术手段获取计算机信息系统数据”。

②相关法律依据:《刑法》第 285 条

【非法侵入计算机信息系统罪】违反国家规定,侵入国家事务、国防建设、尖端科学技术领域的计算机信息系统的,处三年以下有期徒刑或者拘役。

【提供侵入、非法控制计算机信息系统程序、工具罪】提供专门用于侵入、非法控制计算机信息系统的程序、工具,或者明知他人实施侵入、非法控制计算机信息系统的违法犯罪行为,而为其提供程序、工具,情节严重的,依照前款的规定处罚。

单位犯前三款罪的,对单位判处罚金,并对其直接负责的主管人员和其他直接责任人员,依照该款的规定处罚。

看到了吧!别以为写了个 NB 的爬虫破解程序丢到 GitHub 上,就没事。如果被人用来从事非法勾当,你也是要坐牢滴。

非法侵入计算机信息系统罪

①提供数据信息的网站为国家事务、国防建设、尖端科学技术领域的计算机信息系统。

高频使用的网站,如“国家企业信用信息公示系统”“中国裁判文书网”“中国执行信息公开网”以及各地政府网站等,都属于“国家事务”网站的法律范畴内。

②对计算机信息系统具有侵入行为

(1)只要有侵入行为,而不论侵入行为的结果。

(2)一般法院在认定上主要有两种方式:

  • 以非法手段登录网站,获取原本不该有权限获取的数据信息。
  • 将恶意程序、非法文件等发送至网站,对网站的正常运行产生影响。

(3)在爬取此类网站的公开数据时,不存在“侵入”计算机信息系统的情形。但当批量爬取数据信息时,需特别关注是否会对网站的正常运行产生影响,切不可逾越红线。

各位程序员兄弟姐妹们,仔细读完以上内容,判断下所在公司的合法性,该做准备的要趁早准备,不要抱有侥幸之心,更不要觉得老板“后台”硬没事,真要出事了你可能就是主犯,老板却逍遥自在。

05.爬虫程序员如何避免牢狱之灾?

①侵犯公民个人信息罪,合规建议:

利用爬虫技术获取公民个人信息的,应该严格遵守相关法律、行政法规、部门规章的规定,否则极易落入“非法获取”公民个人信息的法律风险范畴。

此外,关于在公民个人信息已合法公开的情况下,利用爬虫技术对其进行抓取是否构成非法获取这一问题,暂时没有明确答案,但《民法典人格权编》第 816 条写到:行为人收集、处理自然人自行公开的或者其他已经合法公开的信息不承担民事责任,但是该自然人明确拒绝或者处理该信息侵害其重大利益的除外。

可以明确的是,收集已合法公开的个人信息应不属于违法,但在立法尚不完善的阶段,仍建议谨慎使用爬虫技术抓取公开的个人信息。

②非法获取计算机信息系统数据罪,合规建议:

严格禁止通过技术手段绕过服务器的访问限制,或破解被爬网站为保护数据而采取的加密算法及技术保护措施,从而对被爬网站受保护的计算机信息系统中的数据进行爬取。

若被爬网站设定了获取数据信息的措施,爬虫企业应避免通过伪造实名认证或窃取账号密码、内部权限的形式获取数据。

如前文的判决案例,通过技术手段,修改 UA、修改 device id、绕开网站访问频率控制等,进行数据抓取,如果被定罪,这些技术手段都是违法行为的佐证。

③非法侵入计算机信息系统罪,合规建议:

对大数据公司,特别是大数据风控企业来说,获取“裁判文书网”“执行信息公开网”的数据非常普遍且重要,但爬取这类国家事务网站的信息时应当尤为审慎,特别是在网站已采取相关“反爬措施”的情况下,仍强行恶意突破防护措施爬取数据,对网站运行造成影响的,均可能构成本罪。

除上述法律风险以外,利用爬虫技术手段还可能产生构成不正当竞争、侵犯信息网络传播权等法律风险。

06.写在末尾的话

不论你所在公司属于哪个行业,请谨记以下三点:

了解规则,敬畏法律。中国程序员对于法律的集体不敬畏,已经到了令人咋舌的程度。

某涉事程序员,坚持认为技术无罪,拒绝配合警方调查,错过了取保侯审的机会,导致被拘留数月,等待判决。

弄清楚公司业务的合法性。之前有 P2P 业务的集体爆雷,再到被全面禁止 ICO 业务,还有在线博彩等等,许多程序员醉心专研技术,缺乏法律常识,更缺乏自我保护意识,糊里糊涂成为某些黑心老板的替罪羊。

积极配合警方调查。实事求是地说自己的问题,把客观证据准备好,积极提供给办案机关;切忌满口“我认为”“我感觉”“我猜测”,对于自己主观判断的东西,尽量思考清楚。

最后,愿每个程序员都能用技术去改变世界,让我们的生活变得更加美好!

 

责任编辑:武晓燕 来源: 技术领导力
相关推荐

2022-07-05 20:20:04

爬虫图片数据库

2021-10-22 06:40:20

互联网爬虫程序员

2023-02-20 14:37:25

2017-05-15 10:39:48

爬虫应对机制

2021-06-06 19:53:05

爬虫处理字体反爬

2016-12-07 11:18:58

Python爬虫网站

2017-05-24 15:07:19

Python爬虫爬取

2016-12-08 16:47:06

2021-03-18 09:18:12

python爬虫

2021-05-06 07:53:21

小程序爬虫Python

2017-12-14 21:45:39

2021-06-02 22:18:11

Python关键词微博

2009-10-28 10:05:18

德讯DCLive

2020-08-06 08:43:49

Python爬虫数据

2020-03-11 09:00:00

数据平台架构

2019-03-13 10:04:34

程序员租房架构

2010-02-01 10:56:31

网易CEO丁磊

2018-10-21 15:39:04

物联网蜂窝物联网IOT

2010-11-19 16:11:08

跳槽

2023-08-30 08:43:42

asyncioaiohttp
点赞
收藏

51CTO技术栈公众号