【关注】网络新闻生产中大数据运用的伦理问题及编辑对策

栏目：科技资讯时间：2023-08-15

　　摘要大数据时代裹挟着机器抓取技术呼啸而至，网络新闻生产和传播领域也随之开启了全新的革命。然而，面对海量数据资源，人们在运用的过程中却出现了诸多问题，数据残缺、数据污染、数据窃取等现象层出不穷。如何在大数据世界确立起有效的伦理规则和秩序？本文试图梳理出网络新闻生产中大数据运用的各类乱象，并探讨网络新闻编辑的应对之策。

　　关键词网络新闻出版；大数据；伦理问题；数据污染

　　如今，随着大数据时代的来临，互联网领域的新闻生产和传播开启了全新的革命。然而，面对越来越丰富的数据资源，人们在运用过程中却并未体现出成熟而理性的姿态，在各种理由的信息保护及匿名狂欢的互联网语境下，数据残缺、数据污染、数据窃取等问题不断产生。鉴于新闻传播的真实、监督等特性，伦理和秩序的问题也更加突出。而网络新闻编辑作为信息生产的“把关人”和“经营者”，面对大数据运用的诸多乱象，探讨应对之策显得至关重要。

　　1 网络新闻生产中大数据运用的伦理问题

　　何谓伦理？“伦理不仅包括道德规范，还包含一种责任。责任是伦理的范畴。”[1]互联网创始人蒂姆?伯纳斯?李曾说：“如果互联网美好，那是因为现实美好；如果互联网丑陋，那是因为现实丑陋。”技术的中立性与否，取决于使用技术的人，大数据运用得优劣与否，也因人的行为而具有了温度和色彩。所谓伦理问题，归根结底，其实就是人的道德规范和责任意识问题。

　　1.1 信息保护与数据残缺问题

　　相对于新闻媒体网站和自媒体数据应用的活跃，公众视野较为关注的政府新闻数据发布却步履迟缓。不少政府部门在发布政治、经济、环保等重要的公共数据时，基于信息保护和涉密等因素考虑，迟迟难产或残缺不全。面对敏感话题，相关部门和公众“躲猫猫”，或将数据真相严格“保密”，或吞吞吐吐、欲言又止。譬如某地环保局就曾称“土壤污染数据是国家机密”，拒绝将污染数据公开化。在数据被公开的过程中，有时还会出现“数据不统一”“数据打架”等情况。有细心的网友通过计算发现，近年来在各地政府网站公布的GDP数据之中，全国GDP与地方GDP往往相差数万亿。还有媒体曾报道，国土部和统计局在统计全国房地产价格和涨幅时，出现了明显差异，两者通过“云计算”所公布出来的网络数据相互打架，竟出现房价涨幅25%和1.5%的数据之差，对此相关部门却无法作出解释。

　　还有衡量大气质量的重要指标“PM2.5”等数据，已经被多数公众所熟知和关注。遗憾的是，不少气象监测部门在网站上公布这一数据指标时，常常语焉不详或标准不一，官方发布的大气数据与公众感受并不一致，更缺乏实时的数据传输和有效的图解说明。有研究者指出，“公布PM2.5不是技术问题，也不是环境标准问题，而是有关方是否愿意下决心做的问题”[2]。一些地方政府出于“政绩考核、GDP增长”等诸多压力而瞒报、拒报或谎报，有关大气污染的数据真相迟迟难产。事实上，在“人人都是记者”的信息时代，遮掩、屏蔽、欺瞒、封堵并不是有效的公关之策，政务部门应以主动介入的开放姿态，直面公众、加深互动，否则网络谣言四起，质疑声不断，反而会引发更多问题。

　　1.2 网络狂欢与数据污染问题

　　在网络匿名狂欢的语境下，网民为自己行为所承担的风险大大降低，有时几近为零。面对每天海量的数据发布和迅速传播，数据被污染的情况屡见不鲜。数据污染，是指数据在生产和应用过程中所含有的虚假有害或无用无效的信息元素，而数据污染的表现形式，概括起来主要包括数据失真、数据造假、数据超载三种类型。

　　数据失真，主要是指数据在生产和传播过程中由于一系列非目的性因素所导致的不可信问题。譬如数据因技术障碍或标准不一被统计出错，继而误报误载、以讹传讹；再如数据在传播应用中被断章取义或片面引用，导致变形走样。

　　污染程度最为严重的，当属各种来势汹汹的数据造假，最典型的是众多网络谣言中的数据造假。如2010年的山西地震谣言，散布谣言者在百度贴吧上用“言之凿凿”的地震级数和“不断刷新”的伤亡数据说话，造成恐慌情绪蔓延，数百万人奔赴街头“避难”。另外，网络公关公司为获取商业利益雇佣大批“水军”灌水，频频制造出对己有利、对敌有害的数据乱象。在过去的2014年，各种收视率、排行榜数据作假，又屡屡曝出爆炸性话题。2014年2月11日，全国33城市收视数据显示，当天全国整体收视率超过40%，但“从理论上说，这个收视数据表示马路上已经没有人”[3]。2014年4月，爱奇艺主动发布新闻称：“根据艾瑞公布的IVT2月数据显示，爱奇艺以7227.39万的综艺视频播放覆盖人数、8370.36万总有效播放时长(小时)，全面领跑2月网络视频综艺节目市场，成为综艺节目大赢家。”[4]而事实却并非如此，爱奇艺为提升自身知名度，竟然擅自篡改了艾瑞公布的第三方数据，其出格行径令人大跌眼镜。

　　数据超载，是指在网络新闻生产中，对于海量芜杂的数据缺乏整理和利用的数据思维，陷入无力抓取的迷茫和焦虑之中；或只对数据作简单堆积，不作任何有效的分析读解，对受众造成信息负荷、消化不良的负面影响。数据超载的副产品便是滋生大量的数据垃圾，既占据了大量的储存资源，又对受众的接受理解构成干扰。如何对海量数据进行系统而有效的“可用性”分析，是考验网络新闻生产者运用大数据能力的指标。但遗憾的是，目前大数据运用在实际的网络新闻生产领域，并未形成高效有序的清晰局面。

　　1.3 版权保护与数据窃取问题

　　鉴于网络的易扩散传播特性和监管难度，在网站新闻媒体和移动新闻客户端的新闻生产领域，还存在着大量的内容偷载、数据窃取等情况，有些网站或客户端通过编辑加工，对新闻源进行链接式跳转，最终会呈现出原网页的网址；有的则刻意模糊出处，不呈现出新闻源，将数据材料悄然占为己有，以此来提升本网站或客户端的关注度。无论是哪一种侵权，所引发的版权保护与数据窃取问题都值得业界反思。最典型的莫过于“今日头条”事件。

　　众所周知，“今日头条”是移动互联网和大数据时代到来之时，众多APP移动新闻客户端中的领跑者，它通过对受众阅读行为和社交网站数据的收集分析，为用户提供个性化的新闻推送和定制，本身并不直接生产新闻，其展示和推送的信息都源自其他新闻媒体网站，因此声称自己只是“新闻的搬运工”。但“今日头条”通过采用搜索引擎的爬虫技术，不仅对各大网站的新闻进行了链接转载，还重新进行了编辑组合和有效的分解优化，从而产生了与新闻源与众不同的传播效果。当受众习惯于通过定制“今日头条”来获取消息，那么消息的真正来源反而遭到漠视，原始新闻网站的版权发布继而受到侵害。因此，“今日头条搬运的是新闻还是版权”的问题一度成为争论的焦点。2014年6月，不仅《广州日报》《新京报》等传统媒体对“今日头条”的新闻来源展开了版权之争，国家版权局也对其进行了立案调查。事实上，不仅是“今日头条”，过去的几年间，门户网站TOM、新闻网站浙江在线以及iPad的“中文报刊”客户端都曾因版权问题被《新京报》诉诸法庭。

　　2 “数据乱象”下网络新闻编辑的对策研究

　　网络新闻生产在大数据运用时产生诸多伦理问题，主要原因有四：一是体制的不完善。政府舆论建设体制的不开放，造成政府信息封闭，导致无法生产真正的数据新闻；而网络舆论制约体制的不健全，又造成网络谣言和数据造假的“自由蔓延”和“遍地丛生”。二是法律的缺失和监管无力。著作权法、网络传播法的相关规定模糊不清，且惩戒力度普遍偏弱，使得数据造假和数据窃取行为成本低廉，代价轻微，数据的真实性和保护性大大降低。三是处理大数据的技术和思维能力尚不成熟。从既有的数据统计系统，到大数据应用的技术研发者、网络编辑等从业人员，不能在许可范围内抓取理想的数据并进行有效分析，造成大量的数据超载和数据垃圾。四是网络的匿名狂欢特性，使得数据发布和传播者在自律性和担责意识层面，素养偏低。鉴于造成数据乱象的成因复杂且牵涉范围广，笔者着重从网络新闻编辑的角度，探讨其规避、应对之策。

　　2.1 搭建政务信息数据平台，直面数据残缺尴尬

　　一系列关乎民生的公共数据出现“难产或残缺尴尬”，其根本原因在于政府舆论建设体制的不开放和参与意识的淡薄，也是长期以来政府、公众与媒介之间缺乏良性互动的一种体现，极易产生“数字鸿沟”。政府话语在自身政务信息平台上的“行动弱化”，并不代表网络新闻编辑在公共数据领域的话语权丧失和无法作为，而必须直面数据残缺尴尬，积极搭建有关政务信息的数据服务和互动平台。譬如在网页上开辟政务数据新闻服务专栏，搭建政府和公众沟通的桥梁，以促进政府的数据使用和民享公平意识；或组织新闻发言人在微博、微信、BBS论坛等自媒体和社交媒体上展开数据对话，利用新媒体来传达和解说丰富的数据信息。总之，只有加强公共数据的服务性能，重视互动机制的开放，才能引导健康良性的数据生态。

　　2.2 完善辨伪监控机制，减少数据失真造假

　　大数据如同一个美味的坚果，不借助工具很难打开它，其使用的“云存储、云计算”系统，并非人人都能掌握。高难度的技术壁垒和设备屏障，几乎将普通公众拒之门外，数据的真实性也难以辨别。网络编辑要规避数据失真，首先就要避免数据的源头污染，完善数据发布的监控机制。除了呼吁网络技术部门完善既有的数据统计系统，改造落后的数据加工生产线，还要提高编辑自身的数据处理能力，确保数据的可信度和准确性，减少统计犯错或计算失误。在实际的统计过程中，标准要统一化，避免“数据打架”等情况发生；在使用大数据时，恪守客观真实原则，避免对数据的片面引用而产生误读，导致走样变形。可以说，打破技术屏障，去伪存真，是大数据时代赋予网络编辑新的历史使命。

　　而对于各种主观因素的数据造假，网络新闻编辑应承担起证伪、把关、过滤等职责，绝不能听之任之、毫无作为。每条虚假数据的背后，都活跃着大量利益集团、网络水军和好事网民，但紊乱的局面并非无章可循。一方面可呼吁相关法律措施加大对造假行为的惩戒力度，另一方面更要完善编辑自身的防伪监控意识。相对于普通网民来说，编辑应具备更自觉的“辨伪意识”和更专业的“过滤眼光”，在信息面前保持清醒和理智，防止“手腕轻轻一抖”，造成以讹传讹、乱象蔓延的局面。此外，有必要建立数据造假的制约机制。对外可设立相应的舆论举报平台，加大谣言举报的反馈力度，对不实信息展开数据调查；对已证实的虚假信息，发挥网络技术人才的“把关”作用，以内容证伪、技术过滤等方式，遏制虚假数据的流动传播。对内可形成虚假有害数据传播的担责制度和奖惩制度，充分发挥网络编辑“把关人”的主体意识，提高编辑对数据信息的敏感度和自律意识。

　　2.3 增强甄选挖掘的能力，提升数据运用的技术含量

　　如今，数据产生的速度远远快于数据处理能力和编辑策略演进的速度，如何避免数据超载和数据垃圾给用户带来的迷茫和焦虑？这就需要网络编辑更明确地认识到自身的“信息把关”和“再生产”职责，主动参与到数据加工创造的过程当中来，增强对海量数据的有效甄选、价值评判、关联预测的能力，提升数据运用的技术含量。对于网络编辑来说，一方面需要掌握数据的存储和运算法则，增强对数据的搜集、分析、甄选、分类的能力，在每天产生的海量新闻数据中，提取出有价值的信息，并进行分门别类的有效化处理。在浩如烟海的大数据“可用性”层面上，宜做减法不宜做加法，只有去冗删繁，充分挖掘出数据中隐含的价值和意义，才能有效地发挥大数据“关联和预测”的优势，增加原创新闻的动力，这也是未来媒体大数据报道的努力方向。另一方面，对大数据的有效利用，不能只停留在“写实”层面，以枯燥乏味的形态进行一串串数字表格的堆积和叠加，而要融合多媒体形态，将数据进行图像化、可视化的“读解式”呈现，以生动明了的“据说”风格轻松流畅地传递给受众，使受众能借助多媒体之翼，一窥数据所指向的丰富内涵和宽广外延。

　　2.4 增强版权代理意识，探索新旧媒体合作经营之道

　　信息时代，科技往往走在了秩序之前。数据窃取所引发的新旧媒体版权之争，正是数据抓取技术所带来的“科技副产品”。传统媒体花大力气采写的新闻报道，被网站轻而易举地批量转载和摘编已经不是罕事，传统媒体版权意识的抬头，是试图改变新闻产品被其他商业网站无偿使用的“剽窃”现状，但其维权之路却异常艰辛。法律判决标准过低、起诉过程漫长，加上网络的海量复制特性，几乎无法从根本上遏制网络非法转载的冲动。一方面，业界应当呼吁网络著作权法律保护条例的完善和细化，提高侵权门槛，加大侵权行为的惩戒力度，强化网络新闻出版界的行业自律。另一方面，网络新闻编辑应把审视和发展的目光，更多投注于与传统媒体的合作经营，强化版权代理意识，探索互惠互利之道。

　　对于我国大部分的商业网站来说，采访权的缺失意味着新闻生产的原创驱动力丧失，若没有传统媒体为其源源不断地输送信息活水之源，新媒体的发展恐怕会陷入瘫痪，网络信息繁荣的基石也会坍塌。相应地，传统媒体也希望搭上新媒体的“新闻快车”，扩大自身影响和覆盖范围。因此，新旧媒体过去一直以来沿袭的“无偿转载—版权纷争—上诉法庭—争取赔偿—达成协议”的路径，似乎并不是理想的选择方案，而应停下版权的硝烟战火，探寻积极主动的精诚合作之道。在大融合的背景下，网络编辑要由过去的“编辑组稿者”转变为“版权代理人”，不仅要进行版权和经济利益之间的置换交易，还要有更深层次的合作，譬如渠道发布平台的搭建、内容创意的整合、用户资源的共享、营销手段的增值互利。在各路媒体疯狂争夺受众注意力资源的时代，走融合创新、精诚合作之路才是从根本上防止数据窃取的可行之道。

　　参考文献

　　[1]宋吉鑫.网络伦理学研究[M].北京：科学出版社，2012：40.

　　[2]王海平.PM2.5数据因何难产[EB/OL].(2011-12-06)[2014-10-01].http://www.21cbh.com/HTML/2011-12-06/4NMDY5XzM4NTc4Nw.html.

　　[3]大佬炮轰收视率：数据污染已严重到荒唐[EB/OL].(2014-02-25)[2014-10-01].http://ent.sina.com.cn/v/m/2014-02-25/03304101867.shtml.

　　[4]经济导报.爱奇艺篡改第三方数据网络视频行业数据污染引关注[EB/OL].(2014-04-14)[2014-10-01].http://paper.dzwww.com/jjdb/data/20140414/html/5/content_5.html.

　　作者任职于北京师范大学珠海分校艺术与传播学院、中国传媒大学

上一篇：马蓉遭宋喆强奸，马蓉出轨宋喆事件回顾
下一篇：《重大人生启示录》精简版

【关注】网络新闻生产中大数据运用的伦理问题及编辑对策

最近更新科技资讯