期刊库

教育   经济   科技   财会   管理   
医学   法学   文史   工业   建筑   
农学   水利   计算机   更多>>
 首 页    论文大全   论文精品    学术答疑    论文检测    出书咨询    服务流程    诚信通道    关于我们 

大数据在出版产业的实践与展望

人气指数: 发布时间:2014-08-14 14:14  来源:http://www.zgqkk.com  作者: 刘立玲等
分享到:

 

  [摘要] 大数据技术背景下,思维和技术发生了巨大改变,数字出版则在同步感受着大数据的脉a搏。2013年大数据在数字出版产业中的应用还处于起步阶段,在2014年则进入数字出版实用领域,实现了出版商由内容提供商逐渐向综合信息服务商转型,数据资源整合和管理、多媒介融合,以及通过对用户数据的挖掘提供内容聚合服务、实现个性化信息定制服务、精准策划和精准营销等是大数据技术在出版业的主要应用。

  [关键词]大数据技术;数字出版;数据资源整合;数据分析

  [作者简介]刘立玲,张群力,北京城市学院。

  当下,大数据的概念受到高度关注,已经渗透多个行业和业务职能领域,逐渐成为重要的生产要素。但大数据在数字出版产业中的应用还处于起步阶段,或在2014年进入数字出版实用领域。为了更好地实现大数据在数字出版领域的应用,有必要首先了解大数据的特点及其在思维方面带来的变革。

  一、大数据时代的新思维、新技术

  大数据指的是所涉及的资料规模巨大到无法通过传统软件工具,在合理时间内撷取、管理、处理并整理成为帮助企业经营决策的资讯。大数据是由数量巨大、结构复杂、类型众多数据构成的数据集合,是基于云计算的数据处理与应用模式,通过数据的整合共享,交叉复用形成的智力资源和知识服务能力。

  大数据往往以数据流的形式实时快速地产生,其价值的高低随着时空的变化而发生变化,海量数据在经过精确分析后的确具有巨大的价值。在数字化时代,数据处理变得更加容易,更加快速,人们能够在瞬间处理成千上万的数据。大数据带来了三个重大的思维转变。

  1. 要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本

  在信息处理能力受限的时代,需要数据分析,却缺少用来分析所有数据的工具,因此随机采样应运而生。现在经常会放弃样本分析这条捷径,而是收集全面完整的数据,并对其进行存储、处理、分析。

  大数据是建立在掌握所有数据,至少是尽可能多的数据基础上的,在任何细微的层面,都可以用大数据去论证新的假设。虽然在某些情况下,依然可以使用样本分析法,但这不再是分析数据的主要方式。

  2. 接受数据的纷繁复杂,而不再追求精确性

  执迷于精确性是信息缺乏时代和模拟时代的产物,只有5%的数据是结构化且能适用于传统数据库的,如果不接受混乱,剩下95%的非结构化数据都无法被利用。如今在信息时代,数据库越来越全面,它包括与这些现象相关的大量甚至全部数据,大数据不再需要精确性。

  要想获得大规模数据带来的好处,混乱应该是一种标准途径。不精确已经深入数据库设计这个最不能容忍错误的领域,在传统的数据库,索引是事先设定好的,限制了搜索,这种数据存储和分析的方法越来越和现实相冲突,促成新的数据库诞生,它们打破了关于记录和预设场域的成规,出现了非关系型数据库。

  相对依赖于小数据和精确性的时代,大数据因为更强调数据的完整性和混杂性,所以更进一步接近事实的真相。

  3. 不再探求难以捉摸的因果关系,转而关怀事物的相互关系

  相互关系的核心是量化两个数据值之间的数理关系,相关关系是指当一个数据值增加时,另一个数据值很有可能也会随之增加。相互关系没有绝对,只有可能性,如果相关关系强,一个相关链接成功的概率是很高的,如并非亚马逊推荐的每本书都是顾客想买的,但是很多人书架上不少书都是因为亚马逊推荐而购买的。

  通过找到一个现象的良好关联物,相关关系可以帮助我们捕捉现在和预测未来。大数据的相关关系分析法更准确、更快,而且不易受偏见的影响,建立在相关关系分析法基础上的预测是大数据的核心。

  二、大数据背景下出版业的数据资源

  1. 出版社的资源

  出版社的资源是一个内涵非常广泛的概念,包括出版手段资源、出版范围资源、作者资源、人力资源、市场资源等。整合管理出版社的资源对出版社来说具有重要意义。

  2. 用户生成内容

  网络环境下,用户生成内容成为一种新兴的网络信息资源创作与组织模式。用户生成内容(User-Generated Content,简称UGC),泛指以任何形式在网络上发表的由用户创作的文字、图片、音频、视频等内容。用户通过微博、博客、视频分享网站、SNS等社会化媒体发布的相关内容。

  大数据背景下,把用户生成内容的内涵扩展为用户在网络上登记和发表的内容,以及相关行为产生的所有数据,即用户基本信息、发布内容、用户行为数据和关联数据。用户基本信息包括个人姓名、年龄、职业、区域等基本信息,以及注册名称、网站中的订阅栏目等注册信息;用户发布内容主要包括原创、转发以及对应的评论和回复等。用户行为数据主要包括网络浏览购买数据、阅读过程和行为数据。用户在生产内容的过程中,会形成用户和内容之间的关联,用户与用户之间关联以及内容之间也会产生关联。

  通过对用户生成内容及其相互关系的深度挖掘和应用,可以了解用户的个体、群体特征,分析其阅读兴趣,也能进一步获得作品内容特征、发布频率和阅读、传播状况等规律。挖掘和分析用户生成内容是进一步探索用户需求,充分发挥内容价值,丰富出版模式的必然趋势。


期刊库(http://www.zgqkk.com),是一个专门从事期刊推广、投稿辅导的网站。
  本站提供如何投稿辅导,寻求投稿辅导合作,快速投稿辅导,投稿辅导格式指导等解决方案:省级投稿辅导/国家级投稿辅导/核心期刊投稿辅导//职称投稿辅导。


  【免责声明】本文仅代表作者本人观点,与投稿辅导_期刊发表_中国期刊库专业期刊网站无关。投稿辅导_期刊发表_中国期刊库专业期刊网站站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。

 
QQ在线咨询
投稿辅导热线:
180-1501-6272
微信号咨询:
fabiaoba-com
咨询电话:18015016272 投稿邮箱:zgqkk365#126.com(#换成@)
本站郑重声明:文章只代表作者观点, 并不意味着本站认同。所载文章、数据仅供参考,使用前请核实,风险自负。
部分作品系转载,版权归原作者或相应的机构   若某篇作品侵犯您的权利,请来信告知.版权:周口博闻教育咨询有限公司 
Copyright © 2005-2023 . 期刊库 版权所有