陈军:机器大数据实时搜索分析引擎

2017-08-24

219
0

陈军 首席数据官联盟专家组成员,日易志创始人兼CEO,18年IT及互联网研发管理经验,曾就职于Cisco、Google、腾讯和高德软件,历任高级软件工程师、专家工程师、技术总监、技术副总裁等岗位

 

本期特邀嘉宾首席数据官联盟发起人刘冬冬,就机器大数据实时搜索分析引擎进行深入探讨。

 

刘冬冬:日志易主要做什么事情? 解决了过去日志分析的哪些痛点?

 

陈军:电脑等IT设备,在运行过程中会产生大量的日志数据,来记录这些IT设备的活动。一旦设备出现故障,抑或追踪一些业务过程,通过日志就可以找到问题的答案。

 

我刚毕业时加入思科做研发,遇到Bug不知道如何解决,有同事指点让查一下日志,从那时候开始就一直与日志打交道。

 

日志对于IT工作的重要性不言而喻,但这些日志都是散落在不同设备上,仅靠手动查找起来非常费力。同时,因为日志信息量很大,过段时间就可能被清理。一旦出现故障,IT人员想查找一些历史数据根本无法查到。

 

日志易做的事情就是把散落在各地的日志收集起来,集中管理,将非结构化数据转换成结构化数据,就像百度、谷歌这样的搜索引擎,IT人员可以通过搜索关键字找到需要的日志。

 

除此之外,日志易还提供了各种分析和可视化工具,帮助IT人员更好地分析日志,找到问题的关键。

 

我们定义日志易是专业的日志分析软件公司,可以实现对IT运维日志与业务日志的集中管理与搜索分析,也可以简单理解为企业日志数据的搜索分析引擎,对日志进行采集、搜索、分析、监控告警、多维统计和数据可视化等,帮助企业进行运维监控、安全合规审计、及业务数据挖掘。

 

刘冬冬:目前有哪些应用场景和客户案例?

 

陈军: 例如某大型综合金融集团,有600多条业务线,运维环境复杂,各种设备、系统产生数千种日志格式,通过部署日志易,并基于日志易API做一些开发,搭建起一个完整的日志云平台,现在该客户内部已经建立起完善的日志管理标准,所有业务线必须将日志接入这个平台,运维人员查看日志再也不用登录到生产服务器查看日志,避免了生产环境误操作的可能,更加高效、安全了。

 

还有中国移动某省公司,一项业务要经过十几个子系统,每个子系统的业务日志格式都不同。通过接入日志易,对各子系统日志进行结构化,然后使用日志易提供的SPL(Search Processing Language)进行各日志源的关联分析,可以很容易定位到哪些环节延迟大,哪些环节用户花费时间长或者遇到操作障碍。据此可采取相应措施提升客户体验。

 

关于性能统计、交易失败率、失败原因统计及报表输出,这些都是手机银行、支付等金融行业很核心的业务运营场景,日志易在这些场景大有用武之地。

 

客户数量超过一百家,主要分布在金融、运营商、能源、互联网,目前已经有几十家大客户,包括中移动、国家电网、乐视、小米、网宿、某著名综合金融集团、几家著名股份制银行、某著名城商行、某农商行、鹏华基金等。

 

刘冬冬:国内外同样做日志分析的公司主要有哪些?日志易有何产品优势或技术创新?

 

陈军:国外主要就是Splunk、ELK等,Splunk已经上市了,市值达80亿美金,可以说是资本市场的宠儿。

 

Splunk已经做了12年,而日志易是2014年成立,也是国内最早开发海量日志搜索分析产品的公司,日志易一直不断增加功能、完善产品。

 

国内从2015年开始有一些小公司加入到这个领域,今年开始也有一些传统软件商开始推类似的日志分析解决方案,总体来说,都处于比较初级的阶段,不管是产品功能完善性、成熟度,数据处理能力,客户案例积累方面,日志易目前都遥遥领先。

 

Splunk是比较完善的商业产品。日志易与Splunk相比,有本地的研发团队,可以为用户提供定制化服务,而且产品更加切合中国用户的需求。

 

ELK并不是一个直接使用的产品,是由Elasticsearch/Logstash/Kibana三个开源组件组成。ELK基础功能开源免费,但监控告警模块Watcher、权限管理模块Shield、集群管理模块Marvel都收费。

 

另外,ELK只支持日志索引入库前抽取字段做结构化(Schema on Write),用户在检索的时候不能抽取想分析的字段,日志易支持检索阶段抽取字段做结构化(Schema on Read)。

 

而且,日志易实现了搜索处理语言SPL(Search Processing Language),用户可以在搜索框里编写SPL脚本,对日志进行复杂的关联分析,非常强大、灵活,实现了“框计算”。日志易还实现了日志易集群的监控管理系统Rizhiyi_Manager,方便对日志易集群进行自动化管理,大大减少了运维成本。

 

除了强大的SPL、数据处理能力方面,日志易已经在客户那里做到每秒钟实时处理200万条以上日志,每天新增日志量超过40TB,检索1000亿条日志,1分钟内返回结果。下一步,日志易将做到每秒钟实时处理1000万条日志,每天新增日志量200TB。

 

刘冬冬:在产品应用中曾经遇到哪些技术障碍?后来是如何解决的?

 

 陈军:大型客户本身有着庞大的研发团队,并积累了大量和大数据相关的系统,例如Hadoop,几乎所有已搭建了大数据平台的客户,都要求将日志易的部分或全部功能整合进他们自己的平台,作为其中一个日志模块。

 

但两个平台开发和设计的初衷就不一样,Hadoop是离线批处理的,而日志易是线上实时的,接收、数据分析都要求在线实时进行,整合难度相当大。

 

后来解决的方式就是,我们系统提供尽量灵活的对接API,内部研发的前后端对接,都是尽量使用标准API,一旦这种API成熟了就可以开放给客户使用。

      

日志易把架构设计的尽量灵活,这样就可以和很多已有的系统做对接,例如做BI的都可以跟我们对接,BI主要是分析数据,数据可视化基于结构化数据,日志是非结构化的,我们把非结构化转换成结构化,所有的BI都可以对接。还可以对接运维监控系统,运维监控系统包括很多内容,我们日志分析是其中的一个模块。

 

刘冬冬:运维工程师在进行IT运维分析的时候,往往需采集机器数据(日志)、代理数据、网络通信数据、探针数据组合使用。作为专注日志分析的日志易, 接下来有何新的战略规划?

 

陈军:从产品层面来说,下一步还是继续做日志分析这件事,Splunk做了12年,我们才做了不到三年。要把这件事做专做精,同时会开放更多API,逐步从产品变成平台,其他公司可以在我们的产品上开发应用。

 

日志是企业内部宝贵的IT大数据,日志分析未来会更加智能化,基于机器学习的智能运维分析是日志易努力的方向。

 

下一步还要加强与基础平台、IT运维分析领域厂商的合作,融入这个生态。就在最近,日志易刚刚与海航集团旗下的海航云签署战略合作协议,成为海航云生态首批入驻的战略合作伙伴。日志易也希望与更多的厂商建立紧密的合作关系,共同开拓市场。

版权所有©2017 首席数据官联盟

首席数据官联盟

 

是国内首个大数据领域的公益性联盟,打造跨行业、跨领域商业精英交流的平台,汇集了万余名来自国内知名企业、科研机构、高校的高管、行业及学术带头人,是国内最大的大数据智库,现覆盖中国95%以上的大数据企业,是国内最活跃的大数据精英交流平台。致力于推动中国的企业及政府实现“大数据+”的战略升级。

加入我们
 

1、扫描联盟秘书倪娜的二维码
2、由联盟秘书邀请您入联盟的各类微信群
     说明:将根据您的职业身份和所属行业
              邀请进入不同联盟内不同微信群
     申请时请注明:
              姓名+公司简称+职务 


 

联系我们

 

官方微信:sxsjglm
 联盟邮箱:Nina@cdoclub.cn