位置:首页 > 资讯大全 > 网站优化

大数据采集技术与应用(关于大数据的主要核心技术)

发布时间:2022-07-12 22:07:21

文章来源:快乐收录网

访问次数:

大数据开启了一个大规模生产、分享和应用数据的时代,它给技术和商业带来了巨大的变化。麦肯锡研究表明,在医疗、零售和制造业领域,大数据每年可以提高劳动生产率0.5-1个百分点。大数据在核心领域的渗透速度有目共睹,然而调查显示,未被使用的信息比例高达99.4%,很大程度都是由于高价值的信息无法获取采集。因此在大数据时代背景下,如何从大数据中采集出有用的信息已经是大数据发展的关键因素之一,那么什么是大数据采集技术呢?Von快乐收录网

 Von快乐收录网

什么是数据采集?Von快乐收录网

 Von快乐收录网

▷数据采集(DAQ), 又称数据获取,是指从传感器和其它待测设备等模拟和数字被测单元中自动采集信息的过程。数据分类新一代数据体系中,将传统数据体系中没有考虑过的新数据源进行归纳与分类,可将其分为线上行为数据与内容数据两大类。Von快乐收录网

 Von快乐收录网

▷线上行为数据:页面数据、交互数据、表单数据、会话数据等。Von快乐收录网

 Von快乐收录网

▷内容数据:应用日志、电子文档、机器数据、语音数据、社交媒体数据等。Von快乐收录网

 Von快乐收录网

▷大数据的主要来源:1)商业数据 2)互联网数据 3)传感器数据Von快乐收录网

 Von快乐收录网

▌数据采集与大数据采集区别Von快乐收录网

 Von快乐收录网

▌传统数据采集的不足Von快乐收录网

 Von快乐收录网

传统的数据采集来源单一,且存储、管理和分析数据量也相对较小,大多采用关系型数据库和并行数据仓库即可处理。对依靠并行计算提升数据处理速度方面而言,传统的并行数据库技术追求高度一致性和容错性,根据CAP理论,难以保证其可用性和扩展性。Von快乐收录网

▌大数据采集新的方法Von快乐收录网

 Von快乐收录网

▷系统日志采集方法Von快乐收录网

 Von快乐收录网

很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等,这些工具均采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求。Von快乐收录网

 Von快乐收录网

▷网络数据采集方法Von快乐收录网

 Von快乐收录网

网络数据采集是指通过网络爬虫或网站公开API等方式从网站上获取数据信息。该方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。 除了网络中包含的内容之外,对于网络流量的采集可以使用DPI或DFI等带宽管理技术进行处理。Von快乐收录网

 Von快乐收录网

▷其他数据采集方法Von快乐收录网

 Von快乐收录网

对于企业生产经营数据或学科研究数据等保密性要求较高的数据,可以通过与企业或研究机构合作,使用特定系统接口等相关方式采集数据。Von快乐收录网

 Von快乐收录网

▌大数据采集平台Von快乐收录网

 Von快乐收录网

最后,再为大家介绍几款应用广泛的大数据采集平台,供大家参考使用。Von快乐收录网

 Von快乐收录网

Apache FlumeVon快乐收录网

 Von快乐收录网

Flume是Apache旗下的一款开源、高可靠、高扩展、容易管理、支持客户扩展的数据采集系统。 Flume使用JRuby来构建,所以依赖Java运行环境。Von快乐收录网

 Von快乐收录网

FluentdVon快乐收录网

 Von快乐收录网

Fluentd是另一个开源的数据收集框架。Fluentd使用C/Ruby开发,使用JSON文件来统一日志数据。它的可插拔架构,支持各种不同种类和格式的数据源和数据输出。最后它也同时提供了高可靠和很好的扩展性。Treasure Data, Inc 对该产品提供支持和维护。Von快乐收录网

 Von快乐收录网

LogstashVon快乐收录网

 Von快乐收录网

Logstash是著名的开源数据栈ELK (ElasticSearch, Logstash, Kibana)中的那个L。Logstash用JRuby开发,所有运行时依赖JVM。Von快乐收录网

 Von快乐收录网

Splunk ForwarderVon快乐收录网

Splunk是一个分布式的机器数据平台,主要有三个角色:Search Head负责数据的搜索和处理,提供搜索时的信息抽取;Indexer负责数据的存储和索引;Forwarder,负责数据的收集,清洗,变形,并送给Indexer。Von快乐收录网

Von快乐收录网

  《大数据采集技术与应用(关于大数据的主要核心技术)》更新于时间:2022-07-12 22:07:21;由本站小编进行发布,目前浏览的小伙伴达到,感谢你们的支持,后期快乐收录网小编会继续为大家更新更多相关的文章,希望广大网友多多关注快乐收录网工作心得栏目,如果觉得本站不错,那就给我们一个分享的支持吧!

大数据采集技术与应用(关于大数据的主要核心技术)特别声明

本站快乐收录网提供的大数据采集技术与应用(关于大数据的主要核心技术)都来源于网络,不保证文章的准确性和真实性,同时,对于该文章所造成的影响,不由快乐收录网实际控制,在2022-07-12 22:07:21收录时,该网页上的内容,都属于合规合法,如有侵权违规,可以直接联系网站管理员进行整改或删除,快乐收录网不承担任何责任。

快乐收录网:致力于优质、实用的网络站点资源收集与分享!本文地址:https://nav.klxjz.cn/zixundaquan/wzyh/202207/9514.html转载请注明

标签: