亚搏手机app官方网站入口 - 手机版—大数据的收罗与预处置惩罚(Sqoop/Flume/Kafka)详细总结

日期:2022-06-14 00:21:02 | 人气:

本文摘要:《大数据和人工智能交流》头条号向宽大初学者新增C 、Java 、Python 、Scala、javascript 等现在盛行的盘算机、大数据编程语言,希望大家以后关注本头条号更多的内容。《大数据和人工智能》头条号利便有基础读者的同时照顾宽大没入门的初学者。

亚搏手机版官方登录网站

《大数据和人工智能交流》头条号向宽大初学者新增C 、Java 、Python 、Scala、javascript 等现在盛行的盘算机、大数据编程语言,希望大家以后关注本头条号更多的内容。《大数据和人工智能》头条号利便有基础读者的同时照顾宽大没入门的初学者。和大数据相关文章的链接:1、Linux操作系统课程详细整理(下令、shell编程、软件安装等)2、大数据的收罗与预处置惩罚(Sqoop/Flume/Kafka)详细总结3、hadoop漫衍式盘算MapReduce详细总结4、大数据内存盘算Spark框架原理详细整理5、大数据内存盘算框架SparkSQL详细整理6、大数据框架Spark的流处置惩罚SparkStreaming详细总结(一)大数据收罗与预处置惩罚概述21世纪是数据信息大生长的时代,移动互联、社交网络、电子商务等极大拓展了互联网的界限和应用规模,种种数据正在迅速膨胀并变大。

杰姆·格雷(Jim Gray)提出著名的"新摩尔定律",即人类有史以来的数据总量,每过18个月就会翻一番。大数据的数据量究竟有多大?互联网天天发生的全部内容可以刻满6.4亿张DVD;全球每秒发送290万封电子邮件,一分钟读一篇的话,足够一小我私家昼夜不停地读5.5年;Google天天需要处置惩罚24PB的数据;天天会有2.88万个小时的视频上传到YouTube,足够一小我私家昼夜不停地寓目3.3年;网民天天在Facebook上要花费234亿分钟,被移动互联网使用者发送和吸收的数据高达44PB;Twitter上天天公布5000万条消息,假设10秒就浏览一条消息,足够一小我私家昼夜不停地浏览16年。随着人类运动的进一步扩展,数据规模会急剧膨胀,包罗金融、汽车、零售、餐饮、电信、能源、政务、医疗、体育、娱乐等在内的各行业累积的数据量越来越大,数据类型也越来越多、越来越庞大。那么对于这么庞大庞大的数据,泉源在那里呢?现枚举如下:1、按发生数据的主体划分(1)少量企业应用发生的数据如关系型数据库中的数据和数据堆栈中的数据等。

(2)大量人发生的数据如推特、微博、通信软件、移动通信数据、电子商务在线生意业务日志数据、企业应用的相关评论数据等。(3)巨量机械发生的数据如应用服务器日志、各种传感器数据、图像和视频监控数据、二维码和条形码(条码)扫描数据等。2、按数据泉源的行业划分(1)以BAT为代表的互联网公司百度公司数据总量凌驾了千PB级别,阿里巴巴公司生存的数据量凌驾了百PB级别,拥有90%以上的电商数据,公司总存储数据量经压缩处置惩罚以后仍然凌驾了百PB级别,数据量月增加到达10%。

(2)电信、金融、保险、电力、石化系统电信行业数据年度用户数据增长凌驾10%,金融每年发生的数据凌驾数十PB,保险系统的数据量也凌驾了PB级别,电力与石化方面,仅国家电网收罗获得的数据总量就到达了数十PB,石油化工领域每年发生和生存下来的数据量也快要百PB级别。(3)公共宁静、医疗、交通领域一其中、大型都会,一个月的交通卡口记载数可以到达3亿条;整个医疗卫生行业一年能够生存下来的数据就可到达数百PB级别;航班往返一次发生的数据就到达TB级别;列车、水陆路运输发生的种种视频、文本类数据,每年生存下来的也到达数十PB。

(4)气象、地理、政务等领域中国气象局生存的数据快要10PB,每年约增数百TB;种种舆图和地理位置信息每年约数十PB;政务数据则涵盖了旅游、教育、交通、医疗等多个门类,且多为结构化数据。(5)制造业和其他传统行业制造业的大数据类型以产物设计数据、企业生产环节的业务数据和生产监控数据为主。

其中产物设计数据以文件为主,非结构化,共享要求较高,生存时间较长;企业生产环节的业务数据主要是数据库结构化数据,而生产监控数据则数据量很是大。在其他传统行业,虽然线下商业销售、农林牧渔业、线下餐饮、食品、科研、物流运输等行业数据量剧增,可是数据量还处于积累期,整体体量都不算大,多则到达PB级别,少则数十TB或数百TB级别。

3、按数据存储的形式划分大数据不仅仅体现在数据量大,还体现在数据类型多。如此海量的数据中,仅有20%左右属于结构化的数据,80%的数据属于广泛存在于社交网络、物联网、电子商务等领域的非结构化数据。对于上述庞大的数据泉源,大数据的处置惩罚流程的第一步就是大数据的收罗与预处置惩罚。

大数据收罗是指通过RFID射频数据、传感器数据、社交网络数据、移动互联网数据等方式获得种种类型的结构化、半结构化及非结构化的海量数据。大数据的收罗通常接纳多个数据库、云端、hadoop的HDFS存储等大数据存储体来吸收终端数据,包罗智能硬件端、多种传感器端、网页端、移动APP应用端等,而且可以使用数据库举行简朴的处置惩罚事情。下面枚举下大数据收罗的途径:(1)系统日志收罗可以使用海量数据收罗工具,用于系统日志收罗,如Hadoop的Chukwa、Cloudera的Flume、Facebook的Scribe等,这些工具均接纳漫衍式架构,能满足大数据的日志数据收罗和传输需求。

(2)互联网数据收罗通过网络爬虫或网站公然API等方式从网站上获取数据信息,该方法可以数据从网页中抽取出来,将其存储为统一的当地数据文件,它支持图片、音频、视频等文件或附件的收罗,附件与正文可以自动关联。除了网站中包罗的内容之外,还可以使用DPI或DFI等带宽治理技术实现对网络流量的收罗。(3)APP移动端数据收罗APP是获取用户移动端数据的一种有效方法,APP中的SDK插件可以将用户使用APP的信息汇总给指定服务器,即便用户在没有会见时,也能获知用户终端的相关信息,包罗安装应用的数量和类型等。

单个APP用户规模有限,数据量有限;但数十万APP用户,获取的用户终端数据和部门行为数据也会到达数亿的量级。(4)与数据服务机构举行互助数据服务机构通常具备规范的数据共享和生意业务渠道,人们可以在平台上快速、明确地获取自己所需要的数据。而对于企业生产谋划数据或学科研究数据等保密性要求较高的数据,也可以通过与企业或研究机构互助,使用特定系统接口等相关方式收罗数据。(5)大企业基础支撑平台提供大数据服务平台所需的虚拟服务器,结构化、半结构化及非结构化数据的数据库及物联网络资源等基础支撑情况。

重点要解决漫衍式虚拟存储技术,大数据获取、存储、组织、分析和决议操作的可视化接口技术,大数据的网络传输与压缩技术,大数据隐私掩护技术等。(6)智能感知设备包罗数据传感体系、网络通信体系、传感适配体系、智能识别体系及软硬件资源接入系统,实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、开端处置惩罚和治理等。涉及有针对大数据源的智能识别、感知、适配、传输、接入等技术。

随着物联网技术、智能设备的生长,这种基于传感器的数据收罗会越来越多,相应对于这类的研究和应用也会越来越重要。大数据正带来一场信息社会的厘革。大量的结构化数据和非结构化数据的广泛应用,致使人们需要重新思考已有的IT模式。与此同时,大数据将推动举行又一次基于信息革命的业务转型,使社会能够借助大数据获取更多的社会效益和生长时机。

庞大的数据需要我们举行剥离、整理、归类、建模、分析等操作,通过这些行动后,我们开始建设数据分析的维度,通过对差别的维度数据举行分析,最终才气获得想到的数据和信息。虽然收罗端自己有许多数据库,可是如果要对这些海量数据举行有效的分析,还是应该将这些数据导入到一个集中的大型漫衍式数据库或者漫衍式存储集群当中,同时,在导入的基础上完成数据清洗和预处置惩罚事情。也有一些用户会在导入时使用来自Twitter的Storm来对数据举行流式盘算,来满足部门业务的实时盘算需求。

现实世界中数据大要上都是不完整、纷歧致的"脏"数据,无法直接举行数据挖掘,或挖掘效果差强人意,为了提高数据挖掘的质量,发生了数据预处置惩罚技术。大数据的预处置惩罚历程枚举如下:(1)对残缺数据举行预处置惩罚这一类数据主要是因为部门信息缺失,如公司的名称、客户的区域信息、业务系统中主表与明细表不能匹配等数据。将这一类数据过滤出来,根据缺失的内容划分填入对应的文档信息,并提交给客户,在划定时间内补全,才可写入数据堆栈。(2)对错误数据举行预处置惩罚这一类错误发生的原因往往是业务系统不够健全,在吸收输入信息后没有举行判断直接将数据写入后台数据库导致的,好比数值数据输玉成角数字字符、字符串数据后面有一个回车操作、日期花样不正确等。

这类数据也需要分类,对于类似于全角字符、数据前后有不行见字符问题的只能写SQL语句查找出来,让客户在修正之后抽取。日期花样的错误会导致ETL运行失败,需要去业务系统数据库用SQL的方式挑出来,修正之后再抽取。(3)对重复的数据举行预处置惩罚这一类数据多泛起在维护表中,是将重复数据记载的所有字段导出来,让客户确认并整理。

数据清理的方法是通过填写无效和缺失的值、平滑噪声的数据、识别或删除离群点并解决纷歧致性来"清理"数据。主要是到达花样尺度化、异常数据消除、错误纠正、重复数据的清除等目的。数据清理是将数据库中所存数据精致化,去除重复无用数据,并使剩余部门的数据转化成尺度可接受花样的历程。

(4)对数据的纷歧致性举行预处置惩罚从多数据源集成的数据语义会纷歧样,可供界说完整性约束用于检查纷歧致性,也可通过对数据举行分析来发现他们之间的联系,从而保持数据的一致性。(5)数据特征的选取将不重要的或不相关的特征从原有特征中删除,或者通过对特征举行重组和比力来淘汰个数。其原则是在保留、甚至提高原有判断能力的同时淘汰特征向量的维度。

在大数据项目实战中,常用的大数据收罗框架如下:(1)流数据收罗kafka框架Kafka是由Apache软件基金会开发的一个开源流处置惩罚平台,由Scala和Java编写。Kafka十分适合收罗互联网用户行为数据。

(2)数据迁移Sqoop框架Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(如mysql)间举行数据的通报,可以将一个关系型数据库(例如 :MySQL )中的数据导进入到Hadoop的HDFS中,也可以将HDFS的数据导入到关系型数据库中。(3)日志收罗Flume框架Flume最早是Cloudera提供的日志收罗系统,现在是Apache下的一个孵化项目,Flume主要在日志系统收罗各种数据(二)大数据迁移框架Sqoop1、Sqoop 概述基于Hadoop之上的数据传输工具Sqoop是Apache的顶级项目,主要用于在Hadoop和关系数据库、数据堆栈、NoSQL系统间通报数据。

亚搏手机版官方登录网站

通过Sqoop我们可以利便地将数据从关系数据库导入到HDFS、HBase、Hive, 或者将数据从HDFS导出到关系数据库。Sqoop是毗连传统关系型数据库和Hadoop的桥梁,它不需要开发人员编写相应的MapReduce代码,只需要编写简朴的设置剧本即可,大大提升了开发效率。通过Sqoop我们可以利便的将数据从关系数据库导入到HDFS、HBase、Hive,或者将数据从HDFS导出到关系数据库2、Sqoop的应用场景在事情中,我们经常会遇到下面这样的场景:场景一:将关系型数据库中某张表的数据抽取到Hadoop( HDFS/Hive/HBase)上;场景二:将Hadoop上的数据导出到关系型数据库中。

那么如何解决这两类问题呢?通常情况下是通过开发MapReduce来实现。导入: MapReduce 输入为DBInputFormat类型,输出为TextOutputFormat.导出: MapReduce 输入为TextInputFormat类型,输出为DBOutputFormat.使用MapReduce处置惩罚以上两个场景时存在如下问题:每次都需要编写MapReduce法式,很是贫苦。在没有泛起Sqoop之前,实际生产中有许多类似的需求,需要通过编写MapReduce去实现,然后形成一个工具,厥后逐步就将该工具代码整理出一个框架并逐步完善,最终就有了Sqoop的降生。Sqoop的导入导出处置惩罚流程如下所示:Sqoop就是将导入或导出下令翻译成 MapReduce 法式来实现 在翻译出的 MapReduce 中主要是对 InputFormat 和 OutputFormat 举行定制3、Sqoop的安装下载Sqoop进入http://sqoop.apache.org/进入""绝大部门企业所使用的sqoop的版本都是sqoop1,sqoop-1.4.6 或者 sqoop-1.4.7 是sqoop1,sqoop-1.99.7是 sqoop2,此处使用版本sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz。

(1)解压缩[hadoop@ sqoop]$ tar -zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz(2)进入到 conf 文件夹,找到 sqoop-env-template.sh,修改其名称为 sqoop-env.sh[hadoop@sqoop ~]$ cd apps/[hadoop@sqoop apps]$ lsapache-hive-2.3.3-bin hadoop-2.7.5 hbase-1.2.6 sqoop-1.4.6.bin__hadoop-2.0.4-alpha zookeeper-3.4.10[hadoop@sqoop apps]$ mv sqoop-1.4.6.bin__hadoop-2.0.4-alpha/ sqoop-1.4.6[hadoop@sqoop apps]$ cd sqoop-1.4.6/conf/[hadoop@sqoop conf]$ lsoraoop-site-template.xml sqoop-env-template.sh sqoop-site.xmlsqoop-env-template.cmd sqoop-site-template.xml[hadoop@sqoop conf]$ mv sqoop-env-template.sh sqoop-env.sh(3)修改 sqoop-env.shexport HADOOP_COMMON_HOME=/home/hadoop/apps/hadoop-2.7.5#Set path to where hadoop-*-core.jar is availableexport HADOOP_MAPRED_HOME=/home/hadoop/apps/hadoop-2.7.5(4)加入 mysql 驱动包到 sqoop1.4.6/lib 目录下[hadoop@sqoop ]$ cp mysql-connector-java-5.1.40-bin.jar apps/sqoop-1.4.6/lib/(5)设置系统情况变量export SQOOP_HOME=/home/sqoop/apps/sqoop-1.4.6export PATH=$PATH:$SQOOP_HOME/bin(6)验证安装是否乐成sqoop-version4、Sqoop的基本下令首先,我们可以使用 sqoop help 来检察,sqoop 支持哪些下令[hadoop@sqoop ~]$ sqoop helpWarning: /home/hadoop/apps/sqoop-1.4.6/../hcatalog does not exist! HCatalog jobs will fail.Please set $HCAT_HOME to the root of your HCatalog installation.Warning: /home/hadoop/apps/sqoop-1.4.6/../accumulo does not exist! Accumulo imports will fail.Please set $ACCUMULO_HOME to the root of your Accumulo installation.18/04/12 13:37:19 INFO sqoop.Sqoop: Running Sqoop version: 1.4.6usage: sqoop COMMAND [ARGS]Available commands:codegen Generate code to interact with database recordscreate-hive-table Import a table definition into Hiveeval Evaluate a SQL statement and display the resultsexport Export an HDFS directory to a database tablehelp List available commandsimport Import a table from a database to HDFSimport-all-tables Import tables from a database to HDFSimport-mainframe Import datasets from a mainframe server to HDFSjob Work with saved jobslist-databases List available databases on a serverlist-tables List available tables in a databasemerge Merge results of incremental importsmetastore Run a standalone Sqoop metastoreversion Display version informationSee 'sqoop help COMMAND' for information on a specific command.(1)列出MySQL数据有哪些数据库[hadoop@sqoop ~]$ sqoop list-databases > --connect jdbc:mysql://hadoop1:3306/ > --username root > --password rootWarning: /home/hadoop/apps/sqoop-1.4.6/../hcatalog does not exist! HCatalog jobs will fail.Please set $HCAT_HOME to the root of your HCatalog installation.Warning: /home/hadoop/apps/sqoop-1.4.6/../accumulo does not exist! Accumulo imports will fail.Please set $ACCUMULO_HOME to the root of your Accumulo installation.18/04/12 13:43:51 INFO sqoop.Sqoop: Running Sqoop version: 1.4.618/04/12 13:43:51 WARN tool.BaseSqoopTool: Setting your password on the command-line is insecure. Consider using -P instead.18/04/12 13:43:51 INFO manager.MySQLManager: Preparing to use a MySQL streaming resultset.information_schemamysqlperformance_schematest(2)列出MySQL中的某个数据库有哪些数据表:[hadoop@hadoop3 ~]$ sqoop list-tables > --connect jdbc:mysql://hadoop1:3306/mysql > --username root > --password root(3)建立一张跟mysql中的help_keyword表一样的hive表goods:sqoop create-hive-table --connect jdbc:mysql://192.168.10.100:3306/mysql --username root --password root --table help_keyword --hive-table goods5、从RDBMS导入到HDFS中语法花样:sqoop import (generic-args) (import-args)常用参数--connect <jdbc-uri> jdbc 毗连地址--connection-manager <class-name> 毗连治理者--driver <class-name> 驱动类--hadoop-mapred-home <dir> $HADOOP_MAPRED_HOME--help help 信息-P 从下令行输入密码--password <password> 密码--username <username> 账号--verbose 打印流程信息--connection-param-file <filename> 可选参数示例-1:导入mysql库中的goods的数据到HDFS上。导入的默认路径:/goodssqoop import --connect jdbc:mysql://hadoop1:3306/mysql --username root --password root --table good -m 1示例-2: 导入时指定分开符和导入路径sqoop import --connect jdbc:mysql://192.168.10.100:3306/mysql --username root --password root --table goods --target-dir /goods_bak --fields-terminated-by 't' -m 2示例-3:导入表数据到HDFS下面的下令用于从MySQL数据库服务器中的emp表导入HDFS:bin/sqoop import --connect jdbc:mysql://hdp-node-01:3306/test --username root --password root --table emp --m 16、将数据从HDFS文件导出到RDBMS数据库导出前,目的表必须存在于目的数据库中。默认操作是将文件中的数据使用INSERT语句插入到表中。更新模式下,是生成UPDATE语句更新表数据。

以下是export下令语法:sqoop export (generic-args) (export-args)示例-1:数据是在HDFS 中"EMP/"目录的emp_data文件中。所述emp_data如下:1201, gopal, manager, 50000, TP1202, manisha, preader, 50000, TP1203, kalil, php dev, 30000, AC1204, prasanth, php dev, 30000, AC1205, kranthi, admin, 20000, TP1206, satish p, grp des, 20000, GR(1)首先需要手动建立mysql中的目的表$ mysqlmysql> USE db;mysql> CREATE TABLE employee (id INT NOT NULL PRIMARY KEY,name VARCHAR(20),deg VARCHAR(20),salary INT,dept VARCHAR(10));(2)然后执行导出下令bin/sqoop export --connect jdbc:mysql://hdp-node-01:3306/test --username root --password root --table employee --export-dir /user/hadoop/emp/(3)验证表mysql下令行。

mysql>select * from employee;(三)基于流数据收罗框架kafkaKafka是由Apache软件基金会开发的一个开源流处置惩罚平台,由Scala和Java编写。Kafka是一种高吞吐量的漫衍式公布订阅消息系统,它可以处置惩罚消费者在网站中的所有行动流数据。

1、Kafka的组成结构如下:2、Kafka的集群组成结构如下:(1)、BrokerKafka集群包罗一个或多个服务器,这种服务器被称为broker(2)、Topic每条公布到Kafka集群的消息都有一个种别,这个种别被称为Topic(3)、Producer卖力公布消息到Kafka broker(4)、Consumer消息消费者,向Kafka broker读取消息的客户端(5)、ZooKeeperZooKeeper是一个漫衍式的,开放源码的漫衍式应用法式协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为漫衍式应用提供一致性服务的软件,提供的功效包罗:设置维护、域名服务、漫衍式同步、组服务等3、使用kafka收罗和消费数据(1)建立topic步骤1:建立名为goods的topickafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic goods步骤2:检察topic列表检察kafka中topic的列表,下令如下:kafka-topics.sh --list --zookeeper 127.0.0.1:2181(2)生产者生产数据步骤1: 启动生产者,并向已经建立的名为test的topic中发送数据kafka-console-producer.sh --broker-list localhost:9092 --topic goods步骤2:向goods的topic发送下列数据U001 lily kafka browse_action(3)消费者消费数据步骤1:启动消费者,并消费名为test的topic中的数据kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic goods --from-beginning步骤2:消费者消费数据U001 lily kafka browse_action(四)日志收罗工具FlumeFlume是Cloudera提供的一个高可用的,高可靠的,漫衍式的海量日志收罗、聚合和传输的系统,Flume支持在日志系统中定制各种数据发送方,用于收集数据;同时,Flume提供对数据举行简朴处置惩罚,并写到种种数据接受方(可定制)的能力。

当前Flume有两个版本Flume 0.9X版本的统称Flume-og,Flume1.X版本的统称Flume-ng。由于Flume-ng经由重大重构,与Flume-og有很大差别,使用时请注意区分。Flume提供对数据举行简朴处置惩罚,并写到种种数据接受方(可定制)的能力。

Flume提供了从console(控制台)、RPC(Thrift-RPC)、text(文件)、tail(UNIX tail)、syslog(syslog日志系统),支持TCP和UDP等2种模式,exec(下令执行)等数据源上收集数据的能力。Flume的特点:(1)Flume可以高效率的将多个服务器收罗的日志信息存入HDFS/HBase中(2)使用Flume可以将从多个服务器中获取的数据迅速的移交给Hadoop中(3)Flume也可以收罗规模庞大的社交数据,好比Facebook,Twitter,电商网站 如亚马逊等(4)支持多种差别的数据源Flume的优势:(1)Flume可以将应用发生的数据存储到任何集中存储器中,好比DFS,HBase(2)当收集数据的速度凌驾将写入数据的时候,Flume会在数据生产者和数据收集器间做出调整,保证其能够在两者之间提供一共平稳的数据(3)Flume的管道是基于事务,保证了数据在传送和吸收时的一致性(4)Flume是可靠的,容错性高的,可升级的,易治理的,而且可定制的Flume是以agent为最小独立运行单元。

单agent由Source、Sink和Channel三大组件组成,如下图:(1)Source从数据发生器吸收数据,并将吸收的数据以Flume的event花样通报给一个或者多个通道channel,Flume提供多种数据吸收的方式,好比Avro,Thrift,twitter1%等(2)Channel:channel是一种短暂的存储容器,它将从source处吸收到的event花样的数据缓存起来,直到它们被sinks消费掉,它在source和sink间起着桥梁的作用,channel是一个完整的事务,这一点保证了数据在收发的时候的一致性. 而且它可以和任意数量的source和sink链接. 支持的类型有: JDBC channel , File System channel , Memort channel等.(3)sink:sink将数据存储到集中存储器好比Hbase和HDFS,它从channals消费数据(events)并将其通报给目的地. 目的地可能是另一个sink,也可能HDFS,HBase.示例:监控一个文件实时收罗新的数据输出到控制台,数据日志花样如下:商品编号,商品名称,用户编号,用户评价(单元:星)日志的样本数据如下:g001,hadoop,u001,3g002,spark,u002,4g003 ,Machine Learning,u003,5(1)编辑flume设置文件flume.conf# Flume agent configa1.sources = r1a1.sinks = k1a1.channels = c1# Describe/configure the sourcea1.sources.r1.type = execa1.sources.r1.port = 6666a1.sources.r1.host = 10.42.135.101a1.sources.r1.channels = c1a1.sources.r1.command=tail -F /home/logger.txt# Describe the sinka1.sinks.k1.type = logger# Use a channel which buffers events in memorya1.channels.c1.type = memorya1.channels.c1.capacity = 1000a1.channels.c1.transactionCapacity = 100# Bind the source and sink to the channela1.sources.r1.channels = c1a1.sinks.k1.channel = c1(2)启动flume agent使用前面的设置文件启动flume agent,启动下令如下:flume-ng agent --conf /home/logger.txt --conf-file /home/flume.conf --name a1 -Dflume.root.logger=INFO,console(3)向logger.txt写入数据测试agent用echo下令追加到/home/logger.txt内容,向exec.txt 追加内容echo "hello world" >>/home/exec.txt。《大数据和人工智能交流》的宗旨1、将大数据和人工智能的专业数学:概率数理统计、线性代数、决议论、优化论、博弈论等数学模型变得通俗易懂。2、将大数据和人工智能的专业涉及到的数据结构和算法:分类、聚类 、回归算法、概率等算法变得通俗易懂。3、最新的高科技动态:数据收罗方面的智能传感器技术;医疗大数据智能决议分析;物联网智慧都会等等。

凭据初学者需要会有C语言、Java语言、Python语言、Scala函数式等现在主流盘算机语言。凭据读者的需要有和人工智能相关的盘算机科学与技术、电子技术、芯片技术等基础学科通俗易懂的文章。


本文关键词:大,数据,亚搏手机版app下载体育官网,的,收罗,与,预,处置,惩罚,Sqoop,Flume,《

本文来源:亚搏手机app官方网站入口-www.xblxwzp.com

旋转小火锅定制流程

免费咨询

提供图纸

免费设计

免费报价

无忧安装

终身维护