蜜臀av北条麻妃中文人妻系列,99久久亚洲日本精品,2019年中文字幕日韩在线

當(dāng)前位置： OFweek 人工智能網(wǎng) > 正文

基于Spark的數(shù)據(jù)分析實(shí)踐

2019-06-19 09:55

SparkSQL Flow 支持的Sourse

支持從 Hive 獲得數(shù)據(jù)；

支持文件：JSON，TextFile（CSV），ParquetFile，AvroFile

支持RDBMS數(shù)據(jù)庫(kù)：PostgreSQL， MySQL，Oracle

支持 NOSQL 數(shù)據(jù)庫(kù)：Hbase，MongoDB

SparkSQL Flow TextFile Source

textfile 為讀取文本文件，把文本文件每行按照 delimiter 指定的字符進(jìn)行切分，切分不夠的列使用 null 填充。

＜source type＝＂textfile＂ table＿name＝＂et＿rel＿pty＿cong＂ fields＝＂cust＿id，name1，gender1，age1：int＂ delimiter＝＂，＂ path＝＂file：／／／Users／zhenqin／software／hive／user．txt＂／＞

可左右滑動(dòng)查看代碼

Tablename 為該文件映射的數(shù)據(jù)表名，可理解為數(shù)據(jù)的視圖；

Fields 為切分后的字段，使用逗號(hào)分隔，字段后可緊跟該字段的類(lèi)型，使用冒號(hào)分隔；

Delimiter 為每行的分隔符；

Path 用于指定文件地址，可以是文件，也可是文件夾；

Path 指定地址需要使用協(xié)議，如：file：／／、 hdfs：／／，否則跟 core－site．xml 配置密切相關(guān)；

SparkSQL Flow DB Source

＜source type＝＂mysql＂ table＿name＝＂et＿rel＿pty＿cong＂ table＝＂user＂ url＝＂jdbc：mysql：／／localhost：3306／tdb？characterEncoding＝UTF－8＂ driver＝＂com．mysql．jdbc．Driver＂ user＝＂root＂ password＝＂123456＂／＞

可左右滑動(dòng)查看代碼

RDBMS 是從數(shù)據(jù)庫(kù)使用 JDBC讀取數(shù)據(jù)集。支持 type 為：db、mysql、oracle、postgres、mssql；

tablename 為該數(shù)據(jù)表的抽象 table 名稱(chēng)（視圖）；

url、driver、user，password 為數(shù)據(jù)庫(kù) JDBC 驅(qū)動(dòng)信息，為必須字段；

SparkSQL 會(huì)加載該表的全表數(shù)據(jù)，無(wú)法使用 where 條件。

SparkSQL Flow Transformer

＜transform type＝＂sql＂ table＿name＝＂cust＿id＿agmt＿id＿t＂ cached＝＂true＂＞ SELECT c＿phone，c＿type，c＿num， CONCAT＿VAL（cust＿id） as cust＿ids FROM user＿concat＿testx group by c＿phone，c＿type，c＿num＜／transform＞

可左右滑動(dòng)查看代碼

Transform 支持 cached 屬性，默認(rèn)為 false；如果設(shè)置為 true，相當(dāng)于把該結(jié)果緩存到內(nèi)存中，緩存到內(nèi)存中的數(shù)據(jù)在后續(xù)其它 Transform 中使用能提高計(jì)算效率。但是需使用大量?jī)?nèi)存，開(kāi)發(fā)者需要評(píng)估該數(shù)據(jù)集能否放到內(nèi)存中，防止出現(xiàn) OutofMemory 的異常。

SparkSQL Flow Targets

SparkSQL Flow Targets 支持輸出數(shù)據(jù)到一個(gè)或者多個(gè)目標(biāo)。這些目標(biāo)，基本覆蓋了 Source 包含的外部系統(tǒng)。下面以 Hive 舉例說(shuō)明：

＜target type＝＂hive＂ table＿name＝＂cust＿id＿agmt＿id＿t＂ savemode＝”append”target＿table＿name＝＂cust＿id＿agmt＿id＿h(yuǎn)＂／＞

可左右滑動(dòng)查看代碼

table＿name 為 source 或者 Transform 定義的表名稱(chēng)；

target＿table＿name 為 hive 中的表結(jié)果，Hive 表可不存在也可存在，sparksql 會(huì)根據(jù) DataFrame 的數(shù)據(jù)類(lèi)型自動(dòng)創(chuàng)建表；

savemode 默認(rèn)為 overwrite 覆蓋寫(xiě)入，當(dāng)寫(xiě)入目標(biāo)已存在時(shí)刪除源表再寫(xiě)入；支持 append 模式，可增量寫(xiě)入。

Target 有一個(gè)特殊的 show 類(lèi)型的 target。用于直接在控制臺(tái)輸出一個(gè) DataFrame 的結(jié)果到控制臺(tái)（print），該 target 用于開(kāi)發(fā)和測(cè)試。

＜target type＝＂show＂ table＿name＝＂cust＿id＿agmt＿id＿t＂ rows＝”10000”／＞

可左右滑動(dòng)查看代碼

Rows 用于控制輸出多少行數(shù)據(jù)。

SparkSQL Around

After 用于 Flow 在運(yùn)行結(jié)束后執(zhí)行的一個(gè)環(huán)繞，用于記錄日志和寫(xiě)入狀態(tài)。類(lèi)似 Java 的 try ｛｝ finally｛ round．execute（）｝

多個(gè) round 一定會(huì)執(zhí)行，round 異常不會(huì)導(dǎo)致任務(wù)失敗。

＜prepare＞＜round type＝＂mysql＂ sql＝＂insert into cpic＿task＿h(yuǎn)istory（id， task＿type， catalog＿model， start＿time， retry＿count， final＿status， created＿at） values（＄｛uuid｝，＄｛task．type｝，＄｛catalog．model｝，＄｛starttime｝， 0，＄｛status｝， now（））＂ url＝＂＄｛jdbc．url｝＂．．．／＞＜／prepare＞＜after＞＜round type＝＂mysql＂ sql＝＂update cpic＿task＿h(yuǎn)istory set end＿time ＝＄｛endtime｝， final＿status ＝＄｛status｝， error＿text ＝＄｛error｝ where id ＝＄｛uuid｝＂ url＝＂＄｛jdbc．url｝”…／＞＜／after＞

可左右滑動(dòng)查看代碼

Prepare round 和 after round 配合使用可用于記錄 SparkSQL Flow 任務(wù)的運(yùn)行日志。

SparkSQL Around可使用的變量

SparkSQL Around的執(zhí)行效果

Prepare round 可做插入（insert）動(dòng)作，after round 可做更新（update）動(dòng)作，相當(dāng)于在數(shù)據(jù)庫(kù)表中從執(zhí)行開(kāi)始到結(jié)束有了完整的日志記錄。SparkSQL Flow 會(huì)保證round 一定能被執(zhí)行，而且 round 的執(zhí)行不影響任務(wù)的狀態(tài)。

SparkSQL Flow 提交

bin／spark－submit －－master yarn－client －－driver－memory 1G －－num－executors 10 －－executor－memory 2G －－jars ／lib／jsoup－1．11．3．jarlib／jsqlparser－0．9．6．jar，／lib／mysql－connector－java－5．1．46．jar －－conf spark．yarn．jars＝hdfs：／／／lib／spark2／＊．jar －－queue default －－name FlowTest etl－flow－0．2．0．jar －f hive－flow－test．xml

可左右滑動(dòng)查看代碼

接收必須的參數(shù) –f，可選的參數(shù)為支持 Kerberos 認(rèn)證的租戶名稱(chēng)principal，和其認(rèn)證需要的密鑰文件。

usage： spark－submit －－jars etl－flow．jar －－class com．yiidata．etl．flow．source．FlowRunner －f，－－xml－file ＜arg＞ Flow XML File Path －－keytabFile ＜arg＞ keytab File Path（Huawei）－－krb5File ＜arg＞ krb5 File Path（Huawei）－－principal ＜arg＞ principal for hadoop（Huawei）

可左右滑動(dòng)查看代碼

SparkSQL Execution Plan

每個(gè)Spark Flow 任務(wù)本質(zhì)上是一連串的 SparkSQL 操作，在 SparkUI SQL tab 里可以看到 flow 中重要的數(shù)據(jù)表操作。

regiserDataFrameAsTable 是每個(gè) source 和 Transform 的數(shù)據(jù)在 SparkSQL 中的數(shù)據(jù)視圖，每個(gè)視圖都會(huì)在 SparkContex 中注冊(cè)一次。

<上一頁(yè) 1 2 3 4 下一頁(yè)> 余下全文

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號(hào)的作者撰寫(xiě)，觀點(diǎn)僅代表作者本人，不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題，請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

共0條評(píng)論，0人參與

登錄登錄即可訪問(wèn)所有OFweek服務(wù)

用戶名/郵箱/手機(jī)：
密碼：
忘記密碼？
用其他賬號(hào)登錄： QQ | 微信 | 新浪微博

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

暫無(wú)評(píng)論

暫無(wú)評(píng)論

圖片新聞

最新發(fā)布

最新活動(dòng)更多

6月20日
立即下載>> 【白皮書(shū)】精準(zhǔn)測(cè)量安全高效——福祿克光伏行業(yè)解決方案
7月3日
立即報(bào)名>> 【在線會(huì)議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
7月22-29日
立即報(bào)名>> 【線下論壇】第三屆安富利汽車(chē)生態(tài)圈峰會(huì)
7.30-8.1
火熱報(bào)名中>> 全數(shù)會(huì)2025（第六屆）機(jī)器人及智能工廠展
7月31日
免費(fèi)預(yù)約>> OFweek 2025具身機(jī)器人動(dòng)力電池技術(shù)應(yīng)用大會(huì)
免費(fèi)參會(huì)
立即報(bào)名>> 7月30日- 8月1日 2025全數(shù)會(huì)工業(yè)芯片與傳感儀表展

一周熱點(diǎn) 月點(diǎn)擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報(bào)告

人工智能獵頭職位更多

掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯(cuò)

x

_*文字標(biāo)題：

_*糾錯(cuò)內(nèi)容：

聯(lián)系郵箱：

_*驗(yàn) 證碼：

看不清，點(diǎn)擊換一張

粵公網(wǎng)安備 44030502002758號(hào)

感谢您访问我们的网站，您可能还对以下资源感兴趣：

精品剧情v国产在线观看

精品一区二区三区在线观看视频肉体奉公hd中文字幕看片在线男女h视频