欧美一级特黄大片做受成人-亚洲成人一区二区电影-激情熟女一区二区三区-日韩专区欧美专区国产专区

Hive數(shù)據(jù)傾斜的原因及優(yōu)化方法

這篇文章主要講解了“Hive數(shù)據(jù)傾斜的原因及優(yōu)化方法”,文中的講解內(nèi)容簡(jiǎn)單清晰,易于學(xué)習(xí)與理解,下面請(qǐng)大家跟著小編的思路慢慢深入,一起來(lái)研究和學(xué)習(xí)“Hive數(shù)據(jù)傾斜的原因及優(yōu)化方法”吧!

我們提供的服務(wù)有:網(wǎng)站制作、網(wǎng)站設(shè)計(jì)、微信公眾號(hào)開(kāi)發(fā)、網(wǎng)站優(yōu)化、網(wǎng)站認(rèn)證、廉江ssl等。為上1000家企事業(yè)單位解決了網(wǎng)站和推廣的問(wèn)題。提供周到的售前咨詢(xún)和貼心的售后服務(wù),是有科學(xué)管理、有技術(shù)的廉江網(wǎng)站制作公司

數(shù)據(jù)傾斜成因:由于數(shù)據(jù)分布不均勻,造成數(shù)據(jù)大量的集中到一點(diǎn),造成數(shù)據(jù)熱點(diǎn)。具體為某一個(gè)reduce接收到的數(shù)據(jù)是其他reduce的n倍,導(dǎo)致明顯的木桶效應(yīng)。

癥狀:

1,對(duì)表做select count(1) from tb group by key,看表中是否有大量相同的key。

2,查看監(jiān)控界面,任務(wù)進(jìn)度長(zhǎng)時(shí)間維持在99%(或100%),只有少量(1個(gè)或幾個(gè))reduce子任務(wù)未完成或某幾個(gè)reduce子任務(wù)是平均reduce時(shí)長(zhǎng)的n倍;

Hive數(shù)據(jù)傾斜的原因及優(yōu)化方法

上圖的其中的一個(gè)job的reduce時(shí)間遠(yuǎn)遠(yuǎn)超出其他reduce時(shí)長(zhǎng),表明該reduce處理的數(shù)據(jù)遠(yuǎn)超出其他的reduce,可見(jiàn)此次統(tǒng)計(jì)發(fā)生數(shù)據(jù)傾斜。

解決方案

參數(shù)調(diào)優(yōu):

1,set hive.groupby.skewindata=true:這個(gè)參數(shù)的意思是做Reduce操作的時(shí)候,拿到的key并不是所有相同值給同一個(gè)Reduce,而是隨機(jī)分發(fā),然后Reduce做聚合,做完之后再做一輪MR,拿前面聚合過(guò)的數(shù)據(jù)再算結(jié)果。所以這個(gè)參數(shù)其實(shí)跟Hive.Map.aggr做的是類(lèi)似的事情,只是拿到Reduce端來(lái)做,而且要額外啟動(dòng)一輪Job,所以其實(shí)不怎么推薦用,效果不明顯。

2,set hive.skewjoin.key=100000:這個(gè)是join的鍵對(duì)應(yīng)的記錄條數(shù)超過(guò)這個(gè)值則會(huì)進(jìn)行優(yōu)化。

3,set mapred.reduce.tasks=500:增加Reducer個(gè)數(shù),通常數(shù)據(jù)(KV數(shù)值對(duì))Shuffle到某個(gè)Reducer是根據(jù)Key進(jìn)行Hash然后對(duì)Reducer個(gè)數(shù)進(jìn)行取模。

HQL語(yǔ)句優(yōu)化:

1,小表join大表:

將小表放在join左邊,減少oom的幾率;

使用mapjoin,小表數(shù)據(jù)最好在1000條以?xún)?nèi)。select /*+mapjoin(a)*/ count(1) from tb_a a left outer join tb_b b on a.uid=b.uid;

2,大表join大表:

把空值的key變成一個(gè)字符串加上隨機(jī)數(shù),把傾斜的數(shù)據(jù)分到不同的reduce上,由于null值關(guān)聯(lián)不上,處理后并不影響最終結(jié)果。

select * from tb_a a left outer join tb_b b on (case when a.userid is null then concact('xxx', rand()) else a.userid end = b.userid);

3,不同數(shù)據(jù)類(lèi)型關(guān)聯(lián)產(chǎn)生數(shù)據(jù)傾斜,在join之前先轉(zhuǎn)換數(shù)據(jù)類(lèi)型:

select * from users a left outer join logs b on a.usr_id = cast(b.user_id as string);

4,count distinct優(yōu)化

采用sum() group by的方式來(lái)替換count(distinct )進(jìn)行計(jì)算

原語(yǔ)句:select a, count(distinct b) as c from tbl group by a;

改寫(xiě)后:select a, count(*) as c from (select distinct a, b from tbl) group by a;

另外,count distinct時(shí),將值為空的情況單獨(dú)處理,如果是計(jì)算count distinct,可以不用處理,直接過(guò)濾,在最后結(jié)果中加1。如果還有其他計(jì)算,需要進(jìn)行g(shù)roup by,可以先將值為空的記錄單獨(dú)處理,再和其他計(jì)算結(jié)果進(jìn)行union。

感謝各位的閱讀,以上就是“Hive數(shù)據(jù)傾斜的原因及優(yōu)化方法”的內(nèi)容了,經(jīng)過(guò)本文的學(xué)習(xí)后,相信大家對(duì)Hive數(shù)據(jù)傾斜的原因及優(yōu)化方法這一問(wèn)題有了更深刻的體會(huì),具體使用情況還需要大家實(shí)踐驗(yàn)證。這里是創(chuàng)新互聯(lián),小編將為大家推送更多相關(guān)知識(shí)點(diǎn)的文章,歡迎關(guān)注!

當(dāng)前文章:Hive數(shù)據(jù)傾斜的原因及優(yōu)化方法
當(dāng)前URL:http://www.aaarwkj.com/article38/pdissp.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供微信小程序、網(wǎng)站維護(hù)、電子商務(wù)、網(wǎng)站設(shè)計(jì)、網(wǎng)站收錄

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀(guān)點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話(huà):028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

成都app開(kāi)發(fā)公司
91国内精品手机在线高清| 少妇人妻精品一区二区三| 亚洲人妻一区二区久久| 国产精品国产三级区别| 国产亚洲精品视频二区| 国产自拍在线视频精品| 精品蜜桃臀91人少妇| 操女逼无遮挡国产av| 国产夫妻性生活国产视频| 五月婷婷六月丁香伊人网| 五月天丁香婷婷狠狠狠| 亚洲乱码一区二区av| 日韩亚洲欧洲一区二区三区| 国产综合精品一区二区| 国产精品一区巨乳人妻| 日本一区二区三区视频| 69国产精品久久久久久人| 国产三级视频在线观看视频 | 日本一区二区电影在线看| 97国产精品成人免费视频| 日本熟妇一区二区三区高清视频| 91日本精品免费在线视频| 97热久久精品中文字幕一区| 麻豆午夜福利在线播放| 久久久久久狠狠亚洲综合| 五月婷婷丁香在线观看| 国产一区二区三区91精品| 好看毛片一区二区三区四区| 成人性生活视频免费中文版| 亚洲精品尤物福利视频| 日本大型午夜福利视频| 欧美一区二区三区爽| 日韩人妻av免费电影| 国产国语网站在线观看| 在线观看国产精品女主播户外麻豆| 片子免费毛片日韩不卡一区| 人妻系列日本在线播放| 欧美视频综合一级91| 91久久福利国产成人精品| 日韩一二三区欧美四五区新| 成人黄色av免费看|