1樓:不會重的名稱
hadoop是分佈是架構,sql是乙個資料庫語言,兩個沒法比。
如何是用分散式資料庫和關聯式資料庫對比,分散式能處理更大的資料適合中大企業,關聯式資料庫適合中小企業。
當然回到問題本身,hadoop下架設的分散式資料庫肯定是在運營千萬資料時比關聯式資料庫更好用。
2樓:匿名使用者
twitter 上的 @merv **了一篇部落格《三角形的統計》。
這是一篇關於如何統計一張圖形裡的三角形的部落格,並將使用 vertica 和 hadoop 的 mapreduce 的結果進行了對比。在 gb 的資料之上,vertica 比 hadoop 快了 22-40x 倍。而且它只用了三行 sql。
統計表明,在 gb 資料之上,vertica 更簡單更快速。但這個結果不是太那麼有意思。
對於寫入任務的結果將會截然不同 - 是,sql 在這個案例裡確實非常簡單,大家都知道。sql 是比 mapreduce 簡單得多,但在分散式計算的場合 mapreduce 卻又比 sql 簡單的多。而且 mapreduce 還能做 sql 做不到的事情,比如影象處理。
以 gb 的資料作為 vertica 或者 hadoop 的衡量基準,就像說"我們將要在波音 737 和 dc10 之間進行一場 50 公尺賽跑比賽"一樣。這樣的一場比賽甚至都無須起飛。上面部落格的對比也是一樣的道理。
這些技術顯然都不是設計用來處理這種級別的資料集。
如果有乙個可伸縮的系統即使在小規模資料仍然很快的話當然更好,但這不是本文所討論的。在大規模資料時的效能結果是否還是這麼明顯,這個問題就不是那麼顯而易見的了,確實值得證明。
sql server,my sql,oracle與hadoop哪個才是未來趨勢
3樓:網友
這個誰也說不準,因為sql server,my sql,oracle與hadoop現在是用量非常多,使用範圍也很廣,只是面對的應用環境不同;
oracle、mysql、sqlserver資料庫排名一直是前三甲,近幾年都是,沒變過,使用量遠遠超出其它資料庫,在商業環境中使用很廣泛;
hadoop是是分析處理大資料的其中乙個平臺,使用人數最多;
使用哪個具體看情況。
sql server,my sql,oracle與hadoop哪個才是未來趨勢
4樓:一騎當後
1.前面三個是傳統的關係型資料庫。
是個分散式計算平臺,桐豎用來做大資料的。
3.什麼叫做未來的趨勢,hadoop現在已經是大資料的標察碰準方案了,mysql是個自建應用很成熟的方案,也可以做分散式局沒大。
oracle過時了嗎?mysql,mongodb,hadoop誰是未來
5樓:網友
oracle 、mysql是傳統的關係型資料庫,常用語大中型應用及的企業開發。
mongodb,hadoop是 物件型資料庫,儲存的是單個物件,是與計算、大資料的主流選擇。
基於hadoop的sql引擎怎麼挑
6樓:網友
sql語言。
支援的sql語言越多,能使用的應用程式也就越多。並且,支援的語言越豐富,hadoop能執行的查詢程式就越多,應用和報表工具要做的就越少。
節點連線。在大表上快速有效地執行節點連線並不容易,尤其是在sql引擎不知道資料儲存在哪的情況下。效率低下的連線過程會導致大量的i/o,以及不同節點之間巨大的資料傳輸,最終影響處理速度。
非結構化資料。
sql是為結構化資料設計的。表中的每一條記錄都位於同一列,每一列都有同樣的屬性。但在大資料時代,並不是所有的資料都是結構化的。
hadoop檔案中可能包含巢狀的資料、可變的資料(具有層級結構)、無模式的資料和自我描述的資料。基於hadoop的sql引擎必須能夠把所有資料都轉換為關係資料,並優化這些資料之間的查詢。
sql server,my sql,oracle與hadoop哪個才是未來趨勢
7樓:網友
sql基礎語句都差不多,但說是哪個最好就不好了,要根據具體需求和你的喜好,我覺得oracle最高大上,其他幾種差不多。
如何選擇滿足需求的sql on hadoop系統
8樓:匿名使用者
spark sql主世差要的推動者是databricks。提到spark sql不得不提的就是可以理解為spark社群這邊搞的乙個」hive on spark」,把hive的物理執行計劃使用spark計算引擎去執行。這裡面會有一些問題,hive社群那邊沒有把物理執行計劃到執緩弊行引擎這個步驟抽象出公共api,所以spark社群這邊要自己維護乙個hive的分支,而且hive的設計和發展不太會考慮到如何優化spark的job。
但是前面提到的hive on spark卻是和hive一起釋出的,是由hive社群控制的。
所以後來spark社群就停止了shark的開發轉向spark sql(「坑了」一部分當時信任shark的人)搜哪皮。spark sql是把sql解析成rdd的transformation和action,而且通過catalyst可以自由、靈活的選擇最優執行方案。對資料庫有深入研究的人就會知道,sql執行計劃的優化是乙個非常重要的環節,spark sql在這方面的優勢非常明顯,提供了乙個非常靈活、可擴充套件的架構。
但是spark sql是基於記憶體的,後設資料放在記憶體裡面,不適合作為資料倉儲的一部分來使用。所以有了spark sql的hivecontext,就是相容hive的spark sql。它支援hiveql, hive metastore, hive serdes and hive udfs以及jdbc driver。
這樣看起來很完美,但是實際上也有一些缺點:spark sql依賴於hive的乙個snapshot,所以它總是比hive的釋出晚乙個版本,很多hive新的feature和bug fix它就無法包括。而且目前看spark社群在spark的thriftserver方面的投入不是很大,所以感覺它不是特別想朝著這個方向發展。
還有乙個重要的缺點就是spark sql目前還不能通過分析sql來**這個查詢需要多少資源從而申請對應的資源,所以在共享叢集上無法高效地分配資源和排程任務。
三更和五更分別指什麼時候
三更是子時,即夜間十一點至凌晨一點 四更是1 3點 五更是最後一更,已到寅時,即黎明前的三點至五點鐘我國古代還有把夜晚分為五個時段的方法,叫五夜或五更,情況如下。五更與現今時間比較表 夜間時辰五夜 五更時間 黃昏甲夜 一更19 21人定 乙夜二更 21 23夜半 丙夜三更 23 1雞鳴 丁夜四更 1...
什麼時候開始胎教比較好,胎教什麼時候開始比較好?
萌新寶爸寶媽應該知道的,胎教要什麼時候開始呢 胎教什麼時候開始比較好?萌新寶爸寶媽應該知道的,胎教要什麼時候開始呢 胎兒的神經系統在第4孕周時已經開始建立 第8 1l孕周時,胎兒對壓觸覺有了反應 第16 19孕周時,胎兒的聽力形成 從孕第20周起,胎兒視網膜形成,開始對光線有了感應。因此,選擇胎教的...
MVP科比什麼時候是?MVP
只能祈禱詹姆斯等球星沒手感,這樣小飛俠就能得到今年的mvp了!科比加油!湖人加油!我覺得目前看來不可能了!靠他一個人打球,他的球隊戰績不可能會很好的!常規賽mvp根本不可能了!要拿總冠軍那可一個人能行嗎?靠一個科比根本不行,所以總冠軍mvp也不可能了!現在要是他能轉會,出去可能能行!因為他需要左右臂...