近日,大數據軟件公司 Databricks 獲得 6000 萬美元 C 輪融資,由New Enterprise Associates 領投,Andreessen Horowitz 參投,本次投資有望幫助公司完成在數據的組織、計算和交付方面的一次跨躍。
Databricks 成立于 2013 年,總部設在舊金山,屬于 Spark 的商業化公司,由美國伯克利大學 AMP 實驗室著名的 Spark 大數據處理系統多位創始人聯合創立。Databricks 致力于提供基于 Spark 的云服務,可用于數據集成,數據管道等任務。
Databricks 曾在 2014 年獲得 3300 萬美元的投資,當時他們推出了第一個產品 Databricks Cloud,這是一個通過將流程置于云端來簡化大數據處理云平臺。
Databricks 公司的云解決方案由三部分組成:Databricks 平臺、Spark 和 Databricks 工作區。該產品背后的理念是提供處理數據的單獨空間,不受托管環境和 Hadoop 集群管理的影響,整個過程在云中完成。該產品有幾個核心概念:由 Notebooks 提供一種與數據交互并構建圖形的方法,當用戶了解了顯示數據的方式時,就可以開始構建主控面板以監視某些類型的數據。最后,用戶可以通過該平臺的任務啟動器來規劃 Apache Spark 的運行時間。
Spark 數據處理引擎據稱比 Cloudera 和 MapR 的 Apache Hadoop 要快。Coudera 公司在 2014 年籌集了大約 10 億美元高調入場,聲稱他們有比以前的基礎設施技術更好的方式來存儲和管理大量的數據。這是 Facebook 和 Google 等公司用來處理他們收集的數十億個數據的工具。Spark 關注的地方不再數據的存儲,而是如何最有效地管理數據。
Databricks 的 Spark 系統能使大量數據在下一代應用中易于理解和使用,是數據科學家長期努力的方向。數據處理的速度和容量在當下具有許多應用,能夠處理數據并使企業內部人員可以有效地理解和使用數據并提供有效服務的公司將成為最大的贏家。作為 Hadoop 開源工具組合的一部分,Spark 項目已經獲得了非常可觀的收入。
去年,該公司就 Spark的 機器學習能力與 IBM 建立了合作伙伴關系。不少數據科學家正在涌向 Databricks 的項目。他們的社區有 288,000 名成員以及來自 250 個組織的 1,000 多名積極貢獻者。
截至目前,Databricks 累計融資超過 1 億美元。公司 CEO 兼聯合創始人 Ali Ghodsi 在一份聲明中表示:
Apache Spark 的高級分析解決方案幫助很多企業和早期用戶創造了商業價值。隨著市場對 Spark 平臺的需求和認可的不斷提升,這筆資金將幫助我們推進計算機工程和市場戰略,解決客戶的痛點,同時繼續擴大Spark社區。
2016 年 11 月,在“計算界奧運會” Sort Benchmark 全球數據排序大賽公布的結果中, Databricks 公司和南京大學計算機科學與技術系 PASA 大數據實驗室以及阿里巴巴組成的參賽團隊 NADSort 榮獲 2016 年 CloudSort 大數據排序世界冠軍。該團隊以 144 美元的成本完成 100TB 標準數據集的排序處理,將100 TB數據的排序價格從 2014 年的每 TB 4.51 美元的記錄降到了每 TB 1.44 美元,同時刷新了多項世界紀錄。
Sort Benchmark 是圖靈獎獲得者 Jim Gray 發起組織的全球性數據排序基準性能評測大賽,自 1987 年開始每年舉辦一次。CloudSort 評測競賽項目又被稱為“云計算效率之爭”,旨降低云架構的獲取成本,包括軟件堆棧、硬件堆棧等,鼓勵企業將大數據應用程序部署到公共云上。