這是用戶在 2025-7-12 18:33 為 https://www.infoq.cn/article/kogPbMRO9Uw2PwPTvSGe 保存的雙語快照頁面,由 沉浸式翻譯 提供雙語支持。了解如何保存?
寫點什麼

Databricks 為 Apache Spark 提供了 Spark 聲明式管道

作者: Patrick Farry

  • 2025-07-04
    北京
  • 本文字數:1206 字

    閱讀完需:約 4 分鐘

大小:457.36K 時長:02:36
Databricks为Apache Spark提供了Spark声明式管道

在 6 月 10 日至 12 日於美國舊金山舉行的 Databricks Data+AI 峰會上,Databricks 宣佈將 Delta Live Tables(DLT)背後的技術貢獻給 Apache Spark 專案 ,這個專案中,它將被稱為 Spark 聲明式管道(Spark Declarative Pipelines)。 這一舉措將使 Spark 使用者更容易開發和維護流式管道,並進一步體現了 Databrick 對開源的承諾。

 

這個新特性允許開發人員定義數據流管道,而不需要在 Spark 中創建常見的命令式命令。 雖然這些變化簡化了編寫和維護管道代碼的任務,但使用者仍需要理解 Spark 的運行時行為,並能夠解決性能和正確性等問題。

 

一篇描述新功能的博文中,Databricks 寫道,可以使用 SQL 語法或通過一個簡單的 Python SDK 來定義管道,該 SDK 聲明流式數據源、表及其關係,而不是編寫命令式 Spark 命令。 該公司聲稱這將減少對 Apache Airflow 等編排器管理管道的需求。

 

在後台,框架解釋查詢,然後創建依賴圖並優化執行計劃。

 

聲明式管道支援來自流式數據源(如 Apache Kafka 主題)的流表,並為存儲聚合和結果提供物化檢視。 物化檢視會在流表接收到新數據時自動更新。

 

Databricks 在其文檔中提供了 SQL 語法的概述 。 摘錄如下。 該示例基於紐約市 TLC 行程記錄數據集。

 

-- 青铜层:原始数据摄取CREATE OR REFRESH STREAMING TABLE taxi_raw_records (CONSTRAINT valid_distance EXPECT (trip_distance > 0.0) ON VIOLATION DROP ROW)AS SELECT *FROM STREAM(samples.nyctaxi.trips);
-- 白银层1:标记的行程CREATE OR REFRESH STREAMING TABLE flagged_rides AS SELECT date_trunc("week", tpep_pickup_datetime) as week, pickup_zip as zip, fare_amount, trip_distanceFROM STREAM(LIVE.taxi_raw_records)WHERE ((pickup_zip = dropoff_zip AND fare_amount > 50) OR (trip_distance < 5 AND fare_amount > 50));
複製代碼

 

該示例展示了如何使用 CREATE STREAMING TABLE 命令定義流來構建管道,然後在後續查詢中使用 FROM 語句消費它們。 這個範例值得注意的是,能夠使用 CONSTRAIN ... EXPECT … ON VIOLATION 語法在管道中包含數據質量檢查。

 

雖然 Apache Spark 的更改尚未發佈,但許多文章已經描述了使用 Databricks DLT 的工程師的經驗。 在 Medium 上發表的一篇名為“ 為什麼我喜歡 Databricks 中的 Delta Live Tables”的文章中,Mariusz Kujawski 描述了 DLT 的功能以及如何最好地使用它們:“有了 DLT,你只需要幾個小時就可以構建一個攝取管道,相比之下,開發一個自定義框架需要幾天的時間。 此外,內置的數據質量保證提供了額外的可靠性層。 ”

 

除了用於定義管道的聲明式語法外,Spark 聲明式管道還支援變更數據捕獲(CDC)、批處理和流邏輯、內置重試邏輯和可觀測性鉤子。

 

聲明式管道正在被合併到 Spark 專案中。 該特性計劃在 2026 年 1 月發布的下一個 Spark 版本 4.10 中使用。 可以在工單 SPARK-51727 中查看 Apache Jira Spark 項目中進度。

 

原文連結:

https://www.infoq.com/news/2025/07/databricks-declarative-pipelines/

大會推薦:
8 月 22~23 日的 AICon 深圳站 將以 “探索 AI 應用邊界” 為主題,聚焦 Agent、多模態、AI 產品設計等熱門方向,圍繞企業如何通過大模型降低成本、提升經營效率的實際應用案例,邀請來自頭部企業、大廠以及明星創業公司的專家,帶來一線的大模型實踐經驗和前沿洞察。 一起探索 AI 應用的更多可能,發掘 AI 驅動業務增長的新路徑!

2025-07-04 16:008511

評論

發佈
暫無評論

OceanBase 發佈全新 Logo,寓意「流動的數據」

OceanBase 資料庫

資料庫 oceanbase

mac 電腦打開應用「意外退出」的問題

互聯網搬磚工作者

視窗管理員:Lasso 中文啟動版

真大的臉盆

Mac Mac 軟體 視窗管理 視窗管理工具

雲端集成更便捷,得帆雲 iPaaS 助力企業上雲更成功!

得帆資訊

平臺 雲產品

策略 | 通過 NFTScan 進行 NFT 投資組合的管理和資訊追蹤

NFT Research

NFT NFTScan

微前端架構的業務價值:實現獨立部署、快速反覆運算和按需載入

FinFish

微前端 小程式容器 小程式化 微前端框架

業界首發丨《雲原生網路數據面可觀測性最佳實踐》重磅來襲

阿裡巴巴雲原生

阿裡雲 雲原生 可觀測

容量王者,超級電容容量為何這麼大???

元器件秋姐

科普 汽車電子 元器件 新能源 電容

Flink Table Store 獨立孵化啟動 ,Apache Paimon 誕生

Apache Flink

大數據 flink 實時計算

數智轉型助力建築業全產業鏈升級,你瞭解多少?

加入高科技仿生人

低代碼 數位孿生 數智化 建築業

終於學完國內演演算法牛人10年經驗總結的數據結構與演算法詳解文檔

爪哇島 數據結構 演算法

強勢升級! 融雲上線第四代通信網 SD-CAN V4

融雲 RongCloud

網路 通信 融雲

軟體測試/測試開發丨移動端 App 自動化之觸屏操作自動化

測試人

軟體測試 自動化測試 測試開發

從反脆弱角度說一說:技術系統高可用性策略

爪哇島 高可用

自學網路安全不知道這些,勸你提早放棄

喀拉峻

駭客 網路安全 自學

2+1鏈動模式商城開發系統案例

薇電13242772558

NFT

SpringCloud 整合 Gateway 服務閘道

爪哇島 Spring Cloud Gateway 服務閘道

統一觀測丨使用 Prometheus 監控 SNMP,我們該關注哪些指標?

阿裡巴巴雲原生

阿裡雲 雲原生 Prometheus snmp

Spring 源碼解析-從源碼角度看 bean 的循環依賴

爪哇島 spring 源碼

MobTech|場景喚醒的實現

MobTech 袤博科技

CNStack 雲邊協同平台:實現原生邊緣竟能如此簡單

阿裡巴巴雲原生

阿裡雲 雲原生 CNStack

MobTech|如何使用秒驗

MobTech 袤博科技

海泰方圓出席首屆工業和資訊化領域商用密碼應用峰會

電子資訊發燒客

女朋友不懂 Spring 事務原理,今天給她講清楚了!

爪哇島 spring 事務

保利威1號演播廳重磅亮相,「新品+標準」引領企業進入元宇宙直播

ToB 行業頭條

雲原生資料庫 | Data Infra 第 10 期

數據彎

大廠直通車! GitHub 獨一份的 Jenkins+k8s 核心知識筆記(全彩版)

爪哇島 Kubernetes k8s jenkins

谷歌架構師分享 gRPC 與雲原生應用開發 Go 和 Java 為例文檔

爪哇島 gRPC 雲原生

Databricks为Apache Spark提供了Spark声明式管道_大数据_InfoQ精选文章