Databricks 為 Apache Spark 提供了 Spark 聲明式管道

這是用戶在 2025-7-12 18:33 為 https://www.infoq.cn/article/kogPbMRO9Uw2PwPTvSGe 保存的雙語快照頁面，由沉浸式翻譯提供雙語支持。了解如何保存？



 寫點什麼

登錄/註冊



大小：457.36K 時長：02：36

在 6 月 10 日至 12 日於美國舊金山舉行的 Databricks Data+AI 峰會上，Databricks 宣佈將 Delta Live Tables（DLT）背後的技術貢獻給 Apache Spark 專案，這個專案中，它將被稱為 Spark 聲明式管道（Spark Declarative Pipelines）。這一舉措將使 Spark 使用者更容易開發和維護流式管道，並進一步體現了 Databrick 對開源的承諾。

這個新特性允許開發人員定義數據流管道，而不需要在 Spark 中創建常見的命令式命令。雖然這些變化簡化了編寫和維護管道代碼的任務，但使用者仍需要理解 Spark 的運行時行為，並能夠解決性能和正確性等問題。

在一篇描述新功能的博文中，Databricks 寫道，可以使用 SQL 語法或通過一個簡單的 Python SDK 來定義管道，該 SDK 聲明流式數據源、表及其關係，而不是編寫命令式 Spark 命令。該公司聲稱這將減少對 Apache Airflow 等編排器管理管道的需求。

在後台，框架解釋查詢，然後創建依賴圖並優化執行計劃。

聲明式管道支援來自流式數據源（如 Apache Kafka 主題）的流表，並為存儲聚合和結果提供物化檢視。物化檢視會在流表接收到新數據時自動更新。

Databricks 在其文檔中提供了 SQL 語法的概述。摘錄如下。該示例基於紐約市 TLC 行程記錄數據集。

-- 青铜层：原始数据摄取CREATE OR REFRESH STREAMING TABLE taxi_raw_records (CONSTRAINT valid_distance EXPECT (trip_distance > 0.0) ON VIOLATION DROP ROW)AS SELECT *FROM STREAM(samples.nyctaxi.trips);
-- 白银层1：标记的行程CREATE OR REFRESH STREAMING TABLE flagged_rides AS SELECT  date_trunc("week", tpep_pickup_datetime) as week,  pickup_zip as zip,   fare_amount, trip_distanceFROM  STREAM(LIVE.taxi_raw_records)WHERE ((pickup_zip = dropoff_zip AND fare_amount > 50) OR       (trip_distance < 5 AND fare_amount > 50));

複製代碼

該示例展示了如何使用 CREATE STREAMING TABLE 命令定義流來構建管道，然後在後續查詢中使用 FROM 語句消費它們。這個範例值得注意的是，能夠使用 CONSTRAIN ... EXPECT … ON VIOLATION 語法在管道中包含數據質量檢查。

雖然 Apache Spark 的更改尚未發佈，但許多文章已經描述了使用 Databricks DLT 的工程師的經驗。在 Medium 上發表的一篇名為“ 為什麼我喜歡 Databricks 中的 Delta Live Tables”的文章中，Mariusz Kujawski 描述了 DLT 的功能以及如何最好地使用它們：“有了 DLT，你只需要幾個小時就可以構建一個攝取管道，相比之下，開發一個自定義框架需要幾天的時間。此外，內置的數據質量保證提供了額外的可靠性層。 ”

除了用於定義管道的聲明式語法外，Spark 聲明式管道還支援變更數據捕獲（CDC）、批處理和流邏輯、內置重試邏輯和可觀測性鉤子。

聲明式管道正在被合併到 Spark 專案中。該特性計劃在 2026 年 1 月發布的下一個 Spark 版本 4.10 中使用。可以在工單 SPARK-51727 中查看 Apache Jira Spark 項目中進度。

原文連結：

https://www.infoq.com/news/2025/07/databricks-declarative-pipelines/

大會推薦：
8 月 22~23 日的 AICon 深圳站將以 “探索 AI 應用邊界” 為主題，聚焦 Agent、多模態、AI 產品設計等熱門方向，圍繞企業如何通過大模型降低成本、提升經營效率的實際應用案例，邀請來自頭部企業、大廠以及明星創業公司的專家，帶來一線的大模型實踐經驗和前沿洞察。一起探索 AI 應用的更多可能，發掘 AI 驅動業務增長的新路徑！

创作场景

Databricks 為 Apache Spark 提供了 Spark 聲明式管道

評論

OceanBase 發佈全新 Logo，寓意「流動的數據」

mac 電腦打開應用「意外退出」的問題

視窗管理員：Lasso 中文啟動版

雲端集成更便捷，得帆雲 iPaaS 助力企業上雲更成功！

策略 | 通過 NFTScan 進行 NFT 投資組合的管理和資訊追蹤

微前端架構的業務價值：實現獨立部署、快速反覆運算和按需載入

業界首發丨《雲原生網路數據面可觀測性最佳實踐》重磅來襲

容量王者，超級電容容量為何這麼大???

Flink Table Store 獨立孵化啟動，Apache Paimon 誕生

數智轉型助力建築業全產業鏈升級，你瞭解多少？

終於學完國內演演算法牛人10年經驗總結的數據結構與演算法詳解文檔

強勢升級！融雲上線第四代通信網 SD-CAN V4

軟體測試/測試開發丨移動端 App 自動化之觸屏操作自動化

從反脆弱角度說一說：技術系統高可用性策略

自學網路安全不知道這些，勸你提早放棄

2+1鏈動模式商城開發系統案例

SpringCloud 整合 Gateway 服務閘道

統一觀測丨使用 Prometheus 監控 SNMP，我們該關注哪些指標？

Spring 源碼解析-從源碼角度看 bean 的循環依賴

MobTech|場景喚醒的實現

CNStack 雲邊協同平台：實現原生邊緣竟能如此簡單

MobTech|如何使用秒驗

海泰方圓出席首屆工業和資訊化領域商用密碼應用峰會

女朋友不懂 Spring 事務原理，今天給她講清楚了！

保利威1號演播廳重磅亮相，「新品+標準」引領企業進入元宇宙直播

雲原生資料庫 | Data Infra 第 10 期

大廠直通車！ GitHub 獨一份的 Jenkins+k8s 核心知識筆記（全彩版）

谷歌架構師分享 gRPC 與雲原生應用開發 Go 和 Java 為例文檔

创作场景

Databricks 為 Apache Spark 提供了 Spark 聲明式管道

評論

推薦閱讀

電子書

大廠實戰 PPT 下載