課程費用

6800.00 /人

課程時長

4

成為教練

課程簡介

理解智能數據湖的核心概念、架構和優(yōu)勢。
掌握構建現代數據湖的最新技術棧。
學習數據湖中的數據治理、安全和合規(guī)。
掌握在數據湖中進行高效數據分析和探索的方法。
學習將AI和機器學習集成到數據湖中,實現智能化數據洞察。
了解數據湖的應用場景和最佳實踐。

目標收益

培訓對象

數據工程師、數據架構師、數據科學家、數據分析師、以及對構建智能數據湖感興趣的技術人員。

課程內容

第一天:數據湖基礎與現代架構
?模塊 1:數據湖概念與演進 (上午)
o數據湖的定義、特點和優(yōu)勢
o數據湖與數據倉庫、數據集市的對比
o傳統(tǒng)數據湖的挑戰(zhàn)與智能數據湖的演進
o智能數據湖的關鍵特性:元數據驅動、自動化、AI集成
o智能數據湖的應用場景:實時分析、數據科學、商業(yè)智能
?模塊 2:現代數據湖架構設計 (上午)
o數據湖架構的構成要素:存儲、計算、元數據、安全、治理
o分層數據湖架構:Raw Layer, Curated Layer, Analytics Layer
o湖倉一體 (Lakehouse) 架構:Delta Lake, Apache Iceberg, Apache Hudi
o數據網格 (Data Mesh) 架構:去中心化數據管理與自治域
o選擇合適的架構模式:根據業(yè)務需求和技術棧
o動手實踐:討論并設計符合特定場景的數據湖架構
?模塊 3:數據湖存儲與計算 (下午)
o數據湖存儲技術:對象存儲 (Amazon S3, Azure Blob Storage, Google Cloud Storage)
o數據湖計算引擎:Apache Spark, Presto, Trino, Dask
o無服務器計算:AWS Lambda, Azure Functions, Google Cloud Functions
o選擇合適的存儲和計算引擎:根據數據量、查詢模式和成本
o性能優(yōu)化:數據分區(qū)、壓縮、索引、緩存
o動手實踐:使用Spark讀取對象存儲中的數據并進行簡單計算
?模塊 4:數據攝取與集成 (下午)
o數據攝取模式:批量攝取、流式攝取、增量攝取
o數據攝取工具:Apache Kafka, Apache NiFi, AWS Kinesis, Azure Event Hubs, Google Cloud Dataflow
oCDC (Change Data Capture) 技術:Debezium, Maxwell
o數據格式與序列化:Parquet, Avro, ORC
o數據質量保證:數據清洗、數據驗證、數據轉換
o動手實踐:使用Kafka將流式數據攝取到數據湖中
第二天:數據治理、安全與分析
?模塊 5:數據湖元數據管理 (上午)
o元數據的重要性:數據發(fā)現、數據理解、數據治理
o元數據管理工具:Apache Hive Metastore, AWS Glue Data Catalog, Azure Purview, Google Cloud Data Catalog
o統(tǒng)一元數據標準:Apache Atlas
o數據血緣分析:追蹤數據的來源和轉換過程
o數據字典與業(yè)務術語表:定義和管理數據資產
o動手實踐:使用AWS Glue Data Catalog創(chuàng)建和管理數據湖的元數據
?模塊 6:數據湖安全與合規(guī) (上午)
o數據湖安全挑戰(zhàn):數據泄露、權限控制、訪問審計
o數據湖安全措施:身份驗證、授權、加密、數據脫敏
o訪問控制策略:基于角色 (RBAC)、基于屬性 (ABAC)
o數據審計與監(jiān)控:追蹤用戶行為、檢測異常訪問
o數據合規(guī):GDPR, CCPA, HIPAA
o動手實踐:配置數據湖的訪問權限控制策略
?模塊 7:數據湖分析與探索 (下午)
o數據分析工具:SQL引擎 (Spark SQL, Presto, Trino), BI工具 (Tableau, Power BI, Looker)
o交互式數據探索:使用Jupyter Notebook, Zeppelin
o高級分析技術:OLAP, 數據挖掘, 統(tǒng)計分析
o實時分析:使用Spark Streaming, Flink進行流式數據分析
o動手實踐:使用SQL引擎查詢數據湖中的數據并生成分析報告
?模塊 8:數據湖數據質量管理 (下午)
o數據質量維度:完整性,準確性,一致性,及時性
o數據質量監(jiān)控:設定數據質量規(guī)則和監(jiān)控指標
o數據質量工具:Deequ, Great Expectations
o數據治理流程:數據質量問題發(fā)現,修復,預防
o動手實踐:使用Great Expectations 驗證從新數據源攝取的數據質量
第三天:AI驅動的智能數據湖
?模塊 9:AI與機器學習基礎 (上午)
o機器學習算法回顧:監(jiān)督學習、非監(jiān)督學習、強化學習
o模型評估與選擇:準確率、召回率、F1值、AUC、ROC
o特征工程:特征提取、特征選擇、特征轉換
o模型部署:在線部署、批量部署、邊緣部署
oAI平臺與工具:TensorFlow, PyTorch, Scikit-learn, MLflow, Kubeflow
?模塊 10:在數據湖中構建AI模型 (上午)
o使用Spark MLlib構建機器學習模型
o使用分布式深度學習框架:Horovod
o使用AutoML工具:自動選擇模型、優(yōu)化參數、生成代碼
o模型版本管理與實驗跟蹤:使用MLflow
o模型可解釋性:理解模型預測的原因
o動手實踐:使用Spark MLlib構建預測模型并進行評估
?模塊 11:AI驅動的數據湖智能化 (下午)
o智能數據治理:基于AI的元數據自動標注、數據質量檢測
o智能數據發(fā)現:基于AI的語義搜索和推薦
o智能異常檢測:基于AI的異常值識別和預測
o智能預測分析:基于AI的趨勢預測和風險評估
o智能推薦系統(tǒng):基于AI的個性化推薦和內容推送
o動手實踐:在數據湖中構建一個智能異常檢測系統(tǒng)
?模塊 12:LLM 在智能數據湖的應用(下午)
o探索 LLM (大型語言模型)在智能數據湖的應用場景
o利用 LLM 進行數據湖內容生成,例如自動數據描述,文檔等
o利用 LLM 生成和優(yōu)化 ETL 代碼
o利用 LLM 對現有數據分析代碼進行評審
oLLM 在數據治理中的應用,例如利用 LLM 做數據質量檢測
o動手實踐:使用 OpenAI API 和 Langchain 自動生成數據質量檢測規(guī)則
可選模塊 (根據客戶需求調整)
?實時數據湖與流處理
o使用Kafka, Flink, Spark Streaming構建實時數據管道
o實時數據分析與監(jiān)控
o實時機器學習與在線學習
?云原生數據湖
o在AWS, Azure, GCP上構建數據湖
o使用云廠商提供的托管服務:AWS Glue, Azure Synapse Analytics, Google Cloud Dataproc
?數據湖安全與隱私高級議題
o差分隱私
o聯邦學習
o多方安全計算
工具與技術:
?對象存儲:Amazon S3, Azure Blob Storage, Google Cloud Storage
?計算引擎:Apache Spark, Presto, Trino, Dask
?數據攝?。篈pache Kafka, Apache NiFi, AWS Kinesis, Azure Event Hubs, Google Cloud Dataflow
?元數據管理:Apache Hive Metastore, AWS Glue Data Catalog, Azure Purview, Google Cloud Data Catalog, Apache Atlas
?數據治理:Delta Lake, Apache Iceberg, Apache Hudi, Deequ, Great Expectations
?機器學習:TensorFlow, PyTorch, Scikit-learn, MLlib
?AI平臺:MLflow, Kubeflow
oLLM 相關: OpenAI API, Langchain

課程費用

6800.00 /人

課程時長

4

預約體驗票 我要分享

近期公開課推薦

近期公開課推薦

活動詳情

提交需求