WhereHows项目与Looker数据集成配置指南
2025-07-06 05:50:43作者:咎竹峻Karen
前言
在企业数据治理领域,WhereHows作为LinkedIn开源的元数据管理平台,能够有效整合来自不同数据源的元数据信息。本文将详细介绍如何配置WhereHows平台与Looker商业智能工具的集成,实现Looker元数据的自动化采集。
准备工作
1. Looker API访问权限配置
1.1 登录Looker实例
首先使用管理员账号登录您的Looker实例,通常访问地址格式为:https://<your-looker-instance-name>.cloud.looker.com
1.2 创建权限集
- 进入"管理面板" → "角色"
- 点击"新建权限集"
- 命名为"DataHub连接器权限集"
- 勾选以下关键权限:
- 数据访问权限(access_data)
- LookML仪表板查看权限(see_lookml_dashboards)
- 查询查看权限(see_sql)
- 模型管理权限(manage_models)
- 系统活动查看权限(see_system_activity)
技术提示:这些权限确保了WhereHows能够完整获取Looker中的元数据信息,包括仪表板、查询、模型等关键组件。
1.3 创建角色
- 返回"角色"面板
- 点击"新建角色"
- 命名为"DataHub提取器"
- 关联上一步创建的权限集
- 设置模型集为"全部"
1.4 创建专用用户
- 进入"用户"管理面板
- 添加新用户
- 设置有效的邮箱地址
- 分配刚创建的"DataHub提取器"角色
1.5 生成API密钥
- 进入新创建的用户详情页
- 点击"编辑密钥"
- 生成新的API密钥
- 记录生成的客户端ID和客户端密钥
安全建议:建议将此API密钥存储在安全的密码管理工具中,避免直接暴露在配置文件中。
2. LookML元数据采集配置
2.1 生成SSH密钥对
在终端执行以下命令生成密钥对:
ssh-keygen -t rsa -b 4096 -f looker_datahub_deploy_key -N ""
这将生成:
- 私钥文件:
looker_datahub_deploy_key
- 公钥文件:
looker_datahub_deploy_key.pub
2.2 配置GitHub部署密钥
- 登录GitHub仓库
- 进入"Settings" → "Deploy keys"
- 添加新的部署密钥
- 粘贴公钥内容(
.pub
文件) - 勾选"Allow read access"选项
技术实现原理
WhereHows通过Looker的API接口获取以下元数据信息:
- 模型元数据:包括Explore、View等LookML模型定义
- 仪表板信息:获取仪表板结构和使用情况
- 查询历史:分析用户查询模式
- 数据血缘:通过SQL解析建立数据血缘关系
常见问题排查
-
权限不足错误:
- 检查是否遗漏了必要的权限项
- 确认角色是否正确关联了权限集
-
API连接失败:
- 验证API密钥是否有效
- 检查Looker实例URL是否正确
-
GitHub访问问题:
- 确认部署密钥是否有读取权限
- 检查私钥格式是否正确
后续步骤
完成上述配置后,您需要在WhereHows的配置文件中设置以下参数:
- Looker API端点
- 客户端ID和密钥
- GitHub私钥内容
- 目标仓库地址
这些配置将使WhereHows能够定期从Looker提取最新的元数据信息,构建完整的企业数据资产目录。
最佳实践建议
- 建议设置专用的服务账号用于元数据采集
- 定期轮换API密钥以提高安全性
- 对于大型Looker实例,考虑分批次采集元数据
- 监控元数据采集作业的执行情况
通过本文介绍的配置方法,企业可以建立起Looker与WhereHows之间的元数据通道,为数据治理和分析提供坚实基础。