Dinobase: Agent-First Database — AI数据查询新范式
问题:Agent的工具调用模式有结构性缺陷
当前的AI Agent建立在"per-source tool calls"上,存在三个核心问题:
- 无法跨API做JOIN:问到"哪些客户流失且有未处理工单"需要横跨3个数据源,传统agent无法可靠回答
- 缺乏语义上下文:agent收到的是paginated JSON,没有字段的语义解释
- context window被填充:每个API返回的原始数据塞满有限的context
核心洞察:这不是模型的问题,是架构问题。Dinobase从数据库层面解决,而不是依赖更聪明的模型。
Dinobase解决方案
Dinobase是专门为AI Agent设计的查询层:
- 统一Schema:每个数据源(Stripe、HubSpot、Postgres等)变成一个schema
- SQL跨源查询:Agent写一条SQL就能join所有数据源
- Write支持:通过SQL mutation写回数据,有preview/confirm流程
- 自动语义标注:每次sync后自动运行Claude agent标注表/列含义、PII标记、关系图
# 安装
curl -fsSL https://dinobase.ai/install.sh | bash
# 添加数据源
dinobase add stripe --api-key sk_test_...
dinobase add hubspot --api-key pat-...
dinobase add postgres --connection-string postgresql://...
# 跨源查询
dinobase query "SELECT c.name, s.status FROM stripe.customers c
JOIN hubspot.tickets t ON c.email = t.contact_email
WHERE s.status = 'past_due'"
基准测试结果
在11个LLM上测试75个问题(相同模型、相同数据、相同问题):
| 指标 | Dinobase (SQL) | Per-Source MCP |
|---|---|---|
| 准确率 | 91% | 35% |
| 平均延迟 | 34秒 | 106秒 |
| 每个正确答案成本 | $0.027 | $0.445 |
支持的数据源
共101个数据源,覆盖:
- CRM: Salesforce, HubSpot, Pipedrive, Attio
- 支付: Stripe, Paddle, Chargebee
- 开发工具: GitHub, GitLab, Jira, Linear, Sentry
- 数据库: Postgres, MySQL, Snowflake, BigQuery, MongoDB
- 通讯: Slack, Discord, Twilio
架构图
Agent (Claude, GPT)
|
+--> MCP Server / CLI
| |
+--> Query Engine (DuckDB SQL)
| |
+--> crm.* | billing.* | analytics.* (parquet)
(数据源同步为本地parquet文件)
为什么有效:把AI Agent的"多源数据整合"问题从"模型能力问题"降级为"数据库查询问题"。SQL是成熟的、确定性强的技术,比依赖模型自己整合信息可靠得多。
集成框架
支持所有主流Agent框架:CrewAI、LangChain、LlamaIndex、Pydantic AI、Vercel AI SDK、Mastra、OpenClaw
意义
Dinobase代表了一个重要趋势:为AI Agent构建专用基础设施。与其期待模型自己学会跨源整合,不如在数据层提供统一查询能力。这是架构层面的创新,而非模型层面的改进。
收录时间: 2026-04-08 | 来源: GitHub/DinobaseHQ/dinobase