DuckDB 嵌入式数据分析与可视化管理实战：轻量级数仓的降维打击

先说结论：DuckDB 是我近半年用得最爽的数据工具，没有之一。 它把「嵌入式 OLAP」这个概念变成了真正可用的生产力——单文件、零配置、SQLite 的体感加上 ClickHouse 级别的分析速度，配合一套可视化生态，直接把我从 Pandas 慢查询和 Excel 卡死中解放出来。

为什么是 DuckDB，而不是 SQLite 或 Pandas？

先说我碰到的痛点。平时处理的数据量级在几百万到几亿行之间，用 Pandas 做 groupby 聚合经常撑爆内存，SQLite 虽然扛得住写入但分析查询慢得离谱——它毕竟不是为 OLAP 设计的。以前的选择要么上 ClickHouse、Doris 这种重服务，要么忍受本地工具的性能瓶颈。

DuckDB 的破局点很刁钻：

列式存储 + 向量化执行：分析查询比 SQLite 快 10-100 倍，跟 ClickHouse 同一级别
嵌入式无服务：不像 ClickHouse 需要跑一个 daemon，它就是个库，跟 SQLite 一样直接嵌入应用
零依赖：一个 exe 或一个 Python 包，搞定
多数据源直连：直接查 CSV、Parquet、JSON、PostgreSQL，不需要先导入

我现在的标准工作流：DuckDB 做 ETL 和聚合 → 可视化工具消费结果 → 完事。 中间省掉了搭建数仓、配置数据管道这些重型操作。

环境搭建：真的只要一行

pip install duckdb duckdb-engine jupysql

就这三样。duckdb-engine 让 DuckDB 可以作为 SQLAlchemy 方言被任何 BI 工具连接，jupysql 是 Jupyter 里写 SQL 的神器。

不用 Python 的话，直接下 CLI：

# Windows
winget install DuckDB.cli

# macOS
brew install duckdb

启动就是 duckdb，直接进 SQL 交互模式，跟 sqlite3 一模一样。

实战一：从 CSV 一路干到 Parquet

我日常最频繁的操作：把各种零散数据清洗后转成 Parquet，再做聚合分析。DuckDB 最让我舒服的就是不需要建表、不需要定义 schema，直接怼文件：

-- 直接查 CSV，零配置
SELECT date, COUNT(DISTINCT user_id) as dau
FROM 'raw_logs_2025.csv'
WHERE event_type = 'page_view'
GROUP BY date
ORDER BY date;

这一步直接干掉了 Pandas 最恶心的一环：pd.read_csv() 等半天，然后 df.groupby() 内存爆炸。DuckDB 的 CSV 读取是流式的，不会把整个文件加载到内存。

转存为列式格式：

-- 把 CSV 转 Parquet，自动压缩
COPY (
  SELECT *, strptime(date, '%Y-%m-%d') as dt
  FROM 'raw_logs_*.csv'
) TO 'clean_logs.parquet' (FORMAT PARQUET, COMPRESSION ZSTD);

重点说一下：Parquet 加 ZSTD 压缩比通常在 5-10 倍。我一个 2.3GB 的 CSV 转完只剩 280MB，查询速度还翻了几倍。

实战二：跨数据源关联查询

DuckDB 最炸裂的能力：直接在多个异构数据源之间做 JOIN。下面这个例子我每天都在用：

-- PostgreSQL 的生产数据、S3 上的导出行、本地 CSV 合在一起查
SELECT
    u.segment,
    COUNT(DISTINCT o.order_id) as orders,
    SUM(o.amount) as revenue
FROM 'orders_export.parquet' o
JOIN postgres_scan('host=prod pgdb=analytics', 'users') u
    ON o.user_id = u.id
WHERE o.created_at >= '2025-01-01'
GROUP BY u.segment;

不需要 ETL 管道，不需要先把数据拉到同一个地方。DuckDB 就是那个「同一个地方」——它是查询引擎，不是存储引擎。

支持的数据源包括：

数据源	访问方式
本地文件	直接路径引用
PostgreSQL / MySQL	`postgres_scan` / `mysql_scan`
S3 / GCS	`read_parquet('s3://bucket/*.parquet')`
HTTP(S)	`read_csv('https://...')`
SQLite	`sqlite_scan`

注意: 远程数据源需要安装扩展，INSTALL postgres_scanner; LOAD postgres_scanner; 一行搞定。

实战三：用 Jupysql 在 Notebook 里写 SQL

DuckDB 加 Jupysql 的组合，比 Pandas 的链式调用舒服太多：

%load_ext jupysql
%sql duckdb:///

%%sql
SELECT
    strftime(created_at, '%Y-%m') as month,
    product_category,
    SUM(revenue) as total_revenue,
    COUNT(DISTINCT user_id) as paying_users,
    total_revenue / paying_users as arpu
FROM 'sales.parquet'
GROUP BY month, product_category
ORDER BY month, total_revenue DESC;

结果直接以 DataFrame 形式返回，可以接着用 Python 做后续处理或可视化：

result = %sql SELECT product_category, SUM(revenue) as rev FROM 'sales.parquet' GROUP BY ALL ORDER BY rev DESC LIMIT 10
result.DataFrame().plot.bar(x='product_category', y='rev')

Jupysql 还支持变量插值、自动格式化为 Markdown 表格、导出为 CSV——这些细节极大提升了交互体验。

可视化埋坑实录：我用过的 3 个方案

这里不美化，如实说踩过的坑。

方案 1：Grafana + DuckDB

这是我第一个想到的方案。Grafana 有官方的 duckdb 数据源插件，装好就能用。

优点：仪表盘专业、告警体系成熟、时间序列图表好看。

坑点：Grafana 每次刷新页面都会重新跑 SQL，如果底层数据是几百 MB 的 Parquet，每次都要全量扫描，卡到怀疑人生。解决方案是用 DuckDB 的 物化视图：

CREATE TABLE dashboard_cache AS
SELECT date, segment, metrics...
FROM source_data
WHERE date >= current_date - INTERVAL '30 days';

然后 Grafana 连这个预聚合的表。代价是数据不是实时最新的，但我能接受延迟 1 小时，换来秒级响应。

方案 2：Evidence.dev（强推）

Evidence 是一个开源 BI 工具，核心哲学是 Markdown 加 SQL 等于报告。它原生支持 DuckDB：

SELECT segment, COUNT(*) as cnt, SUM(amount) as revenue

FROM 'sales.parquet'

GROUP BY segment


## 各 Segment 表现

<BarChart data={orders_by_segment} x=segment y=revenue/>

优点：版本可控（所有内容都是文本文件）、渲染在服务端（浏览器不跑 SQL）、Git 友好。

缺点：交互式下钻不如 Grafana 灵活，适合做定期报告而不是实时监控。

方案 3：Streamlit + DuckDB

最轻量级的方案，适合内部工具：

import streamlit as st
import duckdb

con = duckdb.connect('analytics.duckdb')

query = st.text_area('SQL 查询', 'SELECT * FROM "sales.parquet" LIMIT 100')
if st.button('执行'):
    df = con.execute(query).fetchdf()
    st.dataframe(df)
    st.download_button('导出 CSV', df.to_csv(), 'result.csv')

优点：写起来最快、自由度最高。坑点：一旦查询慢了，Streamlit 页面直接卡死整个 session。一定要加超时和 LIMIT 保护。

性能优化：三个最有用的技巧

1. 用 Parquet 分区裁剪

这是最立竿见影的优化。DuckDB 支持 partition pruning，如果你的数据按日期分区，查最近 7 天只扫描对应的文件：

-- 写入时按日期分区
COPY source_data TO 'data/' (FORMAT PARQUET, PARTITION_BY (date));

-- 查的时候只扫相关分区
SELECT * FROM read_parquet('data/*/*.parquet', hive_partitioning=true)
WHERE date >= '2025-05-01';  -- 只扫描 5 月的数据

2. 用 `EXPLAIN` 看执行计划

遇到慢查询，别瞎猜：

EXPLAIN SELECT ...;

DuckDB 会告诉你每一步的耗时和行数。我最常遇到的问题：没走 filter pushdown，导致全表扫描。加个 WHERE 条件里的字段如果恰好在 Parquet 的统计信息里，DuckDB 会自动跳过不相关的 row group。

3. 内存不够用？调这个参数

默认 DuckDB 会用系统内存的一半。如果跑大查询把电脑搞卡了：

SET memory_limit = '2GB';
SET threads = 4;

内存有限时配合临时目录：

SET temp_directory = 'E:/temp_duckdb/';

DuckDB 会优雅地把数据 spill 到磁盘，不会直接崩掉——这一点比 Pandas 良心太多了。

我踩过的 3 个坑

坑 1：字符串编码

DuckDB 默认 UTF-8，但国内很多老旧 CSV 是 GBK 编码。直接读会乱码甚至报错：

-- × 报错
SELECT * FROM 'gbk_file.csv';

-- √ 明确指定编码
SELECT * FROM read_csv('gbk_file.csv', auto_detect=true, encoding='gbk');

坑 2：大数据量下的 COUNT DISTINCT

几百亿行的 COUNT(DISTINCT user_id) 在 DuckDB 里会吃很多内存。DuckDB 支持 approximate count distinct：

SELECT approx_count_distinct(user_id) FROM huge_table;

误差通常在 1-2% 以内，对 99% 的分析场景完全够用。

坑 3：并发写入

DuckDB 不是为高并发写入设计的。多个进程同时写同一个 .duckdb 文件会坏库。解决方案：写用 SQLite 或应用 DB，分析用 DuckDB 读副本。或者直接用文件（CSV/Parquet）作为数据源，DuckDB 只读。

总结：什么场景适合 DuckDB？

场景	推荐度	理由
本地数据探索	⭐⭐⭐⭐⭐	零配置，查 CSV/Parquet 秒级
嵌入式分析应用	⭐⭐⭐⭐⭐	Python 里嵌一个 DuckDB，用户无感知
BI 报告后端	⭐⭐⭐⭐	配合 Evidence/Grafana，替代重型数仓
ETL 管道	⭐⭐⭐⭐	跨数据源 JOIN + 导出 Parquet
OLTP 在线交易	❌	换 PostgreSQL/SQLite
高并发查询服务	❌	换 ClickHouse/Doris

一句话总结：DuckDB 就是数据分析师的瑞士军刀——平时揣兜里不占地方，遇到活拿出来削铁如泥。它替代不了大型数仓，但如果你跟我一样，80% 的分析需求是在本地或单机上完成的，那它可能是 2025 年最值得投入时间的数据工具。

延伸思考

DuckDB 的 Wasm 版本可以在浏览器里跑完整 SQL 分析，前端技术栈说不定会冒出新形态的数据产品
它的 pyarrow 集成让 DataFrame 零拷贝交互成为可能，Pandas 的替代方案正在成型
当嵌入式分析引擎成熟后，传统 BI 工具「必须连一个数据库」的假设还成立吗？

你可能感兴趣的文章

来源：每日教程， 每日一例，深入学习实用技术教程，关注公众号TeachCourse
转载请注明出处： https://teachcourse.cn/4172.html ，谢谢支持！

资源分享

分类：Android 标签：

DuckDB 嵌入式数据分析与可视化管理实战：轻量级数仓的降维打击

DuckDB 嵌入式数据分析与可视化管理实战：轻量级数仓的降维打击

为什么是 DuckDB，而不是 SQLite 或 Pandas？

环境搭建：真的只要一行

实战一：从 CSV 一路干到 Parquet

实战二：跨数据源关联查询

实战三：用 Jupysql 在 Notebook 里写 SQL

可视化埋坑实录：我用过的 3 个方案

方案 1：Grafana + DuckDB

方案 2：Evidence.dev（强推）

方案 3：Streamlit + DuckDB

性能优化：三个最有用的技巧

1. 用 Parquet 分区裁剪

2. 用 `EXPLAIN` 看执行计划

3. 内存不够用？调这个参数

我踩过的 3 个坑

坑 1：字符串编码

坑 2：大数据量下的 COUNT DISTINCT

坑 3：并发写入

总结：什么场景适合 DuckDB？

延伸思考

你可能感兴趣的文章

资源分享

性能优化实践二

浅谈Dialog的dismiss和removeDialog

Python库flask实现激活码忘记查询实现

浅谈XML的封装与解析

APP签名的三种方式使用说明

windows系统自动化批处理命令

AI Agent 提示词工程实战：从对话到精准代码生成

Bun 运行时生产环境迁移实战：从 Node.js 到 Bun，我踩过的坑和最终收益

解决Android SDK无法下载或下载慢相关问题

wordpress+apche通过启用基本的HTTP身份验证来限制对某些敏感页面的访问具体实现

赞助2.00

DuckDB 嵌入式数据分析与可视化管理实战：轻量级数仓的降维打击

为什么是 DuckDB，而不是 SQLite 或 Pandas？

环境搭建：真的只要一行

实战一：从 CSV 一路干到 Parquet

实战二：跨数据源关联查询

实战三：用 Jupysql 在 Notebook 里写 SQL

可视化埋坑实录：我用过的 3 个方案

方案 1：Grafana + DuckDB

方案 2：Evidence.dev（强推）

方案 3：Streamlit + DuckDB

性能优化：三个最有用的技巧

1. 用 Parquet 分区裁剪

2. 用 `EXPLAIN` 看执行计划

3. 内存不够用？调这个参数

我踩过的 3 个坑

坑 1：字符串编码

坑 2：大数据量下的 COUNT DISTINCT

坑 3：并发写入

总结：什么场景适合 DuckDB？

延伸思考

你可能感兴趣的文章

资源分享

选择：

赞助2.00