Do the right thing , do the
things right.

About Me

我是华晓蔚，这个博客作为科研学习、技术整理的记录。

当前关注把实验、工程实践和学习路径沉淀成结构化笔记，有兴趣请联系邮箱。

Internship Experience

实习经历主要集中在推荐系统基础设施与视频业务前端工程两条线，覆盖 GPU 向量检索、系统性能优化、跨端基建与客户端工程治理。

2025.01 - 2025.03

Tencent 腾讯 / TRS推荐中台 / 推荐系统基础架构中心 · 向量数据库

C++CUDAPythonGolangFaissCUDA VMM

TRS腾讯推荐中台基于PCG领先的大规模机器学习和个性化推荐技术，融合腾讯视频、QQ浏览器、腾讯QQ、腾讯新闻等多业务的推荐积累，提供集推荐全模块组件服务-管理平台一体的一站式推荐系统解决方案。

Performance在 Faiss GPU 现有基础上，参考学术界文献，引入 RadiK top-k selection 算法并将其改良以适配分块距离计算，成功突破 Faiss 原有 2048 的 top-k 限制，在 top-k=2048 场景下将 GPU 检索 QPS 提升约 13×，P99 延迟由秒级降至百毫秒级，显著提升大 top-k 检索吞吐。
Realtime参与补齐 Faiss 实时向量增删改能力，基于 CUDA VMM 虚拟显存机制重映射 id，大幅缩减内存拷贝开销，将文档的单条删除从毫秒级优化到微秒级，支撑推荐系统与 RAG 场景的高实时性要求。
System为了充分释放 GPU 的并行能力，参与设计将零散召回请求自动重组为 batch 的 GPU 检索调度组件，使用无锁队列 + 专用 batch 线程 + 线程池执行模型，将线上单 query 请求自动聚合为大 batch，大幅提升系统 QPS。
Memory基于 CUDA VMM 提供的虚拟显存机制，引入按需分页扩容与分块计算策略，支持同卡多索引实例稳定运行，消除显存扩容峰导致的 OOM 风险，在百万级高维向量检索场景下相较纯 CPU 方案实现单节点 QPS/cost 的数量级提升。

2025.06 - 2025.08

Tencent 腾讯 / 腾讯视频

VueViteSassWebpackNode.jsTypeScript

项目侧重点放在可长期维护的 Agent / RAG 系统与工程化交付，而不是一次性的 demo。

2025.09 - 至今

Synctios / 智能聊天记录全链路分析系统

TypeScriptNode.jsLangGraphSQLite-vecOllamaReactTailwind CSS

面向 QQ 聊天记录分析与检索场景，构建集数据接入、预处理、摘要生成、兴趣打分、RAG 问答与可视化面板于一体的 Monorepo 系统。

架构负责 8 个子应用 Monorepo 的核心链路设计，打通 data-provider -> preprocessing -> ai-model -> webui 全流程，统一 tRPC / Express / Agenda / 多数据库协作，支撑聊天导入、主题聚合、日报生成与群组分析。
Agent基于 LangGraph 重构 Agent 执行器，接入 SQLite checkpointer，实现 tool-calling 循环、历史会话持久化、time-travel / HITL 底座与 conversationId 并发保护；Web 端通过 SSE 流式回传 token、tool_call 与 result 事件。
RAG落地 Ollama + bge-m3 的 1024 维向量检索链路，结合 Multi-Query 查询扩展、结果去重、RAG 上下文构建与群昵称匿名化策略，增强长对话语义问答的可控性与追溯性。
工程完善 HMR 开发模式、健康检查与 CPU / 内存 / 存储趋势监控，后端改动支持 2~5 秒热重载、前端 HMR 通常低于 1 秒，并预留 Docker Compose + Nginx 一键部署方案。

围绕全栈、Agent、LLM 与三维视觉四条主线持续迭代。

TypeScriptJavaScriptReactNext.jsVueViteSassTailwind CSSNode.jsExpresstRPCSQLitePostgreSQLDocker ComposeNginxWebpack

LangGraphtool callingSSE streamingcheckpointingconversation state persistencetime-travel / HITLworkflow orchestrationtrace / replaysession memory

OllamaRAGbge-m3query expansionMulti-Query retrievaldedupe / rerankprompt chainingevaluation harnessoffline replayprompt regression

PyTorchOpenCVCOLMAP3D Gaussian Splattingcamera pose estimationpoint cloud / reconstruction basicsrendering pipeline optimization

最近把学习重心放在 infra、eval harness 与 3DGS 三条线。

AI Infra

继续补 runtime scheduling、batching、观测性、资源隔离和 GPU/CPU 混部下的服务路径设计，重点关注真实系统里的吞吐与尾延迟取舍。

Harness / Evals

把 tool-use eval、offline replay、prompt regression、trace-based debugging 这些链路整理成更可复现的评测与回归基线。

3DGS

最近在补 3D Gaussian Splatting 的数据预处理、相机位姿恢复、训练效率与实时渲染细节，顺手串联 COLMAP 到渲染管线的关键环节。