Do the right thing , do the
things right.

About Me

我是华晓蔚,这个博客作为科研学习、技术整理的记录。

当前关注把实验、工程实践和学习路径沉淀成结构化笔记,有兴趣请联系邮箱。

Internship Experience

实习经历主要集中在推荐系统基础设施与视频业务前端工程两条线,覆盖 GPU 向量检索、系统性能优化、跨端基建与客户端工程治理。

2025.01 - 2025.03

Tencent 腾讯 / TRS推荐中台 / 推荐系统基础架构中心 · 向量数据库

向量数据库实习

C++CUDAPythonGolangFaissCUDA VMM

TRS腾讯推荐中台基于PCG领先的大规模机器学习和个性化推荐技术,融合腾讯视频、QQ浏览器、腾讯QQ、腾讯新闻等多业务的推荐积累,提供集推荐全模块组件服务-管理平台一体的一站式推荐系统解决方案。

  • Performance在 Faiss GPU 现有基础上,参考学术界文献,引入 RadiK top-k selection 算法并将其改良以适配分块距离计算,成功突破 Faiss 原有 2048 的 top-k 限制,在 top-k=2048 场景下将 GPU 检索 QPS 提升约 13×,P99 延迟由秒级降至百毫秒级,显著提升大 top-k 检索吞吐。
  • Realtime参与补齐 Faiss 实时向量增删改能力,基于 CUDA VMM 虚拟显存机制重映射 id,大幅缩减内存拷贝开销,将文档的单条删除从毫秒级优化到微秒级,支撑推荐系统与 RAG 场景的高实时性要求。
  • System为了充分释放 GPU 的并行能力,参与设计将零散召回请求自动重组为 batch 的 GPU 检索调度组件,使用无锁队列 + 专用 batch 线程 + 线程池执行模型,将线上单 query 请求自动聚合为大 batch,大幅提升系统 QPS。
  • Memory基于 CUDA VMM 提供的虚拟显存机制,引入按需分页扩容与分块计算策略,支持同卡多索引实例稳定运行,消除显存扩容峰导致的 OOM 风险,在百万级高维向量检索场景下相较纯 CPU 方案实现单节点 QPS/cost 的数量级提升。

2025.06 - 2025.08

Tencent 腾讯 / 腾讯视频

前端开发实习

VueViteSassWebpackNode.jsTypeScript
  • feature深度参与腾讯视频互动一码体系下的开发;熟练进行 AB 实验、埋点上报、性能指标监控、流水线编排。
  • infra参与跨平台基建工作,编写横跨五平台的一致性组件。
  • refactor对存量老页面、旧组件进行新技术栈重构,加速 PC 客户端从 32 位向 64 位升级。
  • fix解决一系列存量疑难 bug;进行客户端内存泄漏排查。

Project Experience

项目侧重点放在可长期维护的 Agent / RAG 系统与工程化交付,而不是一次性的 demo。

2025.09 - 至今

Synctios / 智能聊天记录全链路分析系统

开源项目 / 核心开发

TypeScriptNode.jsLangGraphSQLite-vecOllamaReactTailwind CSS

面向 QQ 聊天记录分析与检索场景,构建集数据接入、预处理、摘要生成、兴趣打分、RAG 问答与可视化面板于一体的 Monorepo 系统。

  • 架构负责 8 个子应用 Monorepo 的核心链路设计,打通 data-provider -> preprocessing -> ai-model -> webui 全流程,统一 tRPC / Express / Agenda / 多数据库协作,支撑聊天导入、主题聚合、日报生成与群组分析。
  • Agent基于 LangGraph 重构 Agent 执行器,接入 SQLite checkpointer,实现 tool-calling 循环、历史会话持久化、time-travel / HITL 底座与 conversationId 并发保护;Web 端通过 SSE 流式回传 token、tool_call 与 result 事件。
  • RAG落地 Ollama + bge-m3 的 1024 维向量检索链路,结合 Multi-Query 查询扩展、结果去重、RAG 上下文构建与群昵称匿名化策略,增强长对话语义问答的可控性与追溯性。
  • 工程完善 HMR 开发模式、健康检查与 CPU / 内存 / 存储趋势监控,后端改动支持 2~5 秒热重载、前端 HMR 通常低于 1 秒,并预留 Docker Compose + Nginx 一键部署方案。

Technical Stack

围绕全栈、Agent、LLM 与三维视觉四条主线持续迭代。

前后端全栈

TypeScriptJavaScriptReactNext.jsVueViteSassTailwind CSSNode.jsExpresstRPCSQLitePostgreSQLDocker ComposeNginxWebpack

Agent 开发

LangGraphtool callingSSE streamingcheckpointingconversation state persistencetime-travel / HITLworkflow orchestrationtrace / replaysession memory

LLM

OllamaRAGbge-m3query expansionMulti-Query retrievaldedupe / rerankprompt chainingevaluation harnessoffline replayprompt regression

三维视觉

PyTorchOpenCVCOLMAP3D Gaussian Splattingcamera pose estimationpoint cloud / reconstruction basicsrendering pipeline optimization

Current Learning

最近把学习重心放在 infra、eval harness 与 3DGS 三条线。

AI Infra

继续补 runtime scheduling、batching、观测性、资源隔离和 GPU/CPU 混部下的服务路径设计,重点关注真实系统里的吞吐与尾延迟取舍。

Harness / Evals

把 tool-use eval、offline replay、prompt regression、trace-based debugging 这些链路整理成更可复现的评测与回归基线。

3DGS

最近在补 3D Gaussian Splatting 的数据预处理、相机位姿恢复、训练效率与实时渲染细节,顺手串联 COLMAP 到渲染管线的关键环节。