硅基之瞳

Transformer 自注意力机制详解：从单头推导到多头注意力

2026-07-15

技术笔记

transformer

/

self-attention

/

Multi-Head Attention

自注意力是 Transformer 架构的核心组件。它使模型在处理序列中的某个词时，不是孤立地编码该词，而是同时考察同一序列中所有其他词，计算它们与该词之间的相关性权重。本文从单个 token 的视角入手，再逐步展开为矩阵形式，依次推导 Q、K、V 的线性投影过程、缩放点积注意力的计算方式，以及多头注意力的拼接与融合机制。

33

|

0

从 AI 生成视频到目标检测数据集：一次本地 VLM 标注管线的工程记录

2026-06-09

2026-06-11

技术笔记

VLM

/

Ollama

/

Qwen3-VL

/

数据处理

从 AI 生成视频到 YOLO 能用的 COCO 数据集，中间隔着一整条工程管线。这篇文章记录了搭建过程：本地 Qwen3-VL做预标注，逐帧缓存保证任务可恢复，人工审核后再导出标准格式。

44

|

0

自动驾驶数据长尾分布问题：本地部署Wan2.2-TI2V-5B合成数据实践

2026-06-08

技术笔记

视频生成模型

/

合成数据

/

Wan 2.2

/

本地推理

上篇文章用即梦验证了视频生成模型合成长尾数据的可行性，但商业 API 成本高、数据要上传。这篇文章记录了在 RTX 4090工作站上本地部署 Wan2.2-TI2V-5B 开源图生视频模型的过程。围绕模型搭了一个工具（FastAPI +React），支持对话式单次生成和批量排队合成，生成后自动抽帧。

9

|

0

自动驾驶数据长尾分布问题：利用有世界先验的视频生成模型合成数据实践

2026-06-05

2026-06-08

技术笔记

自动驾驶

/

Seedance2.0

/

长尾问题

/

合成数据

本文记录了一次面向自动驾驶长尾数据问题的合成数据实验。针对真实数据中小动物横穿等低频目标样本不足的问题，尝试利用具备世界先验的视频生成模型，从真实道路图像出发生成小狗横穿场景，再通过抽帧构建候选训练样本。实验结果表明，相比传统贴图式合成，视频生成模型在接地关系、尺度、透视和运动连续性上更接近真实采集数据。后续工作将继续探索自动清洗、自动标注和真实验证集上的 Recall / mAP 评估。

16

|

0

自动驾驶多传感器融合建图：一次 IEKF-GNSS-LiDAR 排障实验的工程记录

2026-06-03

技术笔记

自动驾驶

/

多传感器融合

/

IEKF

/

SLAM

/

GNSS

接手一个 LiDAR-IMU-GNSS 建图系统，轨迹跟 GNSS 对不上。花一天排查：观测回调没注册、6-DOF 强约束拖歪姿态、1.4米杆臂补偿反致建图炸掉、坐标系对齐三组实验均未完全解决。一次排障记录。

20

|

0

自动驾驶多传感器融合建图：一次 IEKF-GNSS-LiDAR 排障实验的工程记录

4090 工作站软件维修记录

2026-05-22

2026-06-04

技术笔记

电脑维修

/

4090

/

Ubuntu

一次 Ubuntu 工作站维修的完整记录：从显示器无信号开始，经历 Safe Graphics 卡死、20.04/22.04 反复安装失败、绕路 Server 安装器、定位 fjes 冷门内核模块导致 udev 死锁、解决 GDM 启动慢与网络栈混乱，到最后发现热重启 kernel panic 并更换 HWE 6.8 内核。典型的洋葱式排障——一个问题解决之后，下一个问题才会露出来。

16

|

0

如何通过图像中已知角点坐标反求相机位置：PnP外参估计实践

2026-05-15

2026-06-02

技术笔记

calibration

/

感知

/

PnP

已知相机内参，已知场景中几个点的 3D 坐标，从图像中找到这些点的像素位置，求解相机在三维世界中的位姿——这就是 Perspective-n-Point（PnP）问题。本文涉及的工具已开源。

41

|

0

从四路鱼眼到鸟瞰图：BEV 环视原理与 surround-view-system-introduction 工程精读

2026-05-12

2026-06-02

技术笔记

自动驾驶

/

BEV

/

感知

/

calibration

本文围绕开源工程 [surround-view-system-introduction](https://github.com/neozhaoliang/surround-view-system-introduction)，分享了相关知识记录

171

|

0

从四路鱼眼到鸟瞰图：BEV 环视原理与 surround-view-system-introduction 工程精读

鱼眼相机也能做双目测距？——双鱼眼深度估计探索

2026-05-11

2026-06-02

技术笔记

stereo-vision

/

鱼眼相机

/

calibration

/

感知

两个鱼眼相机虽然畸变大、不水平对齐、光轴不平行，但如果它们有固定基线和明显的重叠视野，能否构成一个非标准的双目立体对来做三角化测距？答案是可行的。本文记录完整的探索过程、实验结果和工程经验。本文涉及的部分代码已开源在 GitHub。

79

|

0

相机标定入门：内参、外参、畸变与棋盘格标定

2026-05-11

2026-05-30

技术笔记

相机标定

/

感知

/

calibration

/

计算机视觉

/

OpenCV

相机标定是计算机视觉的"第一公里"。这篇文章从工程视角出发，解释四个问题： 1. 相机怎么把三维世界拍成二维图像？（针孔模型） 2. 为什么图像会有畸变？怎么描述这种畸变？ 3. 内参和外参分别代表什么？它们之间是什么关系？ 4. 棋盘格标定到底在算什么？重投影误差怎么看？

363

|

0