数学表达式
本文用来记录一些MOT中的数学表达式 马式距离(Mahalanobis distance)可以看作是欧氏距离的一种修正,修正了欧式距离中各个维度尺度不一致且相关的问题。它考虑了数据的类型,从而使得距离的表达更加有效。(例如身高和体重两个类型的数据。)$$D_{\mathbf{M}}(\mathbf{x}, \mathbf{y}) = \sqrt{(\mathbf{x} - \mathbf{y})^{\mathrm{T}} \mathbf{M}^{-1} (\mathbf{x} - \mathbf{y})}$$其中 x,y 是数据样本点,M 是协方差矩阵。
偶然学会的小技巧
本文记录一些偶然用到的小技巧,跟科研无直接关联(也许?) 暴力破解压缩包密码参考资料 大致思路借助工具:join the ripper & hashcat,在命令行中运行。 首先利用join the ripper获得hash值 1rar2john.exe xxxx.rar 假如我们获得的输出是:”$rar5$16$4ce713ae3e7b5bc7f6ccff8fafa09fcc$15$bd7b7c38adefdb434dfb6424b6280e64$8$f6f2a7f332e958e5” 使用hashcat对hash码进行破解 1hashcat.exe -m 13000 -a 3 hash -o password.txt -m 13000: 代表hash的类型值,需要通过hashcat官网进行查询。例如上述例子的类型为 rar5 对应值为13000hashcat官网 -a 3: 代表破解类型为掩码攻击,即无字典 -o password.txt: 代表结果保存在该文件里
tricks
本文记录一些刷点的小技巧 对每个序列进行独立调参BYTE“For higher MOTA, you need to carefully tune the test image size and high score detection threshold of each sequence”
dataset
本文主要介绍几个自己用到的数据集 KITTIKITTI数据集由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办,是一个自动驾驶场景下的大规模数据集。KITTI数据采集平台包括2个灰度摄像机,2个彩色摄像机,一个Velodyne 3D激光雷达,4个光学镜头,以及1个GPS导航系统。往往常用的是左侧彩色摄像头和激光雷达传感器。 数据格式 Values Name Description 1 type Describes the type of object: ‘Car’, ‘Van’, ‘Truck’, ‘Pedestrian’, ‘Person_sitting’, ‘Cyclist’, ‘Tram’, ‘Misc’ or ‘DontCare’ 1 truncated Float from 0 (non-truncated) to 1 (truncated), where truncated refers to the object leaving image boundaries 1 occluded Integer (0,1,2,3) indicating o...
nn_training
本篇文章主要记录一些GPU训练的内容 GPU情况查看1nvidia-smi GPU:GPU 编号; Name:GPU 型号; Persistence-M:持续模式的状态。持续模式虽然耗能大,但是在新的GPU应用启动时,花费的时间更少,这里显示的是off的状态; Fan:风扇转速,从0到100%之间变动; Temp:温度,单位是摄氏度; Perf:性能状态,从P0到P12,P0表示最大性能,P12表示状态最小性能(即 GPU 未工作时为P0,达到最大工作限度时为P12)。 Pwr:Usage/Cap:能耗; Memory Usage:显存使用率; Bus-Id:涉及GPU总线的东西,domain:bus:device.function; Disp.A:Display Active,表示GPU的显示是否初始化; Volatile GPU-Util:浮动的GPU利用率; Uncorr. ECC:Error Correcting Code,错误检查与纠正; Compute M:compute mode,计算模式。 超参数调优常见的超参数调优方法:网格搜索、随机搜索和贝叶斯...
linux_tools
本文大致介绍一下linux里常用工具,如ffmpeg,simple ffmpegffmpeg是经典的视频(图像)编辑工具,可以实现图片制作视频,视频提取图片,制作GIF等功能。这些都是多目标追踪过程中常用的工具。 安装Windows下直接搜索官网,在“release build”中找到“ffmpeg-x.x.x-essentials_build.zip”下载即可。解压完成后,将/bin文件的路径添加到系统环境变量中即可。 图片制作视频1ffmpeg -framerate 30 -i %06d.jpg -vf "scale=1544:1080" -c:v libx264 -r 30 -pix_fmt yuv420p output.mp4 -framerate:设置输入图片的帧率为 30 帧每秒 -i:指定输入文件的格式 -s:设置输出视频的分辨率 -c:v:指定视频编码器,如“libx264” -c:a:指定音频编码器 -r: 设置输出视频的帧率 -pix_fmt yuv420p: 设置像素格式为 yuv420p,这是大多数播放器支持的格式。 na...
bevformer
本文记录BEVFormer复现中需要注意的一些地方 torch相关安装在官方教程中,给了推荐的torch的版本。经过实验,pytorch不要超过1.10,因为它取消了一个特性。[THC/THC.h: No such file or directory报错解决][1] 12pip install torch==1.9.1+cu111 torchvision==0.10.1+cu111 torchaudio==0.9.1 -f https://download.pytorch.org/whl/torch_stable.html# Recommended torch>=1.9 mmcv-full的安装如果按照官方的做法,往往会卡住(科学上网可能会比较顺利),下面提供其它方法。我们通过mmcv-full官方推荐的方法进行下载。[Building wheel for mmcv-full (setup.py) … error解决办法][2] 12pip install -U openmimmim install mmcv-full==1.4.0 安装mmdet and mm...
yolo
简要介绍yolov5的原理,以及yoloX的提升。 YOLOv5YOLO系列的核心思想就是把目标检测转变为一个回归问题,利用整张图片作为网络的输入,通过神经网络,得到边界框的位置及其所属的类别。 组成Backbone负责从输入图像中提取有用的特征。在较早的层中提取低层次的特征(如边缘和纹理),在较深层中提取高层次的特征(如物体和语义信息)。 Neck聚集并细化骨干网提取的特征,通常侧重于加强不同尺度的空间和语义信息。 Head根据特征进行预测,最后非极大值抑制(NMS),过滤掉重叠的预测,只保留置信度最高的检测。 基本工作原理 数据预处理Mosaic数据增强:按照随机缩放、随机裁剪和随机排布的方式对四幅图像进行拼接。自适应图像缩放:统一缩放到一个标准尺寸 网络结构 Focus:特殊的下采样模块 CSP:CSP1_X应用于backbone主干网络部分,backbone是较深的网络,增加残差结构可以增加层与层之间反向传播的梯度值,避免因为层数加深而带来的梯度消失。CSP2_X相对于CSP1_X来说,将Resunit换成了2 * X个CBS,主要应用在Neck网络 (网络没那...
BEV
本文主要大致介绍一种新的感知框架:BEV。参考资料:自动驾驶中常聊的BEV感知到底是什么?,小白也能看懂的BEV感知技术(二) 什么是感知模块以多种传感器的数据与高精度地图的信息为输入,经过一系列的计算和处理,对周围环境精确感知的系统,作用相当于人眼。其感知识别任务本质上是对物理世界进行3D几何重构,使计算机能够“认识”到物理世界中的实体和元素。 BEV的出现随着车辆上搭载的传感器越来越多、越来越复杂,且安装位置、视角和数据格式不尽相同,因此,以统一的视角将来自不同传感器的多源信息进行数据整合,在统一的视图中表示特征变得至关重要。BEV的英文全称为Bird’s-Eye-View,即鸟瞰视图,它模拟了从正上方垂直向下观看地球表面的效果,能够清晰地显示地形、建筑物、道路网络等地理要素之间的空间关系和布局。这种视图对于自动驾驶车辆而言至关重要,因为它简化了对周围环境的感知和理解。 BEV的特点优势 没有2D感知中常见的遮挡或缩放问题。识别有遮挡或交叉的车辆可以得到更好的解决。 以这种形式表示对象或道路元素有利于后续模块(如规划、控制)的开发和部署。 全局视野与统一坐标框架。将来自...
pytorch
Pytorchtorch.nntorch.nn的基础功能: 创建神经网络 训练神经网络 保存神经网络 恢复神经网络 nn.Linear类(全连接层)用于创建一个多输入、多输出的全连接层,注意本身并不包含激活函数(Functional)。 CLASS torch.nn.Linear 示例 1model = nn.Linear(in_features=5, out_features=10, bias=True) 参数说明 in_features: 输入的二维张量的大小。一般大小为 $n \times i$。其中,$n$ 代表样本数(batch size),$i$ 代表特征数。对于图片数据,特征数可能是多个维度相乘的形式。 out_features: 输出的二维张量的大小。这个参数指定了线性层输出的特征维度。 nn.functional(常见函数)nn.functional定义了创建神经网络所需要的一些常见的处理函数。如没有激活函数的神经元,各种激活函数等。torch.nn.functional 示例 12output = nn.functional.relu(...
