[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-ermig1979--Simd":3,"tool-ermig1979--Simd":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",156033,2,"2026-04-14T23:32:00",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":77,"owner_email":78,"owner_twitter":75,"owner_website":75,"owner_url":79,"languages":80,"stars":109,"forks":110,"last_commit_at":111,"license":112,"difficulty_score":113,"env_os":114,"env_gpu":115,"env_ram":116,"env_deps":117,"category_tags":123,"github_topics":124,"view_count":32,"oss_zip_url":75,"oss_zip_packed_at":75,"status":17,"created_at":141,"updated_at":142,"faqs":143,"releases":174},7630,"ermig1979\u002FSimd","Simd","C++ image processing and machine learning library with using of SIMD: SSE, AVX, AVX-512, AMX  for x86\u002Fx64, NEON for ARM, HVX for Hexagon","Simd 是一款专为 C 和 C++ 开发者打造的高性能开源图像处理和机器学习库。它致力于解决在资源受限或高负载场景下，传统算法处理速度不足的痛点，通过深度优化让图像分析任务跑得更快、更稳。\n\n无论是需要进行像素格式转换、图像缩放滤波，还是实现运动检测、物体识别分类乃至神经网络推理，Simd 都能提供现成的高效算法支持。其核心亮点在于充分利用了现代处理器的 SIMD（单指令多数据）扩展指令集，针对 x86\u002Fx64 架构支持 SSE、AVX、AVX-512 及 AMX，对 ARM 平台优化了 NEON，甚至覆盖了 Hexagon 的 HVX 指令。这种底层硬件级的加速策略，使得 Simd 能在不依赖昂贵专用硬件的前提下，显著提升计算效率。\n\nSimd 特别适合对性能有严苛要求的嵌入式工程师、计算机视觉研究员以及系统级软件开发人员。它不仅提供了简洁的 C 接口，还封装了易用的 C++ 类，并支持 Python 调用，兼容 Windows 和 Linux 主流编译环境。如果你正在寻找一个轻量、跨平台且能榨干 CPU 算力的图像处理方案，Simd 值得纳入你的技术选型清单。","Introduction\n============\n\nThe [Simd Library](http:\u002F\u002Fermig1979.github.io\u002FSimd) is a free open source image processing and machine learning library, designed for C and C++ programmers. \nIt provides many useful high performance algorithms for image processing such as: \npixel format conversion, image scaling and filtration, extraction of statistic information from images, motion detection,\nobject detection and classification, neural network.\n\nThe algorithms are optimized with using of different SIMD CPU extensions. \nIn particular the library supports following CPU extensions: \nSSE, AVX, AVX-512 and AMX for x86\u002Fx64, NEON for ARM, HVX for Hexagon.\n\nThe Simd Library has C API and also contains useful C++ classes and functions to facilitate access to C API. \nThe library supports dynamic and static linking, 32-bit and 64-bit Windows and Linux, \nMSVS, G++ and Clang compilers, MSVS project and CMake build systems.\n\nLibrary folder's structure\n==========================\n\nThe Simd Library has next folder's structure:\n\n* `simd\u002Fsrc\u002FSimd\u002F` - contains source codes of the library.\n* `simd\u002Fsrc\u002FTest\u002F` - contains test framework of the library.\n* `simd\u002Fsrc\u002FUse\u002F` - contains the use examples of the library.\n* `simd\u002Fpy\u002FSimdPy\u002F` - contains Python wrapper of the library.\n* `simd\u002Fprj\u002Fvs2022\u002F` - contains project files of Microsoft Visual Studio 2022.\n* `simd\u002Fprj\u002Fcmd\u002F` - contains additional scripts needed for building of the library in Windows.\n* `simd\u002Fprj\u002Fcmake\u002F` - contains files of CMake build systems.\n* `simd\u002Fprj\u002Fsh\u002F` - contains additional scripts needed for building of the library in Linux.\n* `simd\u002Fprj\u002Ftxt\u002F` - contains text files needed for building of the library.\n* `simd\u002Fdata\u002Fcascade\u002F` - contains OpenCV cascades (HAAR and LBP).\n* `simd\u002Fdata\u002Fimage\u002F` - contains image samples.\n* `simd\u002Fdata\u002Fnetwork\u002F` - contains examples of trained networks.\n* `simd\u002Fdocs\u002F` - contains documentation of the library.\n\nBuilding the library for Windows\n================================\n\nTo build the library and test application for Windows 32\u002F64 you need to use Microsoft Visual Studio 2022). \nThe project files are in the directory: \n\n`simd\u002Fprj\u002Fvs2022\u002F`\n\nBy default the library is built as a DLL (Dynamic Linked Library).\nYou also may build it as a static library. \nTo do this you must change appropriate property (Configuration Type) of **Simd** project and also uncomment `#define SIMD_STATIC` in file:\n\n`simd\u002Fsrc\u002FSimd\u002FSimdConfig.h`\n\nAlso in order to build the library you can use CMake and MinGW:\n\n\tmkdir build\n\tcd build\n\tcmake ..\\prj\\cmake -DSIMD_TOOLCHAIN=\"your_toolchain\\bin\\g++\" -DSIMD_TARGET=\"x86_64\" -DCMAKE_BUILD_TYPE=\"Release\" -G \"MinGW Makefiles\"\n\tmingw32-make\n\nBuilding the library for Linux\n==============================\n\nTo build the library and test application for Linux 32\u002F64 you need to use CMake build systems.\nFiles of CMake build systems are placed in the directory:\n\n`simd\u002Fprj\u002Fcmake\u002F`\n\t\nThe library can be built for x86\u002Fx64, ARM(32\u002F64), and Hexagon platforms using the G++ or Clang compilers.\nUsing the native compiler (g++) for the current platform is simple:\n\n\tmkdir build\n\tcd build\n\tcmake ..\u002Fprj\u002Fcmake -DSIMD_TOOLCHAIN=\"\" -DSIMD_TARGET=\"\"\n\tmake\n\t\nTo build the library for ARM(32\u002F64) platform you can also use a toolchain for cross compilation.\nThere is an example of using for ARM (32 bit):\n\n\tmkdir build\n\tcd build\n\tcmake ..\u002Fprj\u002Fcmake -DSIMD_TOOLCHAIN=\"\u002Fyour_toolchain\u002Fusr\u002Fbin\u002Farm-linux-gnueabihf-g++\" -DSIMD_TARGET=\"arm\" -DCMAKE_BUILD_TYPE=\"Release\"\n\tmake\n\nAnd for ARM (64 bit):\n\n\tmkdir build\n\tcd build\n\tcmake ..\u002Fprj\u002Fcmake -DSIMD_TOOLCHAIN=\"\u002Fyour_toolchain\u002Fusr\u002Fbin\u002Faarch64-linux-gnu-g++\" -DSIMD_TARGET=\"aarch64\" -DCMAKE_BUILD_TYPE=\"Release\"\n\tmake\n\nAnd for Hexagon with HVX (cross-compilation using the Hexagon Clang toolchain):\n\n\tmkdir build\n\tcd build\n\tcmake ..\u002Fprj\u002Fcmake -DSIMD_TOOLCHAIN=\"\u002Fyour_toolchain\u002Fbin\u002Fhexagon-linux-musl-clang\" -DSIMD_TARGET=\"hexagon\" -DCMAKE_BUILD_TYPE=\"Release\"\n\tmake\n\nAs result the library and the test application will be built in the current directory.\n\nThere are addition build parameters:\n\n* `SIMD_AVX512` - Enable of AVX-512 (AVX-512F, AVX-512CD, AVX-512VL, AVX-512DQ, AVX-512BW) CPU extensions. It is switched on by default.\n* `SIMD_AVX512VNNI` - Enable of AVX-512-VNNI CPU extensions. It is switched on by default.\n* `SIMD_AMXBF16` - Enable of AMX-BF16, AMX-INT8 and AVX-512-BF16 CPU extensions. It is switched off by default.\n* `SIMD_TEST` - Build test framework. It is switched on by default.\n* `SIMD_INFO` - Print build information. It is switched on by default.\n* `SIMD_PERF` - Enable of internal performance statistic. It is switched off by default.\n* `SIMD_SHARED` - Build as SHARED library. It is switched off by default.\n* `SIMD_GET_VERSION` - Call scipt to get Simd Library version. It is switched on by default.\n* `SIMD_SYNET` - Enable optimizations for Synet framework. It is switched on by default.\n* `SIMD_INT8_DEBUG` - Enable debug INT8 capabilities for Synet framework. It is switched off by default.\n* `SIMD_HIDE` - Hide internal functions of Simd Library. It is switched off by default.\n* `SIMD_RUNTIME` - Enable of runtime faster algorithm choise. It is switched on by default.\n* `SIMD_TEST_FLAGS` - Addition compiler flags to build test framework.\n* `SIMD_OPENCV` - Use OpenCV in test framework. It is switched off by default.\n* `SIMD_INSTALL` - Enabling of install target. It is switched on by default.\n* `SIMD_UNINSTALL` - Enabling of uninstall target. It is switched on by default.\n* `SIMD_PYTHON` - Enabling of Simd Python wrapper. It is switched on by default.\n\nUsing the library\n=================\n\nIf you use the library from C code you must include:\n\t\n    #include \"Simd\u002FSimdLib.h\"\n\nAnd to use the library from C++ code you must include:\n\n    #include \"Simd\u002FSimdLib.hpp\"\n\nIn order to use [Simd::Detection](http:\u002F\u002Fermig1979.github.io\u002FSimd\u002Fhelp\u002Fstruct_simd_1_1_detection.html) you must include:\n\n    #include \"Simd\u002FSimdDetection.hpp\"\n\t\nIn order to use [Simd::Neural](http:\u002F\u002Fermig1979.github.io\u002FSimd\u002Fhelp\u002Fnamespace_simd_1_1_neural.html) you must include:\n\n    #include \"Simd\u002FSimdNeural.hpp\"\n\t\nIn order to use [Simd::Motion](http:\u002F\u002Fermig1979.github.io\u002FSimd\u002Fhelp\u002Fnamespace_simd_1_1_motion.html) you must include:\n\n    #include \"Simd\u002FSimdMotion.hpp\"\n\nPackage Managers\n================\n\nYou can download and install simd using the [vcpkg](https:\u002F\u002Fgithub.com\u002FMicrosoft\u002Fvcpkg) dependency manager:\n\n    git clone https:\u002F\u002Fgithub.com\u002FMicrosoft\u002Fvcpkg.git\n    cd vcpkg\n    .\u002Fbootstrap-vcpkg.sh\n    .\u002Fvcpkg integrate install\n    .\u002Fvcpkg install simd\n\nThe simd port in vcpkg is kept up to date by Microsoft team members and community contributors. If the version is out of date, please [create an issue or pull request](https:\u002F\u002Fgithub.com\u002FMicrosoft\u002Fvcpkg) on the vcpkg repository.\n\nInteraction with OpenCV\n=======================\n\nIf you need to use mutual conversion between Simd and OpenCV types you just have to define macro `SIMD_OPENCV_ENABLE` before including of Simd headers:\n    \n    #include \u003Copencv2\u002Fcore\u002Fcore.hpp>\n    #define SIMD_OPENCV_ENABLE\n    #include \"Simd\u002FSimdLib.hpp\"\n\nAnd you can convert next types:\n\t\n* `cv::Point`, `cv::Size` \u003C--> `Simd::Point`.\n* `cv::Rect` \u003C--> `Simd::Rectangle`.\n* `cv::Mat` \u003C--> `Simd::View`.\n\t\nTest Framework\n==============\n\nThe test suite is needed for testing of correctness of work of the library and also for its performance testing.\nThere is a set of tests for every function from API of the library. \nThere is an example of test application using:\n\n\t.\u002FTest -m=a -tt=1 -f=Sobel -ot=log.txt\n\nWhere next parameters were used:\n\n* `-m=a` - a auto checking mode which includes performance testing (only for library built in Release mode). \nIn this case different implementations of each functions will be compared between themselves \n(for example a scalar implementation and implementations with using of different SIMD instructions such as SSE2, AVX2, and other).\nAlso it can be `-m=s` (running of special tests).\n* `-tt=1` - a number of test threads. There are special values: '-1' - using of all available threads for tests, '-2' - using of half of all available threads for tests.\n* `-fi=Sobel` - an include filter. In current case will be tested only functions which contain word 'Sobel' in their names. \nIf you miss this parameter then full testing will be performed.\nYou can use several filters - function name has to satisfy at least one of them.\n* `-ot=log.txt` - a file name with test report (in TEXT file format). The test's report also will be output to console.\n    \nAlso you can use parameters:\n\n* `--help` or `-?` in order to print help message.\n* `-r=..\u002F..` to set project root directory.\n* `-pa=1` to print alignment statistics.\n* `-pi=1` to print internal statistics (Cmake parameter SIMD_PERF must be ON).\n* `-c=512` a number of channels in test image for performance testing.\n* `-h=1080` a height of test image for performance testing.\n* `-w=1920` a width of test image for performance testing.\n* `-oh=log.html` - a file name with test report (in HTML file format).\t\n* `-s=sample.avi` a video source (See `Simd::Motion` test).\n* `-o=output.avi` an annotated video output (See `Simd::Motion` test).\n* `-wt=1` a thread number used to parallelize algorithms. Use -1 to set maximum parallelization.\n* `-fe=Abs` an exclude filter to exclude some tests.\n* `-mt=100` a minimal test execution time (in milliseconds).\n* `-lc=1` to litter CPU cache between test runs.\n* `-ri=city.jpg` a name of real image used in some tests. The image have to be placed in `.\u002Fdata\u002Fimage` directory.\n* `-tr=2` a number of test execution repeats.\n* `-ts=1` to print statistics of time of tests execution.\n* `-cc=1` to check c++ API.\n* `-de=2` a flags of SIMD extensions which testing are disabled. Base - 1, 2 - SSE4.1\u002FNEON\u002FHVX, 4 - AVX2, 8 - AVX-512BW, 16 - AVX-512VNNI, 32 - AMX-BF16.\n* `-wu=100` a time to warm up CPU before testing (in milliseconds).\n* `-pt=1` a boolean flag to pin threads to cpu cores.\n\n","简介\n============\n\n[Simd 库](http:\u002F\u002Fermig1979.github.io\u002FSimd) 是一个免费的开源图像处理和机器学习库，专为 C 和 C++ 程序员设计。它提供了许多高效的图像处理算法，包括：像素格式转换、图像缩放与滤波、从图像中提取统计信息、运动检测、目标检测与分类以及神经网络。\n\n这些算法通过使用不同的 SIMD CPU 扩展指令集进行了优化。具体来说，该库支持以下 CPU 指令集扩展：x86\u002Fx64 架构下的 SSE、AVX、AVX-512 和 AMX；ARM 架构下的 NEON；Hexagon 架构下的 HVX。\n\nSimd 库提供 C API，并包含一些有用的 C++ 类和函数，以方便开发者访问 C API。该库支持动态链接和静态链接，适用于 32 位和 64 位的 Windows 和 Linux 系统，兼容 MSVS、G++ 和 Clang 编译器，以及 MSVS 项目和 CMake 构建系统。\n\n库文件夹结构\n==========================\n\nSimd 库的文件夹结构如下：\n\n* `simd\u002Fsrc\u002FSimd\u002F` - 包含库的源代码。\n* `simd\u002Fsrc\u002FTest\u002F` - 包含库的测试框架。\n* `simd\u002Fsrc\u002FUse\u002F` - 包含库的使用示例。\n* `simd\u002Fpy\u002FSimdPy\u002F` - 包含库的 Python 封装。\n* `simd\u002Fprj\u002Fvs2022\u002F` - 包含 Microsoft Visual Studio 2022 的项目文件。\n* `simd\u002Fprj\u002Fcmd\u002F` - 包含在 Windows 系统下构建库所需的额外脚本。\n* `simd\u002Fprj\u002Fcmake\u002F` - 包含 CMake 构建系统的文件。\n* `simd\u002Fprj\u002Fsh\u002F` - 包含在 Linux 系统下构建库所需的额外脚本。\n* `simd\u002Fprj\u002Ftxt\u002F` - 包含构建库所需的文本文件。\n* `simd\u002Fdata\u002Fcascade\u002F` - 包含 OpenCV 级联分类器（HAAR 和 LBP）。\n* `simd\u002Fdata\u002Fimage\u002F` - 包含图像样本。\n* `simd\u002Fdata\u002Fnetwork\u002F` - 包含训练好的网络示例。\n* `simd\u002Fdocs\u002F` - 包含库的文档。\n\n在 Windows 上构建库\n================================\n\n要在 Windows 32\u002F64 位系统上构建库和测试应用程序，您需要使用 Microsoft Visual Studio 2022。项目文件位于以下目录：\n\n`simd\u002Fprj\u002Fvs2022\u002F`\n\n默认情况下，库会构建为 DLL（动态链接库）。您也可以将其构建为静态库。为此，您需要更改 **Simd** 项目的相应属性（配置类型），并在以下文件中取消注释 `#define SIMD_STATIC`：\n\n`simd\u002Fsrc\u002FSimd\u002FSimdConfig.h`\n\n此外，您还可以使用 CMake 和 MinGW 来构建库：\n\n\tmkdir build\n\tcd build\n\tcmake ..\\prj\\cmake -DSIMD_TOOLCHAIN=\"your_toolchain\\bin\\g++\" -DSIMD_TARGET=\"x86_64\" -DCMAKE_BUILD_TYPE=\"Release\" -G \"MinGW Makefiles\"\n\tmingw32-make\n\n在 Linux 上构建库\n==============================\n\n要在 Linux 32\u002F64 位系统上构建库和测试应用程序，您需要使用 CMake 构建系统。CMake 构建系统的文件位于以下目录：\n\n`simd\u002Fprj\u002Fcmake\u002F`\n\n该库可以针对 x86\u002Fx64、ARM（32\u002F64 位）以及 Hexagon 平台进行构建，使用 G++ 或 Clang 编译器。对于当前平台使用原生编译器（g++）非常简单：\n\n\tmkdir build\n\tcd build\n\tcmake ..\u002Fprj\u002Fcmake -DSIMD_TOOLCHAIN=\"\" -DSIMD_TARGET=\"\"\n\tmake\n\n要为 ARM（32\u002F64 位）平台构建库，您还可以使用交叉编译工具链。以下是针对 ARM（32 位）的示例：\n\n\tmkdir build\n\tcd build\n\tcmake ..\u002Fprj\u002Fcmake -DSIMD_TOOLCHAIN=\"\u002Fyour_toolchain\u002Fusr\u002Fbin\u002Farm-linux-gnueabihf-g++\" -DSIMD_TARGET=\"arm\" -DCMAKE_BUILD_TYPE=\"Release\"\n\tmake\n\n而对于 ARM（64 位）：\n\n\tmkdir build\n\tcd build\n\tcmake ..\u002Fprj\u002Fcmake -DSIMD_TOOLCHAIN=\"\u002Fyour_toolchain\u002Fusr\u002Fbin\u002Faarch64-linux-gnu-g++\" -DSIMD_TARGET=\"aarch64\" -DCMAKE_BUILD_TYPE=\"Release\"\n\tmake\n\n对于带有 HVX 的 Hexagon 平台（使用 Hexagon Clang 工具链进行交叉编译）：\n\n\tmkdir build\n\tcd build\n\tcmake ..\u002Fprj\u002Fcmake -DSIMD_TOOLCHAIN=\"\u002Fyour_toolchain\u002Fbin\u002Fhexagon-linux-musl-clang\" -DSIMD_TARGET=\"hexagon\" -DCMAKE_BUILD_TYPE=\"Release\"\n\tmake\n\n最终，库和测试应用程序将被构建到当前目录中。\n\n还有一些附加的构建参数：\n\n* `SIMD_AVX512` - 启用 AVX-512（AVX-512F、AVX-512CD、AVX-512VL、AVX-512DQ、AVX-512BW）CPU 扩展指令集。默认已启用。\n* `SIMD_AVX512VNNI` - 启用 AVX-512-VNNI CPU 扩展指令集。默认已启用。\n* `SIMD_AMXBF16` - 启用 AMX-BF16、AMX-INT8 和 AVX-512-BF16 CPU 扩展指令集。默认未启用。\n* `SIMD_TEST` - 构建测试框架。默认已启用。\n* `SIMD_INFO` - 打印构建信息。默认已启用。\n* `SIMD_PERF` - 启用内部性能统计功能。默认未启用。\n* `SIMD_SHARED` - 构建为共享库。默认未启用。\n* `SIMD_GET_VERSION` - 调用脚本来获取 Simd 库版本。默认已启用。\n* `SIMD_SYNET` - 为 Synet 框架启用优化。默认已启用。\n* `SIMD_INT8_DEBUG` - 为 Synet 框架启用 INT8 调试功能。默认未启用。\n* `SIMD_HIDE` - 隐藏 Simd 库的内部函数。默认未启用。\n* `SIMD_RUNTIME` - 启用运行时更快的算法选择。默认已启用。\n* `SIMD_TEST_FLAGS` - 用于构建测试框架的额外编译器标志。\n* `SIMD_OPENCV` - 在测试框架中使用 OpenCV。默认未启用。\n* `SIMD_INSTALL` - 启用安装目标。默认已启用。\n* `SIMD_UNINSTALL` - 启用卸载目标。默认已启用。\n* `SIMD_PYTHON` - 启用 Simd 的 Python 封装。默认已启用。\n\n使用库\n=================\n\n如果您从 C 代码中使用该库，您需要包含：\n\n    #include \"Simd\u002FSimdLib.h\"\n\n而如果从 C++ 代码中使用该库，您需要包含：\n\n    #include \"Simd\u002FSimdLib.hpp\"\n\n要使用 [Simd::Detection](http:\u002F\u002Fermig1979.github.io\u002FSimd\u002Fhelp\u002Fstruct_simd_1_1_detection.html)，您需要包含：\n\n    #include \"Simd\u002FSimdDetection.hpp\"\n\n要使用 [Simd::Neural](http:\u002F\u002Fermig1979.github.io\u002FSimd\u002Fhelp\u002Fnamespace_simd_1_1_neural.html)，您需要包含：\n\n    #include \"Simd\u002FSimdNeural.hpp\"\n\n要使用 [Simd::Motion](http:\u002F\u002Fermig1979.github.io\u002FSimd\u002Fhelp\u002Fnamespace_simd_1_1_motion.html)，您需要包含：\n\n    #include \"Simd\u002FSimdMotion.hpp\"\n\n包管理器\n================\n\n您可以使用依赖管理器 [vcpkg](https:\u002F\u002Fgithub.com\u002FMicrosoft\u002Fvcpkg) 下载并安装 simd：\n\n    git clone https:\u002F\u002Fgithub.com\u002FMicrosoft\u002Fvcpkg.git\n    cd vcpkg\n    .\u002Fbootstrap-vcpkg.sh\n    .\u002Fvcpkg integrate install\n    .\u002Fvcpkg install simd\n\nvcpkg 中的 simd 软件包由 Microsoft 团队成员和社区贡献者持续维护更新。如果版本过旧，请在 vcpkg 仓库中 [创建问题或拉取请求](https:\u002F\u002Fgithub.com\u002FMicrosoft\u002Fvcpkg)。\n\n与 OpenCV 的交互\n=======================\n\n如果您需要在 Simd 和 OpenCV 类型之间进行相互转换，只需在包含 Simd 头文件之前定义宏 `SIMD_OPENCV_ENABLE` 即可：\n\n    #include \u003Copencv2\u002Fcore\u002Fcore.hpp>\n    #define SIMD_OPENCV_ENABLE\n    #include \"Simd\u002FSimdLib.hpp\"\n\n然后您可以转换以下类型：\n\n* `cv::Point`, `cv::Size` \u003C--> `Simd::Point`。\n* `cv::Rect` \u003C--> `Simd::Rectangle`。\n* `cv::Mat` \u003C--> `Simd::View`。\n\n测试框架\n==============\n\n测试套件用于验证库的正确性以及性能测试。对于库 API 中的每一个函数，都有一组相应的测试用例。以下是使用测试应用程序的一个示例：\n\n\t.\u002FTest -m=a -tt=1 -f=Sobel -ot=log.txt\n\n其中使用的参数说明如下：\n\n* `-m=a`：自动检查模式，包含性能测试（仅适用于以 Release 模式构建的库）。在这种模式下，会比较同一函数的不同实现方式（例如，标量实现与使用 SSE2、AVX2 等不同 SIMD 指令的实现）。此外，也可以使用 `-m=s` 来运行特定测试。\n* `-tt=1`：测试线程数。特殊值包括：`-1` 表示使用所有可用线程进行测试；`-2` 表示使用一半可用线程进行测试。\n* `-fi=Sobel`：包含过滤器。在此例中，仅测试函数名中包含“Sobel”字样的函数。若省略此参数，则会执行全面测试。可以同时指定多个过滤器，函数名只需满足其中一个即可。\n* `-ot=log.txt`：测试报告文件名（文本格式）。测试报告也会输出到控制台。\n\n此外，您还可以使用以下参数：\n\n* `--help` 或 `-?`：打印帮助信息。\n* `-r=..\u002F..`：设置项目根目录。\n* `-pa=1`：打印对齐统计信息。\n* `-pi=1`：打印内部统计信息（需将 CMake 参数 `SIMD_PERF` 设置为 ON）。\n* `-c=512`：性能测试中使用的测试图像通道数。\n* `-h=1080`：性能测试中使用的测试图像高度。\n* `-w=1920`：性能测试中使用的测试图像宽度。\n* `-oh=log.html`：测试报告文件名（HTML 格式）。\n* `-s=sample.avi`：视频源（参见 `Simd::Motion` 测试）。\n* `-o=output.avi`：标注后的视频输出（参见 `Simd::Motion` 测试）。\n* `-wt=1`：用于并行化算法的线程数。使用 `-1` 可启用最大并行度。\n* `-fe=Abs`：排除过滤器，用于排除某些测试。\n* `-mt=100`：最小测试执行时间（单位：毫秒）。\n* `-lc=1`：在每次测试之间清理 CPU 缓存。\n* `-ri=city.jpg`：部分测试中使用的实际图像文件名。该图像需放置在 `.\u002Fdata\u002Fimage` 目录下。\n* `-tr=2`：测试执行重复次数。\n* `-ts=1`：打印测试执行时间统计信息。\n* `-cc=1`：检查 C++ API。\n* `-de=2`：禁用特定 SIMD 扩展的标志位。基础值为 1，2 表示 SSE4.1\u002FNEON\u002FHVX，4 表示 AVX2，8 表示 AVX-512BW，16 表示 AVX-512VNNI，32 表示 AMX-BF16。\n* `-wu=100`：测试前 CPU 的预热时间（单位：毫秒）。\n* `-pt=1`：将线程固定到特定 CPU 核心的布尔标志位。","# Simd 库快速上手指南\n\nSimd 是一个免费开源的图像处理和机器学习库，专为 C\u002FC++ 开发者设计。它利用 SIMD CPU 扩展（如 SSE, AVX, AVX-512, AMX, NEON, HVX）提供高性能算法，涵盖像素格式转换、图像缩放滤波、运动检测、物体检测分类及神经网络等功能。\n\n## 环境准备\n\n**系统要求：**\n*   **操作系统**：Windows (32\u002F64-bit) 或 Linux (32\u002F64-bit)。\n*   **硬件架构**：支持 x86\u002Fx64, ARM (32\u002F64), 或 Hexagon 平台。\n*   **编译器**：\n    *   Windows: Microsoft Visual Studio 2022 (推荐) 或 MinGW (G++)。\n    *   Linux: G++ 或 Clang。\n*   **构建系统**：CMake (Linux 必选，Windows 可选)。\n\n**前置依赖：**\n*   **CMake**：版本需支持当前构建脚本（建议 3.10+）。\n*   **Git**：用于克隆源码或通过 vcpkg 安装。\n*   **OpenCV (可选)**：仅在使用测试框架或需要类型转换时必需。\n\n## 安装步骤\n\n您可以选择通过包管理器安装，或从源码编译。\n\n### 方法一：使用 vcpkg 包管理器（推荐 Windows\u002FLinux）\n\n这是最简便的安装方式，由微软团队维护。\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FMicrosoft\u002Fvcpkg.git\ncd vcpkg\n.\u002Fbootstrap-vcpkg.sh\n.\u002Fvcpkg integrate install\n.\u002Fvcpkg install simd\n```\n\n### 方法二：源码编译 (Windows)\n\n**选项 A：使用 Visual Studio 2022**\n1. 打开 `simd\u002Fprj\u002Fvs2022\u002F` 目录下的解决方案文件。\n2. 默认构建为 DLL。若需静态库：\n   - 修改 **Simd** 项目的配置类型为“静态库”。\n   - 在 `simd\u002Fsrc\u002FSimd\u002FSimdConfig.h` 中取消注释 `#define SIMD_STATIC`。\n3. 生成并构建项目。\n\n**选项 B：使用 CMake + MinGW**\n```bash\nmkdir build\ncd build\ncmake ..\\prj\\cmake -DSIMD_TOOLCHAIN=\"your_toolchain\\bin\\g++\" -DSIMD_TARGET=\"x86_64\" -DCMAKE_BUILD_TYPE=\"Release\" -G \"MinGW Makefiles\"\nmingw32-make\n```\n\n### 方法三：源码编译 (Linux)\n\n**原生平台编译 (x86\u002Fx64)**\n```bash\nmkdir build\ncd build\ncmake ..\u002Fprj\u002Fcmake -DSIMD_TOOLCHAIN=\"\" -DSIMD_TARGET=\"\"\nmake\n```\n\n**交叉编译 (ARM 示例)**\n*   **ARM 32-bit:**\n    ```bash\n    mkdir build\n    cd build\n    cmake ..\u002Fprj\u002Fcmake -DSIMD_TOOLCHAIN=\"\u002Fyour_toolchain\u002Fusr\u002Fbin\u002Farm-linux-gnueabihf-g++\" -DSIMD_TARGET=\"arm\" -DCMAKE_BUILD_TYPE=\"Release\"\n    make\n    ```\n*   **ARM 64-bit (aarch64):**\n    ```bash\n    mkdir build\n    cd build\n    cmake ..\u002Fprj\u002Fcmake -DSIMD_TOOLCHAIN=\"\u002Fyour_toolchain\u002Fusr\u002Fbin\u002Faarch64-linux-gnu-g++\" -DSIMD_TARGET=\"aarch64\" -DCMAKE_BUILD_TYPE=\"Release\"\n    make\n    ```\n\n> **提示**：常用构建参数可通过 `-D` 传递，例如 `-DSIMD_AVX512=ON` (默认开启), `-DSIMD_SHARED=ON` (构建动态库), `-DSIMD_OPENCV=ON` (启用 OpenCV 支持)。\n\n## 基本使用\n\n### 1. 引入头文件\n\n根据您的开发语言和所需功能，包含相应的头文件：\n\n**C 语言接口：**\n```c\n#include \"Simd\u002FSimdLib.h\"\n```\n\n**C++ 接口：**\n```cpp\n#include \"Simd\u002FSimdLib.hpp\"\n```\n\n**特定功能模块：**\n```cpp\n\u002F\u002F 物体检测\n#include \"Simd\u002FSimdDetection.hpp\"\n\n\u002F\u002F 神经网络\n#include \"Simd\u002FSimdNeural.hpp\"\n\n\u002F\u002F 运动检测\n#include \"Simd\u002FSimdMotion.hpp\"\n```\n\n### 2. 与 OpenCV 交互 (可选)\n\n如果您需要在 Simd 和 OpenCV 数据类型之间进行转换，请在包含 Simd 头文件**之前**定义宏 `SIMD_OPENCV_ENABLE`：\n\n```cpp\n#include \u003Copencv2\u002Fcore\u002Fcore.hpp>\n#define SIMD_OPENCV_ENABLE\n#include \"Simd\u002FSimdLib.hpp\"\n```\n\n支持以下类型互转：\n*   `cv::Point`, `cv::Size` \u003C--> `Simd::Point`\n*   `cv::Rect` \u003C--> `Simd::Rectangle`\n*   `cv::Mat` \u003C--> `Simd::View`\n\n### 3. 运行测试与性能验证\n\n编译完成后，可运行生成的 `Test` 应用程序验证库的功能和性能。\n\n**示例命令：**\n```bash\n.\u002FTest -m=a -tt=1 -f=Sobel -ot=log.txt\n```\n\n**参数说明：**\n*   `-m=a`: 自动检查模式（包含性能测试），对比不同 SIMD 实现（如标量 vs AVX2）。\n*   `-tt=1`: 测试线程数（`-1` 表示使用所有可用线程）。\n*   `-f=Sobel`: 过滤只测试名称包含 \"Sobel\" 的函数。\n*   `-ot=log.txt`: 将测试报告输出到文本文件。\n\n更多高级参数（如指定图片尺寸、禁用特定指令集等）可运行 `.\u002FTest --help` 查看。","某安防团队正在为边缘计算网关开发一套实时人流统计系统，需在低成本的 ARM 架构设备上处理多路高清视频流。\n\n### 没有 Simd 时\n- **帧率严重不足**：纯 C++ 实现的图像缩放与格式转换算法未利用硬件指令集，导致 CPU 占用率常年飙升至 100%，视频处理帧率仅为 8-10 FPS，画面卡顿明显。\n- **运动检测延迟高**：在进行背景建模与运动目标提取时，逐像素计算效率低下，从有人经过到系统发出警报存在 2-3 秒的显著延迟。\n- **跨平台移植困难**：团队试图手动编写 ARM NEON 内联汇编来优化性能，但代码晦涩难懂且极易出错，维护成本极高，难以在不同芯片间复用。\n- **神经网络推理慢**：部署轻量级人脸分类模型时，缺乏针对特定 CPU 扩展指令的优化，推理耗时过长，无法满足实时性要求。\n\n### 使用 Simd 后\n- **性能大幅提升**：Simd 自动调用 ARM NEON 指令集加速像素格式转换和图像缩放，将处理帧率稳定提升至 25-30 FPS，CPU 占用率降低至 60% 以下。\n- **实时响应无延迟**：利用 Simd 内置的高效运动检测算法，系统能在毫秒级时间内识别目标移动，实现了真正的实时预警。\n- **开发效率显著提高**：直接调用 Simd 提供的 C++ 封装接口即可享受底层硬件加速，无需手动编写复杂的汇编代码，轻松实现 x86 到 ARM 的无缝迁移。\n- **推理速度优化**：集成 Simd 优化的神经网络算子后，人脸分类模型的推理速度提升了 4 倍，确保了在高并发场景下的流畅运行。\n\nSimd 通过自动适配底层 SIMD 指令集，让开发者用标准 C++ 代码即可在边缘设备上获得极致的图像处理与机器学习性能。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fermig1979_Simd_e7baa6d2.png","ermig1979","Ihar Yermalayeu","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fermig1979_724476f4.jpg",null,"irex.ai","Minsk, Belarus","ermig@tut.by","https:\u002F\u002Fgithub.com\u002Fermig1979",[81,85,89,93,96,100,103,106],{"name":82,"color":83,"percentage":84},"C++","#f34b7d",99,{"name":86,"color":87,"percentage":88},"Python","#3572A5",0.8,{"name":90,"color":91,"percentage":92},"CMake","#DA3434",0.1,{"name":94,"color":95,"percentage":92},"C","#555555",{"name":97,"color":98,"percentage":99},"Batchfile","#C1F12E",0,{"name":101,"color":102,"percentage":99},"Shell","#89e051",{"name":104,"color":105,"percentage":99},"Dockerfile","#384d54",{"name":107,"color":108,"percentage":99},"Makefile","#427819",2242,451,"2026-04-14T12:16:33","MIT",4,"Windows, Linux","未说明 (该库主要利用 CPU 的 SIMD 指令集如 SSE, AVX, AVX-512, AMX, NEON, HVX 进行加速，未提及 GPU 需求)","未说明",{"notes":118,"python":119,"dependencies":120},"该库专注于利用 CPU 指令集优化图像处理和机器学习算法。Windows 平台推荐使用 Visual Studio 2022 或 MinGW；Linux 平台使用 CMake 构建。支持跨编译到 ARM (32\u002F64 位) 和 Hexagon 平台。可通过 vcpkg 包管理器安装。若需与 OpenCV 交互，需定义 SIMD_OPENCV_ENABLE 宏。","未说明 (提供 Python 包装器 SimdPy，但未指定具体版本要求)",[121,90,122],"C\u002FC++ 编译器 (MSVS, G++, Clang)","OpenCV (可选，用于测试框架和类型转换)",[13,15,14],[125,126,127,128,129,130,131,132,133,134,135,136,137,138,139,140],"simd","avx","neon","image-processing","c-plus-plus","simd-library","arm","lbp","haar-cascade","avx512","machine-learning","neural-network","amx","sse","hexagon","hvx","2026-03-27T02:49:30.150509","2026-04-15T11:07:22.290589",[144,149,154,159,164,169],{"id":145,"question_zh":146,"answer_zh":147,"source_url":148},34171,"Simd 库是否支持针对不同分辨率（如 SD、HD、UHD）自动选择正确的 YUV 到 RGB 色彩空间标准（BT.601\u002FRec.709\u002FRec.2020）？","库本身不会自动根据分辨率检测并切换色彩空间。维护者已添加了针对不同标准的独立转换函数。用户需要根据视频分辨率手动选择调用相应的函数：SD 分辨率使用 BT.601，HD 分辨率使用 Rec.709，UHD 分辨率使用 Rec.2020。不建议将调整大小和色彩空间转换混合在同一个函数中。","https:\u002F\u002Fgithub.com\u002Fermig1979\u002FSimd\u002Fissues\u002F186",{"id":150,"question_zh":151,"answer_zh":152,"source_url":153},34172,"如何将带有 Alpha 通道的小型 BGRA 图像叠加到大型 YUV420P 背景图像上？","可以使用新添加的专用函数 `SimdAlphaBlendingBgraToYuv420p` 直接完成此操作。该函数已包含 AVX2 优化，能够高效地将 BGRA 前景混合到 YUV420P 背景中，无需手动进行格式转换或多次调用混合函数。","https:\u002F\u002Fgithub.com\u002Fermig1979\u002FSimd\u002Fissues\u002F213",{"id":155,"question_zh":156,"answer_zh":157,"source_url":158},34173,"在使用 SimdResizer 进行视频缩放时，Area 模式与 AreaFast 模式的性能差异为何不明显？","在实际多线程测试环境中（同时运行多个不同尺寸和调整器的任务），`SimdResizeMethodArea` 和 `SimdResizeMethodAreaFast` 之间的 CPU 使用率差异可能无法被观察到。这通常是因为瓶颈在于内存带宽而非计算能力，或者当前负载下 CPU 仍有大量空闲时间。如果未遇到明显的性能差异，可能是测试场景未达到单线程计算极限。","https:\u002F\u002Fgithub.com\u002Fermig1979\u002FSimd\u002Fissues\u002F206",{"id":160,"question_zh":161,"answer_zh":162,"source_url":163},34174,"如何在 Simd 库中将交错格式的 YUV (UYVY) 转换为其他格式？","库已支持将 UYVY422 格式转换为 YUV420P 格式。维护者添加了标量实现以及 SSE4.1 优化的 `Uyvy422ToYuv420p` 函数。如果需要转换为 BGR，通常建议先转换为 YUV420P 或直接使用库中提供的其他相关转换路径。","https:\u002F\u002Fgithub.com\u002Fermig1979\u002FSimd\u002Fissues\u002F83",{"id":165,"question_zh":166,"answer_zh":167,"source_url":168},34175,"能否在将 YUV420P 转换为 BGR 的同时进行图像缩放，以避免额外的内存写入？","可以。`SimdYuv420pToBgr` 及相关函数支持输入图像（YUV）和输出图像（BGR）具有不同的尺寸。在调用函数时，只需传入正确的源平面（Y, U, V）参数和目标尺寸参数即可。库内部会处理 Y、U、V 平面的相应缩放（通常使用像素丢弃或简单的插值），从而避免先生成缩小版的 YUV 图像再转换的额外内存开销。","https:\u002F\u002Fgithub.com\u002Fermig1979\u002FSimd\u002Fissues\u002F162",{"id":170,"question_zh":171,"answer_zh":172,"source_url":173},34176,"在实现基于 im2col\u002Fim2row 的深度卷积（Depthwise Convolution, group > 1）时，缓冲区大小应如何计算？","外部缓冲区的总大小不应除以组数（group）。`im2col` 和 `im2row` 函数会转换整个输入图像。所需的最小缓冲区大小为 `srcC * kernelY * kernelX * dstH * dstW`。如果在小尺寸正常但大尺寸报错，通常是因为缓冲区溢出。此外，需确保代码中膨胀率参数（dilationY, dilationX）传递正确，避免重复传递同一参数。","https:\u002F\u002Fgithub.com\u002Fermig1979\u002FSimd\u002Fissues\u002F129",[175,180,185,190,195,200,205,210,215,220,225,230,235,240,245,250,255,260,265,270],{"id":176,"version":177,"summary_zh":178,"released_at":179},264053,"v7.0.160","\u003Ch4>算法\u003C\u002Fh4>\n\u003Ch5>新特性\u003C\u002Fh5>\n\u003Cul>\n \u003Cli>在框架 SynetInnerProduct32f 中，支持使用非常数 B 矩阵。\u003C\u002Fli>\n \u003Cli>函数 SimdSynetInnerProduct32fExternalBufferSize。\u003C\u002Fli>\n \u003Cli>向函数 SimdSynetInnerProduct16bInit 添加参数 'activation'。\u003C\u002Fli>\n \u003Cli>向函数 SimdSynetInnerProduct16bSetParams 添加参数 'params'。\u003C\u002Fli>\n \u003Cli>类 SynetGatherElements 的基础实现。\u003C\u002Fli>\n \u003Cli>函数 SynetNormalizeLayerForward16bV2 的基础实现，以及 SSE4.1、AVX2、AVX-512BW 优化版本。\u003C\u002Fli>\n \u003Cli>函数 SynetSoftmax16b 的基础实现，以及 SSE4.1、AVX2、AVX-512BW 优化版本。\u003C\u002Fli>\n \u003Cli>支持 HVX 扩展（Hexagon 平台）。\u003C\u002Fli>\n \u003Cli>函数 AbsDifference 的 HVX 优化版本。\u003C\u002Fli>\n \u003Cli>函数 AbsDifferenceSum 的 HVX 优化版本。\u003C\u002Fli>\n \u003Cli>函数 AbsGradientSaturatedSum 的 HVX 优化版本。\u003C\u002Fli>\n \u003Cli>函数 AddFeatureDifference 的 HVX 优化版本。\u003C\u002Fli>\n \u003Cli>函数 BgrToGray 的 HVX 优化版本。\u003C\u002Fli>\n \u003Cli>函数 BgrToRgb 的 HVX 优化版本。\u003C\u002Fli>\n \u003Cli>函数 FillBgra 的 HVX 优化版本。\u003C\u002Fli>\n \u003Cli>函数 FillPixel 的 HVX 优化版本。\u003C\u002Fli>\n \u003Cli>函数 AbsSecondDerivativeHistogram 的 HVX 优化版本。\u003C\u002Fli>\n \u003Cli>函数 HistogramMasked 的 HVX 优化版本。\u003C\u002Fli>\n \u003Cli>函数 HistogramConditional 的 HVX 优化版本。\u003C\u002Fli>\n \u003Cli>函数 OperationBinary8u 的 HVX 优化版本。\u003C\u002Fli>\n \u003Cli>函数 GetStatistic 的 HVX 优化版本。\u003C\u002Fli>\n \u003Cli>函数 GetRowSums 的 HVX 优化版本。\u003C\u002Fli>\n \u003Cli>函数 GetColSums 的 HVX 优化版本。\u003C\u002Fli>\n \u003Cli>函数 GetAbsDyRowSums 的 HVX 优化版本。\u003C\u002Fli>\n \u003Cli>函数 GetAbsDxColSums 的 HVX 优化版本。\u003C\u002Fli>\n \u003Cli>函数 ValueSum 的 HVX 优化版本。\u003C\u002Fli>\n \u003Cli>函数 SquareSum 的 HVX 优化版本。\u003C\u002Fli>\n \u003Cli>函数 ValueSquareSum 的 HVX 优化版本。\u003C\u002Fli>\n \u003Cli>函数 ValueSquareSums 的 HVX 优化版本。\u003C\u002Fli>\n \u003Cli>函数 CorrelationSum 的 HVX 优化版本。\u003C\u002Fli>\n \u003Cli>函数 BgrToHsl 的 SSE4.1、AVX2、AVX-512BW 优化版本。\u003C\u002Fli>\n\u003C\u002Ful>\n\u003Ch5>改进\u003C\u002Fh5>\n\u003Cul>\n \u003Cli>类 SynetMergedConvolution16bCdc 的 AMX-BF16 优化版本。\u003C\u002Fli>\n \u003Cli>类 SynetMergedConvolution16bCd 的 AMX-BF16 优化版本。\u003C\u002Fli>\n \u003Cli>类 SynetMergedConvolution16bDc 的 AMX-BF16 优化版本。\u003C\u002Fli>\n \u003Cli>类 SynetInnerProduct16bGemmNN 的 AMX-BF16 优化版本。\u003C\u002Fli>\n\u003C\u002Ful>\n\u003Ch5>错误修复\u003C\u002Fh5>\n\u003Cul>\n \u003Cli>函数 SynetQuantizedPreluLayerForward 的 SSE4.1、AVX2、AVX-512BW 优化版本中存在错误（可能对未对齐内存进行对齐读取）。\u003C\u002Fli>\n \u003Cli>函数 SynetQuantizedScaleLayerForward 的 SSE4.1、AVX2、AVX-512BW 优化版本中存在错误（可能对未对齐内存进行对齐读取）。\u003C\u002Fli>\n \u003Cli>类 ResizerFloatBilinear 的 SSE4.1 优化版本中存在错误（可能对未对齐内存进行对齐读取）。\u003C\u002Fli>\n \u003Cli>类 ResizerBf16Bilinear 的 SSE4.1 优化版本中存在错误（可能对未对齐内存进行对齐读取）。\u003C\u002Fli>\n \u003Cli>类 ResizerByteBilinear 的 SSE4.1、AVX2 优化版本中存在错误（可能对未对齐内存进行对齐读取）。","2026-04-01T14:31:20",{"id":181,"version":182,"summary_zh":183,"released_at":184},264054,"v6.2.159","\u003Ch4>算法\u003C\u002Fh4>\n\u003Ch5>新特性\u003C\u002Fh5>\n\u003Cul>\n \u003Cli>基础实现，以及 SynetConvolution16bNhwcSpecV2 类的 AMX-BF16 优化。\u003C\u002Fli>\n \u003Cli>SynetUnaryOperation32f 函数支持 SimdSynetUnaryOperation32fRound。\u003C\u002Fli>\n \u003Cli>SynetUnaryOperation32f 函数支持 SimdSynetUnaryOperation32fSign。\u003C\u002Fli>\n\u003C\u002Ful>\n\u003Ch5>缺陷修复\u003C\u002Fh5>\n\u003Cul>\n \u003Cli>SynetConvolution16bNhwcGemmV1 类的 AMX-BF16 优化中存在错误（Convolution16bNhwcGemm_Macro32x32 内核）。\u003C\u002Fli>\n \u003Cli>SynetQuantizedConvolutionNhwcDepthwiseV2 类的基础实现中存在错误（SimdSynetQuantizedConvolutionForward 的多线程使用问题）。\u003C\u002Fli>\n \u003Cli>SynetQuantizedConvolutionNhwcDepthwiseV3 类的基础实现中存在错误（SimdSynetQuantizedConvolutionForward 的多线程使用问题）。\u003C\u002Fli>\n \u003Cli>SynetConvolution16bNhwcGemmV1 类的 AMX-BF16 优化中存在错误（Inv2x2，Convolution16bNhwcGemm_MacroNx32 内核，dstH*dstW 未对齐）。\u003C\u002Fli>\n \u003Cli>SynetConvolution16bNhwcGemmV1 类的 AMX-BF16 优化中存在错误（Inv2x2，Convolution16bNhwcGemm_MacroNx32 内核，dstC 未对齐）。\u003C\u002Fli>\n \u003Cli>AbsDifference 函数的 SSE4.1、AVX2、AVX-512BW、NEON 优化中存在错误（对齐检查错误）。\u003C\u002Fli>\n \u003Cli>SynetConvolution32fGemmNN 类的 AVX-512BW 优化中存在错误（超大填充情况）。\u003C\u002Fli>\n \u003Cli>ResizerNearest 类的 AVX-512BW 优化中存在错误。\u003C\u002Fli>\n \u003Cli>SynetMergedConvolution16bCdc 类的 AMX-BF16 优化中存在错误（批量 > 1，输入尺寸较小）。\u003C\u002Fli>\n \u003Cli>BodyH、BodyW 函数（文件 SimdSynetConvParam.h）中存在错误。\u003C\u002Fli>\n\u003C\u002Ful>","2026-03-03T09:15:25",{"id":186,"version":187,"summary_zh":188,"released_at":189},264055,"v6.2.158","\u003Ch4>算法\u003C\u002Fh4>\n\u003Ch5>新增功能\u003C\u002Fh5>\n\u003Cul>\n \u003Cli>中值滤波3×3核函数的基础实现，以及针对SSE4.1、AVX2、AVX-512BW、NEON的优化。\u003C\u002Fli>\n \u003Cli>中值滤波5×5核函数的基础实现，以及针对SSE4.1、AVX2、AVX-512BW、NEON的优化。\u003C\u002Fli>\n \u003Cli>SynetConvolution16bNhwcSpecV2类的基础实现。\u003C\u002Fli>\n \u003Cli>最小值滤波3×3核函数的基础实现，以及针对SSE4.1、AVX2、AVX-512BW、NEON的优化。\u003C\u002Fli>\n \u003Cli>最小值滤波5×5核函数的基础实现，以及针对SSE4.1、AVX2、AVX-512BW、NEON的优化。\u003C\u002Fli>\n \u003Cli>最大值滤波3×3核函数的基础实现，以及针对SSE4.1、AVX2、AVX-512BW、NEON的优化。\u003C\u002Fli>\n \u003Cli>最大值滤波5×5核函数的基础实现，以及针对SSE4.1、AVX2、AVX-512BW、NEON的优化。\u003C\u002Fli>\n\u003C\u002Ful>\n\u003Ch5>改进\u003C\u002Fh5>\n\u003Cul>\n \u003Cli>SynetConvolution16bNhwcGemmV1类的AMX-BF16优化。\u003C\u002Fli>\n\u003C\u002Ful>\n\n\u003Ch4>测试框架\u003C\u002Fh4>\n\u003Ch5>新增功能\u003C\u002Fh5>\n\u003Cul>\n \u003Cli>用于验证中值滤波3×3核函数功能的测试用例。\u003C\u002Fli>\n \u003Cli>用于验证中值滤波5×5核函数功能的测试用例。\u003C\u002Fli>\n \u003Cli>用于验证最小值滤波3×3核函数功能的测试用例。\u003C\u002Fli>\n \u003Cli>用于验证最小值滤波5×5核函数功能的测试用例。\u003C\u002Fli>\n \u003Cli>用于验证最大值滤波3×3核函数功能的测试用例。\u003C\u002Fli>\n \u003Cli>用于验证最大值滤波5×5核函数功能的测试用例。\u003C\u002Fli>\n\u003C\u002Ful>","2026-02-03T12:07:14",{"id":191,"version":192,"summary_zh":193,"released_at":194},264056,"v6.2.157","\u003Ch4>算法\u003C\u002Fh4>\n\u003Ch5>新功能\u003C\u002Fh5>\n\u003Cul>\n \u003Cli>Simd::Frame 的 Simd::Resize 函数。\u003C\u002Fli>\n \u003Cli>DrawLine 函数的基础实现。\u003C\u002Fli>\n \u003Cli>DrawRectangle 函数的基础实现。\u003C\u002Fli>\n \u003Cli>FontInit 函数的基础实现。\u003C\u002Fli>\n \u003Cli>FontResize 函数的基础实现。\u003C\u002Fli>\n \u003Cli>FontHeight 函数的基础实现。\u003C\u002Fli>\n \u003Cli>FontMeasure 函数的基础实现。\u003C\u002Fli>\n \u003Cli>FontDraw 函数的基础实现。\u003C\u002Fli>\n\u003C\u002Ful>\n\u003Ch5>改进\u003C\u002Fh5>\n\u003Cul>\n \u003Cli>SynetConvolution16bNhwcGemmV1 类的基础实现及 AMX-BF16 优化。\u003C\u002Fli>\n \u003Cli>SimdPoolingMax32f 函数的 AVX-512BW 优化（针对 SynetPoolingMax32f2DNhwcSolid2x2 情况）。\u003C\u002Fli>\n \u003Cli>SimdMergedConvolution32f 函数的 AVX-512BW 优化（InputConvolution1x1 部分）。\u003C\u002Fli>\n \u003Cli>SimdMergedConvolution32f 函数的 AVX-512BW 优化（DepthwiseConvolution_k3p1d1s1w6 部分）。\u003C\u002Fli>\n \u003Cli>Simd::DrawLine 使用 SimdDrawLine 替代其自身实现。\u003C\u002Fli>\n \u003Cli>Simd::DrawRectangle 使用 SimdDrawRectangle 替代其自身实现。\u003C\u002Fli>\n \u003Cli>Simd::Font 使用 SimdFontInit、SimdFontResize、SimdFontHeight、SimdFontMeasure、SimdFontDraw 等函数，而非其自身实现。\u003C\u002Fli>\n\u003C\u002Ful>\n\n\u003Ch4>Python 封装\u003C\u002Fh4>\n\u003Ch5>新功能\u003C\u002Fh5>\n\u003Cul>\n \u003Cli>Simd.ResizeFrame 函数。\u003C\u002Fli>\n \u003Cli>Simd.ResizedFrame 函数。\u003C\u002Fli>\n \u003Cli>Simd.FrameFormat 枚举中新增 Yuv444p 成员。\u003C\u002Fli>\n \u003Cli>Simd.ImageFrame.Save 方法。\u003C\u002Fli>\n \u003Cli>Simd.ImageFrame.Load 方法。\u003C\u002Fli>\n \u003Cli>Simd.Lib.StretchGray2x2 函数。\u003C\u002Fli>\n \u003Cli>Simd.StretchGray2x2 函数。\u003C\u002Fli>\n \u003Cli>Simd.Lib.BgraToYuv444p 函数。\u003C\u002Fli>\n \u003Cli>Simd.Lib.Yuv444pToRgb 函数。\u003C\u002Fli>\n \u003Cli>Simd.Lib.ReduceGray2x2 函数。\u003C\u002Fli>\n \u003Cli>Simd.ReduceGray2x2 函数。\u003C\u002Fli>\n \u003Cli>Simd.Lib.BgrToYuv444p 函数。\u003C\u002Fli>\n \u003Cli>Simd.Lib.BgraToYuv444p 函数。\u003C\u002Fli>\n \u003Cli>Simd.Lib.Yuv444pToBgr 函数。\u003C\u002Fli>\n \u003Cli>Simd.Lib.Yuv444pToRgba 函数。\u003C\u002Fli>\n \u003Cli>Simd.Lib.DrawLine 函数。\u003C\u002Fli>\n \u003Cli>Simd.Image.DrawLine 方法。\u003C\u002Fli>\n \u003Cli>Simd.Lib.DrawRectangle 函数。\u003C\u002Fli>\n \u003Cli>Simd.Image.DrawRectangle 方法。\u003C\u002Fli>\n \u003Cli>Simd.Lib.FontInit 函数。\u003C\u002Fli>\n \u003Cli>Simd.Lib.FontResize 函数。\u003C\u002Fli>\n \u003Cli>Simd.Lib.FontHeight 函数。\u003C\u002Fli>\n \u003Cli>Simd.Lib.FontMeasure 函数。\u003C\u002Fli>\n \u003Cli>Simd.Lib.FontDraw 函数。\u003C\u002Fli>\n \u003Cli>Simd.TextFont 类。\u003C\u002Fli>\n \u003Cli>Simd.Image.DrawFilledRectangle 方法。\u003C\u002Fli>\n\u003C\u002Ful>\n\u003Ch5>改进\u003C\u002Fh5>\n\u003Cul>\n \u003Cli>Simd.ImageFrame.Recreate 方法支持 Simd.FrameFormat.Yuv444p 格式。\u003C\u002Fli>\n \u003Cli>Simd.ImageFrame.Convert 方法支持 Simd.FrameFormat.Yuv444p 格式。\u003C\u002Fli>\n\u003C\u002Ful>\n\u003Ch5>错误修复\u003C\u002Fh5>\n\u003Cul>\n \u003Cli>Simd.Frame.Convert 方法中的错误。\u003C\u002Fli>\n\u003C\u002Ful>\n\u003Ch5>重命名\u003C\u002Fh5>\n\u003Cul>\n \u003Cli>将 Simd.Resize 函数更名为 Simd.ResizeImage。\u003C\u002Fli>\n \u003Cli>将 Simd.Resized 函数更名为 Simd.ResizedImage。\u003C\u002Fli>\n\u003C\u002Ful>\n\n\u003Ch4>测试框架\u003C\u002Fh4>\n\u003Ch5>新功能\u003C\u002Fh5>\n\u003Cul>\n \u003Cli>用于验证 DrawLine 函数功能的测试用例。\u003C\u002Fli>\n \u003Cli>用于验证 DrawR 函数功能的测试用例。\u003C\u002Fli>\n\u003C\u002Ful>\n","2026-01-02T14:23:34",{"id":196,"version":197,"summary_zh":198,"released_at":199},264057,"v6.2.156","\u003Ch4>算法\u003C\u002Fh4>\n\u003Ch5>新增功能\u003C\u002Fh5>\n\u003Cul>\n \u003Cli>枚举 SimdShiftDetectorTextureType（Simd::ShiftDetector 的 C API）。\u003C\u002Fli>\n \u003Cli>枚举 SimdShiftDetectorDifferenceType（Simd::ShiftDetector 的 C API）。\u003C\u002Fli>\n \u003Cli>函数 SimdShiftDetectorInitBuffers 的基础实现（Simd::ShiftDetector 的 C API）。\u003C\u002Fli>\n \u003Cli>函数 SimdShiftDetectorSetBackground 的基础实现（Simd::ShiftDetector 的 C API）。\u003C\u002Fli>\n \u003Cli>函数 SimdShiftDetectorEstimate 的基础实现（Simd::ShiftDetector 的 C API）。\u003C\u002Fli>\n \u003Cli>函数 SimdShiftDetectorGetShift 的基础实现（Simd::ShiftDetector 的 C API）。\u003C\u002Fli>\n \u003Cli>类 SynetConvolution16bNhwcGemmV1 的基础实现及 AMX-BF16 优化。\u003C\u002Fli>\n\u003C\u002Ful>\n\u003Ch5>改进\u003C\u002Fh5>\n\u003Cul>\n \u003Cli>函数 DeinterleaveUv 的基础实现，并针对 SSE4.1、AVX2、AVX-512BW、AVX-512VBMI 和 NEON 进行优化（部分输出可为 NULL）。\u003C\u002Fli>\n \u003Cli>函数 DeinterleaveBgr 的基础实现，并针对 SSE4.1、AVX2、AVX-512BW、AVX-512VBMI 和 NEON 进行优化（部分输出可为 NULL）。\u003C\u002Fli>\n \u003Cli>函数 DeinterleaveBgra 的基础实现，并针对 SSE4.1、AVX2、AVX-512BW、AVX-512VBMI 和 NEON 进行优化（部分输出可为 NULL）。\u003C\u002Fli>\n \u003Cli>C++ 封装 Simd::DeinterleaveUv（支持空输出）。\u003C\u002Fli>\n \u003Cli>C++ 封装 Simd::DeinterleaveBgr（支持空输出）。\u003C\u002Fli>\n \u003Cli>C++ 封装 Simd::DeinterleaveBgra（支持空输出）。\u003C\u002Fli>\n \u003Cli>C++ 封装 Simd::DeinterleaveRgb（支持空输出）。\u003C\u002Fli>\n \u003Cli>C++ 封装 Simd::DeinterleaveRgba（支持空输出）。\u003C\u002Fli>\n \u003Cli>类 ResizerNearest 的基础实现中，针对 SSE4.1、AVX2 和 AVX-512BW 进行并行化优化。\u003C\u002Fli>\n\u003C\u002Ful>\n\u003Ch5>移除\u003C\u002Fh5>\n\u003Cul>\n \u003Cli>带有 4 个参数的 C++ 封装 Simd::DeinterleaveBgra。\u003C\u002Fli>\n \u003Cli>带有 4 个参数的 C++ 封装 Simd::DeinterleaveRgba。\u003C\u002Fli>\n\u003C\u002Ful>\n\u003Ch5>重命名\u003C\u002Fh5>\n\u003Cul>\n \u003Cli>将类 SynetConvolution16bNhwcGemm 重命名为 SynetConvolution16bNhwcGemmV0。\u003C\u002Fli>\n\u003C\u002Ful>\n\n\u003Ch4>测试框架\u003C\u002Fh4>\n\u003Ch5>改进\u003C\u002Fh5>\n\u003Cul>\n \u003Cli>用于验证函数 DeinterleaveUv 功能的测试（部分输出可为 NULL）。\u003C\u002Fli>\n \u003Cli>用于验证函数 DeinterleaveBgr 功能的测试（部分输出可为 NULL）。\u003C\u002Fli>\n \u003Cli>用于验证函数 DeinterleaveBgra 功能的测试（部分输出可为 NULL）。\u003C\u002Fli>\n\u003C\u002Ful>\n\n\u003Ch4>Python 封装\u003C\u002Fh4>\n\u003Ch5>新增功能\u003C\u002Fh5>\n\u003Cul>\n \u003Cli>Simd.CpuInfo 枚举中的 CurrentFrequency 成员。\u003C\u002Fli>\n \u003Cli>Simd.ResizeChannel 枚举中的 Bf16 成员。\u003C\u002Fli>\n \u003Cli>函数 Simd.ShiftBilinear。\u003C\u002Fli>\n \u003Cli>枚举 Simd.ShiftDetectorTexture。\u003C\u002Fli>\n \u003Cli>枚举 Simd.ShiftDetectorDifference。\u003C\u002Fli>\n \u003Cli>函数 Simd.Lib.ShiftDetectorInitBuffers。\u003C\u002Fli>\n \u003Cli>函数 Simd.Lib.ShiftDetectorSetBackground。\u003C\u002Fli>\n \u003Cli>函数 Simd.Lib.ShiftDetectorEstimate。\u003C\u002Fli>\n \u003Cli>函数 Simd.Lib.ShiftDetectorGetShift。\u003C\u002Fli>\n \u003Cli>函数 Simd.Lib.ShiftDetectorGetRefinedShift。\u003C\u002Fli>\n \u003Cli>函数 Simd.Lib.ShiftDetectorGetStability。\u003C\u002Fli>\n \u003Cli>函数 Simd.Lib.ShiftDetect","2025-12-01T06:38:39",{"id":201,"version":202,"summary_zh":203,"released_at":204},264058,"v6.2.155","\u003Ch4>算法\u003C\u002Fh4>\n\u003Ch5>新特性\u003C\u002Fh5>\n\u003Cul>\n \u003Cli>SSE4.1、AVX2、AVX-512BW 优化了 SynetQuantizedScaleLayerForward 函数。\u003C\u002Fli>\n \u003Cli>SSE4.1、AVX2、AVX-512BW 优化了 SynetQuantizedPreluLayerForward 函数。\u003C\u002Fli>\n \u003Cli>SynetQuantizedConvolutionGemm 类的基类实现中支持任意激活函数。\u003C\u002Fli>\n \u003Cli>SynetQuantizedConvolutionNhwcGemm 类的基类实现中支持任意激活函数，并进行了 SSE4.1、AVX2、AVX-512BW、AVX-512VNNI、AMX-INT8 优化。\u003C\u002Fli>\n \u003Cli>SynetQuantizedConvolutionNhwcSpecV0 类的基类实现中支持任意激活函数，并进行了 SSE4.1、AVX2、AVX-512BW、AVX-512VNNI、AMX-INT8 优化。\u003C\u002Fli>\n \u003Cli>SynetQuantizedConvolutionNhwcDepthwiseV2 类的基类实现中支持任意激活函数，并进行了 SSE4.1、AVX2、AVX-512BW、AVX-512VNNI 优化。\u003C\u002Fli>\n \u003Cli>SynetQuantizedConvolutionNhwcDepthwiseV3 类的基类实现中支持任意激活函数，并进行了 AVX-512VNNI 优化。\u003C\u002Fli>\n\u003C\u002Ful>\n\u003Ch5>改进\u003C\u002Fh5>\n\u003Cul>\n \u003Cli>SynetConvolution16bNhwcGemm 类在 srcC 较小的情况下进行了 AMX-BF16 优化。\u003C\u002Fli>\n\u003C\u002Ful>\n\u003Ch5>Bug 修复\u003C\u002Fh5>\n\u003Cul>\n \u003Cli>SynetQuantizedConvolutionNhwcGemm 类的 AMX-INT8 优化中存在性能问题。\u003C\u002Fli>\n \u003Cli>SynetQuantizedInnerProductGemmNN 类的 SSE4.1、AVX2、AVX-512BW、AVX-512VNNI 优化中存在错误。\u003C\u002Fli>\n \u003Cli>SynetQuantizedConvolutionNhwcSpecV0 类的 SSE4.1 优化中存在错误。\u003C\u002Fli>\n \u003Cli>SynetQuantizedConvolutionNhwcSpecV0 类的基类实现中存在错误。\u003C\u002Fli>\n \u003Cli>SynetQuantizedConvolutionNhwcGemm 类的基类实现中存在错误。\u003C\u002Fli>\n\u003C\u002Ful>","2025-11-10T08:24:23",{"id":206,"version":207,"summary_zh":208,"released_at":209},264059,"v6.2.154","\u003Ch4>算法\u003C\u002Fh4>\n\u003Ch5>新增功能\u003C\u002Fh5>\n\u003Cul>\n \u003Cli>SSE4.1、AVX2、AVX-512BW、AVX-512VNNI、AMX-INT8 优化了 SynetQuantizedMergedConvolutionCdc 类。\u003C\u002Fli>\n \u003Cli>SynetQuantizedMergedConvolutionCd 类的基础实现，以及 SSE4.1、AVX2、AVX-512BW、AVX-512VNNI、AMX-INT8 优化。\u003C\u002Fli>\n \u003Cli>SynetQuantizedMergedConvolutionDc 类的基础实现，以及 SSE4.1、AVX2、AVX-512BW、AVX-512VNNI、AMX-INT8 优化。\u003C\u002Fli>\n \u003Cli>SynetQuantizedScaleLayerForward 函数的基础实现。\u003C\u002Fli>\n \u003Cli>SynetQuantizedPreluLayerForward 函数的基础实现。\u003C\u002Fli>\n\u003C\u002Ful>\n\u003Ch5>改进\u003C\u002Fh5>\n\u003Cul>\n \u003Cli>SynetQuantizedConvolutionNhwcDepthwiseV3 类的 AVX-512VNNI 优化。\u003C\u002Fli>\n \u003Cli>SynetQuantizedConvolutionNhwcGemm 类 AMX-INT8 优化在 batch > 1 情况下的性能。\u003C\u002Fli>\n \u003Cli>SynetQuantizedConvolutionNhwcSpecV0 类 AMX-INT8 优化在 batch > 1 情况下的性能。\u003C\u002Fli>\n \u003Cli>SynetQuantizedConvolutionNhwcGemm 类 AMX-INT8 优化在 srcC 较小情况下的性能。\u003C\u002Fli>\n \u003Cli>SynetQuantizedConvolutionNhwcSpecV0 类 AMX-INT8 优化在 srcC 较小情况下的性能。\u003C\u002Fli>\n\u003C\u002Ful>\n\u003Ch5>Bug 修复\u003C\u002Fh5>\n\u003Cul>\n \u003Cli>SynetQuantizedConcatLayerForward 函数 AVX-512BW 优化中的错误。\u003C\u002Fli>\n \u003Cli>Base::CpuModel 函数（Windows Server 2025）中的错误。\u003C\u002Fli>\n \u003Cli>SynetQuantizedAddUniform 类基础实现及 SSE4.1、AVX2、AVX-512BW 优化中的错误。\u003C\u002Fli>\n \u003Cli>QuantizedMergedConvolutionAddInputToOutput 函数基础实现及 SSE4.1、AVX2、AVX-512BW 优化中的错误。\u003C\u002Fli>\n \u003Cli>SynetQuantizedConvolutionNhwcGemm 类 AMX-INT8 优化在 batch > 1 情况下的错误。\u003C\u002Fli>\n\u003C\u002Ful>\n\n\u003Ch4>测试框架\u003C\u002Fh4>\n\u003Ch5>新增功能\u003C\u002Fh5>\n\u003Cul>\n \u003Cli>SynetQuantizedScaleLayerForward 函数功能验证测试。\u003C\u002Fli>\n \u003Cli>SynetQuantizedPreluLayerForward 函数功能验证测试。\u003C\u002Fli>\n\u003C\u002Ful>\n\n\u003Ch4>基础设施\u003C\u002Fh4>\n\u003Ch5>Bug 修复\u003C\u002Fh5>\n\u003Cul>\n \u003Cli>修复 MSBuild 的 GitHub Actions 脚本中“Host Properties”步骤的 bug。\u003C\u002Fli>\n \u003Cli>修复 CMake 的 GitHub Actions 脚本中“Host Properties”步骤的 bug。\u003C\u002Fli>\n\u003C\u002Ful>\n\u003Ch5>移除\u003C\u002Fh5>\n\u003Cul>\n \u003Cli>停止对 Microsoft Visual Studio 2019 的支持。\u003C\u002Fli>\n\u003C\u002Ful>","2025-10-01T08:30:06",{"id":211,"version":212,"summary_zh":213,"released_at":214},264060,"v6.2.153","\u003Ch4>算法\u003C\u002Fh4>\n\u003Ch5>新特性\u003C\u002Fh5>\n\u003Cul>\n \u003Cli>SynetQuantizedConvolutionNhwcDepthwiseV0 类的 AVX-512BW、AVX-512VNNI 优化。\u003C\u002Fli>\n \u003Cli>SynetQuantizedConvolutionNhwcDepthwiseV1 类的基础实现，以及 SSE4.1、AVX2、AVX-512BW、AVX-512VNNI 优化。\u003C\u002Fli>\n \u003Cli>SynetQuantizedConvolutionNhwcDepthwiseV2 类的基础实现，以及 SSE4.1、AVX2、AVX-512BW、AVX-512VNNI 优化。\u003C\u002Fli>\n \u003Cli>SynetQuantizedConvolutionNhwcDepthwiseV3 类的基础实现，以及 AVX-512VNNI 优化。\u003C\u002Fli>\n \u003Cli>SynetQuantizedShuffleLayerForward 函数的基础实现，以及 SSE4.1、AVX2、AVX-512BW 优化。\u003C\u002Fli>\n \u003Cli>SynetQuantizedConcatLayerForward 函数的基础实现，以及 SSE4.1、AVX2、AVX-512BW 优化。\u003C\u002Fli>\n \u003Cli>SynetQuantizedMergedConvolutionRef 类的基础实现。\u003C\u002Fli>\n \u003Cli>SynetQuantizedMergedConvolutionCdc 类的基础实现。\u003C\u002Fli>\n\u003C\u002Ful>\n\u003Ch5>改进\u003C\u002Fh5>\n\u003Cul>\n \u003Cli>SynetQuantizedConvolutionNhwcDepthwiseV0 类的 SSE4.1、AVX2 优化。\u003C\u002Fli>\n\u003C\u002Ful>\n\u003Ch5>缺陷修复\u003C\u002Fh5>\n\u003Cul>\n \u003Cli>SynetQuantizedConvolutionNhwcGemm 类基础实现中的错误。\u003C\u002Fli>\n\u003C\u002Ful>\n\n\u003Ch4>测试框架\u003C\u002Fh4>\n\u003Ch5>新特性\u003C\u002Fh5>\n\u003Cul>\n \u003Cli>用于验证 SynetQuantizedShuffleLayerForward 函数功能的测试。\u003C\u002Fli>\n \u003Cli>用于验证 SynetQuantizedConcatLayerForward 函数功能的测试。\u003C\u002Fli>\n \u003Cli>用于验证 SynetQuantizedMergedConvolutionForward 函数功能的测试。\u003C\u002Fli>\n\u003C\u002Ful>\n\n\u003Ch4>基础设施\u003C\u002Fh4>\n\u003Ch5>改进\u003C\u002Fh5>\n\u003Cul>\n \u003Cli>针对 MSBuild 的 GitHub Actions 脚本中测试步骤的性能提升。\u003C\u002Fli>\n\u003C\u002Ful>","2025-09-01T12:05:58",{"id":216,"version":217,"summary_zh":218,"released_at":219},264061,"v6.2.152","\u003Ch4>算法\u003C\u002Fh4>\n\u003Ch5>新特性\u003C\u002Fh5>\n\u003Cul>\n \u003Cli>SynetQuantizedAddUniform类的AVX2、AVX-512BW优化。\u003C\u002Fli>\n \u003Cli>SynetQuantizedInnerProductRef类的基础实现。\u003C\u002Fli>\n \u003Cli>SynetQuantizedInnerProductGemmNN类的基础实现，以及SSE4.1、AVX2、AVX-512BW、AVX-512VNNI、AMX-INT8优化。\u003C\u002Fli>\n \u003Cli>SynetQuantizedConvolutionNhwcSpecV0类的基础实现，以及SSE4.1、AVX2、AVX-512BW、AVX-512VNNI、AMX-INT8优化。\u003C\u002Fli>\n \u003Cli>SynetQuantizedConvolutionNhwcDepthwise类的基础实现，以及SSE4.1、AVX2优化。\u003C\u002Fli>\n\u003C\u002Ful>\n\u003Ch5>改进\u003C\u002Fh5>\n\u003Cul>\n \u003Cli>SynetQuantizedConvolutionNhwcGemm类的AMX-INT8优化。\u003C\u002Fli>\n\u003C\u002Ful>\n\u003Ch5>缺陷修复\u003C\u002Fh5>\n\u003Cul>\n \u003Cli>Float32ToBFloat16函数的NEON优化存在错误。\u003C\u002Fli>\n \u003Cli>SynetQuantizedConvolutionNhwcGemm类的基础实现存在错误。\u003C\u002Fli>\n \u003Cli>SynetQuantizedConvolutionGemm类的基础实现存在错误。\u003C\u002Fli>\n\u003C\u002Ful>\n\n\u003Ch4>测试框架\u003C\u002Fh4>\n\u003Ch5>新特性\u003C\u002Fh5>\n\u003Cul>\n \u003Cli>用于验证SynetQuantizedInnerProduct框架功能的测试用例。\u003C\u002Fli>\n\u003C\u002Ful>","2025-08-01T08:24:30",{"id":221,"version":222,"summary_zh":223,"released_at":224},264062,"v6.2.151","\u003Ch4>算法\u003C\u002Fh4>\n\u003Ch5>新特性\u003C\u002Fh5>\n\u003Cul>\n \u003Cli>Simd::Resize 支持 OpenCV 兼容模式（SimdResizeMethodBilinearOpenCv）。\u003C\u002Fli>\n \u003Cli>ResizerByteBilinearOpenCv 类实现了 AVX-512BW 优化。\u003C\u002Fli>\n \u003Cli>完成了 SynetQuantizedConvolutionGemm 类的基础实现。\u003C\u002Fli>\n \u003Cli>SynetQuantizedConvolutionNhwcGemm 类完成了基础实现，并针对 SSE4.1、AVX2、AVX-512BW、AVX-512VNNI 和 AMX-INT8 进行了优化。\u003C\u002Fli>\n \u003Cli>SynetDequantizeLinear 函数完成了基础实现，并针对 SSE4.1、AVX2 和 AVX-512BW 进行了优化。\u003C\u002Fli>\n \u003Cli>SynetQuantizeLinear 函数完成了基础实现，并针对 SSE4.1、AVX2 和 AVX-512BW 进行了优化。\u003C\u002Fli>\n \u003Cli>SynetQuantizedAddUniform 类完成了基础实现，并针对 SSE4.1 进行了优化。\u003C\u002Fli>\n\u003C\u002Ful>\n\u003Ch5>改进\u003C\u002Fh5>\n\u003Cul>\n \u003Cli>ResizerByteBilinearOpenCv 类实现了 AVX2 优化。\u003C\u002Fli>\n\u003C\u002Ful>\n\u003Ch5>缺陷修复\u003C\u002Fh5>\n\u003Cul>\n \u003Cli>修复了 ResizeOpenCvSpecialTest 中的链接器错误。\u003C\u002Fli>\n\u003C\u002Ful>\n\n\u003Ch4>测试框架\u003C\u002Fh4>\n\u003Ch5>新特性\u003C\u002Fh5>\n\u003Cul>\n \u003Cli>新增了用于验证 SynetQuantizedConvolution 类功能的测试用例。\u003C\u002Fli>\n \u003Cli>新增了用于验证 SynetDequantizeLinear 函数功能的测试用例。\u003C\u002Fli>\n \u003Cli>新增了用于验证 SynetQuantizeLinear 函数功能的测试用例。\u003C\u002Fli>\n \u003Cli>新增了用于验证 SynetQuantizedAdd 类功能的测试用例。\u003C\u002Fli>\n\u003C\u002Ful>\n\n\u003Ch4>Python 封装\u003C\u002Fh4>\n\u003Ch5>新特性\u003C\u002Fh5>\n\u003Cul>\n \u003Cli>Simd.ResizeMethod 枚举中新增了 BilinearOpenCv 选项。\u003C\u002Fli>\n\u003C\u002Ful>\n\n\u003Ch4>基础设施\u003C\u002Fh4>\n\u003Ch5>移除\u003C\u002Fh5>\n\u003Cul>\n \u003Cli>移除了对 Microsoft Visual Studio 2015 的支持。\u003C\u002Fli>\n \u003Cli>移除了对 Microsoft Visual Studio 2017 的支持。\u003C\u002Fli>\n\u003C\u002Ful>","2025-07-07T10:36:15",{"id":226,"version":227,"summary_zh":228,"released_at":229},264063,"v6.1.150","\u003Ch4>Algorithms\u003C\u002Fh4>\r\n\u003Ch5>New features\u003C\u002Fh5>\r\n\u003Cul>\r\n \u003Cli>Base implementation, SSE4.1, AVX2 optimizations of class ResizerByteBilinearOpenCv.\u003C\u002Fli>\r\n\u003C\u002Ful>\r\n\u003Ch5>Improve\u003C\u002Fh5>\r\n\u003Cul>\r\n \u003Cli>Base implementation, SSE4.1, AVX2 optimizations of function SynetPoolingAverage.\u003C\u002Fli>\r\n \u003Cli>Base implementation, SSE4.1, AVX2 optimizations of class SynetGridSample2d32fBlZ.\u003C\u002Fli>\r\n\u003C\u002Ful>\r\n\r\n\u003Ch4>Test framework\u003C\u002Fh4>\r\n\u003Ch5>New features\u003C\u002Fh5>\r\n\u003Cul>\r\n \u003Cli>Special tests to compare Simd and OpenCV resize.\u003C\u002Fli>\r\n\u003C\u002Ful>","2025-06-02T08:24:26",{"id":231,"version":232,"summary_zh":233,"released_at":234},264064,"v6.1.149","\u003Ch4>Algorithms\u003C\u002Fh4>\r\n\u003Ch5>New features\u003C\u002Fh5>\r\n\u003Cul>\r\n \u003Cli>Base implementation, SSE4.1, AVX2, AVX-512BW, AMX-BF16 optimizations of class SynetConvolution16bNhwcSpecV1.\u003C\u002Fli>\r\n \u003Cli>AMX tile config changes caching.\u003C\u002Fli>\r\n \u003Cli>Function SimdSetAmxFull.\u003C\u002Fli>\r\n\u003C\u002Ful>\r\n\u003Ch5>Improve\u003C\u002Fh5>\r\n\u003Cul>\r\n \u003Cli>Base implementation, SSE4.1, AVX2, AVX-512BW, AMX-BF16 optimizations of class SynetConvolution16bNhwcSpecV0.\u003C\u002Fli>\r\n\u003C\u002Ful>\r\n\u003Ch5>Bug fixing\u003C\u002Fh5>\r\n\u003Cul>\r\n \u003Cli>Error in function Simd::SynetSetInput.\u003C\u002Fli>\r\n\u003C\u002Ful>\r\n\u003Ch5>Renaming\u003C\u002Fh5>\r\n\u003Cul>\r\n \u003Cli>Class SynetConvolution16bNhwcDirect to SynetConvolution16bNhwcSpecV0.\u003C\u002Fli>\r\n\u003C\u002Ful> \r\n\r\n\u003Ch4>Infrastructure\u003C\u002Fh4>\r\n\u003Ch5>Bug fixing\u003C\u002Fh5>\r\n\u003Cul>\r\n \u003Cli>CMake warning (required minimal version of CMake must be greater or equal to 3.10).\u003C\u002Fli>\r\n\u003C\u002Ful>","2025-05-05T07:59:02",{"id":236,"version":237,"summary_zh":238,"released_at":239},264065,"v6.1.148","\u003Ch5>New features\u003C\u002Fh5>\r\n\u003Cul>\r\n \u003Cli>ForwardSmallNK algorithm in Base implementation of class SynetDeconvolution16bNhwcGemm.\u003C\u002Fli>\r\n \u003Cli>Base implementation, SSE4.1, AVX2, AVX-512BW optimizations of function SynetChannelSum16b.\u003C\u002Fli>\r\n \u003Cli>Base implementation, SSE4.1, AVX2, AVX-512BW optimizations of class SynetScale16b.\u003C\u002Fli>\r\n \u003C\u002Ful> \r\n\u003Ch4>Algorithms\u003C\u002Fh4>\r\n\u003Ch5>Improving\u003C\u002Fh5>\r\n\u003Cul>\r\n \u003Cli>AMX-BF16 optimizations of class SynetDeconvolution16bNhwcGemm.\u003C\u002Fli>\r\n \u003Cli>AMX-BF16 optimizations of class SynetMergedConvolution16bCdc.\u003C\u002Fli>\r\n \u003Cli>AMX-BF16 optimizations of class SynetMergedConvolution16bCd.\u003C\u002Fli>\r\n \u003Cli>AMX-BF16 optimizations of class SynetMergedConvolution16bDc.\u003C\u002Fli>\r\n\u003C\u002Ful>\r\n\u003Ch5>Bug fixing\u003C\u002Fh5>\r\n\u003Cul>\r\n \u003Cli>Error in Base implementation, SSE4.1, AVX2, AVX-512BW optimizations of class SynetDeconvolution16bNhwcGemm.\u003C\u002Fli>\r\n \u003Cli>Error in Base implementation, AVX-512BW, AMX-BF16 optimizations of class SynetInnerProduct16bGemmNN.\u003C\u002Fli>\r\n \u003Cli>Error in class Xml::NodeIterator.\u003C\u002Fli>\r\n \u003Cli>Error in class Xml::AttributeIterator.\u003C\u002Fli>\r\n\u003C\u002Ful>\r\n\r\n\u003Ch4>Test framework\u003C\u002Fh4>\r\n\u003Ch5>New features\u003C\u002Fh5>\r\n\u003Cul>\r\n \u003Cli>Tests for verifying functionality of function SynetChannelSum16b.\u003C\u002Fli>\r\n \u003Cli>Tests for verifying functionality of class SynetScale16b.\u003C\u002Fli>\r\n \u003Cli>Pinning of test threads (-pt=1 command line argument).\u003C\u002Fli>\r\n\u003C\u002Ful>\r\n\r\n\u003Ch4>Infrastructure\u003C\u002Fh4>\r\n\u003Ch5>New features\u003C\u002Fh5>\r\n\u003Cul>\r\n \u003Cli>Clang version parameter in Github actions script for CMake.\u003C\u002Fli>\r\n \u003Cli>Check Clang-19 in Github actions script for CMake.\u003C\u002Fli>\r\n\u003C\u002Ful>","2025-04-01T08:27:18",{"id":241,"version":242,"summary_zh":243,"released_at":244},264066,"v6.1.147","\u003Ch4>Algorithms\u003C\u002Fh4>\r\n\u003Ch5>New features\u003C\u002Fh5>\r\n\u003Cul>\r\n \u003Cli>Base implementation, SSE4.1, AVX2, AVX-512BW optimizations of function BgrToLab.\u003C\u002Fli>\r\n \u003Cli>LAB pixel format in Simd::View.\u003C\u002Fli>\r\n \u003Cli>LAB pixel format in Simd::Frame.\u003C\u002Fli>\r\n \u003Cli>Supporting of BMP file format in function SimdImageSaveToMemory.\u003C\u002Fli>\r\n \u003Cli>Base implementation, SSE4.1, AVX2, AVX-512BW, NEON optimizations of class ImageBmpSaver.\u003C\u002Fli>\r\n \u003Cli>Supporting of BMP file format in function SimdImageLoadFromMemory.\u003C\u002Fli>\r\n \u003Cli>Base implementation, SSE4.1, AVX2, AVX-512BW, NEON optimizations of class ImageBmpLoader.\u003C\u002Fli>\r\n\u003C\u002Ful>\r\n\u003Ch5>Improving\u003C\u002Fh5>\r\n\u003Cul>\r\n \u003Cli>AMX-BF16 optimizations of class SynetConvolution16bNhwcGemm.\u003C\u002Fli>\r\n \u003Cli>AMX-BF16 optimizations of class SynetConvolution16bNhwcDirect.\u003C\u002Fli>\r\n \u003Cli>AMX-BF16 optimizations of class SynetInnerProduct16bGemmNN.\u003C\u002Fli>\r\n\u003C\u002Ful>\r\n\u003Ch5>Bug fixing\u003C\u002Fh5>\r\n\u003Cul>\r\n \u003Cli>Error in AVX-512BW optimizations of class SynetConvolution32fNhwcDepthwise.\u003C\u002Fli>\r\n \u003Cli>Error in AMX-BF16 optimizations of class SynetConvolution16bNchwGemm.\u003C\u002Fli>\r\n \u003Cli>Error in AMX-BF16 optimizations of class SynetMergedConvolution16bCdc (micro kernel DepthwiseConvolution3x3xH).\u003C\u002Fli>\r\n \u003Cli>Error in Base implementation, SSE4.1, AVX2, AVX-512BW optimizations of class SynetInnerProduct16bGemmNN.\u003C\u002Fli>\r\n\u003C\u002Ful>\r\n\r\n\u003Ch4>Python wrapper\u003C\u002Fh4>\r\n\u003Ch5>New features\u003C\u002Fh5>\r\n\u003Cul>\r\n \u003Cli>Lab24 in Simd.PixelFormat enumeration.\u003C\u002Fli>\r\n \u003Cli>Lab24 in Simd.FrameFormat enumeration.\u003C\u002Fli>\r\n \u003Cli>Bmp in Simd.ImageFile enumeration.\u003C\u002Fli>\r\n \u003Cli>Wrapper for function SimdBgrToLab.\u003C\u002Fli>\r\n \u003Cli>Function Simd.BgrToLab.\u003C\u002Fli>\r\n\u003C\u002Ful>\r\n\r\n\u003Ch4>Test framework\u003C\u002Fh4>\r\n\u003Ch5>New features\u003C\u002Fh5>\r\n\u003Cul>\r\n \u003Cli>Tests for verifying functionality of function BgrToLab.\u003C\u002Fli>\r\n\u003C\u002Ful>","2025-03-03T07:08:43",{"id":246,"version":247,"summary_zh":248,"released_at":249},264067,"v6.1.146","\u003Ch4>Algorithms\u003C\u002Fh4>\r\n\u003Ch5>New features\u003C\u002Fh5>\r\n\u003Cul>\r\n \u003Cli>AVX2, AVX-512BW optimizations of class ResizerBf16Bilinear.\u003C\u002Fli>\r\n \u003Cli>Deleter callback parameter in Simd::Frame.\u003C\u002Fli>\r\n\u003C\u002Ful>\r\n\u003Ch5>Improving\u003C\u002Fh5>\r\n\u003Cul>\r\n \u003Cli>SSE4.1 optimizations of class ResizerBf16Bilinear.\u003C\u002Fli>\r\n \u003Cli>SSE4.1, AVX2, AVX-512BW optimizations of class ResizerFloatBilinear.\u003C\u002Fli>\r\n \u003Cli>AMX-BF16 optimizations of class SynetConvolution16bNchwGemm.\u003C\u002Fli>\r\n \u003Cli>AMX-BF16 optimizations of class SynetConvolution16bNhwcGemm.\u003C\u002Fli>\r\n\u003C\u002Ful>\r\n\u003Ch5>Bug fixing\u003C\u002Fh5>\r\n\u003Cul>\r\n \u003Cli>Error in Base implementation of class SynetConvolution16bNchwGemm.\u003C\u002Fli>\r\n\u003C\u002Ful>\r\n\r\n\u003Ch4>Test framework\u003C\u002Fh4>\r\n\u003Ch5>New features\u003C\u002Fh5>\r\n\u003Cul>\r\n \u003Cli>Special tests for verifying functionality of function DescrIntCosineDistancesMxNa.\u003C\u002Fli>\r\n\u003C\u002Ful>","2025-02-04T11:22:47",{"id":251,"version":252,"summary_zh":253,"released_at":254},264068,"v6.1.145","\u003Ch4>Algorithms\u003C\u002Fh4>\r\n\u003Ch5>New features\u003C\u002Fh5>\r\n\u003Cul>\r\n \u003Cli>Parameter add in function SimdSynetMergedConvolution16bInit.\u003C\u002Fli>\r\n \u003Cli>Base implementation, SSE4.1, AVX2, AVX-512BW optimizations of function SynetTiledScale2D32f.\u003C\u002Fli>\r\n \u003Cli>AMX-BF16 kernel DepthwiseConvolution_k5p2d1s1w6 for class SynetMergedConvolution16b.\u003C\u002Fli>\r\n \u003Cli>AMX-BF16 kernel DepthwiseConvolution_k5p2d1s1w4 for class SynetMergedConvolution16b.\u003C\u002Fli>\r\n \u003Cli>AMX-BF16 kernel DepthwiseConvolution_k3p1d1s1w8 for class SynetMergedConvolution16b.\u003C\u002Fli>\r\n \u003Cli>AMX-BF16 kernel DepthwiseConvolution_k3p1d1s1w6 for class SynetMergedConvolution16b.\u003C\u002Fli>\r\n \u003Cli>Base implementation, SSE4.1 optimizations of class ResizerBf16Bilinear.\u003C\u002Fli>\r\n\u003C\u002Ful>\r\n\u003Ch5>Improving\u003C\u002Fh5>\r\n\u003Cul>\r\n \u003Cli>Extend using of AMX-BF16 optimization of function DepthwiseConvolution_k7p3d1s1w4.\u003C\u002Fli>\r\n \u003Cli>Extend using of AMX-BF16 optimization of function DepthwiseConvolution_k7p3d1s1w6.\u003C\u002Fli>\r\n \u003Cli>Extend using of AMX-BF16 optimization of function DepthwiseConvolution_k7p3d1s1w8.\u003C\u002Fli>\r\n \u003Cli>Extend using of AVX-512BW optimization of function Convolution32fNhwcDepthwise_k7p3d1s1w4.\u003C\u002Fli>\r\n \u003Cli>Extend using of AMX-BF16 optimization of function DepthwiseConvolution_k5p2d1s1w8.\u003C\u002Fli>\r\n \u003Cli>Performance of SynetConvolution32f (NHWC, srcC=1, dstС=1).\u003C\u002Fli>\r\n\u003C\u002Ful>\r\n\u003Ch5>Bug fixing\u003C\u002Fh5>\r\n\u003Cul>\r\n \u003Cli>Error in AMX-BF16 optimizations of class SynetInnerProduct16bGemmNN.\u003C\u002Fli>\r\n \u003Cli>Error in AVX-512BW optimizations of class SynetAdd16bUniform.\u003C\u002Fli>\r\n \u003Cli>Error in AMX-BF16 optimizations of function DepthwiseConvolutionDefault.\u003C\u002Fli>\r\n \u003Cli>Error in AMX-BF16 optimizations of function DepthwiseConvolutionLargePad.\u003C\u002Fli>\r\n \u003Cli>Error in Base implementation of class SynetMergedConvolution16bCdc.\u003C\u002Fli>\r\n \u003Cli>Error in Base implementation of class SynetMergedConvolution16bCd.\u003C\u002Fli>\r\n \u003Cli>Error in class InputMemoryStream.\u003C\u002Fli>\r\n\u003C\u002Ful>\r\n\u003Ch5>Removing\u003C\u002Fh5>\r\n\u003Cul>\r\n \u003Cli>Parameter compatibility in function SimdSynetMergedConvolution16bInit.\u003C\u002Fli>\r\n \u003Cli>Parameter internal in function SimdSynetMergedConvolution16bSetParams.\u003C\u002Fli>\r\n\u003C\u002Ful>\r\n\r\n\u003Ch4>Test framework\u003C\u002Fh4>\r\n\u003Ch5>New features\u003C\u002Fh5>\r\n\u003Cul>\r\n \u003Cli>Tests for verifying functionality of function SynetTiledScale2D32f.\u003C\u002Fli>\r\n\u003C\u002Ful>","2025-01-01T21:01:46",{"id":256,"version":257,"summary_zh":258,"released_at":259},264069,"v6.1.144","\u003Ch4>Algorithms\u003C\u002Fh4>\r\n\u003Ch5>New features\u003C\u002Fh5>\r\n\u003Cul>\r\n \u003Cli>SSE4.1, AVX2 optimizations of function Yuv444pToRgbaV2.\u003C\u002Fli>\r\n \u003Cli>SSE4.1 optimizations of class ImageJpegLoader.\u003C\u002Fli>\r\n \u003Cli>isRgb parameter of function Simd::SynetSetInput.\u003C\u002Fli>\r\n\u003C\u002Ful>\r\n\u003Ch5>Bug fixing\u003C\u002Fh5>\r\n\u003Cul>\r\n \u003Cli>Error in Base implementation, SSE4.1, AVX2, AVX-512BW, AMX-BF16 optimizations of class SynetConvolution16bNhwcGemm.\u003C\u002Fli>\r\n\u003C\u002Ful>\r\n\r\n\u003Ch4>Python wrapper\u003C\u002Fh4>\r\n\u003Ch5>New features\u003C\u002Fh5>\r\n\u003Cul>\r\n \u003Cli>isRgb parameter of function Simd.SynetSetInput.\u003C\u002Fli>\r\n\u003C\u002Ful>","2024-12-02T12:31:37",{"id":261,"version":262,"summary_zh":263,"released_at":264},264070,"v6.1.143","\u003Ch4>Algorithms\u003C\u002Fh4>\r\n\u003Ch5>New features\u003C\u002Fh5>\r\n\u003Cul>\r\n \u003Cli>Base implementation, SSE4.1, AVX2, AVX-512BW optimizations of class SynetConvolution16bNhwcDepthwise.\u003C\u002Fli>\r\n \u003Cli>AVX-512BW kernel Convolution32fNhwcDepthwise_k7p3d1s1w4 for class SynetConvolution32fNhwcDepthwise.\u003C\u002Fli>\r\n \u003Cli>AMX-BF16 kernel DepthwiseConvolution_k7p3d1s1w4 for class SynetMergedConvolution16b.\u003C\u002Fli>\r\n \u003Cli>AVX-512BW kernel Convolution32fNhwcDepthwise_k7p3d1s1w6 for class SynetConvolution32fNhwcDepthwise.\u003C\u002Fli>\r\n \u003Cli>AVX-512BW kernel Convolution32fNhwcDepthwise_k7p3d1s1w8 for class SynetConvolution32fNhwcDepthwise.\u003C\u002Fli>\r\n \u003Cli>AMX-BF16 kernel DepthwiseConvolution_k7p3d1s1w6 for class SynetMergedConvolution16b.\u003C\u002Fli>\r\n \u003Cli>AMX-BF16 kernel DepthwiseConvolution_k7p3d1s1w8 for class SynetMergedConvolution16b.\u003C\u002Fli>\r\n \u003Cli>AVX-512BW kernel Convolution32fNhwcDepthwise_k7p3d1s1w4 for framework SynetMergedConvolution32f.\u003C\u002Fli>\r\n \u003Cli>AVX-512BW kernel Convolution32fNhwcDepthwise_k7p3d1s1w6 for framework SynetMergedConvolution32f.\u003C\u002Fli>\r\n \u003Cli>AVX-512BW kernel Convolution32fNhwcDepthwise_k7p3d1s1w8 for framework SynetMergedConvolution32f.\u003C\u002Fli>\r\n \u003Cli>AMX-BF16 kernel DepthwiseConvolution_k5p2d1s1w8 for class SynetMergedConvolution16b.\u003C\u002Fli>\r\n \u003Cli>Base implementation of function SimdYuv444pToRgbaV2.\u003C\u002Fli>\r\n\u003C\u002Ful>\r\n\u003Ch5>Improving\u003C\u002Fh5>\r\n\u003Cul>\r\n \u003Cli>AVX-512BW optimizations of function Convolution32fNhwcDepthwiseDefault.\u003C\u002Fli>\r\n \u003Cli>AMX-BF16 optimizations of function DepthwiseConvolutionLargePad.\u003C\u002Fli>\r\n\u003C\u002Ful>\r\n\u003Ch5>Bug fixing\u003C\u002Fh5>\r\n\u003Cul>\r\n \u003Cli>Error in Base implementation of class SynetDeconvolution16bNhwcGemm.\u003C\u002Fli>\r\n\u003C\u002Ful>\r\n\r\n\u003Ch4>Test framework\u003C\u002Fh4>\r\n\u003Ch5>New features\u003C\u002Fh5>\r\n\u003Cul>\r\n \u003Cli>Tests for verifying functionality of function SimdYuv444pToRgbaV2.\u003C\u002Fli>\r\n\u003C\u002Ful>","2024-11-04T15:26:41",{"id":266,"version":267,"summary_zh":268,"released_at":269},264071,"v6.1.142","\u003Ch4>Algorithms\u003C\u002Fh4>\r\n\u003Ch5>New features\u003C\u002Fh5>\r\n\u003Cul>\r\n \u003Cli>Base implementation of class SynetDeconvolution16bGemm.\u003C\u002Fli>\r\n \u003Cli>Base implementation, SSE4.1, AVX2, AVX-512BW, AMX-BF16 optimizations of class SynetDeconvolution16bNhwcGemm.\u003C\u002Fli>\r\n \u003Cli>AMX-BF16 (AVX-512VBMI) optimizations of function DeinterleaveUv.\u003C\u002Fli>\r\n \u003Cli>AMX-BF16 (AVX-512VBMI) optimizations of function DeinterleaveBgr.\u003C\u002Fli>\r\n \u003Cli>AMX-BF16 (AVX-512VBMI) optimizations of function DeinterleaveBgra.\u003C\u002Fli>\r\n\u003C\u002Ful>\r\n\u003Ch5>Improving\u003C\u002Fh5>\r\n\u003Cul>\r\n \u003Cli>AVX-512BW optimizations of function ConvolutionDirectNhwcConvolutionBiasActivationDepthwise.\u003C\u002Fli>\r\n\u003C\u002Ful>\r\n\u003Ch5>Removing\u003C\u002Fh5>\r\n\u003Cul>\r\n \u003Cli>Base implementation, SSE4.1, AVX2, AVX-512BW, AMX-BF16 optimizations of class SynetConvolution32fBf16NhwcGemm.\u003C\u002Fli>\r\n \u003Cli>Base implementation of class SynetConvolution32fBf16Gemm.\u003C\u002Fli>\r\n \u003Cli>Parameter 'compatibility' from function SynetConvolution32fInit.\u003C\u002Fli>\r\n \u003Cli>Base implementation, SSE4.1, AVX2, AVX-512BW, AMX-BF16 optimizations of class SynetMergedConvolution32fBf16Cdc.\u003C\u002Fli>\r\n \u003Cli>Base implementation, SSE4.1, AVX2, AVX-512BW, AMX-BF16 optimizations of class SynetMergedConvolution32fBf16Cd.\u003C\u002Fli>\r\n \u003Cli>Base implementation, SSE4.1, AVX2, AVX-512BW, AMX-BF16 optimizations of class SynetMergedConvolution32fBf16Dc.\u003C\u002Fli>\r\n \u003Cli>Base implementation of class SynetMergedConvolution32fBf16.\u003C\u002Fli>\r\n \u003Cli>Parameter 'compatibility' from function SynetMergedConvolution32fInit.\u003C\u002Fli>\r\n\u003C\u002Ful>\r\n\r\n\u003Ch4>Test framework\u003C\u002Fh4>\r\n\u003Ch5>New features\u003C\u002Fh5>\r\n\u003Cul>\r\n \u003Cli>Tests for verifying functionality of SynetDeconvolution16b framework.\u003C\u002Fli>\r\n\u003C\u002Ful>","2024-10-01T07:21:58",{"id":271,"version":272,"summary_zh":273,"released_at":274},264072,"v6.1.141","\u003Ch4>Algorithms\u003C\u002Fh4>\r\n\u003Ch5>New features\u003C\u002Fh5>\r\n\u003Cul>\r\n \u003Cli>Support of BFloat16 in Base implementation, SSE4.1, AVX2, AVX-512BW, NEON optimizations of class ResizerNearest.\u003C\u002Fli>\r\n\u003C\u002Ful>\r\n\u003Ch5>Bug fixing\u003C\u002Fh5>\r\n\u003Cul>\r\n \u003Cli>Compiler warning in function Simd::LitterCpuCache.\u003C\u002Fli>\r\n \u003Cli>Error in AVX-512BW optimizations of class SynetInnerProduct16bGemmNN.\u003C\u002Fli>\r\n\u003C\u002Ful>","2024-09-02T08:07:37"]