Vision Language Model trong camera AI: Bước nhảy 2024-2026 từ

TL;DR

Vision Language Model (VLM) là kiến trúc AI multimodal cho phép operator tìm video bằng câu mô tả tự nhiên thay vì filter dropdown cố định. Verkada thương mại hoá đầu tiên 05/2024, Hikvision tung AcuSeek NVR 06/2025 trên platform Guanlan, Avigilon Unity 8.7 Visual Alerts 09/2025, Milestone Hafnia 11/2025 và Bosch IVA Pro Context dự kiến 2026. Kết quả thực tế đo được: Verkada báo retailer giảm 50% shrinkage, Hikvision AcuSeek rút thời gian forensic review từ 45 phút xuống dưới 10 giây, Milestone Hafnia tăng 19,4% độ chính xác phân tích traffic và giảm 30% alarm fatigue.

Vì sao Vision Language Model xuất hiện 2024-2026?

Camera AI thế hệ 2018-2024 dựa trên kiến trúc deep learning thuần — model phân loại đối tượng (person, vehicle, face) và gắn metadata theo thuộc tính cố định: giới tính, độ tuổi, màu áo, màu xe. Khi điều tra một sự cố, operator filter qua dropdown 28-30 thuộc tính có sẵn. Pattern này đã đẩy ngành đi xa được 6 năm — nhưng vẫn để lại pain lớn: dò 4-8 giờ video để tìm 30 giây quan trọng. Vision Language Model (VLM) đảo ngược cách tìm. Thay vì chọn từ dropdown, operator gõ câu mô tả tự do — "người đàn ông đeo balô đỏ đi qua cổng phía bắc trong khoảng 14h hôm qua" — và camera trả clip phù hợp trong vài giây. Đây là khác biệt cấp kiến trúc, không phải cải tiến tăng dần. [Verkada](/thuong-hieu/verkada/) là vendor đầu tiên thương mại hoá VLM trong ngành cloud VMS, ra mắt **AI Search** tháng 5/2024 với CLIP-family model. Trong 12-18 tháng tiếp theo, gần như toàn bộ Tier-1 vendor toàn cầu — cả Trung Quốc và phương Tây — đã đẩy sản phẩm VLM thương mại ra thị trường. Kết quả thực tế đo được trong giai đoạn 2024-2025: - Verkada báo cáo retailer khách hàng giảm **50% product shrinkage**, **2x nhanh hơn** trong điều tra sự cố quầy thanh toán - Hikvision AcuSeek NVR claim rút thời gian forensic review từ **45 phút xuống dưới 10 giây** với truy vấn kiểu "person on a phone call" hay "white van" - Milestone Hafnia VLM trong context traffic command center: **+19,4% độ chính xác** phân loại flow/direction, **-30% alarm fatigue** cho operator 24/7

Vision Language Model hoạt động thế nào?

Hầu hết VLM thương mại 2024-2026 trong ngành security xây trên kiến trúc **CLIP** (Contrastive Language-Image Pre-training) do OpenAI công bố 2021, hoặc các bản open-source hậu duệ như OpenCLIP, SigLIP. CLIP có hai "encoder" chạy song song: - **Image encoder** (thường là Vision Transformer / ViT): chuyển frame video thành vector 512-1024 chiều - **Text encoder** (Transformer 12-layer): chuyển câu mô tả thành vector cùng kích thước Điểm cốt lõi: hai encoder được train cùng nhau theo *contrastive learning* trên hàng trăm triệu cặp ảnh-caption từ internet. Model học kéo cặp đúng (ảnh con mèo + caption "a cat") gần nhau trong không gian vector, đẩy cặp sai ra xa. Khi deploy thực tế, hệ thống pre-encode toàn bộ frame video thành vector và lưu vào index. Khi operator gõ "person in red jacket near ATM", text encoder convert câu thành vector, hệ thống tìm các vector ảnh có cosine similarity cao nhất — trả kết quả trong vài giây vì mọi tính toán nặng đã làm sẵn lúc record. Đây là lý do **AcuSeek NVR có thể search 24h footage trong dưới 10 giây**: index đã được Hikvision Guanlan model tính sẵn. Vendor enterprise đi xa hơn CLIP cơ bản. Milestone Hafnia VLM (11/2025) **fine-tune trên 75.000 giờ video real-world** thu thập từ EU và US, dùng nền tảng NVIDIA Cosmos Reason + Cosmos Curator. Bosch IVA Pro Context (dự kiến 2026 trên CPP16 chipset) thêm LLM head để summarize cảnh quay và reasoning — vượt qua giới hạn match-by-similarity của CLIP thuần. Một phân biệt quan trọng cần nắm: **"AI Search by Attributes"** thế hệ trước (Avigilon Appearance Search 2017, Hikvision DeepinMind, Dahua Video Metadata 2.0 với 28+ thuộc tính) **không phải VLM**. Hai công nghệ tên gọi gần nhau nhưng kiến trúc khác cấp.

Sáu vendor đã thương mại hoá VLM (timeline 2024-2026)

**Verkada AI Search — 05/2024** (cloud VMS) [Verkada](/thuong-hieu/verkada/) là vendor đầu tiên đưa VLM ra thị trường thương mại trong ngành cloud security. Dùng CLIP-family model với in-house preprocessing. Có guardrail moderation — chặn query về chủng tộc, dân tộc, giới tính chủ quan. Mở rộng tháng 9/2024 với AI-Powered Alerts proactive monitoring qua VLM. **Hikvision Guanlan + AcuSeek NVR — 04-06/2025** (on-premise) [Hikvision](/thuong-hieu/hikvision/) công bố Guanlan Large-Scale AI Models 29/04/2025 — kiến trúc 3 tier (foundation → industry → task) gồm large vision, language và multimodal models. AcuSeek NVR launch 06/2025 là sản phẩm consumer-facing đầu tiên, xử lý local trên NVR không upload cloud. DeepinViewX Bullet Cameras (07/2025) chạy edge VLM trên camera, claim giảm false alarm chu vi >90% so với AI thế hệ trước. **Avigilon Unity Video 8.7 Visual Alerts — 09/2025** (server-side) [Avigilon](/thuong-hieu/avigilon/) phát hành Visual Alerts trong Unity Video 8.7 ngày 18/09/2025, là on-premise GenAI feature đầu tiên dùng natural-language prompt để tạo alert trên toàn field of view. Triển khai qua Avigilon AI Appliance 2X — cần hardware appliance riêng, chưa chạy edge trên camera. **Genetec Security Center SaaS — 09/2025** (cloud) [Genetec](/thuong-hieu/genetec/) công bố Natural Language Search trong Security Center SaaS 18/09/2025, rollout cuối tháng 9. Mở rộng đầu 2026 với Investigation Assistant cung cấp contextual analysis và visual trajectory search. **Milestone Hafnia VLM — 11/2025** (VMS-as-a-Service) [Milestone](/thuong-hieu/milestone-systems/) công bố Hafnia VLM tháng 11/2025, fine-tune trên 75.000 giờ video. Cung cấp XProtect Video Summarization (free plug-in, pay-per-prompt) và VLM-as-a-Service cho third-party. AI Search on-prem qua BriefCam dự kiến cuối 2026. **Bosch IVA Pro Context — 2026** (edge VLM trên camera) [Bosch](/thuong-hieu/bosch-security/) công bố IVA Pro Context tại ISC West 04/2025; cloud roll-out cuối 2025, **edge VLM trên CPP16 chipset từ 2026** — sản phẩm phương Tây đầu tiên đưa VLM thật sự xuống camera, không cần appliance trung gian. **Lưu ý quan trọng**: [Dahua](/thuong-hieu/dahua/) WizMind đến tháng 4/2026 vẫn là deep-learning classification thuần — chưa có sản phẩm VLM thương mại tương đương AcuSeek hay Verkada AI Search. Đây là gap đáng chú ý so với Hikvision.

Ba use case enterprise đáng đầu tư 2026

### Retail loss prevention cho chuỗi 50+ chi nhánh [Verkada báo cáo](/giai-phap/chong-that-thoat/) khách hàng retailer giảm **50% product shrinkage**, **2x nhanh hơn** trong điều tra sự cố POS, và **20% giảm thời gian xử lý theft**. Workflow đặc thù: search "person holding Louis Vuitton bag" hoặc "customer placing item in pocket near cosmetics aisle" trở thành thao tác hàng ngày. Phù hợp đặc biệt cho chuỗi siêu thị lớn, mỹ phẩm cao cấp và thời trang premium — nơi sản phẩm có giá trị cao và thất thoát đo được bằng tỷ đồng/năm. ### Bank/ATM forensic search Hikvision AcuSeek case study claim rút từ **45 phút review xuống dưới 10 giây** cho query kiểu "black SUV with round headlights" hay "person in black hoodie with backpack". Đối với [ngân hàng Việt Nam](/mo-hinh/ngan-hang-tai-chinh/), giá trị thực tế là khả năng search bằng các pattern cụ thể không thể train trước: "khách hàng đứng quá lâu trước ATM", "người đeo khẩu trang rời quầy giao dịch lúc 22h", "xe máy đỗ chắn lối thoát hiểm". Một sự cố điều tra hoàn thành trong giờ thay vì ngày — quan trọng cho yêu cầu compliance forensic 24-48h của Ngân hàng Nhà nước. ### Smart city / Traffic command center Milestone Hafnia VLM cải thiện **19,4% độ chính xác** phân loại flow/direction trong context traffic, **+4,4% alert verification accuracy**, **-30% alarm fatigue** cho operator. Quan trọng cho command center 24/7 vì giảm operator burnout — một trong những vấn đề kinh điển của SOC nhiều người, nhiều ca.

VLM có nên đầu tư cho doanh nghiệp Việt Nam ngay 2026?

**Nên đầu tư** nếu doanh nghiệp đáp ứng đủ 3 điều kiện: - 100+ camera đang vận hành và điều tra forensic là workflow thường xuyên (ít nhất 3-5 sự cố/tuần) - Yêu cầu compliance forensic nhanh — ngân hàng, FDI Mỹ-EU, doanh nghiệp niêm yết - Có ngân sách hardware mới ($25,000-50,000 cho pilot 16-32 camera) **Nên chờ 1-2 năm** nếu: - Camera dưới 50, dò video thủ công 1-2 lần/tháng vẫn đáp ứng - Camera đa số là analog hoặc IP cũ không hỗ trợ stream qua appliance VLM - Tiếng Việt query là yêu cầu chính (xem hạn chế bên dưới) - Ngân sách hạn chế — giá VLM dự kiến giảm 30-40% trong 12-18 tháng tới khi camera embedded VLM (Bosch CPP16 và đối thủ) commercial rộng rãi **Trade-off chính**: chi phí ban đầu cao hơn AI thế hệ trước 30-50%, đổi lại ROI vào điều tra forensic nhanh gấp 270 lần (45 phút xuống 10 giây) và khả năng search những pattern không thể train trước. Đối với doanh nghiệp có 100+ camera và yêu cầu compliance, payback thường 12-18 tháng tính trên thời gian operator tiết kiệm. An Ninh Số recommend pilot tại 1-2 chi nhánh với 16-32 camera trong 60-90 ngày, đo cụ thể tỷ lệ false positive, thời gian search và độ tin cậy của kết quả VLM trong môi trường Việt Nam trước khi roll-out diện rộng. [Đặt buổi khảo sát](/lien-he/) để đội kỹ sư phân tích cụ thể hạ tầng camera hiện có và đề xuất combo VLM phù hợp.

Sáu hạn chế VLM 2026 cần biết trước khi đầu tư

**1. Hallucination — VLM "đoán" action theo scene context.** Paper CVPR 2025 MASH-VLM đã xác nhận "leading VLMs hallucinate actions based on the scene context or incorrectly predict scenes based on the observed actions". Ví dụ: VLM thấy người trong bếp có thể tự sinh caption "đang nấu ăn" dù người đó chỉ đứng. Trong context security, false positive cao hơn so với attribute search thế hệ trước — yêu cầu human review cho mọi alert critical. **2. Multilingual yếu — tiếng Việt prompt chưa benchmark chính thức.** Hầu hết VLM training data heavily English-grounded. Verkada, Hikvision, Avigilon, Milestone chưa benchmark tiếng Việt chính thức tính đến 4/2026. Trong thực tế triển khai, query tiếng Anh ("person in red shirt near ATM") vẫn cho kết quả tốt nhất. Query tiếng Việt thuần ("áo đỏ", "xe máy SH") accuracy giảm đáng kể. Hỗ trợ tiếng Việt native là roadmap 2027+ của vendor lớn. **3. Privacy guardrail.** Verkada chủ động block query về chủng tộc, dân tộc, giới tính chủ quan để tuân thủ GDPR và best practice. Vendor khác chưa publicly công bố policy tương đương — rủi ro compliance khi triển khai cho ngân hàng và doanh nghiệp niêm yết. Cần audit guardrail trước khi go-live. **4. Hardware lock-in — camera cũ KHÔNG upgrade VLM được.** Yêu cầu hardware mới: AcuSeek NVR (Hikvision), AI Appliance 2X (Avigilon), CPP16 chipset (Bosch). Camera analog không hỗ trợ. Camera IP cũ vẫn dùng được nhưng phải đẩy stream qua hardware VLM trung gian — không tận dụng được edge AI on-camera của thiết bị cũ. **5. Latency real-time vẫn cần GPU-class.** Camera 4K-8K real-time inference cần Jetson Orin AGX 275 TOPS hoặc tương đương nếu chạy on-camera. Nhiều vendor đẩy về appliance/cloud (Avigilon AI Appliance 2X, Bosch cloud trước, edge sau) vì lý do power budget và toả nhiệt camera lẻ. **6. Bài học Amazon Just Walk Out (4/2024).** Amazon đã shutdown Just Walk Out cho Amazon Fresh full-size store sau khi phát hiện hệ AI "tự trị" vẫn cần ~1.000 reviewer ở Ấn Độ làm human-in-the-loop. Bài học chung cho mọi triển khai VLM/agentic AI security: human-in-the-loop là yêu cầu mặc định, không phải tuỳ chọn. Đừng kỳ vọng AI 100% tự động — kỳ vọng AI lọc 95% noise để con người tập trung vào 5% critical.

Brands mentioned in this article

HIK Hikvision AVG Avigilon (Motorola Solutions) VK Verkada GTC Genetec MS Milestone Systems BOSCH Bosch Security Systems DH Dahua Technology

Vision Language Model trong camera AI: Bước nhảy 2024-2026 từ filter sang câu mô tả tự nhiên