Tất cả bài viết
GP4 26 tháng 4, 2026 12 phút đọc

Vision Language Model trong camera AI: Bước nhảy 2024-2026 từ filter sang câu mô tả tự nhiên

Vision Language Model (VLM) là kiến trúc AI cho phép tìm video bằng câu mô tả tự do — gõ "người mặc áo đỏ đeo balô đi cổng phía bắc lúc 14h" và camera trả về clip phù hợp dưới 10 giây. Verkada ra mắt 05/2024, Hikvision AcuSeek NVR 06/2025, Avigilon Visual Alerts 09/2025 — đây là bước nhảy lớn nhất ngành surveillance kể từ deep learning 2017.

Vision Language Model trong camera AI: Bước nhảy 2024-2026 từ filter sang câu mô tả tự nhiên

Vì sao Vision Language Model xuất hiện 2024-2026?

Camera AI thế hệ 2018-2024 dựa trên kiến trúc deep learning thuần — model phân loại đối tượng (person, vehicle, face) và gắn metadata theo thuộc tính cố định: giới tính, độ tuổi, màu áo, màu xe. Khi điều tra một sự cố, operator filter qua dropdown 28-30 thuộc tính có sẵn. Pattern này đã đẩy ngành đi xa được 6 năm — nhưng vẫn để lại pain lớn: dò 4-8 giờ video để tìm 30 giây quan trọng.

Vision Language Model (VLM) đảo ngược cách tìm. Thay vì chọn từ dropdown, operator gõ câu mô tả tự do — "người đàn ông đeo balô đỏ đi qua cổng phía bắc trong khoảng 14h hôm qua" — và camera trả clip phù hợp trong vài giây. Đây là khác biệt cấp kiến trúc, không phải cải tiến tăng dần.

Verkada là vendor đầu tiên thương mại hoá VLM trong ngành cloud VMS, ra mắt AI Search tháng 5/2024 với CLIP-family model. Trong 12-18 tháng tiếp theo, gần như toàn bộ Tier-1 vendor toàn cầu — cả Trung Quốc và phương Tây — đã đẩy sản phẩm VLM thương mại ra thị trường.

Kết quả thực tế đo được trong giai đoạn 2024-2025:

  • Verkada báo cáo retailer khách hàng giảm 50% product shrinkage, 2x nhanh hơn trong điều tra sự cố quầy thanh toán
  • Hikvision AcuSeek NVR claim rút thời gian forensic review từ 45 phút xuống dưới 10 giây với truy vấn kiểu "person on a phone call" hay "white van"
  • Milestone Hafnia VLM trong context traffic command center: +19,4% độ chính xác phân loại flow/direction, -30% alarm fatigue cho operator 24/7

Vision Language Model hoạt động thế nào?

Hầu hết VLM thương mại 2024-2026 trong ngành security xây trên kiến trúc CLIP (Contrastive Language-Image Pre-training) do OpenAI công bố 2021, hoặc các bản open-source hậu duệ như OpenCLIP, SigLIP. CLIP có hai "encoder" chạy song song:

  • Image encoder (thường là Vision Transformer / ViT): chuyển frame video thành vector 512-1024 chiều
  • Text encoder (Transformer 12-layer): chuyển câu mô tả thành vector cùng kích thước

Điểm cốt lõi: hai encoder được train cùng nhau theo contrastive learning trên hàng trăm triệu cặp ảnh-caption từ internet. Model học kéo cặp đúng (ảnh con mèo + caption "a cat") gần nhau trong không gian vector, đẩy cặp sai ra xa.

Khi deploy thực tế, hệ thống pre-encode toàn bộ frame video thành vector và lưu vào index. Khi operator gõ "person in red jacket near ATM", text encoder convert câu thành vector, hệ thống tìm các vector ảnh có cosine similarity cao nhất — trả kết quả trong vài giây vì mọi tính toán nặng đã làm sẵn lúc record. Đây là lý do AcuSeek NVR có thể search 24h footage trong dưới 10 giây: index đã được Hikvision Guanlan model tính sẵn.

Vendor enterprise đi xa hơn CLIP cơ bản. Milestone Hafnia VLM (11/2025) fine-tune trên 75.000 giờ video real-world thu thập từ EU và US, dùng nền tảng NVIDIA Cosmos Reason + Cosmos Curator. Bosch IVA Pro Context (dự kiến 2026 trên CPP16 chipset) thêm LLM head để summarize cảnh quay và reasoning — vượt qua giới hạn match-by-similarity của CLIP thuần.

Một phân biệt quan trọng cần nắm: "AI Search by Attributes" thế hệ trước (Avigilon Appearance Search 2017, Hikvision DeepinMind, Dahua Video Metadata 2.0 với 28+ thuộc tính) không phải VLM. Hai công nghệ tên gọi gần nhau nhưng kiến trúc khác cấp.

Sáu vendor đã thương mại hoá VLM (timeline 2024-2026)

Verkada AI Search — 05/2024 (cloud VMS) Verkada là vendor đầu tiên đưa VLM ra thị trường thương mại trong ngành cloud security. Dùng CLIP-family model với in-house preprocessing. Có guardrail moderation — chặn query về chủng tộc, dân tộc, giới tính chủ quan. Mở rộng tháng 9/2024 với AI-Powered Alerts proactive monitoring qua VLM.

Hikvision Guanlan + AcuSeek NVR — 04-06/2025 (on-premise) Hikvision công bố Guanlan Large-Scale AI Models 29/04/2025 — kiến trúc 3 tier (foundation → industry → task) gồm large vision, language và multimodal models. AcuSeek NVR launch 06/2025 là sản phẩm consumer-facing đầu tiên, xử lý local trên NVR không upload cloud. DeepinViewX Bullet Cameras (07/2025) chạy edge VLM trên camera, claim giảm false alarm chu vi >90% so với AI thế hệ trước.

Avigilon Unity Video 8.7 Visual Alerts — 09/2025 (server-side) Avigilon phát hành Visual Alerts trong Unity Video 8.7 ngày 18/09/2025, là on-premise GenAI feature đầu tiên dùng natural-language prompt để tạo alert trên toàn field of view. Triển khai qua Avigilon AI Appliance 2X — cần hardware appliance riêng, chưa chạy edge trên camera.

Genetec Security Center SaaS — 09/2025 (cloud) Genetec công bố Natural Language Search trong Security Center SaaS 18/09/2025, rollout cuối tháng 9. Mở rộng đầu 2026 với Investigation Assistant cung cấp contextual analysis và visual trajectory search.

Milestone Hafnia VLM — 11/2025 (VMS-as-a-Service) Milestone công bố Hafnia VLM tháng 11/2025, fine-tune trên 75.000 giờ video. Cung cấp XProtect Video Summarization (free plug-in, pay-per-prompt) và VLM-as-a-Service cho third-party. AI Search on-prem qua BriefCam dự kiến cuối 2026.

Bosch IVA Pro Context — 2026 (edge VLM trên camera) Bosch công bố IVA Pro Context tại ISC West 04/2025; cloud roll-out cuối 2025, edge VLM trên CPP16 chipset từ 2026 — sản phẩm phương Tây đầu tiên đưa VLM thật sự xuống camera, không cần appliance trung gian.

Lưu ý quan trọng: Dahua WizMind đến tháng 4/2026 vẫn là deep-learning classification thuần — chưa có sản phẩm VLM thương mại tương đương AcuSeek hay Verkada AI Search. Đây là gap đáng chú ý so với Hikvision.

Ba use case enterprise đáng đầu tư 2026

### Retail loss prevention cho chuỗi 50+ chi nhánh Verkada báo cáo khách hàng retailer giảm 50% product shrinkage, 2x nhanh hơn trong điều tra sự cố POS, và 20% giảm thời gian xử lý theft. Workflow đặc thù: search "person holding Louis Vuitton bag" hoặc "customer placing item in pocket near cosmetics aisle" trở thành thao tác hàng ngày. Phù hợp đặc biệt cho chuỗi siêu thị lớn, mỹ phẩm cao cấp và thời trang premium — nơi sản phẩm có giá trị cao và thất thoát đo được bằng tỷ đồng/năm.

Bank/ATM forensic search

Hikvision AcuSeek case study claim rút từ 45 phút review xuống dưới 10 giây cho query kiểu "black SUV with round headlights" hay "person in black hoodie with backpack". Đối với ngân hàng Việt Nam, giá trị thực tế là khả năng search bằng các pattern cụ thể không thể train trước: "khách hàng đứng quá lâu trước ATM", "người đeo khẩu trang rời quầy giao dịch lúc 22h", "xe máy đỗ chắn lối thoát hiểm". Một sự cố điều tra hoàn thành trong giờ thay vì ngày — quan trọng cho yêu cầu compliance forensic 24-48h của Ngân hàng Nhà nước.

Smart city / Traffic command center

Milestone Hafnia VLM cải thiện 19,4% độ chính xác phân loại flow/direction trong context traffic, +4,4% alert verification accuracy, -30% alarm fatigue cho operator. Quan trọng cho command center 24/7 vì giảm operator burnout — một trong những vấn đề kinh điển của SOC nhiều người, nhiều ca.

VLM có nên đầu tư cho doanh nghiệp Việt Nam ngay 2026?

Nên đầu tư nếu doanh nghiệp đáp ứng đủ 3 điều kiện:

  • 100+ camera đang vận hành và điều tra forensic là workflow thường xuyên (ít nhất 3-5 sự cố/tuần)
  • Yêu cầu compliance forensic nhanh — ngân hàng, FDI Mỹ-EU, doanh nghiệp niêm yết
  • Có ngân sách hardware mới ($25,000-50,000 cho pilot 16-32 camera)

Nên chờ 1-2 năm nếu:

  • Camera dưới 50, dò video thủ công 1-2 lần/tháng vẫn đáp ứng
  • Camera đa số là analog hoặc IP cũ không hỗ trợ stream qua appliance VLM
  • Tiếng Việt query là yêu cầu chính (xem hạn chế bên dưới)
  • Ngân sách hạn chế — giá VLM dự kiến giảm 30-40% trong 12-18 tháng tới khi camera embedded VLM (Bosch CPP16 và đối thủ) commercial rộng rãi

Trade-off chính: chi phí ban đầu cao hơn AI thế hệ trước 30-50%, đổi lại ROI vào điều tra forensic nhanh gấp 270 lần (45 phút xuống 10 giây) và khả năng search những pattern không thể train trước. Đối với doanh nghiệp có 100+ camera và yêu cầu compliance, payback thường 12-18 tháng tính trên thời gian operator tiết kiệm.

An Ninh Số recommend pilot tại 1-2 chi nhánh với 16-32 camera trong 60-90 ngày, đo cụ thể tỷ lệ false positive, thời gian search và độ tin cậy của kết quả VLM trong môi trường Việt Nam trước khi roll-out diện rộng. Đặt buổi khảo sát để đội kỹ sư phân tích cụ thể hạ tầng camera hiện có và đề xuất combo VLM phù hợp.

Sáu hạn chế VLM 2026 cần biết trước khi đầu tư

1. Hallucination — VLM "đoán" action theo scene context. Paper CVPR 2025 MASH-VLM đã xác nhận "leading VLMs hallucinate actions based on the scene context or incorrectly predict scenes based on the observed actions". Ví dụ: VLM thấy người trong bếp có thể tự sinh caption "đang nấu ăn" dù người đó chỉ đứng. Trong context security, false positive cao hơn so với attribute search thế hệ trước — yêu cầu human review cho mọi alert critical.

2. Multilingual yếu — tiếng Việt prompt chưa benchmark chính thức. Hầu hết VLM training data heavily English-grounded. Verkada, Hikvision, Avigilon, Milestone chưa benchmark tiếng Việt chính thức tính đến 4/2026. Trong thực tế triển khai, query tiếng Anh ("person in red shirt near ATM") vẫn cho kết quả tốt nhất. Query tiếng Việt thuần ("áo đỏ", "xe máy SH") accuracy giảm đáng kể. Hỗ trợ tiếng Việt native là roadmap 2027+ của vendor lớn.

3. Privacy guardrail. Verkada chủ động block query về chủng tộc, dân tộc, giới tính chủ quan để tuân thủ GDPR và best practice. Vendor khác chưa publicly công bố policy tương đương — rủi ro compliance khi triển khai cho ngân hàng và doanh nghiệp niêm yết. Cần audit guardrail trước khi go-live.

4. Hardware lock-in — camera cũ KHÔNG upgrade VLM được. Yêu cầu hardware mới: AcuSeek NVR (Hikvision), AI Appliance 2X (Avigilon), CPP16 chipset (Bosch). Camera analog không hỗ trợ. Camera IP cũ vẫn dùng được nhưng phải đẩy stream qua hardware VLM trung gian — không tận dụng được edge AI on-camera của thiết bị cũ.

5. Latency real-time vẫn cần GPU-class. Camera 4K-8K real-time inference cần Jetson Orin AGX 275 TOPS hoặc tương đương nếu chạy on-camera. Nhiều vendor đẩy về appliance/cloud (Avigilon AI Appliance 2X, Bosch cloud trước, edge sau) vì lý do power budget và toả nhiệt camera lẻ.

6. Bài học Amazon Just Walk Out (4/2024). Amazon đã shutdown Just Walk Out cho Amazon Fresh full-size store sau khi phát hiện hệ AI "tự trị" vẫn cần ~1.000 reviewer ở Ấn Độ làm human-in-the-loop. Bài học chung cho mọi triển khai VLM/agentic AI security: human-in-the-loop là yêu cầu mặc định, không phải tuỳ chọn. Đừng kỳ vọng AI 100% tự động — kỳ vọng AI lọc 95% noise để con người tập trung vào 5% critical.

FAQ · Câu hỏi thường gặp

Câu hỏi thường gặp về chủ đề này

Vision Language Model khác AI Search by Attributes thế hệ trước ra sao?

AI Search by Attributes (Avigilon Appearance Search 2017, Hikvision DeepinMind, Dahua Video Metadata 2.0) chỉ filter theo dropdown preset — person, vehicle, age, color list cố định khoảng 28-30 thuộc tính. VLM 2024-2026 hiểu free-text — gõ "white van turning left near ATM at night" và camera tự lọc trên hàng triệu attribute kết hợp tự do. Khác biệt là từ chọn-từ-list sang gõ-câu-tự-do, mở khoá điều tra theo ngữ cảnh thực tế thay vì giới hạn vào tag có sẵn.

Hikvision có sản phẩm tên DeepinLook không?

Không. Tính đến tháng 4/2026, không có sản phẩm chính thức tên "DeepinLook" trong catalog Hikvision. Có khả năng nhầm với DeepinView (camera AI thế hệ cũ với attribute filter) hoặc DeepinViewX Bullet Cameras (07/2025, có edge VLM). Sản phẩm VLM đầu tiên của Hikvision tên là AcuSeek NVR (06/2025), chạy trên platform Guanlan Large-Scale AI Models công bố 04/2025.

VLM có chạy được trên camera Hikvision/Dahua/Axis đang có không?

Phần lớn không trực tiếp. VLM 2025-2026 yêu cầu hardware riêng — Hikvision AcuSeek NVR, Avigilon AI Appliance 2X, Bosch CPP16 chipset, Milestone Hafnia chạy trên NVIDIA Cosmos. Camera IP cũ vẫn dùng được — đẩy stream qua hardware VLM trung gian như middle layer. Đối với chuỗi đã có 100+ camera Hikvision/Dahua, có thể giữ camera + thêm 1-2 NVR/appliance VLM để tận dụng đầu tư cũ. Camera analog không hỗ trợ VLM.

VLM hỗ trợ tiếng Việt query chưa?

Đến tháng 4/2026, hầu hết VLM thương mại training data heavily English-grounded. Verkada, Hikvision, Avigilon, Milestone chưa benchmark chính thức tiếng Việt. Trong thực tế triển khai tại Việt Nam, query tiếng Anh vẫn cho kết quả tốt nhất. Query tiếng Việt thuần accuracy giảm đáng kể. Hỗ trợ tiếng Việt native là roadmap 2027+ của vendor lớn. An Ninh Số có workflow nội bộ dịch query VN→EN trước khi cho VLM xử lý cho khách hàng Việt — đảm bảo accuracy cao trong khi chờ vendor official support.

Bao nhiêu là ngân sách hợp lý để pilot VLM 2026?

Pilot ban đầu 16-32 camera khoảng $25.000-50.000 (hardware + license year-1) tuỳ vendor. Verkada cloud SaaS rẻ hơn upfront ($300-500/camera/năm) nhưng subscription dài hạn. Hikvision AcuSeek NVR + Avigilon AI Appliance 2X cao hơn upfront nhưng one-time hardware (~$15.000-25.000/appliance + $200-400/camera license). Doanh nghiệp dưới 50 camera nên chờ 1-2 năm cho giá giảm 30-40% và camera embedded VLM (Bosch CPP16) commercial rộng rãi hơn.

Sẵn sàng triển khai trong 7 — 14 ngày

Trao đổi cụ thể với chuyên gia an ninh

Đặt lịch tư vấn 30 phút — không bán hàng, chỉ là buổi trao đổi để hiểu doanh nghiệp của bạn cần gì.