TL;DR

AI hỏi-đáp video (natural language video query) thay đổi căn bản workflow điều tra an ninh 2024-2026. Pain truyền thống: dò 4-8 giờ video để tìm 30 giây quan trọng. Pattern mới: gõ câu mô tả tự nhiên ("ai vào kho sau 22h hôm qua", "khách đứng quá lâu trước ATM lúc 14h") và AI trả về clip phù hợp trong 10-30 giây. Bốn vendor đang triển khai: Avigilon Unity Video 8.7 Visual Alerts (09/2025) on-premise, BriefCam REVIEW + RESPOND analytics overlay, Hikvision AcuSeek NVR (06/2025) trên Guanlan platform, Verkada AI Search (05/2024) cloud-native. Tiếng Việt query chưa benchmark chính thức bởi vendor lớn — An Ninh Số dùng workflow nội bộ dịch VN→EN trong giai đoạn chuyển tiếp 2026-2027.

Pain hiện tại — dò 8 giờ video tìm 30 giây quan trọng

Mỗi sự cố an ninh đáng điều tra (mất hàng, va chạm, gian lận POS, xâm nhập trái phép) bắt đầu giống nhau: đội security phải mở video lưu, dò qua 4-8 giờ footage để tìm 30 giây quan trọng. Workflow điển hình: 1. Quản lý báo có sự cố — "hôm qua tầm 14h-16h, mất hàng tại quầy A" 2. Security viewer tải 2 giờ video × 4-8 camera = 8-16 giờ stream 3. Dò qua từng segment ở tốc độ 4-8x, mắt tập trung tìm pattern khả nghi 4. Tìm được 30 giây quan trọng → screenshot, mô tả, gửi báo cáo 5. Total time: 4-8 giờ làm việc của security analyst Pattern này có 3 vấn đề cốt lõi: - **Tốn thời gian không tỉ lệ với giá trị**: nếu giá trị mất hàng 5 triệu, security analyst tiêu 4-8 giờ × 200K/giờ = 800K-1.6M VND chi phí lao động — gần bằng giá trị mất - **Phụ thuộc memory + tỉnh táo**: dò video 8 giờ liên tục, accuracy giảm nhanh sau 2-3 giờ - **Không scale**: doanh nghiệp 50+ chi nhánh × 5-10 sự cố/CN/tháng = 250-500 sự cố/tháng cần điều tra. Không thể scale với 1-2 security analyst trung tâm. Đây là pain point lớn nhất của ngành security 2018-2024. AI hỏi-đáp video 2024-2026 đảo ngược pattern.

AI hỏi-đáp video hoạt động thế nào?

Pattern AI hỏi-đáp video dựa trên Vision Language Model (VLM) — hệ AI multimodal hiểu cả hình ảnh và ngôn ngữ tự nhiên. Workflow: 1. Hệ thống pre-encode toàn bộ video frame thành vector embedding lúc record 2. Operator gõ câu mô tả: "khách đứng quá lâu trước ATM lúc 14h-16h hôm qua" 3. Text encoder convert câu thành vector 4. Hệ thống tìm các vector frame có cosine similarity cao nhất 5. Trả về clip phù hợp + timestamp + camera ID — trong 10-30 giây ### Khác biệt với AI Search by Attributes thế hệ trước AI Search by Attributes (Hikvision DeepinMind, Dahua WizMind Video Metadata 2.0) chỉ filter theo dropdown preset — person, vehicle, age, color list cố định 28-30 thuộc tính. Operator phải tự dịch câu hỏi nghiệp vụ thành "person + age 30-50 + jacket red + walking direction left" — không tự nhiên. AI hỏi-đáp video VLM-based hiểu free-text — gõ câu nghiệp vụ trực tiếp: - "khách hàng đứng quá lâu trước ATM" - "người mặc áo đỏ đeo balô đi cổng phía bắc lúc 14h" - "xe đỗ chắn lối thoát hiểm" - "công nhân không đeo mũ bảo hộ trong khu sản xuất" AI tự suy luận từ câu sang vector match — không cần operator pre-train hay dịch sang attribute filter. ### Pre-encode vs on-demand processing Vendor như Verkada và AcuSeek pre-compute embeddings lúc record — query real-time nhanh nhưng tốn storage cho vector index. Vendor như BriefCam có thể on-demand processing — không cần pre-index toàn bộ, nhưng query chậm hơn (30-90 giây tuỳ database size). Trade-off giữa speed và cost storage.

Bốn vendor đang triển khai AI hỏi-đáp video 2024-2026

### [Verkada](/thuong-hieu/verkada/) AI Search — cloud-native, tiên phong **Timeline**: AI Search beta 05/2024, GA cùng năm. AI-Powered Alerts mở rộng 09/2024. Là vendor đầu tiên thương mại hoá AI hỏi-đáp video trong cloud VMS. **Tech**: VLM CLIP-based, multi-billion parameter. Cloud architecture — data center US/EU. Pre-computes embeddings cho video. **Năng lực**: Freeform text query ("FedEx truck on January 15", "person in red jacket carrying box"). Có guardrail moderation chặn query nhạy cảm. AI-Powered Alerts cho tạo alert bằng natural-language rule. **Phù hợp**: Chuỗi đa chi nhánh không IT onsite, không yêu cầu data sovereignty Việt Nam strict. ### [Avigilon](/thuong-hieu/avigilon/) Unity Video 8.7 Visual Alerts — on-premise enterprise **Timeline**: 18/09/2025. On-premise GenAI feature đầu tiên của Avigilon — trước đó Avigilon Appearance Search (2017) chỉ là attribute-based. **Tech**: Chạy server-side trên Avigilon AI Appliance 2X (server x86 + GPU NVIDIA). Cần hardware appliance riêng — không chạy edge trên camera. **Năng lực**: Tạo alert bằng natural-language prompt ("alert me if someone leaves a backpack in the lobby for more than 10 minutes"). Vẫn giữ Avigilon Appearance Search song song cho query đơn giản. **Phù hợp**: Ngân hàng, FDI Mỹ-EU yêu cầu data sovereignty + compliance Bắc Mỹ. ### [Hikvision](/thuong-hieu/hikvision/) AcuSeek NVR — on-premise dedicated **Timeline**: Hikvision Guanlan Large-Scale AI Models 04/2025, AcuSeek NVR launch 06/2025. **Tech**: NVR chuyên dụng có chip AI mạnh chạy multimodal model tại chỗ. Hỗ trợ camera Hikvision IP series. **Năng lực**: Search 24h footage trong dưới 10 giây với truy vấn kiểu "person on a phone call", "white van", "person walking a dog". Hikvision claim rút thời gian forensic review từ 45 phút xuống dưới 10 giây. **Phù hợp**: Doanh nghiệp Việt Nam ngân sách trung bình đã có hạ tầng Hikvision. ### [BriefCam](/thuong-hieu/briefcam/) REVIEW + RESPOND — analytics overlay Khác phân khúc với 3 vendor trên — BriefCam là analytics layer cộng vào VMS hiện có (Genetec, Milestone, Hikvision...). Không bắt buộc thay VMS. **Module REVIEW**: search hours of video trong vài phút, lọc theo facial recognition, appearance filter, density/speed/direction. **Module RESPOND**: real-time rule-based alert cho face match, line crossing, object count, license plate. Webhook/REST API/ONVIF event. **Module RESEARCH**: phân tích trend, count, dwell time. **Phù hợp**: Doanh nghiệp đã có VMS lớn (Genetec, Milestone) muốn thêm năng lực AI hỏi-đáp mà không thay toàn bộ stack.

Bốn use case enterprise đang ROI rõ ràng

### 1. Bank ATM forensic — từ 4 giờ xuống 30 phút/sự cố Ngân hàng Việt Nam có 200-500 ATM, trung bình 20-40 sự cố cần điều tra/tháng. Pattern truyền thống: 1 nhân sự security điều tra full-time 4-6 giờ/sự cố = 80-240 giờ/tháng. Pattern AI hỏi-đáp: gõ "khách đứng quá lâu trước ATM lúc 14h-16h hôm qua" → AI trả về 5-10 clip phù hợp trong 30 giây → security analyst review nhanh, chọn 1 clip quan trọng = 30 phút/sự cố. **Tiết kiệm**: từ 80-240 giờ/tháng xuống còn 10-20 giờ/tháng → giải phóng 1 nhân sự full-time cho công việc khác. ### 2. Retail loss prevention — chuỗi 50+ chi nhánh Chuỗi siêu thị có 250-500 sự cố thất thoát/tháng cần điều tra. Pattern truyền thống: không thể điều tra hết — chỉ pick top 10-20 sự cố lớn. Pattern AI: VLM scale tốt với volume — "tất cả khách đặt sản phẩm vào túi không qua quầy thanh toán hôm qua" → AI trả về toàn bộ, district manager review 30-60 phút. **Verkada báo cáo retailer giảm 50% shrinkage** sau khi triển khai AI Search + Alerts — workflow có scale. ### 3. Toà nhà hạng A — phản ứng incident realtime Toà 30+ tầng có 4.000 người ra vào/ngày. Pattern truyền thống: bảo vệ phản ứng theo cuộc gọi. Pattern AI: Avigilon Visual Alerts với rule "alert nếu balô bỏ trong sảnh quá 10 phút" → AI tự alert đội phản ứng trong 10 giây — không cần con người monitor 24/7. ### 4. Nhà máy FDI — compliance audit nhanh Nhà máy FDI có audit compliance 6-12 tháng/lần. Auditor hỏi: "chứng minh không công nhân nào vào khu R&D ngoài shift 6 tháng qua". Pattern truyền thống: dò log thủ công + kiểm tra video selective = 1-2 tuần. Pattern AI: query "ai vào khu R&D ngoài shift 22h-6h từ tháng 1 đến tháng 6" → AI trả về danh sách 6 tháng trong vài phút.

Tiếng Việt — hỗ trợ ở đâu 2026?

Đây là câu hỏi quan trọng nhất cho doanh nghiệp Việt Nam. Đến tháng 4/2026, **không vendor lớn nào benchmark chính thức tiếng Việt** trong AI hỏi-đáp video. Verkada, Hikvision, Avigilon, [Milestone](/thuong-hieu/milestone-systems/) đều training data heavily English-grounded. ### Thực tế triển khai tại Việt Nam - **Query tiếng Anh**: cho kết quả tốt nhất. "person in red shirt near ATM" accuracy cao - **Query tiếng Việt thuần**: "áo đỏ", "xe SH" — accuracy giảm 30-50% - **Query mixed**: "ATM khu vực Nguyễn Hữu Cảnh có người mặc áo đỏ" — accuracy trung bình ### Workflow chuyển tiếp 2026-2027 An Ninh Số khuyến nghị 2 pattern cho khách hàng Việt Nam: **Pattern 1 — Operator gõ tiếng Anh trực tiếp**: phù hợp doanh nghiệp có security analyst trẻ thông thạo tiếng Anh. Training 2-4 tuần để team nghĩ query bằng tiếng Anh cho domain security. **Pattern 2 — Workflow nội bộ dịch VN→EN**: An Ninh Số có agent nội bộ dịch query Việt Nam thành English query trước khi feed vào VLM. Operator viết tự nhiên, agent xử lý dịch — accuracy cao hơn 80%. ### Roadmap multilingual của vendor Từ thông tin public 2025-2026: - **Microsoft**: hỗ trợ tiếng Việt qua Copilot vào 2025-2026 - **Verkada**: chưa công bố roadmap đa ngôn ngữ chính thức - **Hikvision Guanlan**: hỗ trợ tiếng Trung mạnh, tiếng Anh tốt, tiếng Việt chưa - **Avigilon**: tiếng Anh + Tây Ban Nha hỗ trợ chính, Việt Nam roadmap 2027+ Doanh nghiệp Việt Nam triển khai 2026 cần **chấp nhận giai đoạn chuyển tiếp** — không vendor nào có hỗ trợ tiếng Việt native chính thức đến cuối 2026. Workflow VN→EN nội bộ là thực tế mạnh nhất cho 12-18 tháng tới.

Năm hạn chế phải biết trước khi đầu tư

**1. Hallucination — VLM "đoán" action sai context.** Paper CVPR 2025 MASH-VLM xác nhận "leading VLMs hallucinate actions based on the scene context". Trong context security, false positive cao hơn so với attribute search thế hệ trước. Yêu cầu human review cho mọi alert critical. **2. Privacy + compliance — frame video qua model lớn.** AI hỏi-đáp video xử lý frame ở mức pixel — khó audit GDPR/PIPL/Việt Nam Nghị định 13/2023 khi host cloud nước ngoài. Verkada (cloud US/EU) phù hợp doanh nghiệp không strict; Avigilon/Hikvision/Milestone on-premise tốt hơn cho compliance VN. **3. Latency — pre-encode tốn storage, on-demand chậm.** Trade-off căn bản: pre-encode embeddings (Verkada, AcuSeek) cho query nhanh nhưng tốn 20-50% storage thêm cho vector index. On-demand processing (BriefCam) tiết kiệm storage nhưng query mất 30-90 giây tuỳ database size. **4. Cost — VLM-grade hardware đắt.** Avigilon AI Appliance 2X ~$15K-25K/server. Hikvision AcuSeek NVR ~$15K + camera license. Verkada subscription $300-500/camera/năm. Doanh nghiệp dưới 50 camera khó ROI. **5. Bài học Amazon Just Walk Out — vẫn cần human-in-the-loop.** Amazon shutdown Just Walk Out Fresh store (4/2024) sau khi phát hiện AI vẫn cần ~1.000 reviewer Ấn Độ. Bài học chung cho AI hỏi-đáp video: **đừng tin AI 100% — luôn human review cho alert critical**. Pattern co-pilot là thực tế mạnh nhất.

Brands mentioned in this article

BC BriefCam AVG Avigilon (Motorola Solutions) HIK Hikvision VK Verkada GTC Genetec MS Milestone Systems