سیستم های ویدئویی تبدیل به پایه ای مهم در امر ایمنی و امنیت شهرها شده اند، اما در حال حاضر این سیستم ها در حال تولید ویدئوهایی به مراتب بیشتر از آنچه شهرها قادر به استفاده از آن باشند هستند. از گذشته تا کنون یافتن کارکنانی که به بازبینی ویدئوهای ضبط شده و جستجو در آرشیوها بپردازند به عنوان چالشی همیشگی مطرح بوده است. با بکارگیری تعداد بیشتری از دوربین ها، این مشکل نیز در حال بزرگ تر شدن است.
به نقل از سین لین، مدیر فروش شرکت ژئوویژن: «این امکان وجود دارد که برای سفارشی سازی یک الگوریتم هوش مصنوعی (AI﴾ برای یک کاربری جدید و یا برای یک محل جدید، بین چهار تا شش ماه زمان برای یک تیم تحقیق و توسعه لازم باشد». «و ممکن است که نتایج به دست آمده ناامیدکننده و به همراه تعداد آلارم های خطا یا سایر خطاهای دیگر باشد». وی اینگونه ادامه داد که «چیزی که شهرها بدان احتیاج دارند، یافتن راهی آسانتر برای اپراتورهاست که به وسیله آن بتوانند به تعیین آنچه که در یک ویدئوی مهم به دنبال آن هستند بپردازند».
ظهور راهکارهای یادگیری عمیق به شکل قابل توجهی در حال ارتقاء بینایی رایانه ای و آنالیتیک های ویدئویی است. امروزه این سیستم ها به مراتب قدرتمندتر و آسانتر برای بکارگیری بوده و بیشتر از قبل در دسترس افراد قرار دارند.
با تکنولوژی یادگیری عمیق، مدل های مختلف را میتوان با توجه به ویژگی های محیطی که دوربین ها در آن نصب شده اند آموزش داد. الگوریتم ها اساسا برای هر کدام از شرایط موجود سفارشی سازی شده اند، بدون آنکه نیازی به بازنویسی باشد.
نمیتوان گفت که حجم بالای داده ها یک عامل بازدارنده است، چرا که این داده ها به عنوان یک کمک تلقی میشوند. یادگیری عمیق میتواند به صورت مداوم به تزریق داده هایی بپردازد که باعث تطبیق سیستم شما با شرایط و الزامات جدید میشود.
تغییر بازی با ورودی یادگیری عمیق
با کمک یادگیری عمیق، تکنیک های بینایی رایانه ای همچون تشخیص چهره یا تشخیص حرکت بسیار پیچیده تر شده اند و امر نظارت و سایر کارکردهای ویدئویی را دچار دگرگونی نموده اند.
در یک محیط کنترل شده الگوریتم های قدیمی عملکرد خوبی از خود نشان میدهند، اما این نوع الگوریتم ها معمولا برای برخی از موارد استفاده ی خاص نوشته و طراحی شده اند. به عنوان مثال، تشخیص شیء یا فردی که در حال عبور از یک خط مجازی از پیش تعریف شده اساسا به عنوان یک الگوریتم ساده ی بله یا خیر تلقی میگردد. زمانی استفاده ازاین الگوریتم ها چالش برانگیز میشود که در سناریوهای به مراتب پیچیده تری مورد استفاده قرار بگیرند.
لین با ذکر مثالی این موضوع را اینگونه توضیح داد که: «زمانی که یک الگوریتم قدیمی را در مکان دوربین های مختلف بکار میگیرد – امکان دارد که برخی از این دوربین ها در پارک و برخی دیگر در خیابان قرار داشته باشند – این محیط ها در ویدئوهای ضبط شده به صورت متفاوتی دیده و ظاهر میشوند. الگوریتم های قدیمی از پس تشخیص چنین ظرافت هایی بر نمی آیند».
«از آنجایی که در یک خیابان شلوغ افراد به صورت مداوم در حال حرکت هستند، این امکان وجود دارد که سیستم های تشخیص حرکت یا آلارم های ورود غیرمجاز دچار آلارم های خطای زیادی شوند».
سناریوی معمول دیگر مربوط به تشخیص چهره در مکانی میشود که پلیس در آن فردی موردتعقیب را شناسایی نموده است. «با کمک یادگیری عمیق میتوان چهره ی این فرد را تنها با یک عکس یا ویدئو در پایگاه داده ثبت کرد. پس از آن، نرم افزار ما به صورت خودکار در تمامی ویدئوهای نظارتی ضبط شده در طول یک یا دو ماه گذشته به جستجو میپردازد و به صورت خودکار فرد موردنظر را برای مامورین پیدا میکند».
بنا بر پیشبینی لین، به زودی این کار با داشتن تنها یک طرح اولیه به جای عکس امکان پذیر خواهد شد. شاید دادن یک طرح اولیه به پایگاه داده باعث پایین آوردن دقت تشخیص شود، این درحالی است که با استفاده از الگوریتم های قدیمی این کار به هیچ وجه امکان پذیر نیست.
این دقیقا جایی است که راهکار مدیریت ویدئوی هوشمند ژئوویژن (GV-VMS﴾ مطرح میشود و این مدل هوش مصنوعی ﴿AI﴾ را یک گام جلوتر برده و امکان آنالیز پیچیده و شدیدتری را فراهم میسازد. الگوریتم های یادگیری عمیق را میتوان متناسب با شرایط گوناگون آموزش داد:
شمارش افراد یا اشیاء در حال حرکت در دو مسیر مختلف
شناسایی و تشخیص چهره ی افراد برای کاربردهای مختلف
پوشاندن چهره افراد به هنگام تشخیص آنها در ویدئو، به خاطر حفظ حریم شخصی
«مه زدایی» ویدئوهای ضبط شده در شرایط مه گرفته برای مشاهده ی تصاویر به صورت واضح
وصل کردن و چسباندن ویدئوهای ضبط شده از دوربین های مختلف در یک نمای پانورامای واحد
متعادل سازی ویدئو در یک محیط پر از لرزش
شمارش افراد در مکان های با محدودیت کد اشغال (نوعی طبقه بندی ساختمان ها)
از میان بردن اعوجاج های ایجاد شده توسط لنزهای با زاویه دید گسترده
جستجوی هوشمند برای یک رخداد در یک منطقه پر از حرکت
یک راهکار جامع و کامل
قابلیت یادگیری عمیق منحصربفرد ژئوویژن، یک سیستم جامع و کامل است که از دوربین ها، سرورهای ضبط و یک مرکز کنترل ویدئو تشکیل شده است. این عملکرد باعث میشود که دوربین های ژئوویژن و دوربین های ساخت سایر شرکت ها از طریق یک پروتکل استاندارد، همانطور که در شکل 1 ترسیم شده، به یکدیگر متصل شوند. این کار با کمک پردازنده های اینتل امکان پذیر شده است که کارایی پردازش ویدئو و قابلیت های یادگیری عمیق را افزایش میدهند.
شکل 1: سیستم مدیریت ویدئو هوشمند ژئوویژن
طبق ساختار Intel® x86، دستگاه GV-VMS به صورت کامل از پردازنده ی Intel® Core™ بهره میگیرد. با بکارگیری Intel® OpenVINO™ toolkit، عملکرد آنالیتیک های ویدئویی بین 8 تا 10 برابر افزایش پیدا میکند. با این کار، بدون نیاز به چیزهای دیگر، فضای به مراتب بیشتری برای پردازش ویدئوها به صورت همزمان فراهم میگردد.
دوربین های ژئوویژن قادر به یادگیری عمیق روی شبکه هستند. این دوربین ها میتوانند به جای ارسال تمام ویدئوهای ضبط شده به یک ایستگاه مرکزی، به محض تشخیص هر چیز به اعلام و ارسال هشدار بپردازند و پیش از ترتیب اثر دادن هرگونه اقدامی، میزان تاخیر صورت گرفته را پایین آورند.
بیشتر شهرها دارای سیستم های ویدئویی هستند که دوربین ها، درگاه ها و نرم افزارهایی را از قبل در خود دارند. اینترفیس های برنامه ریزی اپلیکیشن ژئوویژن (APIs) و یک کیت توسعه دهنده ی نرم افزار (SDK﴾، امکان برقراری اتصال بین سخت افزارهای موجود و نرم افزارها را فراهم میسازد. مرکز کنترل ژئوویژن، یک نرم افزار مدیریت ابری واحد را ارائه میکند و تمامی دوربین های تحت شبکه IP را در یک سیستم امنیتی و مدیریتی کلی با یکدیگر ادغام میکند.
به عنوان مثال، شهر واتیکان برای دهه ها است که از سیستم های نظارت ویدئویی استفاده میکند. در طول این سال ها، دوربین ها، درگاه ها و ابزارهای نرم افزاری گوناگونی از فروشندگان مختلف خریداری شده است. شهر واتیکان، با همکاری با شرکت ژئوویژن توانست به صورت استراتژیک تمامی دوربین ها و نرم افزارهای قدیمی خود را تحت یک راهکار نظارتی مرکزی با یکدیگر ادغام کند. دوربین های موجود در ساختمان های دولتی مهم، کلیساها، نیایشگاه ها و تقاطع ها همگی تحت کنترل مرکزی هستند. راهکار ژئوویژن یک سیستم واحد را ایجاد میکند – این راهکار در شهر رم به بازبینی ویدئوهای ضبط شده از 140 مکان مختلف میپردازد.
هوشمند و مقیاس پذیر
این راهکار را میتوان با توجه به هر سطحی از استفاده از ویدئو به شکلی کارآمد مقیاس بندی نمود. بکارگیری این راهکار شما را قادر میسازد تا سقف 57.600 جریان ویدئویی را مدیریت کنید. این سیستم، داده های ویدئویی را به یک سیستم مدیریت ابری واحد انتقال میدهد که قادر به بازبینی و کنترل بیش از 1000 سیستم GV-VMS میباشد. از سوی دیگر، با استفاده از سرورهای پردازنده-محور اینتل، حافظه های بیگ دیتا یا کلان داده در مرکز داده مشتریان یا در فضاهای ابری در دسترس قرار دارند.
علاوه بر این، راهکار مدیریت ویدئوی هوشمند ژئوویژن را میتوان با سایر سیستم ها – سیستم های تشخیص آتش یا سیستم های کنترل دسترسی – تلفیق نمود و عملکرد کلی این راهکار را افزایش داد. به عنوان مثال با ادغام با سیستم های کنترل دسترسی، این راهکار میتواند با بهره گیری از سیستم های تشخیص چهره، ورود افراد را به مناطق دارای محدودیت – دسترسی به ساختمان ها یا پارکینگ های محدود – کنترل کند.
با ادغام یادگیری عمیق و قابلیت تلفیق این راهکار با سایر سخت افزارها و نرم افزارها، شهرها میتوانند با استفاده از راهکارهایی چون راهکارهای ارائه شده توسط ژئوویژن به ارتقاء سطح نظارت ویدئویی بپردازند. یادگیری عمیق باعث ارتقاء عکس العمل های اتوماتیک سازی شده و تلفیق باعث ارتقاء سطح کارآمدی عملیاتی میشود و مقیاس پذیری برای یک شهر به معنای عدم از دست دادن قابلیت های سیستم های ویدئویی است.
به نقل از لین: «هنگامی که صحبت از یک سناریوی شهری میشود، یک راهکار نظارت ویدئویی قدیمی پاسخگوی تمامی نیازهای اولیه است. اما به محض رشد یک پروژه در مقیاس شهری، تنها در یک روز، هزاران ساعت ویدئو ضبط میشود. برای تشخیص چیزی که به دنبال آن در ویدئوها هستید، زمان و افرادی زیادی لازم است. اما این راهکار، کار را برای اپراتورها آسانتر میسازد تا تنها روی فرد یا چیزی که به دنبال آنند متمرکز شوند».
منبع: ژئوویژن