هوش مصنوعی در نظارت ویدئویی به تکنولوژی گفته میشود که در آن با استفاده از برنامه های نرم افزاری کامپیوتری، به تجزیه و تحلیل تصاویر تهیه شده توسط دوربین های نظارت تصویری پرداخته میشود و بدین شکل میتوان انسان ها و وسایل نقلیه یا اشیاء را شناسایی کرد. با توجه به گستردگی بحث هوش مصنوعی و اهمیت آن، این مقاله در دو بخش ارائه میشود که بخش اول آن بدین شرح است. برنامه ی پیمانکاران امنیتی به نرم افزاری گفته میشود که در آن مناطق ممنوعه در دید دوربین (همچون منطقه ی حصار شده، محوطه ی یک پارکینگ جدای از پیاده رو یا خیابان عمومی بیرون از این محوطه) تعریف میشوند و برای ساعاتی از روز (مثلا پس از پایان ساعات کاری یک بیزینس) در ملک تحت محافظت دوربین های نظارتی برنامه ریزی میشوند. فرد متخلفی را در نظر بگیرید که «قانون» وضع شده برای منطقه ای که طی ساعات خاصی از روز ورود افراد در آن غیرمجاز است، زیر پا گذاشته است. تکنولوژی هوش مصنوعی (AI)‌ در صورت شناسایی چنین فردی، یک اخطار میفرستد.

برنامه ی هوش مصنوعی (AI) با استفاده از بینایی ماشینی عمل میکند. بینایی ماشینی به یک سری از الگوریتم ها یا فرآیندهای ریاضی گفته میشود که کارکردی همچون یک فلوچارت (نمودار گردش کار) یا یک سری سوال برای مقایسه ی یک شیء با هزاران و صدها تصویر مرجع ذخیره شده از افراد در حالات، زوایا، وضعیت ها و حرکات مختلف دارد. هوش مصنوعی (AI) از خود سوالاتی این چنینی را میپرسد: آیا شیء دیده شده همچون تصاویر مرجع حرکت میکند، آیا ویژگی های تصاویر مرجع که شامل دو دست و دو پا میشود را داراست، آیا با سرعت یکسانی حرکت میکند و اینکه آیا به جای حرکت افقی، به صورت عمودی حرکت میکند. زاویه ای که یک شیء از خود نور را بازتاب میکند، زاویه ای که در آن ثابت یا مرتعش است و نرمی آن شیء در حین حرکت ازجمله سوالاتی هستند که میتوان پرسید. با جمع کردن امتیازات کسب شده از هر یک از این سوالات، عددی به دست می آید که به هوش مصنوعی کمک میکند تا انسان یا غیرانسان بودن شیء موردنظر را متوجه شد. در صورتی که عدد به دست آمده از حد تعیین شده بیشتر باشد، یک اخطار ارسال میشود. این ویژگی این برنامه ها است که آنها را تا حدودی خودآموز یا آموزنده میسازد؛ به عنوان مثال، برخی از بخش های تصاویر انسان ها و وسایل نقلیه (بخش های نزدیک دوربین) بزرگتر از سایر قسمت ها (قسمت هایی که از دوربین فاصله ی بیشتری دارند) به نظر میرسند.

علاوه بر قانون ساده ای که افراد و وسایل نقلیه را از ورود به برخی مناطق مشخص در ساعات مشخصی از روز باز میدارد، قوانین پیچیده تری نیز میتوان وضع کرد. شاید کاربر سیستم بخواهد مطمئن شود که وسایل نقلیه در یک مسیر حرکت میکنند و به مسیر دیگر وارد نمیشوند. و یا شاید کابران یک سیستم بخواهند بدانند که آیا تعداد افراد بیشتری از آنچه از قبل تعیین شده بود در یک منطقه حاضر هستند یا خیر. تکنولوژی هوش مصنوعی (AI) قادر است که صدها دوربین را به صورت همزمان تحت نظارت داشته باشد. قدرت این تکنولوژی در تشخیص یک فرد متخلف در فواصل دور، در باران و یا در نور زیاد چه بسا بیشتر از چشمان انسانی است.

این نوع استفاده از هوش مصنوعی (AI) در امنیت به هوش مصنوعی «قانون-محور» معروف است، چرا که حتما یک برنامه ریز انسانی باید این قوانین را برای تمام چیزهایی که افراد مایل به دریافت اخطار در مورد آنها هستند، تعریف کند. بسیاری از دوربین های نظارت تصویری امروزی شامل این نوع از قابلیت های AI هستند. هارد درایو شامل این برنامه را هم میتوان در خود دوربین ها و هم در یک دستگاه جداگانه که داده های ورودی را از دوربین ها دریافت میکند، پیدا کرد.

شکل جدیدتر و غیر-قانون محور هوش مصنوعی که برای صنعت امنیت توسعه یافته است، «آنالیتیک های رفتاری» نامیده میشود. این نرم افزار کاملا خودآموز است و هیچ نیازی به داده های برنامه ریزی اولیه از سوی کاربر یا پیمانکار امنیتی ندارد. در این نوع آنالیتیک ها، هوش مصنوعی (AI﴾ یاد میگیرد که چه چیزی به عنوان رفتار عادی برای انسان ها، خودروها، ماشین ها و محیط تلقی میگردد؛ برای انجام این کار، هوش مصنوعی با مشاهده ی الگوهای ویژگی های مختلفی چون سایز، سرعت، میزان بازتابندگی، رنگ، دسته بندی، جهت گیری عمودی یا افقی آن و یا سایر موارد به انجام این کار میپردازد. هوش مصنوعی، داده های تصویری را یکدست میسازد؛ این بدان معناست که اشیاء و الگوهای مشاهده شده را دسته بندی و برچسب گذاری میکند و تعاریف دائما بروزرسانی شده ای را از اینکه چه چیزی رفتار عادی یا متداول برای اشیاء مشاهده شده تلقی میگردد، ارائه میکند. این تکنولوژی میتواند پس ازچند هفته یادگیری به شیوه ی خود، شکسته شدن الگوها را تشخیص دهد. با مشاهده ی موارد نامتعارف، این تکنولوژی شروع به ارسال اخطار میکند. به عنوان مثال، راندن خودروها در خیابان امری عادی است و حرکت یک خودرو در پیاده رو یک امر نامتعارف تلقی میگردد. یا مثلا وقتی که در حالت عادی، به هنگام شب هیچ کسی در یک محوطه ی حصار شده نیست، ورود یک فرد به آن منطقه و در آن بازه ی زمانی، به عنوان یک امر نامتعارف تلقی میشود.

بیان مسئله

محدودیت توانایی انسانها برای بازبینی هوشیارانه ی تصاویر نظارتی و ویدئویی زنده باعث ایجاد تقاضا برای تکنولوژی هوش مصنوعی شد، تا این کار بهتر انجام شود. انسانها پس از تماشای یک ویدئوی نظارتی برای بیشتر از بیست دقیقه، حدود 90٪ از توانایی خود را برای صرف توجه کافی به تشخیص رخدادهای مهم از دست میدهند. با دو تا شدن مانیتورها هم این میزان از دقت به نصف میرسد. با توجه به این که بیشتر تاسیسات دارای صدها و یا حتی هزاران دوربین هستند، واضح است که انجام چنین کاری بسیار فراتر از توانایی انسانی است. به صورت کلی، دید دوربین های تنظیم شده به سمت راهروهای خالی، تاسیسات ذخیره سازی، محوطه های پارکینگ یا ساختمان ها بسیار خسته کننده است و به همین جهت، میزان توجه افراد در این مکان ها به سرعت کاهش پیدا میکند. هنگام بازبینی چندین دوربین، معمولا از یک مانیتور دیواری یا بانکی از مانیتورها استفاده میشود که صفحات نمایش جدا از هم دارند. چرخیدن هر چند ثانیه یک بار بین یک سری از دوربین ها و سری بعدی آنها، خستگی دیداری را به سرعت افزایش میدهد. علیرغم افزایش بکارگیری دوربین های نظارت ویدئویی توسط کاربرانی از صنایع مختلف – از نمایندگی خودروها و میادین خرید گرفته تا مدارس و بیزینس هایی با تاسیسات به شدت امنیتی همچون نیروگاه های هسته ای – و طبق بازنگری های انجام شده، این نتیجه به دست آمد که انجام کار نظارت ویدئویی توسط نیروهای انسانی (اپراتورها)، کاری بیهوده و ناکارآمد است. آن حجم بزرگ از سیستم های نظارت ویدئویی فقط به ثبت استفاده های تحقیقاتی محتملی چون تشخیص یک فرد پس از وقوع سرقت، آتش سوزی عمدی، حمله یا حادثه تقلیل پیدا کردند. در مکان هایی که دوربین های با زاویه دید گسترده، مخصوصا در فضاهای بزرگ و سر باز بکار گرفته شد، محدودیت های زیادی به خاطر رزولوشن ناکافی تصاویر ایجاد شد. در اینگونه موارد، شناسایی فرد متخلف یا مجرم، به خاطر کوچک بودن تصاویر روی مانیتور غیرممکن میشود.

راهکارهای اولیه

دوربین های تشخیص حرکت

نخستین راهکار برای مقابله با ضعف نیروهای انسانی برای تماشای مانیتورهای نظارتی به صورت درازمدت، اضافه کردن سنسورهای تشخیص حرکت به دوربین ها بود. منطق کاری این دوربین ها بر این اساس است که حرکت فرد متخلف یا مجرم به صورت یک پیام اخطار به مسئول بازبینی از راه دور ارسال میگردد و به این صورت نیاز به هوشیاری مداوم انسانی از میان میرود. مشکل این سیستم ها این بود که در فضاهای باز، حرکات و تغییرات پیکسلی مداومی اتفاق می افتد که تصویر کلی را روی صفحه نمایش تشکیل میدهند. حرکت برگ های روی درختان با وزش باد، آشغال های روی زمین، حشرات، پرندگان، سگ ها، سایه ها، چراغ جلوی ماشین ها، اشعه های آفتاب و خیلی از موارد دیگر باعث حرکت میشوند. این موارد باعث وقوع صدها و یا حتی هزاران اخطار اشتباه در روز میشدند و این راهکار را جز برای فضاهای بسته و در طول ساعت غیرکاری، ناکارآمد میساختند.

تشخیص حرکت ویدئویی پیشرفته

تکامل بعدی این سیستم ها تا حدودی میزان آلارم های خطا را کاهش دادند، اما این کار به قیمت انجام دادن تنظیمات پیچیده و زمان بر به صورت دستی بود. بدین شکل میشد که تغییرات اهدافی چون یک فرد یا یک وسیله ی نقلیه را در مقایسه با یک پس زمینه ی ثابت شناسایی کرد. هرگاه که تصویر پس زمینه به خاطر تغییرات فصلی یا سایر تغییرات، دست خوش تغییر میشد، قابلیت اعتماد به این سیستم ها به مرور زمان کاهش می یافت. بودجه ی لازم برای واکنش نشان دادن به این تعداد بالای آلارم های خطا نیز به عنوان یک مانع تلقی میشد و این راهکار را ناکارآمد میساخت.

ظهور آنالیتیک های ویدئویی واقعی

یادگیری ماشین در تشخیص بصری به الگوها و طبقه بندی آنها بستگی دارد. آنالیتیک های ویدئویی واقعی قادر به تشخیص شکل انسانها، وسایل نقلیه، قایق ها و یا اشیاء انتخاب شده هستند و آنها را از حرکت کلی سایر اشیاء، وسایل ساکن یا تغییرات پیکسل روی مانیتور تشخیص میدهند. این کار با کمک الگوهای تشخیصی صورت میگیرد. هنگامی که سوژه ی موردنظر – به عنوان مثال یک آدم – یک قانون از پیش تعیین شده را زیر پا میگذارد – به عنوان مثال تعداد افراد حاضر در یک منطقه ی از پیش تعریف شده و در طول یک بازه ی زمانی مشخص نباید بیشتر از صفر نفر باشد – یک پیغام هشدار ارسال میگردد. یک مستطیل قرمز رنگ یا «کادر محصورکننده» معمولا فرد متخلف را به صورت خودکار دنبال میکند و یک کلیپ ویدئویی کوتاه به عنوان اخطار فرستاده میشود.

کاربردهای عملی

اقدامات پیشگیرانه به صورت همزمان با وقوع رخداد

تشخیص افراد متخلف به کمک سیستم های نظارت ویدئویی، بسته به میزان بودجه و ذات دوربین های ویدئویی محدودیت هایی دارد. معمولا دوربین های مخصوص فضای باز برای داشتن دید گسترده و دیدن فواصل دور مورد استفاده قرار میگیرند. نرخ فریم و دامنه دینامیکی دوربین ها برای داشتن کارکرد در نواحی به شدت روشن و بسیار تاریک، بیشتر آنها را بیشتر به چالش میکشد و این سوال را پیش می آورد که آیا دوربین موردنظر برای دیدن یک فرد متخلف که در حال حرکت است، مناسب است یا خیر. شب ها حتی در مناطق باز و نورانی هم یک سوژ ه ی در حال حرکت نمیتواند نور کافی برای هر فریم در ثانیه را دریافت کند – مگر آنکه به دوربین خیلی نزدیک باشد – و به شکل یک شیء ظریف و باریک یا شبحی غیرقابل شناسایی و نامرئی در دوربین به چشم می آید. شرایط چون تششع نور، تاری نسبی، باران، برف، مه و تاریکی همگی به این مشکل اضافه میکنند. حتی زمانی که یک انسان بخواهد در چنین شرایطی به محل سوژه ی موردنظر روی مانیتور نگاه کند، معمولا آن سوژه را نمیتوان پیدا کرد. تکنولوژی هوش مصنوعی AI قادر است که به صورت مساوی به کل تصویر و تمام دوربین ها به صورت همزمان نگاه کند. هوش مصنوعی میتواند با استفاده از مدل های آماری مبنی بر میزان درجه ی انحراف از الگوی یادگرفته شده از شکل یک انسان، متخلفین را با قابلیت اعتماد بالا و نرخ خطای پایین در شرایط نامساعد تشخیص بدهد. یادگیری این تکنولوژی بر اساس حدود یک چهارم میلیون تصویر از انسان ها آن هم در وضعیت ها، زوایا و حالات متفاوت صورت میگیرد.

با گنجانده شدن آنالیتیک های ویدئویی در یک دوربین یک مگاپیکسلی، این دوربین میتواند در شرایط غیرایده آل، یک انسان را در فاصله ی حدود 350 اینچی و با زاویه ی 30 درجه تشخیص دهد. برای ایجاد یک «حصار مجازی» یا منع ورود به یک منطقه ی از پیش تعریف شده، میتوان قوانینی مقرر کرد. این قوانین میتوانند شامل موارد زیر باشند: جهت حرکت در یک مسیر، اشیاء جا گذاشته شده، شکل گیری ترافیک و سایر شرایط.

صحبت از راه دور

یکی از قدرتمندترین ویژگی های این سیستم آن است که یک مسئول یا اپراتور انسانی میتواند با کمک تکنولوژی هوش مصنوعی AI، اخطاری مبنی بر ورود یک فرد متجاوز دریافت کند و فورا از طریق بلندگوهای موجود در فضای باز با آن فرد صحبت کند. این قابلیت از ارزش بازدارندگی بالایی برخوردار است ، چرا که بیشتر مجرمین فرصت طلب هستند و وقتی که یک فرد زنده با آنها صحبت میکند، خطر دستگیر شدنشان را پررنگ تر میبینند و بدین شکل به احتمال زیاد از ورود به آنجا منصرف میشوند و به عقب برمیگردند. مسئول امنیتی، رفتارهای فرد متجاوز را توصیف میکند و آن فرد بدون شک مطمئن میشود که یک نفر واقعا در حال نگاه کردن به اوست. مسئول مربوطه میتواند اعلام کند که فرد متجاوز در حال زیر پا گذاشتن قانون است و با مجاری قانونی تماس گرفته شده است و رفتار آنها در حال ضبط شدن به صورت ویدئویی است.

گزارش تخلف تایید شده

نیروهای پلیس تعداد بسیار بالایی آلارم خطای مربوط به سرقت دریافت میکنند. طبق گزارش های ارائه شده ی صنعت امنیت، حدود 98٪ از این آلارم ها جزء آلارم های خطا هستند. به همین خاطر نیروهای پلیس، رسیدگی به آلارم های مربوط به سرقت را در ارجحیت کار خود قرار نمیدهند و معمولا بین بیست دقیقه تا دو ساعت طول میکشد تا خود را برای رسیدگی به آن محل برسانند. در مقابل، جرائم تشخیص داده شده به کمک آنالیتیک های ویدئویی به مسئول مانیتورینگ مرکزی گزارش میشوند. مسئول مانیتورینگ نیز با چشمان خود وقوع یک جرم را تایید یا رد میکند و سپس با نیروهای پلیس تماس برقرار میکند و پلیس هم این نوع تماس ها را در ارجحیت کار خود قرار میدهد.

پیشرفت های مداوم

آنالیتیک ها با دوربین های دیجیتال یا دوربین های آنالوگی که مبدل آنالوگ به دیجیتال دارند، کار میکنند. در بسیاری از موارد نرم افزارهای آنالیتیکی مربوطه، فارغ از رزولوشن دوربین، سیگنال ها را به اندازه ی استاندارد تعریف شده یا کمتر از آن کوچک میکنند.

منبع: ویکی پدیا

مترجم: سارا کریمی

هوش مصنوعی در خدمت نظارت ویدئویی (بخش اول)