Umelá inteligencia bude čoraz viac meniť aj možnosti strojového videnia, Rozhovory, Rubriky,

Vysvetlime na úvod, čo pojmy ako strojové spracovanie obrazu, strojové videnie, príp. systémy na spracovanie obrazu zahŕňajú. Z čoho sa tieto systémy skladajú?

Strojové spracovanie obrazu, strojové videnie či systémy na spracovanie obrazu sú termíny označujúce technológiu, ktorá využíva počítačové videnie pri riešení praktických problémov automatizácie, prevažne v priemysle. Tradične sa systémy strojového videnia skladajú z troch základných častí – senzoriky na snímanie vizuálnej obrazovej informácie, t. j. kamerových systémov, systému na spracovanie digitálneho obrazu a extrakciu čŕt relevantných pre danú aplikáciu a nakoniec modulu implementujúceho logiku rozhodovania a vykonávania akcií. V posledných rokoch však sledujeme trend, že posledné dve časti sa čoraz viac dopĺňajú alebo celkom nahrádzajú systémami využívajúcimi umelú inteligenciu (UI).

Spracovanie obrazu a systémy strojového videnia sa čoraz viac využívajú aj v rôznych oblastiach priemyslu. Aké sú podľa vás hlavné prínosy týchto systémov pre koncových používateľov?

Strojové videnie umožňuje zefektívňovať procesy v Priemysle 4.0, priemyselnom internete vecí, pri inteligentných výrobných nástrojoch alebo skladových a logistických systémoch. Znižuje výrobné náklady vďaka skorej detekcii výrobných chýb či optimalizovanej logistike. Tiež umožňuje 100 % kontrolu kvality vo výrobe, a to aj v režime 24/7. No a v neposlednom rade pomáha sústreďovať ľudský potenciál na úlohy, ktoré vyžadujú schopnosť rozhodovania, improvizácie, kreativity či psychologického uvažovania.

Ak by ste mali porovnať situáciu v uvedených oblastiach spred dekády s tým, čo máme k dispozícii v súčasnosti, kam sme sa za ten čas v oblasti strojového videnia posunuli?

Za poslednú dekádu sme zaznamenali výrazný posun vo viacerých oblastiach súčasne. V oblasti senzoriky bolo najdôležitejším posunom výrazné zdokonalenie technológie CMOS, ktorá viedla ku kamerám s vyšším rozlíšením, nižším šumom, vyššou rýchlosťou – to všetko za čoraz lepších cenových podmienok. Tiež sa vyvinulo množstvo senzorov optimalizovaných na snímanie špeciálnych modalít, ako napr. multi-/hyperspektrálne či polarizačné senzory. V neposlednom rade treba spomenúť aj rozmach 3D senzorov založených na princípoch stereoskopie, štruktúrovaného svetla alebo merania času letu svetla (Time of Flight, ToF). V tejto oblasti aj naša spoločnosť priniesla revolučnú inováciu pod názvom paralelne štruktúrované svetlo (Parallel Structured Light), ktorá bola implementovaná pomocou originálneho zobrazovacieho senzora CMOS. Meno našej technológie odkazuje na jej schopnosť snímať viacero obrazov štruktúrovaného svetla paralelne a nie sekvenčne v čase. Vďaka tejto inovácii bolo možné vybudovať jedinečný 3D senzor MotionCam-3D, ktorý zachytáva vo vysokom rozlíšení 3D obrazy objektov pohybujúcich sa vysokou rýchlosťou (až do 40 m/s). V súčasnosti nie je na trhu žiadna iná 3D kamera schopná snímať pohyblivé scény s porovnateľnou presnosťou a rozlíšením.

V súlade s Moorovým zákonom sa v ostatnej dekáde výrazne znížila aj cena za jednotku výpočtovej sily, a to v oveľa väčšej miere, než bol pokles cien iných komponentov strojového videnia (napr. optika, mechanika, kamery či roboty). Boli sme tiež svedkami výrazného posunu v oblasti zabudovaných počítačových systémov, vďaka ktorým sa výpočtová sila priblížila ku koncovému spotrebiteľovi. To umožnilo tzv. Edge Computing, kde sa dáta spracúvajú priamo v senzore alebo používateľskom zariadení. Trend rapídneho zlacňovania výpočtovej sily sa tiež odzrkadlil vo zvýšenej popularite výpočtovej fotografie (Computational Photography), pri ktorej sa nedokonalosť senzora kompenzuje použitím komplexnejšieho záznamového protokolu, napr. opakované snímanie pri rôznych svetelných podmienkach kombinované so sofistikovaným algoritmom spravidla vyžadujúcim výpočtový výkon.

Snáď najvýznamnejším posunom, ktorý možno považovať za zmenu paradigmy strojového videnia, je nástup metód umelej inteligencie – niekedy tiež označovaných ako strojové alebo hĺbkové učenie – v mnohých oblastiach, od spotrebiteľskej až po priemyselnú. Tradičné systémy na spracovanie obrazu, rozpoznávanie vzorov či rozhodovacej logiky boli realizované na princípe expertnej doménovej znalosti, ktorú bolo potrebné pretaviť do sústavy pravidiel a algoritmov šitých na mieru daného problému. Tento prístup však nebol dostatočne flexibilný a škálovateľný, najmä kvôli tzv. odtrhnutiu od reality (Reality Gap). Na rozdiel od tradičných prístupov systémy sú schopné extrahovať relevantné informácie zo skutočných príkladov, ktoré dokážu následne zovšeobecniť alebo adaptovať na základe nových príkladov. Pri dostatočnom množstve trénovacích dát sa pomocou moderných UI architektúr podarilo nielen úspešne vyriešiť predtým neriešiteľné problémy z oblasti strojového videnia (napr. univerzálna detekcia a rozpoznávanie vzorov), ale tiež poskytnúť spoľahlivejšie/efektívnejšie alternatívy k zavedeným, no ťažko škálovateľným algoritmom (napr. odšumenie obrazu, 6D lokalizácia).

V súčasnosti na trhu dominujú monochromatické systémy spracovania obrazu a kamery, ktoré pracujú s odtieňmi sivej. Ich výhodami sú veľmi dobré rozlíšenie a cena. Má význam uvažovať o systémoch pracujúcich s celou farebnou škálou? Kde je priestor na ich uplatnenie?

Každá aplikácia vyžaduje adekvátne množstvo údajov potrebných na vyriešenie daného problému. Je pravda, že v mnohých praktických aplikáciách sú sivoškálové senzory dostatočnou voľbou, pričom UI pomáha túto množinu ešte rozširovať. Existujú však aj aplikácie, napr. v maloobchodnom alebo potravinárskom priemysle, kde je farebné a multispektrálne zobrazovanie nevyhnutnosťou. Aj keď uvažujeme o systémoch určených na spracovanie malých produktových sérií alebo celkom zákaznícky prispôsobených produktoch, býva pravidlom, že farba zohráva dôležitú rolu pre univerzálnosť týchto systémov.

Pre oblasť spracovania obrazu je jednou z dôležitých častí vývoj algoritmov, pretože takmer každá snímaná situácia je jedinečná a dobré riešenie vyžaduje viacnásobné iterácie, aby sa dospelo k požadovanému výsledku. Existuje nejaké všeobecne platné pravidlo, podľa ktorého by bolo možné pri návrhu algoritmov postupovať?

Ako som už spomínal, UI má v porovnaní s tradičnými postupmi mnohé výhody, najmä tú, že sa dokáže učiť a adaptovať na základe príkladov. Z praxe vieme, že pri mnohých zdanlivo odlišných úlohách je zásadný rozdiel iba v dátach, nie však v architektúre UI systému. Dokonca býva pravidlom, že aj veľká časť naučenej informácie je prenositeľná z jednej problémovej domény do inej, ide o tzv. Transfer Learning. V realite sa však môže stať, že k danému problému neexistuje dosť trénovacích príkladov, prípadne dostupné dáta nedostatočne opisujú daný problém. V takýchto situáciách treba využiť doménového experta, ktorý pomáha posudzovať prípady, v ktorých UI zlyháva, a adekvátne dopĺňať trénovacie dáta o reálne alebo syntetické príklady.

Rozmerová veľkosť systémov strojového videnia sa už ustálila. Je pravda, že ďalšia miniaturizácia už nie je cieľom, skôr je snaha o zvyšovanie inteligencie a funkčnosti týchto systémov?

Dnes je určite väčší tlak trhu na inteligentný senzor, ktorý vie priamo poskytnúť zákazníkovi pridanú hodnotu (napr. rozpoznaný objekt, jeho poloha, prečítaný kód, stanovený rozmer), ako na miniaturizáciu senzora alebo celého systému strojového videnia. V sektore 3D videnia pre robotiku, kde pôsobí aj naša spoločnosť, je však dôležité, aby bol senzor dostatočne malý a ľahký, aby ho bolo možné jednoducho integrovať na robot alebo robotické rameno. Dôležitá je tiež mechanická a teplotná stabilita senzora pri garantovanej presnosti, čo býva často rozhodujúcejšie ako samotná veľkosť.

Samostatnou a veľmi dôležitou kapitolou pri úvahe o využití systémov strojového videnia je zabezpečenie stabilných svetelných podmienok. Aké sú najlepšie skúsenosti v tejto oblasti a ako teda správne zvoliť systém osvetlenia scény?

Vo všeobecnosti sa v oblasti strojového videnia používajú najmä svetelné zdroje využívajúce LED technológiu. Táto technológia poskytuje mnohé výhody oproti klasickému halogénovému či xenónovému osvetleniu, ktoré sa používali v minulosti. LED svietidlá sa vyznačujú spoľahlivosťou, dlhou životnosťou a schopnosťou vytvoriť vyvážené nekoherentné svetlo v rôznych spektrálnych oblastiach, vďaka ktorému možno urobiť veľmi kvalitný obrazový záznam. Jedným z najvážnejších obmedzení LED osvetlenia je pomerne striktný limit na množstvo svetla, ktoré možno priniesť na obmedzene malú plochu, napr. bod alebo čiaru. Pri zvyšovaní výkonu LED modulov je nutné zväčšovať emisnú plochu spojením viacerých integrovaných LED modulov. Z tých sa potom síce generuje viac svetla, no to v dôsledku veľkosti emitora už nemožno fokusovať na ľubovoľne malú plochu. Tento limit do veľkej miery neexistuje pri laserovom osvetlení, ktoré si v posledných rokoch získava pozornosť komunity strojového videnia, najmä v oblasti 3D zobrazovania a iných špeciálnych zobrazovacích metód. Z tohto dôvodu je laserové osvetlenie tiež dôležitým stavebným kameňom všetkých 3D senzorov od našej spoločnosti.

Vývoj v oblasti výpočtového výkonu, snímacích čipov či pokročilého softvéru pripravil cestu k vzniku 3D systémov strojového videnia. Tie sa dokážu vďaka stereo snímaniu, technikám mračien bodov či 3D triangulácii vyrovnať s výzvami, ktoré 2D systémy nedokázali riešiť. V čom sú 3D systémy iné ako 2D systémy? Kde je ich najväčší potenciál pri nasadení?

3D technológia nie je žiadna novinka, vyvíja sa a používa v špeciálnych aplikáciách už niekoľko desaťročí. Hoci až dnes vidíme, ako preniká do bežnej spotrebnej elektroniky, napr. do moderných mobilných telefónov. Základnou výhodou 3D systémov v porovnaní s 2D je ich schopnosť zaznamenať, popri bežnej 2D priestorovej informácii (t. j. XY), aj hĺbkové súvislosti v snímanej scéne (t. j. XYZ). Na základe tejto dodatočnej informácie možno jednoznačne určiť, ktoré objekty sa nachádzajú vpredu, ktoré vzadu, ktorý objekt prekrýva iný alebo je prekrytý iným objektom. Tento typ informácie je dôležitý napr. pri robotických aplikáciách, kde nemožno predpokladať vopred definovanú geometriu scény. Príkladom takýchto aplikácií je napr. depaletizácia či vychystávanie náhodne plnených zásobníkov (Bin Picking). Aj v automobilovom priemysle a logistike 3D technológia umožnila bezprecedentné riešenia (napr. semiautonómne riadenie), ktoré predtým neboli realizovateľné pomocou bežných 2D prístupov.

Skúste naznačiť smery, kam sa bude vývoj systémov strojového videnia v najbližších rokoch uberať.

Rozhodne bude pokračovať trend nasadzovať UI vo všetkých oblastiach strojového videnia s cieľom eliminovať vývoj na mieru šitých algoritmov. Príkladom je aj náš systém AnyPick, ktorý je už teraz schopný vyberať ľubovoľné objekty s 99,5 % úspešnosťou. U výrobcov bude zrejme pretrvávať snaha integrovať UI priamo do senzorov a špecializovať ich na definovaný účel (napr. počítanie osôb, meranie rozmerov, automatickú detekciu definovaných objektových čŕt), čím integrátorom uľahčia nasadzovanie a minimalizujú nutnosť použitia ďalších komponentov. Nové hardvérové riešenia schopné zachytiť pohybujúce sa scény v kombinácii s pokročilými algoritmami umožnia širšiu aplikáciu aj smerom k momentálne náročnejším oblastiam, akými sú napríklad kolaboratívna robotika a kompletná automatizácia logistiky.