28 Feb Vedere oltre: la rivoluzione della Computer Vision
Il settore della computer vision
Il sempre crescente interesse, da parte di realtà governative ed industriali, nell’investire in soluzioni di Computer Vision da integrare nei propri sistemi produttivi e operativi per ottimizzarne le diverse fasi di processo è reso evidente dalla valutazione di mercato della computer vision, attestata a 15 miliardi di dollari nel 2022 e che, si prevede, raggiungerà 82,1 miliardi di dollari entro il 2032, con una crescita del 18,7% dal 2023 al 2032. Sebbene le applicazioni industriali siano fortemente richieste, l’intelligenza artificiale trova impiego e notevole seguito in differenti campi di applicazione, dall’automotive al medicale, ma anche e soprattutto nel sociale e nella sicurezza al fine di supportare e affiancare le persone nella vita di tutti i giorni.
Artificial intelligence, computer vision e machine learning
All’interno dell’ampio campo di studio dell’intelligenza artificiale (AI), la computer vision identifica la capacità dei computer di analizzare ed estrarre informazioni significative da immagini e video. Gli algoritmi e i modelli sviluppati in questo ambito permettono ai computer di riprodurre funzioni e processi dell’apparato visivo umano. Nonostante questo tipo di algoritmi di intelligenza artificiale esistano in varie forme fin dagli anni ’60, i progressi nel Machine Learning degli ultimi 10 anni, così come i notevoli passi avanti nella memorizzazione dei dati, nelle capacità di calcolo e nei dispositivi di input di alta qualità a basso costo, hanno portato a notevoli miglioramenti nella capacità del software di esplorare questo tipo di contenuti.
Come funziona la computer vision
Nella computer vision, le elaborazioni coinvolgono contenuti visivi come immagini, video, icone e qualsiasi altra raffigurazione grafica che sia composta da pixel. Sebbene possa sembrare un sistema semplificato per riuscire a riconoscere oggetti, persone o animali all’interno di un’immagine singola o in sequenza (video), la computer vision permette soprattutto di estrarre informazioni utili, a livelli sempre più alti di astrazione e comprensione, affinché vengano ulteriormente elaborate. Nello specifico, si tratta della capacità di estrarre dati significativi ricostruendo un contesto intorno all’immagine.
Per poter funzionare accuratamente, i sistemi di Computer Vision hanno bisogno di essere addestrati con una grande quantità di immagini che, opportunamente etichettate, andranno a costituire il dataset. I modelli di Computer Vision possono effettuare indagini più o meno approfondite su un’immagine, a seconda delle tecniche e delle reti utilizzate, delle caratteristiche immagine e del tipo di task considerato. Applicazioni software di questo tipo permettono di processare immagini o fotogrammi video analizzandone il contenuto mediante algoritmi matematici.
Le fasi dell’elaborazione
L’intero processo, piuttosto complesso, inizia dall’acquisizione dell’immagine e il relativo preprocessing per migliorarne la qualità e si conclude con l’interpretazione dei risultati e la conseguente azione. Le due fasi principali intermedie del processo prevedono:
- l’estrazione delle caratteristiche, in cui un algoritmo analizza i pixel di un’immagine per identificare le caratteristiche specifiche (valori di colore, forma, struttura) di oggetti o volti all’interno essa; e
- la classificazione, durante la quale vengono confrontate le caratteristiche estratte dal frame con modelli noti. Se viene superata una determinata soglia tra l’immagine/fotogramma in analisi e uno dei modelli noti, il software restituisce le corrispondenze e “ritaglia” le immagini in regioni o gruppi con proprietà simili.
I task effettuabili
In funzione dell’applicazione che si vuole sviluppare, si può scegliere uno o molteplici tra i possibili task a disposizione. Tra questi, i più utilizzati sono:
- l’Image Classification, ovvero l’analisi del contenuto dell’immagine e attribuzione di un’etichetta;
- l’Object Detection, in cui avviene l’identificazione di una o più entità all’interno di un’immagine; e
- la Semantic Segmentation, ovvero la suddivisione dell’immagine in sezioni.
Con l’evoluzione e il miglioramento di questi modelli, nuovi task come per esempio la Pose Estimation, la Face Recognition, l’Action Recognition e l’Emotion Recognition vengono implementati in applicazioni software, per poter essere integrati in svariate soluzioni tecnologiche ‘intelligenti’.
La computer vision, attraverso l’analisi e l’interpretazione di immagini e video, offre quindi soluzioni sempre più avanzate che spaziano dai settori industriali a quelli sociali e sanitari, promuovendo un impatto significativo sulla qualità della vita e sull’efficienza dei processi aziendali.
Vincenzo Montedoro