Hvad er API'er til billedgenkendelse, og hvad kan de gøre for dig? Denne artikel vil rydde op for, hvad billedgenkendelse er, hvad en API gør, og hvordan det kan hjælpe dig eller din virksomhed med at få mere ud af internettet. Billedgenkendelse har stort potentiale for virksomheder og for individuelle synshandicappede internetbrugere.
Hvad er en billedgenkendelse API?
Billedgenkendelse er, hvor et stykke software registrerer et billedkarakteristik og kategoriserer det nøjagtigt. Hvis du for eksempel uploader et billede af en Ferrari 458 til en billedgenkendelses API, skal den genkende at det er en bil, og at den er (eller skal være) rød. Afhængigt af API'en kan yderligere klassificering være mulig afhængigt af hvilken type billede du bruger.
Dette kan virke meget enkelt - mennesker kan se på et billede og fortælle dig, hvad det er et billede af uden at prøve det meste af tiden - men det har været et svært problem at lære computere at løse. Meget arbejde har været at finde ud af, hvordan en computer kan forstå, hvordan tingene ser ud, og vi har gjort store fremskridt, fra evnen til at gøre omvendte billedsøgninger til Googles berømte Deep Dream-netværk.
En API er et Application Program Interface. Det er i det væsentlige en mellemmand mellem programrutiner, der fortæller et element, hvordan man arbejder med en anden, eller giver de værktøjer, de har brug for til at udføre en funktion. Der er snesevis af typer af API'er, der kan nå alle mulige mål ved hjælp af en række programmeringssprog. I denne sammenhæng er et billedgenkendelses-API det værktøj, du kan bruge til at få adgang til den dybe læringsevne i nogle kommercielle billedgenkendelsessystemer.
Du har brug for en masse computerkraft til at udføre billedgenkendelse. Du har brug for masser af data og magt til at fortolke det hele. De fleste brugere har simpelthen ikke de massive ressourcer til at bygge deres egen dybe læringsmaskin. Store navne som Googles Vision API, Microsofts Face API, ImageNet og andre har sådanne maskiner og giver adgang til dem via API'er, enten gratis eller mod betaling. Dette giver virksomheder af alle størrelser adgang til denne strøm, og brugerne får nye oplevelser som følge heraf.
Hvordan går billedgenkendelse til forandring af vores internetoplevelse?
Forskellige internetbrugere får forskellige fordele ved billedgenkendelse. Lad os se på en hypotetisk webstedsejer og en hypotetisk bruger for at se, hvordan begge sider kan gavne.
De forretningsmæssige fordele ved billedgenkendelse
For eksempel, lad os sige, at du driver en selvsælgerportal svarende til Etsy eller en datingwebsite. Du ønsker at styre kvaliteten og egnetheden af alle de billeder, der uploades af brugerne. Du vil blokere alle voksne eller uegnede billeder og sortere dem i de relevante kategorier, men du kan muligvis ikke gøre alt for hånd.
Indtast billedgenkendelse API. Du kan bruge API'en sammen med en passende billedgenkendelsesmaskine til at scanne hvert enkelt billede og definere det efter bestemte kriterier. Så du kunne scanne biblioteket af billeder til uanstændige billeder og slette dem. Du kan scanne billederne og sortere dem, der indeholder mad i kategorien "mad" og strikvarer i kategorien "uld". Når du fortæller API hvad der skal gøres, er processen automatiseret.
Der er også muligheder her for forstørret virkelighed og interaktivt billede og video. Du kan bruge billedgenkendelse til at få et program genkende objekter i den virkelige verden. For eksempel kan du tage et billede af et par sneakers, som nogen har på gaden. Hvis programmet genkender sneakers, kan billedet forstærkes med et link for at købe dem selv. Dette gavner virksomheden (det giver en umiddelbar salgsmulighed) og gavner brugeren (de får det, de ønsker lige nu).
Brugeren nyder godt af billedgenkendelse
Sneaker-eksemplet ovenfor er kun en indlysende måde, som brugerne kan få gavn af billedgenkendelse. Augmented reality betyder, at vi øjeblikkeligt kunne få adgang til anmeldelser, prisoplysninger og masser af data ved blot at tage et billede af et produkt. Det giver brugerne massive mængder data for at hjælpe dem med at træffe en købsbeslutning.
Mark Zuckerberg opsummerede en ofte overset fordel for billedgenkendelse i sin tale på AI tidligere i år. Han forestillede sig en billedgenkendelse API, der arbejdede med blinde eller svagtsynede mennesker, der kunne "læse" et billede og beskrive, hvad det ser højt ud. Dette kunne have massive konsekvenser for forringede internetbrugere - eller med forstørret virkelighed ud i den virkelige verden engang ned på linjen.
Billedgenkendelse spiller også en rolle i bilsikkerheden. De nye autonome bremsnings- og kollisionsundvikelsesteknologier, der introduceres, fungerer på samme måde som API'erne, vi har talt om. De scanner og vurderer billeder mange gange et sekund for at holde dig og din bil sikker, mens du er på vej. Denne teknologi, der fortæller autonome biler, hvad der er omkring dem også.
API'er til billedgenkendelse vil ikke revolutionere vores internetoplevelse på egen hånd. De arbejder sammen med eksisterende teknologi for at tilføje et lag af interaktion og nedsænkning til den verden, vi ser. Selv om denne artikels eksempler er begrænsede, er der stort potentiale for spil, film, bilindustrien, detailhandel, underholdning og enhver teknologiaktiveret industri. Dette er kun begyndelsen på, hvad intelligente systemer kan opnå!