Google kan snart se bilder som människor

Skrivet av Marcus Sandström 16 / 10 / 14

Som du känner till kan du söka efter bilder på Google, om du t.ex söker på “katter” så får du också fram en massa bilder på lampor. Det funkar inte riktigt alltid men allt som oftast så blir det rätt på bredare sökningar. Även vissa lite smalare sökningar som “hoppande katter” så får man mycket riktigt upp bilder  De här resultaten blir (som ofta vid textsökningar också) mer korrekta på engelska, testar du att söka “jumping cats” så får du fler och också mer korrekta bilder.

Google bildsök funkar idag som så att de tittar på vad filnamnet på bilden heter, vilken ALT-tag den har och en del andra faktorer som t.ex vilket innehåll som finns i anslutning till bilden, om någon länkat till bilden, hur stor den är (bytes och pixlar) etc. Google har blivit bättre på att identifiera bilder och vi vet att Google kan läsa text som finns på bilder man kan också konvertera t.om väldigt svårlästa pdf dokument till text vilket är imponerande.

Google har sedan ett par år tillbaka också haft ett verktyg i sitt bildsök där man kunnat dra in en bild för att hitta liknande bilder och se var bilden kommer ifrån. Vad Google gör är att titta på likheter som storlek, vilka färger som finns i bilden och i stora drag försöka avgöra om det är en liknande bild. Ibland blir det rätt, ibland helt fel.

I algoritmen som styr över bildsöket lägger dock Google fortfarande störst vikt vid faktorerna jag nämnde ovan, filnamnet, alt tagen och innehållet/ på webbsidan. Det kan det dock snart bli ändring på. Om du vill ha djupare information om detta rekommenderar finns en bra post om det här.

Algoritmen ser nu alltså ut att kunna bli väldigt mycket bättre. I en tävling som hålls årligen av Google så tog team GoogLeNet fram en algoritm som är så exakt att den kan hitta och skilja mellan en mängd olika objekt, inte bara mellan olika bilder, utan inom samma bild. Algoritmen kan också bestämma ett objekt som är ovanpå ett annat objekt inom ett foto vilket är en stor förbättring. En hund som har på sig en hatt med en bred skärm (som i bilden nedan) kategoriseras alltså som som “hund” och “hatt med bred skärm”.

hund med hatt

banan tv

 

Tävlingen har tre olika kategorier, klassifikation, klassifikation med lokalisering och upptäckt. Klassifikationkategorin mäter en algoritms möjlighet att ge rätt etikett på en bild. Klassifikation med lokaliseringskategorin bedömer hur bra en algoritm hittar ett objekt inom en bild. Och den sista kategorin är liknande som den ovan men har lite andra regler.

Det som är mycket intressant är att algoritmen nu börjar kunna förstå olika objekt inom en bild och att man oavsett storlek på dem kan identifiera vilket sorts objekt det är men algoritmen kan dessutom lära sig av sig själv vilket såklart är helt otroligt.

Exakt när det här kommer att börja implementeras återstår att se, men användningsområdena är många och visst kommer det att vara häftigt när Google kan börja se som en människa gör.

För djupare information kring detta rekommenderar jag följande länkar:

http://cognitiveseo.com/blog/6511/will-google-read-rank-images-near-future/

http://googleresearch.blogspot.co.uk/2014/09/building-deeper-understanding-of-images.html

http://image-net.org/challenges/LSVRC/2014/

Share on FacebookTweet about this on TwitterShare on Google+Share on LinkedIn

Skrivet av: Marcus Sandström

Marcus är en av grundarna till Viseo. Han jobbar sedan flera år tillbaka med att hjälpa företagare att nå sina mål med hjälp av internetmarknadsföring.