Bundan önceki araştırmalar obje tanımayı, sınıflandırmayı ve etiketlemeyi çok güzel bir şekilde geliştirdi ancak yazılımların hala sahnede neler olup bittiğinin farkında olmak, nesnelerin birbirleriyle olan ilişkilerini tanımlamak gibi yetileri olmadığından kompleks bir sahneyi doğal algılanacak, kulağa garip gelmeyecek bir cümleye çevirmede büyük sıkıntılar vardı.
Normalde CNN resimdeki objeleri tek tek karşılaştıran ve en olası sonucu bize veren bir sistem ancak RNN'yi besleyecek şekilde kurgulandığında ve bu sayede resimdeki objelerin tanımlanmasına yönlendirildiğinde karşımıza resimdeki kalıpları tanımlamayı öğrenebilen bir yazılım çıkmış oluyor. Yazılım öncelikle daha önce insanlar tarafından cümlelerle ifade edilmiş resimler kullanılarak eğitiliyor. Daha sonra da sistemden daha önce hiç görmediği resimleri tanımlaması isteniyor.
Tanımlamalar her zaman %100 doğruluk oranına sahip olmuyor elbette. Fakat sistem daha fazla resimle karşılaştıkça hata oranını da azaltacak gibi duruyor. İşte birkaç örnek;
Sonuç olarak da yapılan sistem resmi tanımlamada ve içerisindeki objelerin ilişkilerini açıklamada daha önceki teknolojilere göre iki kat daha duyarlı ve doğru hale gelmiş oluyor.
Makinelerin de bir resme bakıp onları insandan farkı olmayacak şekilde bize anlatabildikleri veya bizim onlara anlattığımız bir resmi bulabildikleri günler çok uzak gibi durmuyor. Bu teknolojinin hayatımıza yerleşeceği günleri sabırsızlıkla bekliyoruz.