Microsoft Research erstellt ein System, das in der Lage ist, „intelligente“ Untertitel automatisch zu generieren
Inhaltsverzeichnis:
Sicherlich sind Sie auf eine Bildunterschrift gestoßen, die verwirrend oder falsch ist oder wenig über das Bild aussagt, auf das sie sich bezieht; und es ist sogar möglich, dass Sie, wenn Sie sich der Veröffentlichung Ihrer eigenen Artikel widmen, es am mühsam finden, diesen Abschnitt auszufüllen. Nun, die Leute aus Redmond haben ein Tool entwickelt, das Ihnen die Arbeit erleichtern soll.
Eine von Microsoft Research veröffentlichte Arbeit, die sich selbst als „System zur Generierung von Untertiteln“ beschreibt, das in der Lage ist, die narrativen Merkmale der menschlichen Sprache nachzuahmen, d. mit dem entsprechenden Kontext.Etwas, an dem Unternehmen wie Facebook, Microsoft und Google schon seit einiger Zeit arbeiten, aber diesmal die Erwartungen übertreffen.
Woraus besteht es
Er hatte eine tolle Zeit
Auf diese Weise ist das System in der Lage, sogar eine ganze Geschichte aus mehreren Bildern zu erzählen, zu beschreiben und so zu erzählen, als ob es war ein Buch. Ein Dienstprogramm, das laut Experten zu einer Funktion werden könnte, die bestimmten Anwendungen, Spracherkennungsanwendungen, automatischer Generierung von Beschreibungen in anderen Bereichen und vielem mehr eine menschlichere Note verleiht.
Und Tatsache ist, dass das Tool nicht darauf beschränkt ist, kurz zu sagen, was es „sieht“, sondern vielmehr ein breiteres Spektrum bietet Kontext der im Bild widergespiegelten Situation, wodurch ein "narrativer Kontext und ein einzigartiger Erzählstil" erreicht wird, erklärt Frank Ferraro, einer der Autoren dieser Arbeit.Um uns in eine Situation zu versetzen, gibt er uns ein klares Beispiel
Seine Mutter war stolz auf ihnDaher schlagen wir folgenden Fall vor: „Stellen wir uns vor, wir haben ein Fotoalbum von einigen Freunden, die in einem Pub. Einige der ersten Bilder zeigen Leute, die Bier bestellen und es trinken, während die letzten jemanden zeigen, der auf einem Sofa schläft“, kommentiert er.
Ein herkömmliches System „könnte einfach darauf hinweisen, dass eine Person auf einem Sofa liegt, während unser System beinh alten könnte, dass sie sich wahrscheinlich in dieser Situation befindet, weil sie nach ein paar Drinks betrunken ist“ . Eine Ergänzung, die für Verständnis und eine gewisse emotionale Aufladung sorgt, die sich auch in den in diesem Artikel enth altenen Bildern und Bildunterschriften widerspiegelt.
Über | MIT Technology Review
In Xataka-Windows | Microsoft startet eine App, die die Rasse Ihres Hundes bestimmt