Eine Gruppe von Informatikern verschiedener Universitäten hat ein Open-Source-Multimodal-LLM namens LLaVA veröffentlicht, und ich bin letzte Woche beim Scrollen durch Twitter darauf gestoßen. Ähnlich wie GPT-4 kann dieses LLM sowohl Text- als auch Bildeingaben verarbeiten. Das Projekt verwendet ein Allzweck-LLM und einen Bildcodierer, um ein Large Language and Vision Assistant-Modell zu erstellen. Da die angepriesenen Funktionen vielversprechend aussahen, beschloss ich, dieses Large Language-Modell zu testen, um zu verstehen, wie genau und zuverlässig es ist und was wir vom kommenden Multimodalmodell von GPT4 erwarten können (insbesondere von seinen visuellen Fähigkeiten). In diesem Sinne wollen wir uns nun LLaVA näher ansehen.
Was ist LLaVA, ein multimodales Sprachmodell?
LLaVA (Large Language-and-Vision Assistant) ist ein multimodaler LLM, ähnlich wie OpenAIs GPT-4, der sowohl Text- als auch Bildeingaben verarbeiten kann. Während OpenAI GPT-4 noch nicht um die Fähigkeit zur Bildverarbeitung erweitert hat, hat dies ein neues Open-Source-Projekt bereits getan, indem es Einbettung eines Bildencoders.
Das von Informatikern der University of Wisconsin-Madison, Microsoft Research und der Columbia University entwickelte Projekt zielt darauf ab, die Funktionsweise eines multimodalen Modells zu demonstrieren und seine Leistungsfähigkeit mit GPT-4 zu vergleichen.
Es verwendet Vikunja als großes Sprachmodell (LLM) und CLIP ViT-L/14 als visueller Encoder, der, für diejenigen, die es nicht wissen, von OpenAI entwickelt wurde. Das Projekt hat hochwertige multimodale Anweisungsfolgendaten mit GPT-4 und das führt zu einer hervorragenden Leistung. Es erreicht 92,53 % im ScienceQA-Benchmark.
Darüber hinaus wurde es für allgemeine visuelle Chat- und Argumentationsdatensätze optimiert, insbesondere aus dem Wissenschaftsbereich. Insgesamt ist LLaVA also ein Ausgangspunkt der neuen multimodalen Realität, und ich war ziemlich gespannt, es auszuprobieren.
So nutzen Sie den Vision Assistant von LLaVA jetzt
1. Um LLaVA zu verwenden, gehen Sie zu llava.hliu.cc und sehen Sie sich die Demo an. Es verwendet die LLaVA-13B-v1 Modell im Moment.
2. Fügen Sie einfach oben links ein Bild hinzu und wählen Sie „Ernte„. Achten Sie darauf, quadratische Bilder hinzuzufügen, um das beste Ergebnis zu erzielen.
3. Nun, Fügen Sie Ihre Frage hinzu unten und klicken Sie auf „Absenden“. Der LLM wird sich dann das Bild ansehen und alles im Detail erklären. Sie können auch weitere Fragen zu dem von Ihnen hochgeladenen Bild stellen.
Multimodaler LLM mit visuellen Fähigkeiten: Erste Eindrücke
Um die Bildverarbeitungsfähigkeiten von LLaVA zu testen, haben wir mit einigen einfachen Beispielen begonnen. Wir haben ein Gemälde hochgeladen und LLaVA gebeten, Identifizieren Sie das Gemäldeund die Frage wurde richtig beantwortet. Ich habe auch einige Folgefragen gestellt, und auch das hat gut funktioniert.
In einem anderen Beispiel habe ich ein Bild von Lebensmitteln hochgeladen und Fragen dazu gestellt, welche Art von Frühstück man zubereiten kann und was das Gesamtkalorienaufnahme. Es identifizierte jedes Element richtig und lieferte Rezepte und eine ungefähre Kalorienanzahl. Obwohl die Rezepte nicht so detailliert waren, schlug das multimodale LLM Ideen vor, wie die drei Lebensmittel in ein Gericht/eine Mahlzeit integriert werden könnten.
Dann fügte ich ein Bild mit einer handschriftlichen Notiz hinzu, in der ich darum bat, ein Python-Skript für den Bubblesort-Algorithmus zu schreiben. Aber es Der Text wurde nicht erkannt auf dem Papier. Und es konnte den Code nicht ausführen. Also fügte ich als nächstes eine einfache mathematische Frage hinzu und fragte nach dem Wert von x, aber wieder gab es die falsche Antwort.
Um weiter nachzuforschen, habe ich eine weitere mathematische Frage hinzugefügt, die aber nicht handschriftlich war, um sie lesbarer zu machen. Ich dachte, vielleicht war es meine Handschrift, die die KI nicht erkennen konnte. Aber auch hier halluzinierte sie einfach und stellte selbst eine Gleichung auf und gab eine falsche Antwort. Meines Wissens nach war es einfach verwendet kein OCRsondern visualisiert die Pixel und gleicht sie mit ImageNet-Modellen von CLIP ab. Bei der Lösung mathematischer Fragen, darunter sowohl handschriftliche als auch nicht handschriftliche Notizen, versagte das LLaVA-Modell kläglich.
Als nächstes bat ich ihn, mir einen Cartoon aus dem New Yorker zu erklären und warum er lustig ist, aber er verstand den Grund für den Humor nicht. Er einfach beschrieben die SzeneAls ich auf den Genderaspekt im Bild (den Humor) hingewiesen habe, hat dieser multimodale LLM dann die Aufgabenstellung verstanden und richtig geantwortet.
Schließlich bat ich LLaVA, einen medizinischen Bericht prüfenaber wieder halluzinierte es und gab eine falsche Zusammenfassung aus. Trotz wiederholter Versuche konnte es im hochgeladenen Bild keine relevanten Daten finden.
LLaVA braucht viele Verbesserungen
Zusammenfassend lässt sich sagen, dass es zumindest im Open-Source-Bereich noch sehr früh ist, ein leistungsfähiges multimodales LLM zu entwickeln. Fehlen eines leistungsstarken, grundlegenden sprachvisuellen Modellsdie Open-Source-Community könnte hinter den proprietären zurückbleiben. Meta hat zwar eine Reihe von Open-Source-Modellen veröffentlicht, aber keine visuellen Modelle, an denen die Open-Source-Community arbeiten könnte, außer Segmentieren Sie alles was in diesem Fall nicht zutrifft.
Während Google PaLM-E, ein verkörpertes multimodales Sprachmodell im März 2023 und OpenAI hat die multimodalen Fähigkeiten von GPT-4 bereits während des Starts demonstriert. Auf die Frage, was an einem Bild lustig ist, auf dem ein VGA-Anschluss wird in den Ladeanschluss eines Telefons eingesteckt, GPT-4 rief die Absurdität mit klinischer Präzision aus. In einer anderen Demonstration während des GPT-4-Entwickler-Streams erstellte das multimodale Modell von OpenAI schnell eine voll funktionsfähige Website, nachdem es eine handschriftliche Notiz in einem auf Papier gekritzelten Layout analysiert hatte.
Kurz gesagt, nach dem, was wir bisher mit LLaVA getestet haben, scheint es so, als ob Es wird viel länger dauern, OpenAI einzuholen im sprachlich-visuellen Raum. Natürlich würde es mit mehr Fortschritt, Entwicklung und Innovation besser werden. Aber im Moment warten wir gespannt darauf, die multimodalen Fähigkeiten von GPT-4 zu testen.