Enttäuschende Ergebnisse: Testen eines Open-Source Multimodal LLM

Enttäuschende Ergebnisse: Testen eines Open-Source Multimodal LLM

Eine Gruppe von Informatikern verschiedener Universitäten hat ein Open-Source-Multimodal-LLM namens LLaVA veröffentlicht, und ich bin letzte Woche beim Scrollen durch Twitter darauf gestoßen. Ähnlich wie GPT-4 kann dieses LLM sowohl Text- als auch Bildeingaben verarbeiten. Das Projekt verwendet ein Allzweck-LLM und einen Bildcodierer, um ein Large Language and Vision Assistant-Modell zu erstellen. Da die angepriesenen Funktionen vielversprechend aussahen, beschloss ich, dieses Large Language-Modell zu testen, um zu verstehen, wie genau und zuverlässig es ist und was wir vom kommenden Multimodalmodell von GPT4 erwarten können (insbesondere von seinen visuellen Fähigkeiten). In diesem Sinne wollen wir uns nun LLaVA näher ansehen.

Was ist LLaVA, ein multimodales Sprachmodell?

LLaVA (Large Language-and-Vision Assistant) ist ein multimodaler LLM, ähnlich wie OpenAIs GPT-4, der sowohl Text- als auch Bildeingaben verarbeiten kann. Während OpenAI GPT-4 noch nicht um die Fähigkeit zur Bildverarbeitung erweitert hat, hat dies ein neues Open-Source-Projekt bereits getan, indem es Einbettung eines Bildencoders.

Das von Informatikern der University of Wisconsin-Madison, Microsoft Research und der Columbia University entwickelte Projekt zielt darauf ab, die Funktionsweise eines multimodalen Modells zu demonstrieren und seine Leistungsfähigkeit mit GPT-4 zu vergleichen.

Es verwendet Vikunja als großes Sprachmodell (LLM) und CLIP ViT-L/14 als visueller Encoder, der, für diejenigen, die es nicht wissen, von OpenAI entwickelt wurde. Das Projekt hat hochwertige multimodale Anweisungsfolgendaten mit GPT-4 und das führt zu einer hervorragenden Leistung. Es erreicht 92,53 % im ScienceQA-Benchmark.

Darüber hinaus wurde es für allgemeine visuelle Chat- und Argumentationsdatensätze optimiert, insbesondere aus dem Wissenschaftsbereich. Insgesamt ist LLaVA also ein Ausgangspunkt der neuen multimodalen Realität, und ich war ziemlich gespannt, es auszuprobieren.

So nutzen Sie den Vision Assistant von LLaVA jetzt

1. Um LLaVA zu verwenden, gehen Sie zu llava.hliu.cc und sehen Sie sich die Demo an. Es verwendet die LLaVA-13B-v1 Modell im Moment.

So verwenden Sie LLaVA

2. Fügen Sie einfach oben links ein Bild hinzu und wählen Sie „Ernte„. Achten Sie darauf, quadratische Bilder hinzuzufügen, um das beste Ergebnis zu erzielen.

So verwenden Sie LLaVA

3. Nun, Fügen Sie Ihre Frage hinzu unten und klicken Sie auf „Absenden“. Der LLM wird sich dann das Bild ansehen und alles im Detail erklären. Sie können auch weitere Fragen zu dem von Ihnen hochgeladenen Bild stellen.

Verwandt :  Ist Auto-GPT die Verwendung ohne GPT-4 wert?
So verwenden Sie LLaVA

Multimodaler LLM mit visuellen Fähigkeiten: Erste Eindrücke

Um die Bildverarbeitungsfähigkeiten von LLaVA zu testen, haben wir mit einigen einfachen Beispielen begonnen. Wir haben ein Gemälde hochgeladen und LLaVA gebeten, Identifizieren Sie das Gemäldeund die Frage wurde richtig beantwortet. Ich habe auch einige Folgefragen gestellt, und auch das hat gut funktioniert.

  • Ich habe einen multimodalen Open-Source-LLM ausprobiert und war nicht überzeugt
  • Ich habe einen multimodalen Open-Source-LLM ausprobiert und war nicht überzeugt

In einem anderen Beispiel habe ich ein Bild von Lebensmitteln hochgeladen und Fragen dazu gestellt, welche Art von Frühstück man zubereiten kann und was das Gesamtkalorienaufnahme. Es identifizierte jedes Element richtig und lieferte Rezepte und eine ungefähre Kalorienanzahl. Obwohl die Rezepte nicht so detailliert waren, schlug das multimodale LLM Ideen vor, wie die drei Lebensmittel in ein Gericht/eine Mahlzeit integriert werden könnten.

  • Ich habe einen multimodalen Open-Source-LLM ausprobiert und war nicht überzeugt
  • Ich habe einen multimodalen Open-Source-LLM ausprobiert und war nicht überzeugt

Dann fügte ich ein Bild mit einer handschriftlichen Notiz hinzu, in der ich darum bat, ein Python-Skript für den Bubblesort-Algorithmus zu schreiben. Aber es Der Text wurde nicht erkannt auf dem Papier. Und es konnte den Code nicht ausführen. Also fügte ich als nächstes eine einfache mathematische Frage hinzu und fragte nach dem Wert von x, aber wieder gab es die falsche Antwort.

  • Ich habe einen multimodalen Open-Source-LLM ausprobiert und war nicht überzeugt
  • Ich habe einen multimodalen Open-Source-LLM ausprobiert und war nicht überzeugt

Um weiter nachzuforschen, habe ich eine weitere mathematische Frage hinzugefügt, die aber nicht handschriftlich war, um sie lesbarer zu machen. Ich dachte, vielleicht war es meine Handschrift, die die KI nicht erkennen konnte. Aber auch hier halluzinierte sie einfach und stellte selbst eine Gleichung auf und gab eine falsche Antwort. Meines Wissens nach war es einfach verwendet kein OCRsondern visualisiert die Pixel und gleicht sie mit ImageNet-Modellen von CLIP ab. Bei der Lösung mathematischer Fragen, darunter sowohl handschriftliche als auch nicht handschriftliche Notizen, versagte das LLaVA-Modell kläglich.

Erste Eindrücke von LLaVA

Als nächstes bat ich ihn, mir einen Cartoon aus dem New Yorker zu erklären und warum er lustig ist, aber er verstand den Grund für den Humor nicht. Er einfach beschrieben die SzeneAls ich auf den Genderaspekt im Bild (den Humor) hingewiesen habe, hat dieser multimodale LLM dann die Aufgabenstellung verstanden und richtig geantwortet.

  • Ich habe einen multimodalen Open-Source-LLM ausprobiert und war nicht überzeugt
  • Ich habe einen multimodalen Open-Source-LLM ausprobiert und war nicht überzeugt

Schließlich bat ich LLaVA, einen medizinischen Bericht prüfenaber wieder halluzinierte es und gab eine falsche Zusammenfassung aus. Trotz wiederholter Versuche konnte es im hochgeladenen Bild keine relevanten Daten finden.

  • Ich habe einen multimodalen Open-Source-LLM ausprobiert und war nicht überzeugt
  • Ich habe einen multimodalen Open-Source-LLM ausprobiert und war nicht überzeugt

LLaVA braucht viele Verbesserungen

Zusammenfassend lässt sich sagen, dass es zumindest im Open-Source-Bereich noch sehr früh ist, ein leistungsfähiges multimodales LLM zu entwickeln. Fehlen eines leistungsstarken, grundlegenden sprachvisuellen Modellsdie Open-Source-Community könnte hinter den proprietären zurückbleiben. Meta hat zwar eine Reihe von Open-Source-Modellen veröffentlicht, aber keine visuellen Modelle, an denen die Open-Source-Community arbeiten könnte, außer Segmentieren Sie alles was in diesem Fall nicht zutrifft.

Verwandt :  So zeigen Sie das letzte Anmeldedatum eines Benutzers in WordPress an

Während Google PaLM-E, ein verkörpertes multimodales Sprachmodell im März 2023 und OpenAI hat die multimodalen Fähigkeiten von GPT-4 bereits während des Starts demonstriert. Auf die Frage, was an einem Bild lustig ist, auf dem ein VGA-Anschluss wird in den Ladeanschluss eines Telefons eingesteckt, GPT-4 rief die Absurdität mit klinischer Präzision aus. In einer anderen Demonstration während des GPT-4-Entwickler-Streams erstellte das multimodale Modell von OpenAI schnell eine voll funktionsfähige Website, nachdem es eine handschriftliche Notiz in einem auf Papier gekritzelten Layout analysiert hatte.

Kurz gesagt, nach dem, was wir bisher mit LLaVA getestet haben, scheint es so, als ob Es wird viel länger dauern, OpenAI einzuholen im sprachlich-visuellen Raum. Natürlich würde es mit mehr Fortschritt, Entwicklung und Innovation besser werden. Aber im Moment warten wir gespannt darauf, die multimodalen Fähigkeiten von GPT-4 zu testen.