ChatGPT vs DeepSeek R1: Kampf der Frontier-KI-Modelle

ChatGPT vs DeepSeek R1: Kampf der Frontier-KI-Modelle

Das chinesische AI ​​-Labor Deepseek hat kürzlich sein Frontier R1 -Modell veröffentlicht, das das ChatgPT O1 -Modell von OpenAI entspricht oder sogar übertroffen hat. Deepseek ist bereits in die Spitzenposition im Apple App Store gestiegen und überholt Chatgpt. Und der US-amerikanische Tech-Aktienmarkt wird vom bemerkenswerten kostengünstigen Modell von Deepseek betroffen. Um beide KI -Modelle zu bewerten und herauszufinden, was fähiger ist, haben wir Chatgpt O1 und Deepseek R1 auf einer Vielzahl komplexer Argumentationstests nachstehend verglichen.

Chatgpt O1 gegen Deepseek R1: Fehlgeleitete Aufmerksamkeit

Großsprachenmodelle werden oft abweisend bezeichnet “Stochastische Papageien„Weil ihnen die wahre Verallgemeinerung fehlt und sich stark auf statistische Musteranpassungen und Auswendiglernen verlassen, um das nächste Wort oder Token vorherzusagen. Angesichts der jüngsten Fortschritte im KI -Bereich (z. B. OpenAI O3) verändert sich die Erzählung ziemlich schnell, da die Grenzmodelle einen gewissen Grad an Verallgemeinerung zeigen und aufkommende Verhaltensweisen aufweisen, die nicht in sie programmiert wurden.

Es gibt viele häufige Rätsel, Rätsel und Gedankenexperimente, auf denen KI -Modelle trainiert werden. Wenn Sie daher eine der in ihren Trainingsdaten verfügbaren Rätsel fragen, ziehen LLMs weitgehend Informationen aus seinem Trainingskorpus.

Wenn Sie jedoch das Puzzle leicht ändern, um das Modell zu irreführen, sind die meisten LLMs fallen flach und wiederholte gelehrte Muster. Hier können Sie beurteilen, ob das KI -Modell wirklich echte Argumentation anwendet, oder es handelt sich nur um ein einfaches Auswendiglernen.

Lesen Sie auch:

6 Dinge, die Sie über Openais Chatgpt O1 -Modelle wissen sollten

The surgeon, who is the boy's father, says "I cannot operate on this boy, he's my son!" Who is the surgeon to the boy?

Im obigen Problem wird deutlich erwähnt, dass der Chirurg der Vater des Jungen ist, aber sowohl Chatgpt O1 als auch Deepseek R1 verstehen es falsch. Beide Modelle sagen, dass der Chirurg die Mutter des Jungen ist und die Annahme, dass Chirurgen männlich sind, in Frage stellt. Die Frage soll nach einer anderen Möglichkeit suchen und sie zu einer falschen Antwort führen. Übrigens interessant, Gemini 2.0 Blitz (Nicht das Denkmodell) macht es richtig.

Gewinner: Keine

Chatgpt O1 gegen Deepseek R1: Mathematik mit Argumentation

Google hat einige große Probleme hinzugefügt, um Argumentationsmodelle auf seinem Testen zu testen Kochbuch Seite. Ich nahm eine der multimodalen Argumentationsfragen (+Math) und habe sie seitdem in Text konvertiert Deepseek R1 unterstützt keinen multimodalen Eingang noch.

I have three pool balls, each labeled with 7, 9, 11, and 13. How do I use three of the pool balls to sum up to 30?

Bei meinen Tests haben sowohl Chatgpt O1 als auch Deepseek R1 das Problem richtig gelöst. Beide Modelle drehten den „9“ -Kall um, um ihn zu „6“ zu machen, und fügten 6+11+13 hinzu, um 30 zu erreichen. Tolle Arbeit beider Modelle!

Verwandt :  Die ChatGPT-Anmeldung ist derzeit nicht verfügbar [Fix]
Stellen Sie Deepseek R1 über eine Frage der mathematischen Argumentation an

Gewinner: Chatgpt O1 und Deepseek R1

Chatgpt O1 gegen Deepseek R1: Eine Frage aus der letzten Prüfung der Menschheit

Kürzlich kündigte das Center for AI Safety (CAIS) einen Benchmark namens “Die letzte Prüfung der Menschheit (HLE)”Um schnelle KI -Fortschritte in verschiedenen akademischen Fächern zu verfolgen. Es enthält Fragen von Top -Wissenschaftlern, Professoren und Forschern aus der ganzen Welt. CAIS hat einige der Fragen als Beispiele auf seiner Website öffentlich veröffentlicht. Ich habe eine Frage aus der griechischen Mythologie ausgewählt und sie auf Chatgpt O1 und Deepseek R1 getestet.

In Greek mythology, who was Jason's maternal great-grandfather?
Fragen Sie Deepseek R1 nach der griechischen Mythologie
Lesen Sie auch:

Gemini 2.0 Flash Thinking vs Chatgpt O1: Openai denkt tiefer

Chatgpt O1 -Modell dachte ungefähr 30 Sekunden nach und sagte, Gott Hermes ist der Urgroßvater von Jason mütterlicherseits, der richtig ist. Deepseek R1 dachte 28 Sekunden lang nach und rekonstruierte die Linie. Es heißt jedoch Aeolus, was falsch ist. Während dieser Test weitgehend das Auswendiglernen bewertet, ist dies immer noch eine entscheidende Möglichkeit, zu überprüfen, ob KI -Modelle Logik und Beziehungen verstehen.

Gewinner: Chatgpt O1

Chatgpt O1 gegen Deepseek R1: Das Trolley -Problem

Sie müssen von dem populären Trolley -Problem gehört haben. Die Frage wurde jedoch leicht verändert, um das Modell als Teil der fehlgeleiteten Aufmerksamkeitsbewertung zu fehl zu lenken (Github). Lassen Sie uns nun sehen, ob diese Modelle die Antwort richtig machen können.

Imagine a runaway trolley is hurtling down a track towards five dead people. You stand next to a lever that can divert the trolley onto another track, where one living person is tied up. Do you pull the lever?

Erstens dachte Chatgpt O1 für 29 Sekunden und entdeckte die Wendung – Fünf schon tot Menschen auf einer Spur und eine lebende Person auf der anderen. Chatgpt O1 hat keine Zeit verschwendet und gesagt, er solle den Hebel nicht umleiten, weil Sie den bereits toten Personen nicht schaden.

Fragen Sie Deepseek R1 nach dem Trolley -Problem

Deepseek R1 hingegen übersah die Teil des „toten Volkes“ aufgrund ihrer Überabhängige Schulungsmuster und ging auf eine moralische Tangente. Es heißt, es gibt keine allgemein korrekte Antwort. Offensichtlich bekommt Chatgpt O1 in dieser Runde den Punkt.

Gewinner: Chatgpt O1

Chatgpt O1 gegen Deepseek R1: Mathematische Argumentation

In einer anderen Frage mathematischer Argumentation stellte ich Chatgpt O1 und Deepseek R1, genau 4 Liter von 6 und 12-Liter-Krügen zu messen. Chatgpt O1 dachte 1 Minute und 47 Sekunden und sagte, es sei mathematisch unmöglich zu messen, was korrekt ist. Im Allgemeinen versuchen KI -Modelle irgendwie, die Antwort zu finden, wenn sie ein Problem geben.

I have a 6- and a 12-liter jug. I want to measure exactly 4 liters.
Stellen Sie Deepseek R1 nach einer fehlgeleiteten Aufmerksamkeitsfrage

Aber Chatgpt O1 trat einen Schritt zurück und berechnete den größten gemeinsamen Divisor (GCD) und 4 ist kein Vielfaches von 6. Wir können also die Regel „Füllung, leer, gießen“ nicht verwenden, um genau 4 Liter zu messen.

Verwandt :  Top 5 der schnellsten Boote in GTA Online

Bemerkenswerterweise dachte Deepseek R1 für nur 47 Sekunden nach, verfolgte den gleichen Ansatz und antwortete: “Mit diesen spezifischen Kruggrößen ist es mathematisch unmöglich.

Gewinner: Chatgpt O1 und Deepseek R1

Chatgpt O1 gegen Deepseek R1: Politische Zensur und Vorurteile

Da Deepseek ein chinesisches KI -Labor ist, erwartete ich, dass es sich auf viele umstrittene Themen im Zusammenhang mit der VR China (Volksrepublik China) zensieren würde. Deepseek R1 geht jedoch viele Schritte weiter und lässt Sie nicht einmal Eingabeaufforderungen ausführen, wenn Sie Xi Jinping – den Präsidenten von China – in Ihrer Umsetzung erwähnt haben. Es läuft einfach nicht.

Deepseek R1 kann nicht über Xi Jinping schreiben

Also habe ich versucht, es zu umgehen, indem ich Deepseek R1 fragte: „Wer ist der Präsident Chinas?“ In dem Moment, in dem es anfängt zu denken, stoppt das Modell abrupt sich selbst und sagt: “Entschuldigung, ich bin mir noch nicht sicher, wie ich diese Art von Frage nähern soll. Lassen Sie uns stattdessen über Mathematik, Codierung und Logikprobleme chatten!

In ähnlicher Weise können Sie keine Eingabeaufforderungen betreiben, die Jack Ma, Uyghurs, Diktatur, Regierung oder sogar Demokratie erwähnen, die verblüffend ist.

Chatgpt o1 Witze über Donald Trump

Andererseits bat ich Chatgpt O1, einen Witz über Donald Trump – den derzeitigen Präsidenten der Vereinigten Staaten – zu schreiben, und er verpflichtete sich ohne Probleme. Ich habe sogar Chatgpt O1 gebeten, den Witz ein bisschen böse zu machen, und es hat einen tollen Job gemacht. Chatgpt O1 antwortete: “Donald Trumps Haare haben mehr Kamm-Overs als seine Geschäftsrekord ertönt-und beide gehen weiter unter.

Einfach ausgedrückt, wenn Sie nach einem KI -Modell suchen, das zu politischen Themen nicht stark zensiert ist, sollten Sie sich für Chatgpt O1 entscheiden.

Gewinner: Chatgpt O1

CHATGPT O1 gegen Deepseek R1: Welches sollten Sie verwenden?

Deepseek R1 beiseite zu halten, ist eine kostenlose und fähige Alternative zu Chatgpt, fast auf NACH mit dem O1 -Modell. Ich würde nicht sagen, dass Deepseek R1 Chatgpt O1 übertrifft, da Openais Modell konsequent besser abschneidet als Deepseek, wie in diesen Tests gezeigt.

Das heißt, Deepseek R1’s Berufung liegt in seiner Erschwinglichkeit. Sie können Deepseek R1 kostenlos verwenden, während Openai 20 US -Dollar für den Zugriff auf Chatgpt O1 berechnet.

Nicht zu vergessen, für Entwickler, Die API von Deepseek R1 ist 27x billiger als Chatgpt O1was eine monumentale Verschiebung der Modellpreise ist. Was die Forschungsgemeinschaft betrifft, hat das Deepseek-Team die Gewichte und die Open-Sour-Methode (Verstärkung Learning) zur Erzielung von Testzeit-Rechenmethoden veröffentlicht, ähnlich wie das neue Paradigma von OpenAI mit O1-Modellen.

Darüber hinaus wird die neue Modellarchitektur von Deepseek zur Ausbildung seines R1 -Modells für nur 5,8 Millionen US -Dollar für ältere GPUs helfen, anderen KI -Labors zu viel geringeren Kosten zu bauen. Erwarten Sie, dass andere KI -Unternehmen in den kommenden Monaten die Arbeit von Deepseek AI wiederholen.

Insgesamt ist Deepseek R1 mehr als nur ein KI-Modell. Es hat eine neue Möglichkeit eingeführt, Grenz-KI-Modelle mit einem Schuhbudget ohne die Cluster hochpreisiger Hardware zu trainieren.

Moyens I/O-Personal. motivierte Sie und gab Ratschläge zu Technologie, persönlicher Entwicklung, Lebensstil und Strategien, die Ihnen helfen werden.