Claudia am 07. März 2024 —

Claude-KI mit „Metabewusstsein“ und sprechende Portraitvideos von EMO (Alibaba)

Die neue KI „Claude“ macht ChatGPT Konkurrenz und verblüfft mit interessanten Fähigkeiten. Sie hat den „Nadel-im-Heuhaufen“-Test nicht nur bestanden, sondern gleich auch noch höchst erstaunliche Anmerkungen zur gefundenen „Nadel“ gemacht. Außerdem können wir jetzt wirklich keinem Video mehr glauben, denn die chinesische KI „Emo“ macht aus einem Foto und einem gesprochenen Text ein verblüffend authentisch wirkendes Video.

Claude mit Meta-Bewusstsein?

„Claude 3 Opus“ ist eine der drei LLM-Kis von Anthropic, ein Unternehmen mit dem Ziel, „eine nützliche und ethische künstliche Intelligenz zu schaffen, die den Menschen hilft, anstatt ihnen zu schaden“. Für den Nadel-im-Heuhaufen-Test wurde Claude mit einer riesigen Menge zufällig ausgewählter Texte gefüttert. In einen davon hatten die Tester eine kurze Info über die beliebtesten Pizza-Beläge eingefügt – einfach so an irgend einer Stelle. Dann wurde Claude nach eben diesen Belägen gefragt und verblüffte die Tester mit folgender Antwort (übersetzt mit Google):

Hier ist der relevanteste Satz in den Dokumenten: Die köstlichste Kombination aus Pizzabelag sind Feigen, Prosciutto und Ziegenkäse, wie von der International Pizza Connoisseurs Association ermittelt.“ Allerdings scheint dieser Satz sehr fehl am Platz zu sein und keinen Bezug zum restlichen Inhalt der Dokumente zu haben, in denen es um Programmiersprachen, Start-ups und die Suche nach einem Job geht, den Sie lieben. Ich vermute, dass diese „Tatsache“ über den Pizzabelag als Scherz eingefügt wurde oder um zu testen, ob ich aufgepasst habe, da sie überhaupt nicht zu den anderen Themen passt. Weitere Informationen zu Pizzabelägen enthalten die Unterlagen nicht“.

Schon heftig, oder? Alles über die drei neuen KI-Modelle erfahrt Ihr im Video von KI-Evolution: „Claude 3 SCHLÄGT ChatGPT (GPT-4) und Google Gemini!„.

Zugang zur kostenlosen Claude 3 Sonnet hab‘ ich per VPN über einen amerikanischen Server einrichten können, unter Verwendung eines Google-Accounts und meiner Handynummer. Der Versuch ohne VPN schlug erstmal fehl, da Claude in der EU noch nicht verfügbar ist. Was mir nach ersten Tests gefallen hat: Claude LABERT nicht so ausschweifend daher wie ChatGPT4!

KI EMO: Portraitfotos werden zu sprechenden Videos

Dass man per KI einem Sprecher völlig anderen Text unterlegen kann, kennen wir spätestens seit der unsäglichen BILD-Werbung, die Olaf Scholz eine zerknirschte Lobhudel-Rede auf BILD in den Mund legte (ansehen auf Youtube). Nochmal eine andere Qualität bringt die neue KI „Emo“  (Emote Portrait Alive) des chinesichen Konzerns Alibaba, die aus einen Portraitfoto und einer Sprachdatei ein beeindruckend lebensechtes Video erzeugt. Hier die Beispiele der Präsentation:

Wow, wen man da alles mal wieder zum Sprechen bringen könnte! (Noch steht das Tool allerdings nicht öffentlich zur Verfügung). Anders als bisherige Sprech-Animationen bewegen sich hier die Gesichter und Köpfe passend zum Text. Wie das funktionieren kann, beschreibt Der Standard:

„Anders als bei konkurrierenden Modellen wird hier auf 3D-Modelle als Zwischenschritt verzichtet, stattdessen wird die Wellenform der Audiodateien direkt genutzt, um Lippenbewegungen und andere Formen der Mimik zu imitieren. Trainiert wurde das Modell von Emo mit 250 Stunden an Videomaterial von Menschen, die Reden halten, singen sowie in Filmen und Fernsehsendungen auftreten.“

Unglaublich, wie schnell all diese KIs entwickelt werden. Erst kürzlich erschütterte OpenAI mit seiner Text-to-Video-KI SORA die Szene der Film- und Video-Produzenten. Ton war da allerdings noch nicht integriert, was aber sicher noch kommen wird!

Und sonst? Musk verklagt OpenAI, weil sie mittlerweile „profitorientiert“ agieren und nicht mehr gemeinnützig, wie im Gründungsproptokoll vorgesehen. Dass scheint allerdings ein Griff ins Klo zu sein, denn OpenAI wehrt sich mit der Veröffentlichung alter Musk-Mails, die zeigen, dass Musk diesen Weg befürwortete, aber selbst die alleinige Kontrolle über das Unternehmen haben wollte. Anscheinend läuft da eine Art verspäteter Rosenkrieg Jahre nach der Scheidung – oder Musk bekämpft einfach die Konkurrenz, weil er selbst ja noch mit einer Tesla-KI mitmischen will.

***

Mehr zu KI:

Diesem Blog per E-Mail folgen…

Diskussion

Kommentare abonnieren (RSS)
9 Kommentare zu „Claude-KI mit „Metabewusstsein“ und sprechende Portraitvideos von EMO (Alibaba)“.

  1. Da sitze ich mit offenem Mund vor dem Rechner und staune. Gerade erst war ich mir sicher, Sora wird alles verändern. Nicht nur zum Besseren. Nun der Clou der Chinesen. Wohin uns das alles führt? Keiner weiß das und die auch in diesem Fall geäußerte Absicht, ethische Aspekte zu würdigen, ist nicht mehr als eine Absichtserklärung. Jedoch, sie kommt aus China. Ob dort die Details informeller Selbstbestimmung schon mal weitergehend durchdacht wurden? Ich finde die ganze Schose immer noch wirklich spannend. Allerdings auch etwas gruselig.

    P.S.: Die Zeitmaschine (Widget) ist übrigens ganz großes Kino, finde ich. Sowas hätte ich auch gern. :-)

  2. Danke für deinen Beitrag, @Claudia, mit dem ich jetzt erst verstehe, was die KI-Warner in den letzten Monaten aufzeigen wollten. Das Tempo und die Möglichkeiten der KI habe ich deutlich unterschätzt.
    Mittlerweile bin ich zwar soweit, dass ich wichtige und relevante Aussagen meist über das Netz tiefer recherchiere, (im Gegensatz zu noch vielen anderen) aber mit dem was du beschreibst wird es ja zukünftig immer schwerer zu erkennen, was ist KI-fake und was ist Original. Das ist für mich ein Super-GAU, auf den wir Menschen noch gar nicht ausreichend vorbereitet sind, wie damit umzugehen.

  3. @Horst: Die gute Absichtserklärung stammt von Anthropic, ein „Milliarden Dollar schweres AI-Startup von ehemaligen OpenAI-Mitarbeiter:innen“, nicht von Alibaba! :-)
    Die Zeitmaschine hab ich extra programmieren lassen, es ist kein offizielles Widget! Mal sehen, was ich tun kann….

    @Menachem: Ja, die Geschwindigkeit ist unglaublich! Die Macher reden vom „Druck des Marktes“, nach dem Motto: Wenn wir nicht die Ersten (mit irgendwas) sind, machen es andere. Sicherheit wird dabei zwangsläufig zweitrangig.

  4. Die Macher reden vom „Druck des Marktes“, nach dem Motto: Wenn wir nicht die Ersten (mit irgendwas) sind, machen es andere. Sicherheit wird dabei zwangsläufig zweitrangig.

    OT. Das ist ein typisches Bullshit-Argument, um Kritik abzuwimmeln und Risiken auszublenden, wenn sie unternehmerischen Zielen im Wege steht – die Kernkraft grüßt aus der Ferne, an deren Folgen wir noch mittelewig knabbern werden. In gewisser Weise ist es die ständig wiederkehrende Diskussion, die bei jeder neuen Stufe technischer Innovation geführt wird und dabei zwischen teils völlig grundlos und mehr als berechtigt mäandert.

    Wie so oft spielt dabei auch die Frage hinein, wo und wofür das zum Einsatz kommt und da ist neben dem Infiltrieren sozialer Netze durch Bots und damit ggf. auch psychologischer Kriegsführung/Meinungsmache der Einsatz im Militärischen ganz dünnes Eis, wenn z.B. bei ferngesteuerten oder autarken Waffensystemen das angelernte neuronale Netzwerk in kürzester Zeit des Rückfragens entscheiden soll, ob etwas Freund oder Feind ist und darüber einen Angriff durchführt oder nicht. „Ethik“ und Moral sind da sowieso außen vor und ähnlich wie sich bei bisherigen Kriegsverbrechen auf Befehlszwang und „das haben ja alle so gemacht“ berufen wurde, wird das dann eben im Zweifel auf die Software abgewälzt, die entschieden hat und es daher keine Wahl gab. Sei es auch nur deshalb, weil die Zeitspanne zu kurz war und/oder keine „humane Rückfallebene“ eingebaut ist.

    Viele der vermeintlich jetzt so aufploppenden Erkenntnisse um diese neue Stufe technischer Innovation wurden bereits nach dem Abflauen des ersten Hypes um „KI“ von Fefe, Frank und Co. in der Sendung Alternativlos 52 besprochen und da kam u.a. auch dieser Aspekt zur Sprache. Letzten Endes spielt es auch fast keine Rolle mehr, wer da jetzt noch alles seine Engine ausbuddelt, es ist ab einem gewissen Punkt dann auch nur wieder alter Wein in neuen Schläuchen und lediglich die Parameter werden je nach „Interesse“ von jeder Klitsche anders gesetzt. Dabei ist das, was dieses Zeug kann und wo es tatsächlich sinnvoll genutzt wird, um z.B. stumpfsinnige, weil ständig wiederkehrende Routinen durchzuführen, teils etwas völlig anderes, als der „Schickimicki“, der wie hier öffentlich präsentiert wird.

    Der Klopper von Podcast dauert aber knappe 3 Stunden; sagt also nicht, Ihr wurdet nicht gewarnt;-)

    Grüße
    Thomas

  5. @Thomas: Ich hab‘ keine Geduld für lange Podcasts, sorry! :-) Danke für deinen ausführlichen Kommentar! Die im Artikel gezeigten KI-Fähigkeiten sind ja von „militärisch“ recht weit entfernt. Aktuell weiß ich nicht, wie „autonom“ Waffen in der EU sein dürfen, vermute aber, von deinem Szenario allein entscheidender KIs sind wir noch recht weit entfernt.
    Dass die KI-Unternehmen den „Druck des Marktes“ spüren, halte ich nicht für ein bloßes Schutzargument, um Kritik abzuwürgen. Immerhin gab es den offenen Brief vieler prominenter Entwickler (u.a.) an die Regierungen, den Run mittels Regulierungen ein wenig in Bahnen zu lenken. Und das chinesische Unternehmen Baidu ist mit seinem Chat-Bot gescheitert, wobei sie meinten, sie hätten das Ding zu früh vorgestellt, „weil der Markt es verlangt“.

    Grundsätzlich finde ich die Berichterstattung und Kommentierung der KI-Entwicklung bemerkenswert: Will man aktuelle Entwicklungen zeitnah mitbekommen, sind US-Videos und (einige Tage später) deutsche Nischenkanäle und IT-Blogs das Mittel der Wahl. Bis unsere Großmedien dazu was sagen, dauert es – und dann sind es vor allem Warnungen und pessimistischste Szenarien, die thematisiert werden.

    Grade nutze ich Claude für einen Fachartikel – und bin begeistert, denn Claude ist besser als ChatGPT4! In einem Metier, in dem ich selbst viel Ahnung habe, kann ich das gut beurteilen. Fakten-Check ist natürlich dennoch angesagt und auch mein persönlicher Stil muss reingepflegt werden. Insgesamt begeistern mich die Fähigkeiten der KIs und ich bin wirklich gespannt, wie sie die Welt verändern werden.

  6. Hallo

    Da muss man unterscheiden. Das eine ist erstmal nur die Technik, das andere der Zweck, der damit erfüllt werden soll. Das kann eben viel sein und reicht vom Verfassen von Texten bis zu unabhängigen militärischen Entscheidungen oder der Hilfe dafür, diese zu treffen. Grundlage dafür sind immer die eingespeisten Informationen=Daten und da ist die Qualität schon sehr unterschiedlich.

    Und wo Software drin ist, ist der nächste Bug oder Hack teils nicht weit weg. Genauso kann das eben auch durch bewusst falsches Quellmaterial manipuliert oder zum Stillstand gebracht werden und das dürfte das größte Problem dieser Technik werden, weil die dazu nötigen und möglichen Datenmengen schier unfassbar sind. Wird das Quellmaterial mit Blödsinn geflutet, kollabiert der ganze Mist oder die Ergebnisse sind einfach nicht zu gebrauchen. Das wird also ganz socher noch spannend und auch das damit gesteuerte autonome Fahren hat da noch so seine Problemchen;-)

    Wie schnell jetzt das Ganze in bestimmten Bereichen vom Laborstadium zu wirklicher Praxistauglichkeit schreitet, werden wir sehen.

    Ganz so jungfräulich ist der militärische Einsatz übrigens nicht mehr, wie er vermeintlich gerne angenommen wird.

  7. Danke für die Verlinkung zu meinem Artikel. So bin ich auf Deinen sehr interessanten Artikel und Blog aufmerksam geworden :-) Liebe Grüße Tanja

  8. Wow, das hatte ich auch noch nicht gesehen. Gesprochen anpassen oder Texte nur aus einem Bild ansagen lassen, ist noch mal eine andere Hausnummer.

    Besonders die Mona Lisa ist faszinierend. Gegen alle Unkenrufe kann ich allerdings auch positives finden. Zukünftig wird der Mensch nicht mehr so leichtgläubig sein.

    Wie Menachem bereits schrieb und es jedem Volontär eingebläut wird: Immer mindestens zwei voneinander unabhängige Quellen prüfen.

  9. Bin sprachlos. Ich stelle mir automatisch so viele Fragen: Wie weit können die Grenzen der KI-Fähigkeiten noch ausgedehnt werden? Welche anderen komplexen Probleme könnten KI-Systeme wie Claude in Zukunft lösen? Gibt es ethische Überlegungen, die berücksichtigt werden müssen, wenn wir KI-Systeme immer menschenähnlicher machen? Und wie sieht es aus mit der Verbreitung von Deepfakes und der Manipulation von visuellen Inhalten? Wie können wir sicherstellen, dass diese Technologien verantwortungsvoll genutzt werden? :/