In Arbeit: Stand der KI-Technik, Version 0.5.3, 17. November 2024

Alles aus eigener Erfahrung mit viel Liebe zu praktischen Details bei großer Informationsdichte
Keine Werbung, keine Affiliate-Links, keine bezahlten Inhalte
Tips aus dutzenden der besten Quellen für Ihren schnellen, professionellen Einstieg in Künstliche Intelligenz
Höchste Zeit, dass Unternehmen lokale multimodale Modelle für ihre wertvollen Daten nutzen, um die nächste Welle mit fortgeschrittenem logischem Denken nicht zu verpassen, die eben in den OpenAI o1-Modellen debütiert.

Webseite mit Hilfe von VS Code mit Git, GitHub, GitHub Copilot, Chrome Entwicklertools und ChatGPT 4o
V 0.1: GPT hat mir ein paar schwer sichtbare Regressionen eingebaut.
Meine Änderungen / Verbesserungen im Code hat es ohne Grund zurück geändert. War mit GitHub History lösbar.

Generative KI, nach Internet und Smartphone die nächste eierlegende Wollmilchsau:
OpenAI ChatGPT 4o, ein Microsoft Copilot, Google Gemini oder Anthropic Claude
je nachdem, in welchem Büro-Ökosystem Sie sich bewegen; bei MS irgendwann "Office" genannt

  • GPT 4omni — multi-modales generatives Sprachmodell und Zwillings-Angebote von Microsoft
    Text-zu-Sprache-Modul, das (fast) alles versteht (sogar ohne Kontext)
    DALL-E Bildgenerator, der aus jedem Kritzler einen Illustrator macht
    "Data Analyst" für atemberaubende Auswertungen
    "Code" als Programmierhilfe
    Text-zu-Sprache mit Emotion; Versprecher und Zwischenworte / -laute nur auf Wunsch, um menschlicher zu erscheinen

    Derzeit für private Nutzung kostenlos, anscheinend um die Gunst der Stunde zu nutzen ein breiteres Publikum (mit angeblich wenig Interesse) direkt für OpenAI zu gewinnen.

    Auch wenn qualitative Tests OpenAI v Google v Anthropic verschieden ausgehen, scheinen mir OpenAI / MS die Nase bei den wirklichen Veröffentlichungen ziemlich vorne zu haben.

    (Google) DeepMind muss man zugute halten, dass sie Modelle heraus bringen, die in ganz anderen Ligen spielen und oft den Mitbewerb (ob menschlich oder konventionelle Programmierung) wesentlich übertreffen.
    (AlphaFold Proteinfaltung und mehr, Wettermodelle mit um Größenordnungen besserer Effizienz,…)

Seite in Arbeit...

MS Github Copilot & OpenAI ChatGPT 4o versus Codestral, Starcoder, DeepSeek Coder,…

  • Auch wenn Klickköder-Schlagzeilen das Gegenteil suggerieren: Open Source lokal ausgeführt ist meist Zweiter

    Damit ein lokales Modell ähnlich gut ist, muss es derzeit deutlich jenseits 13b Parameter sein. Dann ist es aber auf normaler Hardware relativ langsam.

  • Aber schon die verbesserte Idee: Continue Plugin für VS Code und Ollama Umgebung für eine Modell-Combo (Codestral 22b Chat und "fill in the middle", Llama 3 7b v 70b und Starcoder 2)

  • Wenn der Code nicht Firmengeheimnis ist, lässt man sich von ChatGPT 4o gratis verwöhnen und / oder riskiert einen $-Zehner für GitHub Copilot

Open Source Modelle auf Hugging Face von Meta (Llama), Mistral, AI2 (Olmo)
ausgeführt in LM Studio, Ollama oder GPT4All

  • bullet

    p

  • bullet

    text
    text

RAG Retrieval Augmented Generation um nicht-öffentliche Daten in eines der großen KI-Modelle einzubinden

  • Google NotebookLM

    p

  • RAG via GUI oder Framework (z.B. LlamaIndex)

    text
    text

Prompt "Engineering"

Einfache Gemüter priesen "prompt engineering" als den Zukunftsjob — als ob es nicht für jeden logisch denkenden Menschen vollkommen klar hätte sein müssen, dass LLMs selbst dafür prädestiniert waren.

Nvidia Digitale Zwillinge in Omniverse

  • Digitale Zwillinge (von Robotern, Fabriken und schließlich der Erde)

    zur Planung und / oder Wartung (Abgleich Realität v Modell in Echtzeit)

  • Roboter (verschiedene Anbieter) mit Nvidia Isaac Sim zu Dutzenden im Extrem-Zeitraffer trainieren und natürlich-sprachlich befehligen

  • BMW ist ein alt-bekanntes Nvidia Vorzeigebeispiel für den digitalen Fabrikszwilling

Spezialmodelle wie Google Deepmind MedLMs, AlphaFold

  • bullet

    p

  • bullet

    text
    text

KI-Beschleuniger: Nvidia GPUs oder Apple Silicon M-Serie-Prozessoren mit Unified Memory
oder AMD GPU mit 128GB HBM3e, Groq oder 1TB CXL virtueller Speicher

  • KI-Beschleuniger "Landschaft in Bewegung"

    Im Oktober 2023 beschloss ich, einen erweiterbaren Rechner zum Probieren für lokale KI-Modelle zusammen zu bauen, bei dem die Komponenten wirklich verfügbar waren und kein Vermögen kosteten.
    Intel Xeon 112 PCIe 5 Lanes (6x 16bit Erweiterungsslots + 1x8bit), 256GB DDR5, 2x Nvidia RTX 4000 20GB GDDR5 (mit 1-Slot-Design ausbaubar bis zu 6 Stück), relativ zur Performance viel VRAM, verfügbar, bezahlbar), NVMe PCIe 4 SSDs (PCIe 5 SSD = Stromfresser)
    Im Dezember 2023 entdeckte ich das MacBook Pro M3 mit 36GB Unified Memory und schickte mein Intel-MacBook in Pension.

  • bullet

    text
    text

Weniger sinnvolle Anwendungen, oft kritiklos nachgebetet

  • KIs sollten alles allein aus Beispielen lernen und scheiterten kläglich an Grundrechnungsarten.

    Allmählich dürfen / können sie wie Schüler sozusagen Werkzeuge benutzen.
    Wie Studenten Prüfungen mit Hilfe von Mitschriften und Skripten bewältigen (neudeutsch: open book), können KIs sich des Internet bedienen.

  • KI-Agenten (sehr modern!) für Wetterauskunft mit der Aussagekraft / Vieldeutigkeit von Icons für "wechselhaft" und einer Trefferwahrscheinlichkeit wie bei Aprilwetter

    Seit Jahren dieselben Beispielfragen an Siri, Google und Alexa, wie:
    Wie ist (wird?1)) das Wetter? (1) Deutsche Sprache, schwere Sprache!)
    Die einzig gute Antwort hatte Amazon vor Jahren mit einem TV-Spot-Sicker-Witz, wo sich der aufmerksame Beobachter fragt, warum der Darsteller nicht beim Fenster hinaus schaut.
    Ahh, er ist blind! Und da ist auch die Fragestellung korrekt.1)

  • KI — in vielen Bereichen auf Uni-Niveau — oft missbraucht für Alltagsplattitüden oder blanken Unsinn, im Dutzend als Beispiele auf Startseiten von Chatbots

    "Erkläre das Konzept der Nostalgie einem Vorschulkind"

  • Logikaufgaben sprachlich maximal verklausuliert

    Vereinfacht: Drei Mörder. Ein Mörder kommt dazu und ermordet einen Mörder. Wieviele Mörder sind da?
    Drei? Vier? (Zählt ein toter Mörder als Mörder?)

    Vereinfacht: Mary travelled to the kitchen. Sandra journeyed to the kitchen. Mary went back to the garden. Where is Mary?
    Llama3-8B-1.58-100B-tokens versteht es falsch. ChatGPT 4o weiß, dass "travelled" und "journeyed" die falschen Ausdrücke sind.
    Doppelte Vernebelung? Muss KI jedes Sprachkonvolut verstehen können?