• Visuelle KI als Infrastruktur für End-to-End-Automatisierung
    Jan 27 2026
    Der Kern dieser Folge ist nicht die schiere Menge generierter Bilder, sondern der strategische Sprung, wenn KI beides zugleich zuverlässig kann: visuelle Informationen verstehen und visuelle Informationen erzeugen. Am Beispiel von „Nano Banana Pro“, das laut Medienberichten in 53 Tagen die Marke von einer Milliarde erzeugter und bearbeiteter Bilder überschritten hat, wird ein Perspektivwechsel begründet: Die Debatte über Bildästhetik, Rankings oder virale Prompt-Tricks greift zu kurz, weil der größere Effekt in der Prozessautomatisierung liegt. In vielen Unternehmen sind Workflows heute textstark automatisiert, brechen aber an visuellen Übergaben ab, etwa bei Screenshots im Support, Tabellen- und Signaturprüfungen in Compliance, Diagramm-Updates in Dokumentation oder visuellen Wettbewerbsbeobachtungen. Diese Bruchstellen wurden bisher oft durch Menschen überbrückt, die „sehen“ oder „zeigen“ mussten. Die These lautet: Sobald visuelle Fähigkeiten schnell, stabil und programmierbar werden, fällt eine zentrale Automationsgrenze. Dann können End-to-End-Ketten durchlaufen, statt regelmäßig an manuelle Sichtprüfungen zu delegieren. Genannt werden u. a. Support-Workflows, in denen Fotos von Geräten automatisch interpretiert und mit visuellen Markierungen beantwortet werden, sowie Vendor- und Compliance-Prozesse, in denen Inkonsistenzen nicht nur textlich gemeldet, sondern visuell belegt und annotiert werden. Dadurch sinkt die Zahl menschlicher Touchpoints; Menschen prüfen vor allem Ausnahmen, nicht den Regelfall. Das verändert Rollenprofile weg von Routinekontrolle hin zu Entscheidung, Priorisierung und Steuerung. Als Einordnung schlägt die Folge vier Hebel vor: das Entfernen visueller Bottlenecks, die Generierung von Feedbackdaten über Freigaben im Prozess, schnellere Vertrauensbildung durch visuelle Evidenz sowie die Wiederverwendbarkeit visueller Bausteine in integrierten Workflows. Entscheidend ist die Unterscheidung zwischen „Punktlösung“ (ein Team wird schneller, z. B. Design) und „Infrastruktur“ (visuelle KI als Standardbaustein in CRM-, Compliance-, Katalog- oder Trainingssystemen). Für Führungskräfte folgt daraus ein konkreter Prüfauftrag: Wo bremst Visualisierung Entscheidungen, wo reißen Abläufe wegen visueller Interpretation, welche Rollen sind strukturell visuelle Engpässe, und ob KI als Tool oder als Infrastruktur gedacht wird. Als Zeithorizont wird ein frühes Integrationsfenster Anfang 2026 beschrieben: Was heute Differenzierung ist, dürfte in wenigen Jahren Basiserwartung werden. Ergänzend werden virale Verbreitungsfaktoren (globale Verfügbarkeit, kulturell anschlussfähige Trends, interne Namensherkunft) sowie Signale einer Produktintegration in Alltagsoberflächen wie Google TV erwähnt. Quellen: Google's Nano Banana Pro hits key milestone, and it couldn't have come at a better time https://www.androidcentral.com/apps-software/ai/googles-nano-banana-pro-hits-key-milestone-and-it-couldnt-have-come-at-a-better-time She named Google's Nano Banana. She has an idea why it went viral. https://www.businessinsider.com/google-nano-banana-name-origin-2026-1 Google introduces new Gemini for Google TV features https://blog.google/products/android/httpsbloggoogleproductsgoogle-tvces-2026/ How we’re bringing AI image verification to the Gemini app https://blog.google/innovation-and-ai/products/ai-image-verification-gemini-app/ Retrieval-Augmented Multimodal Language Modeling https://proceedings.mlr.press/v202/yasunaga23a.html Emu: Generative Pretraining in Multimodality https://arxiv.org/abs/2307.05222
    Mostra di più Mostra meno
    13 min
  • Clawdbot – Der persönliche, lokale KI-Agent 2026
    Jan 26 2026
    Clawdbot steht für eine neue Klasse persönlicher KI-Assistenten im Jahr 2026: nicht als abgeschlossene App, sondern als lokal laufender, erweiterbarer Agent. Gesteuert wird er über vorhandene Messenger-Kanäle wie Telegram, WhatsApp, iMessage oder Slack, während die eigentliche Agent-Logik auf dem eigenen Rechner läuft. Kernidee ist ein „local-first“-Design: Einstellungen, Skills, Erinnerungen und Anweisungen liegen transparent als Ordnerstruktur und Markdown-Dateien im Workspace. Das macht den Assistenten überprüfbar, versionierbar und gezielt anpassbar, statt von einer proprietären UI und festen Features abhängig zu sein. Die Architektur setzt auf zwei Ebenen: einen LLM-gestützten Agenten mit Modellwahl auf dem Gerät sowie ein Gateway, das Chats aus verschiedenen Messengern entgegennimmt und an den Agenten weiterleitet. Entscheidend ist der Werkzeugzugriff: Skills können – mit passenden Rechten – Shell und Dateisystem nutzen. Der Agent erzeugt Skripte, führt sie aus, installiert Erweiterungen und verbindet externe Integrationen. Dadurch wird Chat zu einem Arbeitswerkzeug, das Aufgaben über Dienste hinweg orchestriert, statt für jeden Zweck eine separate Utility-App zu benötigen. Der Text ordnet das als Teil eines breiteren Trends ein: Modelle werden zunehmend als Agenten mit Tools, Browser- bzw. „Computer Use“-Fähigkeiten und längerer Laufzeit betrieben, ergänzt durch modulare Wissens- und Handlungspakete. Zwei Anwendungsfelder verdeutlichen das: Medien und Automationen. Im Medien-Setup verarbeitet der Assistent Sprachnachrichten, transkribiert sie und antwortet als Audio; beschrieben wird zudem ein kontinuierlicher „Talk Mode“ mit Streaming-Text-to-Speech. Für visuelle Ausgaben werden Bildgeneratoren angebunden, um neben Bildern auch strukturierte Darstellungen wie Übersichten, Diagramme oder Infografiken zu erzeugen. Bei Automationen ersetzt lokales Scripting (inklusive Cron) typische Cloud-Automation-Workflows wie RSS-Checks, Zählerlogik oder API-gestützte Aufgabenanlage. Das verschiebt Komfort, Kosten und Datenflüsse, weil Logik nicht zwingend über Drittplattformen laufen muss. In der Einordnung werden zwei Entwicklungen betont. Erstens: Frontier-Modelle werden explizit für agentische Workflows positioniert, etwa mit Fokus auf Coding, Agents und „Computer Use“ sowie großen Kontextfenstern. Zweitens: Der Engpass liegt oft weniger in der reinen Modellfähigkeit als in Interface, Deployment und Nutzbarkeit. OpenAI beschreibt diese Lücke als „capability overhang“, also den Abstand zwischen dem, was Systeme bereits können, und dem, was im Alltag produktiv genutzt wird. Daraus folgt ein erhöhter Druck auf klassische Utility-Apps und App-Stores als Distributionsmodell, weil ein Agent Funktionen „on demand“ nachrüsten kann. Gleichzeitig rückt Sicherheit ins Zentrum. Ein lokaler Agent mit Shell- und Dateisystemrechten erhöht das Risiko von Fehlhandlungen, Missbrauch und Angriffen wie Prompt Injection. Deshalb werden Berechtigungsmodelle, Sandboxing und kanal- bzw. sessionspezifische Einschränkungen als Voraussetzung beschrieben, damit nicht jede Konversation automatisch volle Systemrechte erhält. Die Shownotes enden mit der These, dass personalisierte Agenten vor allem dann skalieren, wenn Kontrolle, Transparenz und Sicherheitsleitplanken technisch mitwachsen. Quellen: Claude Opus 4.5 – Anthropic (https://www.anthropic.com/claude/opus) Equipping agents for the real world with Agent Skills – Anthropic Engineering (https://www.anthropic.com/engineering/equipping-agents-for-the-real-world-with-agent-skills) OWASP Top 10 for Large Language Model Applications (v1.1) – OWASP Foundation (https://owasp.org/www-project-top-10-for-large-language-model-applications/) AI for self empowerment – OpenAI (https://openai.com/index/ai-for-self-empowerment) How countries can end the capability overhang – OpenAI (https://openai.com/index/how-countries-can-end-the-capability-overhang/)
    Mostra di più Mostra meno
    6 min
  • Die KI-Singularität im Anflug
    Jan 26 2026
    Die Folge ordnet die „technologische Singularität“ als Prozess ein, der nicht mit einem Stichtag beginnt, sondern über sich verstärkende Signale erkennbar wird: KI beschleunigt Fortschritt so stark, dass menschliche Kontrolle, Nachvollziehbarkeit und gesellschaftliche Anpassung unter Druck geraten. Als Narrative werden ein „supersonischer Tsunami“ (Musk) und Altmans Idee einer „sanften“ Singularität kontrastiert: kein Knall, sondern eine Kurve, die steiler wird, während Wirtschaft und Institutionen Schritt für Schritt reagieren. Als erstes Kernsignal gilt rekursive Beschleunigung in der Softwareentwicklung. Moderne Coding- und Agenten-Tools übernehmen nicht nur Aufgaben, sondern verkürzen den Weg zur nächsten Modellgeneration, weil sie Entwicklungsarbeit selbst automatisieren. Als greifbares Beispiel dient ein öffentlich diskutierter Erfahrungsbericht einer Google-Ingenieurin, wonach ein KI-Coding-Tool in etwa einer Stunde eine einfache Version eines Systems erzeugte, an dem ein Team zuvor rund ein Jahr gearbeitet hatte. Zweites Signal: KI liefert zunehmend überprüfbare, robuste Erkenntnisse in der Mathematik, sobald formale Beweissysteme wie Lean die Beweisschritte maschinell verifizieren. Terence Tao verweist dabei auf Beiträge von KI-Tools in der Erdős-Problemlandschaft und warnt zugleich vor Scheinfortschritt, wenn „gelöst“ und „offen“ durch unsaubere Formalisierung verwechselt werden. Entscheidend ist der Übergang von Kreativität zu belastbarer Prüfung. Drittes Signal: wachsende Autonomie. Gemeint sind Agenten, die über längere Zeit kohärent planen, Zwischenziele setzen und Fehler korrigieren. Als Messgröße wird der von METR diskutierte „Time Horizon“ herangezogen; die Entwicklung wird als exponentiell beschrieben und verschiebt KI vom Werkzeug zum Projektakteur, sobald aus Minuten und Stunden ganze Arbeitstage werden. Viertes Signal: Verkörperung in der physischen Welt. Anfang Januar 2026 zeigten Hyundai und Boston Dynamics auf der CES eine neue Atlas-Generation und stellten eine Produktlinie mit konkreten Deployments in Aussicht. Die These: Sobald KI zuverlässig „Atome statt nur Bits“ bewegt, steigt der gesellschaftliche Hebel sprunghaft, weil Automatisierung nicht mehr auf digitale Büroarbeit begrenzt bleibt. Aus diesen Trends leitet die Folge eine mögliche „Ära der Fülle“ ab: Bei stark steigender Produktivität könnten Güter und Dienstleistungen drastisch billiger werden, wodurch sich Rentenlogik, Sparanreize und die Debatte um Einkommen zu einer Debatte über verlässlichen Zugang zu hochwertigen Services verschieben. Gleichzeitig werden die Risiken als akut beschrieben: schnelle Jobverdrängung in informationszentrierten Berufen, soziale Instabilität bei massenhaftem Status- und Einkommensverlust, geopolitische Spannungen durch den strategischen Vorteil von Rechenleistung und Energie sowie sicherheitspolitische Gefahren durch militärische Automatisierung und KI-getriebene Desinformation. Als kulturelles Beispiel für Vertrauens- und Identitätsbrüche wird die Kontroverse um die KI-Schauspielerin Tilly Norwood (2025) angeführt. Die Schlussfolgerung bleibt nüchtern: Fortschritt ist schwer zu stoppen, aber Gestaltung ist möglich – über Governance, Sicherheitsstandards und Leitplanken, die Wahrheitssuche, Neugier und Lebensqualität priorisieren. Quellen: The Gentle Singularity — https://blog.samaltman.com/the-gentle-singularity Elon Musk says the AI 'supersonic tsunami' will eliminate desk jobs 'at a very rapid pace' — https://www.yahoo.com/news/articles/elon-musk-says-ai-supersonic-163201242.html Measuring AI Ability to Complete Long Tasks — https://arxiv.org/abs/2503.14499 Boston Dynamics Unveils New Atlas Robot to Revolutionize Industry — https://bostondynamics.com/blog/boston-dynamics-unveils-new-atlas-robot-to-revolutionize-industry/ China pushes coal-fired power projects alongside renewables — https://www.ft.com/content/103a731c-91cc-45bc-8769-ee4cadf3ce40 AI ‘Actress’ Tilly Norwood Condemned By SAG-AFTRA — https://www.forbes.com/sites/conormurray/2025/09/30/sag-aftra-condemns-ai-actress-tilly-norwood-joins-critics-emily-blunt-whoopi-goldberg-and-more/
    Mostra di più Mostra meno
    7 min
  • Agenten-Schwärme: Die neue Kunst der Koordination durch Abhängigkeitsverfolgung
    Jan 25 2026
    Agentische KI scheiterte lange weniger an Modell-Intelligenz als an fehlender, belastbarer Koordination: Multi-Agent-Setups wirkten in Demos überzeugend, brachen aber im Alltag unter Kontextlast, offenen Enden und fehlender Reihenfolge-Disziplin auseinander. Der Podcast beschreibt einen Wendepunkt in Claude Code: Mit dem neuen Tasks-System wird Arbeit nicht mehr nur im Gespräch „gemerkt“, sondern als strukturierter Ablauf festgehalten. Aufgaben werden in Schritte zerlegt, Abhängigkeiten explizit modelliert und Fortschritt als Status sichtbar gehalten. Entscheidend ist dabei die Abhängigkeitsverfolgung: Der Plan existiert als Graph, nicht als fragile Erinnerung, und bleibt auch bei Kontextkomprimierung, Unterbrechungen oder Neustarts stabil. Im Kern verschiebt sich die Funktion von „To-do-Liste“ zu einer Koordinationsschicht: Tasks trennen parallele Arbeitsstränge, setzen harte Grenzen über Dependencies und erlauben kontrollierte Parallelität, ohne dass Stränge im Kontextfenster kollidieren. Zusätzlich wird Zusammenarbeit über mehrere Sessions möglich, weil Task-Listen als geteilter Zustand in einer benannten Ablage weiterverwendet werden können; der Arbeitskontext hängt damit weniger an einer einzelnen Sitzung. Gleichzeitig betont der Podcast Sicherheits- und Reifeaspekte: Rekursive Agentenkaskaden werden begrenzt, indem Subagenten keine weiteren Subagenten starten sollen und Tool-Zugriffe restriktiv gedacht werden. Das deutet auf eine Orchestrierungs-Architektur hin, die Stabilität und Missbrauchsrisiken mit klaren Grenzen adressiert. Für Softwareentwicklung bedeutet das eine weitere Abstraktionsverschiebung nach oben: Weniger entscheidend ist das manuelle Tippen von Code, wichtiger werden präzise Problemformulierung, Erfolgskriterien und verantwortliche Strukturierung der Arbeit, während Ausführung stärker delegiert wird. Als Kontext ordnet der Podcast weitere Anthropic-Schritte in Richtung „Agent als Arbeitskollege“ ein, etwa die Cowork-Preview für parallele, teilautonome Desktop-Aufgaben. Die zentrale These: Multi-Agent-Arbeit wird nicht durch mehr Autonomie „magisch“, sondern durch robuste Planung, persistente Struktur und explizite Abhängigkeiten produktionsfähig. Quellen: Claude Code Changelog | ClaudeLog https://claudelog.com/claude-code-changelog/ Quickstart | Claude Code (Anthropic Docs) https://docs.anthropic.com/en/docs/claude-code/quickstart Claude Code overview (Anthropic Docs) https://docs.anthropic.com/en/docs/claude-code/overview Subagents in the SDK (Claude Developer Platform Docs) https://platform.claude.com/docs/en/agent-sdk/subagents Anthropic wants you to use Claude to ‘Cowork’ in latest AI agent push (The Verge) https://www.theverge.com/ai-artificial-intelligence/860730/anthropic-cowork-feature-ai-agents-claude-code Anthropic’s viral new work tool wrote itself (Axios) https://www.axios.com/2026/01/13/anthropic-claude-code-cowork-vibe-coding Generative Agents: Interactive Simulacra of Human Behavior (arXiv) https://arxiv.org/abs/2304.03442
    Mostra di più Mostra meno
    7 min
  • Jenseits des Hypes – KI, Arbeit und die neue Zukunft der Fähigkeiten
    Jan 25 2026
    Die Episode ordnet die Gegenwartsdebatte über KI als Mischung aus Hype, Unwissen und unterschwelliger Angst ein und plädiert für Distanz zum Nachrichtenlärm. Statt Tagesaufreger stehen historische Wurzeln, technische Grenzen und politische Dynamiken im Mittelpunkt. Ein Kernmotiv ist, dass die verbreitete Erfolgserzählung westlicher KI-Pioniere blinde Flecken hat: Frühere Beiträge wie Ivakhnenko/Lapa (GMDH, späte 1960er) und Shun’ichi Amari werden als Beispiele für übersehene Grundlagen genannt. Daran schließt eine Kontroverse über wissenschaftliche Anerkennung an: Schmidhuber deutet den Physik-Nobelpreis 2024 als Ausdruck von Fehlzuschreibungen, während der offizielle Nobelrahmen Hopfield und Hinton für grundlegende Entdeckungen zu neuronalen Netzen und maschinellem Lernen auszeichnet. Die Episode nutzt diese Spannung, um Wissenschaft als System aus Leistung, Sichtbarkeit und Narrative zu beschreiben. Beim Thema Arbeit wird die einfache Jobverlust-Formel zurückgewiesen. Der Vergleich mit dem historischen Strukturwandel (Landwirtschaft zu Industrie/Dienstleistung) dient als Hinweis, dass Automatisierung nicht automatisch Massenarbeitslosigkeit bedeutet, aber ungleich wirkt. Als heutige Trennlinie wird die digitale versus physische Welt betont: KI ist bei Text, Bildern, Code und Daten stark, während Greifen, Balancieren und improvisiertes Handeln in chaotischen Umgebungen weiterhin teuer und schwer zu skalieren bleibt. Daraus folgt die These, dass handwerkliche, räumlich-physische Berufe mittelfristig an relativer Knappheit und Wert gewinnen können, während Büro- und Wissensarbeit stärker unter Automatisierungsdruck gerät. Die Episode verweist zugleich auf eine Verschiebung in der Robotik: Humanoide Systeme werden nicht nur als Messe-Show, sondern als potenziell skalierbare Arbeitsmaschinen diskutiert. Als Beispiel gilt 1X, das laut Medienbericht Training zunehmend über eigene Videoerfahrung und World-Model-Ansätze statt dauerhafter Teleoperation skalieren will; parallel werden politische Programme und Regulierungsfragen angesprochen, etwa in Großbritannien, wo Regierung und Industrie über den Einsatz humanoider Robotik in Lagerhallen und Fabriken sowie über passende Regeln und Förderung debattieren. Das führt zur bildungspolitischen Folgerung, dass ein auf akademische Laufbahnen fixiertes System unter Druck gerät, wenn praktische Fähigkeiten wieder teurer und strategisch wichtiger werden. Im Bewusstseins-Teil wird eine funktionale Lesart stark gemacht: Bewusstsein und Selbstmodell erscheinen als nützliche Nebenprodukte zielgerichteten Lernens, Vorhersage und Planung, verstärkt durch Soziallernen. Für Sicherheitsfragen wird dagegen die Perspektive betont, dass weniger das „innere Erleben“ zählt, sondern die Fähigkeit autonomer Systeme, in der realen Welt Ressourcen zu bewegen und Schäden zu verursachen. Das Alignment-Problem wird nicht primär als einzelnes Superintelligenz-Szenario erzählt, sondern als nahe Gegenwartsfrage widersprüchlicher menschlicher Ziele, die durch KI-Systeme effizienter umgesetzt werden. Statt einer universellen „Werteschicht“ rücken Evaluation, Verantwortlichkeit und durchsetzbare Regeln in den Vordergrund; als Beispiel werden Bewegungen hin zu Meldepflichten und regulatorischer Nachverfolgbarkeit genannt. Zum Schluss arbeitet die Episode mit einer Beschleunigungs-These: Die Abstände großer Umbrüche schrumpfen, wodurch wenige Jahre überproportional prägend werden könnten. In diesem Rahmen werden spekulative Zeitlinien bis hin zu einem Konvergenzpunkt um 2042 und einer markanten Schwelle um 2029 als Denkmodell eingeführt, ohne sie als gesichertes Wissen auszugeben. Aus den fünf zusammengeführten Thesen ergibt sich ein nüchternes Bild: blinde Flecken in der KI-Geschichtsschreibung, asymmetrischer Automatisierungsdruck, Bewusstsein als funktionales Produkt, Risiko durch technische Macht plus menschliche Zielkonflikte und eine mögliche Verdichtung von Umbrüchen. Daraus wird eine persönliche Konsequenz abgeleitet: Fähigkeiten und Werte zu kultivieren, die unter zunehmendem technologischen Druck stabil bleiben. Quellen: John Hopfield – Facts – NobelPrize.org https://www.nobelprize.org/prizes/physics/2024/hopfield/facts/ Geoffrey Hinton – Facts – NobelPrize.org https://www.nobelprize.org/prizes/physics/2024/hinton/facts/ Machine learning pioneers win Nobel prize in physics (The Guardian, 8 Oct 2024) https://www.theguardian.com/science/2024/oct/08/nobel-prize-physics-john-hopfield-geoffrey-hinton-machine-learning Group method of data handling (Wikipedia) https://en.wikipedia.org/wiki/Group_method_of_data_handling Multilayer perceptron – Timeline (Wikipedia) https://en.wikipedia.org/wiki/Multilayer_perceptron An OpenAI-backed humanoid robot startup says it's moving away from using humans to train its Optimus rival (Business Insider, 16 Jan 2026) https://www.businessinsider.com/...
    Mostra di più Mostra meno
    12 min
  • Brille, Stift oder Gehirn-Interface Die Zukunft des primären KI-Geräts
    Jan 25 2026
    Die Episode zeichnet den Wettlauf um das „nächste primäre KI-Gerät“ nach, ausgelöst durch frühe Experimente wie Rabbit R1 und Humane AI Pin, die 2024 mit dem Anspruch antraten, das Smartphone zu ersetzen: voice-first, immer verfügbar, mit KI als Agent statt App-Menüs. Beide Beispiele zeigen jedoch die Kernhürde der Kategorie: Ein neuer Formfaktor braucht nicht nur gute Demos, sondern verlässliche Produktqualität, echte Alltagsvorteile und ein tragfähiges Geschäftsmodell. Humane scheiterte nach kurzer Zeit spektakulär an schwacher Nutzererfahrung, Rückgabequoten, Sicherheitsproblemen und Abo-Logik; im Februar 2025 wurden zentrale Assets für rund 116 Millionen Dollar an HP verkauft und das Produkt eingestellt. Rabbit R1 startete mit viel Aufmerksamkeit und hohen Vorbestellungen, wurde dann als technisch dünne Android-Implementierung kritisiert; spätere Updates verbesserten das Gerät zwar, änderten aber wenig an der Grundfrage, ob ein separates KI-Gerät dem Smartphone wirklich überlegen sein kann. Als Treiber der Debatte beschreibt die Folge Geld und Macht: Der Smartphone-Markt ist so groß, dass ein Nachfolgegerät die Plattformhoheit neu verteilen würde. Entsprechend hoch sind die Einsätze etablierter Player, etwa Metas milliardenschwere Reality-Labs-Wette auf AR und Brillen, und Apples Versuch, mit Vision Pro eine neue Computing-Kategorie zu etablieren – bisher gebremst durch Preis, Komfort und Nutzenkurve. Daraus leitet die Episode eine zweite These ab: Das Smartphone ist als Interface für KI langfristig suboptimal, weil es auf Apps, Tippen und Wischen optimiert ist, während KI mehr Kontext, Sensorik, Proaktivität und „Hands-free“-Nutzung verlangt. Wenn Agenten Aufgaben über App-Grenzen hinweg automatisieren, verschiebt sich das Smartphone in diesem Bild eher zur Infrastruktur und Ausgabefläche. Im Zentrum steht die offene Formfaktor-Frage: Pin/Anhänger, Stift, Brille oder eine Gerätefamilie. Für Pins wird ein „Display-los, sensorbasiert“-Ansatz diskutiert, der eng mit bestehenden Geräten kooperiert, um Energie- und Integrationsprobleme zu umgehen. Für den Stift spricht die Nähe zu Arbeitsumgebungen und eine natürliche, unaufdringliche Präsenz; dagegen spricht der fehlende visuelle Kontext. Am stärksten argumentiert die Folge für Smartglasses: Sie können sehen und hören, was Nutzer wahrnehmen, und verbinden damit KI mit realer Umgebung. Gleichzeitig bleibt soziale Akzeptanz der größte Bremsklotz, insbesondere wegen Kameras im Gesicht; hier wird ein „Mitziehen“-Mechanismus skizziert, sobald ein wahrnehmbarer Vorteil entsteht. Ergänzende Interfaces wie Armbänder (Muskel-Signale), Ringe oder Kopfhörer werden als Bausteine eingeordnet, aber jeweils mit klaren Grenzen (Akku, Sensorik, fehlendes Bild). Als Rahmen für Adoption nutzt die Episode Rogers’ Kriterien (relativer Vorteil, Kompatibilität, Einfachheit, Testbarkeit, sichtbarer Mehrwert) und folgert: Erfolg hat vermutlich kein einzelner Gag-Formfaktor, sondern ein proaktiver kognitiver Assistent, voice-first und mit striktem Privatsphäre-Design – entweder als Brille oder als Koexistenz mehrerer Geräte, während als Fernziel Gehirn-Computer-Schnittstellen am Horizont stehen. Quellen: Humane’s AI Pin is dead, as HP buys startup’s assets for $116M – https://techcrunch.com/2025/02/18/humanes-ai-pin-is-dead-as-hp-buys-startups-assets-for-116m Humane is shutting down the AI Pin and selling its remnants to HP – https://www.theverge.com/news/614883/humane-ai-hp-acquisition-pin-shutdown HP Accelerates AI Software Investments to Transform the Future of Work – https://www.hp.com/us-en/newsroom/press-releases/2025/hp-accelerates-ai-software-investments-to-transform-the-future-of-work.html Apple Vision Pro available in the U.S. on February 2 – https://www.apple.com/newsroom/2024/01/apple-vision-pro-available-in-the-us-on-february-2/ Meta’s Reality Labs posts $4.53 billion loss in second quarter (nearly $70B cumulative losses since late 2020) – https://www.cnbc.com/2025/07/30/metas-reality-labs-second-quarter-2025.html Introducing the New Ray-Ban | Meta Smart Glasses (Produktankündigung, 2023) – https://about.fb.com/news/2023/09/new-ray-ban-meta-smart-glasses/amp/ Technology, innovation and management: Diffusion of innovations (Rogers’ five attributes) – https://www.open.edu/openlearn/money-business/technology-innovation-and-management/content-section-8.8
    Mostra di più Mostra meno
    12 min
  • Clawdbot: Der Open-Source KI-Assistent, der direkt in deinen Chat-Apps arbeitet
    Jan 25 2026
    Clawdbot wird als Open-Source-Ansatz für einen „Always-on“-KI-Assistenten vorgestellt, der nicht in einer separaten Weboberfläche lebt, sondern direkt in bestehenden Messenger- und Team-Chats antwortet. Statt zwischen Apps zu wechseln, läuft der Agent dauerhaft im Hintergrund und kommuniziert in Kanälen wie WhatsApp, Telegram, Slack, Discord, Signal oder iMessage. Der zentrale Anspruch ist lokale Kontrolle: Clawdbot kann auf eigenen Geräten oder auf einem eigenen Server betrieben werden und wird damit zu einer längerfristig betriebenen Assistenz-Instanz, die auch systemnahe Aufgaben übernehmen kann, sofern man diese Zugriffe bewusst freigibt. Dazu zählen Dateizugriffe, Shell-Kommandos, Programmaufrufe sowie eine live steuerbare Canvas-Ansicht als visuelle Arbeitsfläche. In der Praxis zielt das Setup auf kontinuierliche Assistenz im Alltag und in Teams: Posteingänge sortieren, E-Mails vorbereiten oder versenden, Kalender pflegen, Erinnerungen setzen, Recherche erledigen und wiederkehrende Abläufe automatisieren. Ergänzt wird das durch Browser-Automation, bei der der Agent Websites öffnet, Informationen findet, Formulare ausfüllt und Daten extrahiert. Der Nutzen hängt dabei stark an sauber begrenzten Berechtigungen, stabilen Integrationen und der Frage, ob man tatsächlich einen rund um die Uhr laufenden Agenten braucht. Als typische Betriebsform wird ein stromsparender „Always-on“-Rechner wie ein Mac mini genannt, alternativ sind macOS, Windows und Linux sowie der Betrieb auf einem VPS möglich. Ein weiterer Schwerpunkt sind Erweiterungen über ein Skills-System und ClawdHub als öffentliches Skill-Register. Damit sollen Integrationen und Workflows modular nachinstallierbar werden, etwa für Kalender, Projektmanagement, Mail-Flows oder Smart-Home-Anbindungen, statt alles individuell zu bauen. Gleichzeitig wird betont, dass solche Integrationen oft zusätzlichen Auth-Aufwand bedeuten und sich je nach Dienst riskant anfühlen können, weil ein Agent mit weitreichenden Accounts und Sessions arbeitet. Auch bei Social- und Web-Workflows setzen Bot-Erkennung, Login-Flows und wechselnde Website-Strukturen Grenzen; Browser-Automation wirkt als Orchestrierungsschicht, ersetzt aber nicht die Robustheit offiziell gepflegter APIs. Beim Modell-Setup ist Clawdbot nicht auf einen Anbieter festgelegt. Je nach Konfiguration können unterschiedliche Provider und Modelle pro Agent oder Session genutzt werden, was Flexibilität schafft, aber den Einrichtungs- und Sicherheitsaufwand erhöht, weil Schlüssel, Policies und Tool-Rechte konsistent gepflegt werden müssen. Besonders wichtig sind dabei Sicherheitsmechanismen gegen untrusted Input aus Chats, Sandboxing und Tool-Policies, da ein Messenger-Interface den Agenten in eine Umgebung bringt, in der Missbrauch und Prompt-Injection realistischer werden. Der Vergleich zu klassischen Claude-Setups und MCP wird als Abgrenzung formuliert: Während Claude in der Herstelleroberfläche bleibt und MCP dort Tool-Zugriffe standardisiert, verlegt Clawdbot den Einstieg in Messenger-Apps und kombiniert das mit Self-Hosting, lokalen Tools, Skills und Zeitplänen (Cron). Damit verschiebt sich das Konzept vom reinen Chat hin zu einem konfigurierbaren Assistenzsystem, das wie Software betrieben wird und dauerhaft im Hintergrund Aufgaben abarbeitet. Quellen: Clawdbot/clawdbot (GitHub) https://github.com/clawdbot/clawdbot ClawdHub (Clawdbot Docs) https://docs.clawd.bot/tools/clawdhub Baileys (WhatsApp Web API library) https://github.com/WhiskeySockets/Baileys grammY (Telegram Bot Framework) https://github.com/grammyjs/grammY AI companies want a new internet - and they think they've found the key (The Verge) https://www.theverge.com/ai-artificial-intelligence/841156/ai-companies-aaif-anthropic-mcp-model-context-protocol Anthropic's official Git MCP server had some worrying security flaws - this is what happened next (TechRadar) https://www.techradar.com/pro/security/anthropics-official-git-mcp-server-had-some-worrying-security-flaws-this-is-what-happened-next
    Mostra di più Mostra meno
    9 min
  • KI im Alltag: Humanoide Roboter, Desktop-Agenten und Offene Modelle
    Jan 24 2026
    In dieser Episode verdichten sich mehrere parallele Trends, die zeigen, wie KI in Richtung Alltagstauglichkeit und Plattformmacht kippt. Im Robotics-Block rückt Manipulation als Engpass in den Vordergrund: Das chinesische Startup Matrix Robotics präsentiert mit MATRIX-3 einen dritten Prototypen mit biomimetischer, gewebter „Haut“, hochauflösender taktiler Sensorik an den Fingerspitzen und einer 27-DoF-Hand, was vor allem feinmotorische Alltagsaufgaben beschleunigen könnte. Gleichzeitig verschiebt 1X das Skalierungsproblem beim Training humanoider Roboter: Statt starkem Teleoperation-Overhead soll ein Weltmodell Neo aus eigenen Robotervideos lernen, sodass Lernfortschritt stärker mit der Zahl eingesetzter Roboter als mit der Zahl menschlicher Operatoren wächst. Am Desktop werden Agenten breitentauglich: Anthropic startet Claude Cowork als Research Preview auf macOS, explizit für Nicht-Entwickler, mit lokalem Ordnerzugriff und Multi-Step-Ausführung, allerdings mit klar benannten Risiken wie unklaren Anweisungen, versehentlichem Löschen und Prompt-Injection, weshalb kontrollierte, abgegrenzte Workflows zentral bleiben. Bei Übersetzung verschiebt sich die Wertschöpfung Richtung lokale Setups: Google veröffentlicht mit TranslateGemma offene Übersetzungsmodelle (4B/12B/27B) für 55 Sprachen, was Übersetzung stärker on-device oder in compliance-freundlichen Umgebungen möglich macht; gleichzeitig wird Kontext als Qualitätsfaktor betont, passend zur „Jagged Technological Frontier“-These aus der Harvard/BCG-Forschung, wonach KI-Leistung je nach Aufgabentyp abrupt schwankt. Standards und Ökosysteme werden wichtiger: Google stellt mit dem Universal Commerce Protocol (UCP) einen offenen Standard für agentisches Commerce über die gesamte Journey vor, während Open Responses als offene Spezifikation für interoperable LLM-Interfaces an der Responses-API angelehnt Portabilität zwischen Providern adressiert. Auf der Compute-Seite wird Latenz zur Leitmetrik: OpenAI kündigt eine Partnerschaft mit Cerebras an, um 750 MW Ultra-Low-Latency-Compute schrittweise bis 2028 in den Inferenz-Stack zu integrieren. Bei Plattformen zeigen sich neue Machtachsen, etwa durch Apples Bestätigung, dass Google Gemini die nächste Siri-Generation und weitere Apple-Intelligence-Funktionen mit antreiben soll. In Europa signalisiert der Führungswechsel bei Aleph Alpha eine Neuordnung von Governance und Go-to-Market. Forschung und Talent runden das Bild ab: OpenAI beteiligt sich an der Seed-Runde von Merge Labs für weniger invasive BCI-Ansätze, während Personalbewegungen wie Abgänge bei Thinking Machines Lab zurück zu OpenAI die Volatilität im Spitzen-Talentmarkt unterstreichen. Meta beendet zudem Horizon Workrooms zum 16. Februar 2026, was den Rückzug aus metaverse-orientierten Work-Setups und die Verlagerung Richtung Wearables und KI-Brillen markiert. Insgesamt entsteht ein praktisches Muster: mehr agentische Produktflächen, mehr Standardisierung, mehr Fokus auf Latenz und Deployment-Kontrolle – bei gleichzeitig wachsender Notwendigkeit, Risiken in Datenzugriff und Ausführung eng zu begrenzen. Quellen: MATRIX-3 | Third-generation flagship humanoid robot — https://www.matrixrobotics.ai/matrix-3 An OpenAI-backed humanoid robot startup says it's moving away from using humans to train its Optimus rival (Business Insider) — https://www.businessinsider.com/1x-humanoid-robot-training-humans-world-models-optimus-rival-2026-1 Getting Started with Cowork | Claude Help Center — https://support.claude.com/en/articles/13345190-getting-started-with-cowork Anthropic wants you to use Claude to 'Cowork' in latest AI agent push (The Verge) — https://www.theverge.com/ai-artificial-intelligence/860730/anthropic-cowork-feature-ai-agents-claude-code TranslateGemma: A new family of open translation models (Google) — https://blog.google/innovation-and-ai/technology/developers-tools/translategemma/ Navigating the Jagged Technological Frontier (Digital Data Design Institute at Harvard) — https://d3.harvard.edu/navigating-the-jagged-technological-frontier/ Under the Hood: Universal Commerce Protocol (UCP) (Google Developers Blog) — https://developers.googleblog.com/under-the-hood-universal-commerce-protocol-ucp/ Open Responses — https://www.openresponses.org/ OpenAI partners with Cerebras (OpenAI) — https://openai.com/index/cerebras-partnership/ Apple Confirms Google Gemini Will Power Next-Generation Siri This Year (MacRumors) — https://www.macrumors.com/2026/01/12/google-gemini-next-generation-siri/ Aleph Alpha: Gründer Jonas Andrulis gibt Chefposten ab (Handelsblatt) — https://www.handelsblatt.com/technik/ki/aleph-alpha-gruender-jonas-andrulis-gibt-chefposten-ab/100161686.html Investing in Merge Labs (OpenAI) — https://openai.com/index/investing-in-merge-labs/ Meta has discontinued its metaverse for work, too (The Verge) — https://www.theverge.com/tech/863209/...
    Mostra di più Mostra meno
    10 min