← Zurück zu Projekte

Projekt

Digi-Pal Recall

Lokales Meeting-Intelligence-System, das Gesprächsaufzeichnungen automatisch transkribiert, zusammenfasst und in strukturiertes, wiederverwendbares Wissen überführt — Datenschutzfreundliche Alternative zu Cloud-Meeting-Tools.

Aktualisiert am 25.6.2026

tl;dr

  • Digi-Pal Recall ist ein lokales System, das Gesprächsaufzeichnungen (Meetings, Sprachnotizen, Fachgespräche) entgegennimmt und automatisch verarbeitet
  • Es geht nicht um ein weiteres Upload-Tool, sondern um eine Audio-to-Knowledge-Pipeline: aus flüchtigem Gespräch wird strukturiertes, wiederverwendbares Wissen
  • Technologie: FastAPI-Backend, React/Vite-Frontend, Whisper.cpp für Transkription, Ollama für Zusammenfassung, Docker Compose-Infrastruktur
  • Kernpositionierung: Datenschutzfreundlich, Open Source, on premise, keine Cloud-Abhängigkeit — sensible Gesprächsinhalte bleiben unter eigener Kontrolle
  • Aktueller Stand: funktionierender Prototyp mit Upload, Transkription, Zusammenfassung, Markdown-Export und Meeting-Verwaltung

Kurzbeschreibung

Digi-Pal Recall (Arbeitstitel: Audio2Knowledge) ist ein lokales Meeting-Intelligence-System, das Gesprächsaufzeichnungen automatisch transkribiert, zusammenfasst und in strukturierte Wissensobjekte überführt. Anders als klassische cloud-basierte Meeting-Tools läuft Recall vollständig on premise, ist Open Source und gibt Organisationen die volle Kontrolle über ihre sensiblen Gesprächsdaten. Das System verwandelt Meetings, Sprachnotizen und Fachgespräche von flüchtigen Audioaufnahmen in durchsuchbare, wiederverwendbare Wissensbausteine.

Ausgangspunkt / Problemstellung

In vielen Arbeitskontexten passiert Folgendes: Wichtige Informationen fallen in Gesprächen, Calls, Workshops oder Sprachnotizen — und bleiben implizit. Sie existieren nur im Kopf der Beteiligten oder als unstrukturierte Audiodatei. Mitschriften sind unvollständig, mühsam oder finden gar nicht statt.

Die Folge: Wissen geht verloren oder ist später schwer wieder auffindbar.

Das eigentliche Problem ist nicht „Datei hochladen”, sondern: Wie wird gesprochenes, flüchtiges Wissen in strukturierte, wiederverwendbare Information überführt?

Idee

Die grundlegende Idee: Baue eine lokale, kontrollierbare Pipeline, die Audioinhalte systematisch erfasst, verarbeitet und in einer durchsuchbaren Wissensbasis ablegt. Der Fokus liegt nicht auf reiner Transkription, sondern auf der Umwandlung von implizitem Gesprächswissen in explizit nutzbare Informationen.

Diagramm

Der Name „Recall” transportiert diese Idee: Nicht nur aufzeichnen, sondern wieder verfügbar machen. Zurückholen, was in Gesprächen verloren zu gehen droht.

Welche Hypothese steckt dahinter?

Die Kernhypothese: Organisationen scheitern an der Nutzung von KI für Meeting-Intelligence nicht an der Technologie, sondern an der fehlenden Datenhoheit und den undurchsichtigen Cloud-Abhängigkeiten kommerzieller Anbieter. Eine lokale, Open-Source-Alternative mit überprüfbarer Architektur adressiert diese Lücke und schafft Akzeptanz selbst in sensiblen Umgebungen.

Warum das relevant ist

Das System adressiert mehrere drängende Herausforderungen gleichzeitig:

  • Wissensverlust: Gesprächsinhalte bleiben nicht mehr in Köpfen oder verstreuten Audiodateien
  • Dokumentationslast: Weniger manuelle Protokollarbeit, mehr Konzentration auf das Gespräch
  • Datenhoheit: Sensible Business-Informationen verlassen die eigene Umgebung nicht
  • Vendor Lock-in: Open Source statt proprietärer SaaS-Zwang
  • Nachvollziehbarkeit: Entscheidungen und Aussagen aus Gesprächen bleiben strukturiert abrufbar

Gerade für KMU, Verwaltungen, Bildungsträger und sensible Beratungsumgebungen ist das kein nettes Extra, sondern eine Grundvoraussetzung für den Einsatz von KI bei der Verarbeitung vertraulicher Gesprächsinhalte.

Ansatz

Das System folgt einer modularen Pipeline-Architektur aus mehreren Schichten, die vollständig lokal orchestriert werden:

Diagramm

Im Zusammenspiel der Komponenten ergibt sich folgender typischer Ablauf:

Diagramm

Pipeline-Schritte im Detail

  1. Audio-Eingang — Upload über Web-Oberfläche (React/Vite-Frontend)
  2. Transkription — Automatische Speech-to-Text-Verarbeitung mit Whisper.cpp (lokal, GPU-beschleunigt)
  3. Zusammenfassung — KI-gestützte Extraktion von Kernaussagen mit Ollama (qwen2.5:7b)
  4. Strukturierte Speicherung — Ablegung in Datenbank (SQLite/PostgreSQL) und Objektspeicher (S3-kompatibel)
  5. Wissenszugriff — Durchsuchbare Meeting-Historie, Markdown-Export, Dashboard mit Status-Übersicht

Speaker Diarization

Ein zentrales Feature Speaker Diarization — die automatische Erkennung, wer in einem Meeting wann gesprochen hat. Das System soll nicht nur transkribieren, was gesagt wurde, sondern auch erkennen, wer es gesagt hat, und die Transkription entsprechend strukturieren.

Diagramm

Die Implementierung basiert auf pyannote.audio für die Sprechersegmentierung und -clusterung in Kombination mit Whisper.cpp für die Transkription. Die Herausforderung liegt in der Echtzeit-fähigen Verarbeitung auf Consumer-Hardware, ohne Qualitätseinbußen bei der Sprechertrennung.

Anwendungsfälle:

  • Meeting-Protokolle: Automatische Zuordnung von Aussagen zu Teilnehmer:innen
  • Entscheidungsnachvollziehbarkeit: Wer hat welche Entscheidung vorgeschlagen oder getroffen?
  • Sprechanteil-Analyse: Redezeitverteilung in Besprechungen
  • Diskursanalyse: Argumentationsstruktur über Sprecherwechsel hinweg

Technischer Stack

KomponenteTechnologieRolle
BackendFastAPI (Python)API, Verarbeitungs-Pipeline
FrontendReact + TypeScript + ViteBenutzeroberfläche
TranskriptionWhisper.cppLokale, GPU-beschleunigte Transkription
ZusammenfassungOllama (qwen2.5:7b)KI-Zusammenfassung der Transkripte
InfrastrukturDocker Compose + TraefikContainer-Orchestrierung und Routing
DatenbankSQLite / PostgreSQLMetadaten und Meeting-Struktur
SpeicherS3-kompatibler ObjektspeicherAudiodateien und Transkripte

Aktueller Stand

MVP / Prototyp — voll funktionsfähige Kern-Pipeline mit aktiver Nutzung.

Bereits implementiert:

  • Audio-Upload mit Metadaten-Extraktion (Teilnehmer, Tags, Projekte, Kunden)
  • Automatische Transkription mit Whisper.cpp
  • Automatische Zusammenfassung mit Ollama
  • Markdown-Export von Meetings
  • SQL-basierte Suche
  • Meeting-Dashboard mit Status-Übersicht
  • Monitoring- und Recovery-Plan für Produktivbetrieb

In Entwicklung / geplant:

  • Semantische Vektorsuche (Qdrant/pgvector)
  • Speaker Diarization
  • Asynchrone Hintergrundverarbeitung (Celery + Redis)
  • Meeting Insights (Aufgaben, Entscheidungen, Fragen)
  • Knowledge-Graph-Verknüpfung
  • Erweiterte UI/UX-Features

Erkenntnisse

Die wichtigste Erkenntnis aus der bisherigen Entwicklung: Der eigentliche Wert liegt nicht in der Transkriptionstechnik, sondern in der Architektur und der Positionierung. Erste Nutzungserfahrungen zeigen, dass die Kombination aus lokaler Kontrolle, Open Source und praktischer Nutzbarkeit auf Consumer-Hardware (MacBook M4 Pro) ein starkes Signal ist — KI-gestützte Wissensverarbeitung ist nicht nur etwas für Konzerne mit GPU-Clustern.

Ein weiteres Learning: Die Trennung zwischen operationalen Recovery-Mechanismen und fachlichem Reprocessing ist essenziell für den Produktivbetrieb. Der entwickelte Monitoring- und Recovery-Plan adressiert genau diese Lücke zwischen technischer Pipeline und betrieblicher Realität.

Nächste Schritte

Persönliche Note

Was mich an Recall besonders reizt: Es ist kein weiteres „AI Feature”, sondern ein System, das eine echte Lücke schließt. Ich habe in meiner Zeit als kaufmännischer Angestellter selbst erlebt, wie viel Wissen in Meetings verloren geht — und wie aufwendig manuelle Nachbereitung ist. Recall ist für mich der Versuch, diese Lücke mit den heutigen Mitteln zu schließen: lokal, kontrollierbar, bezahlbar. Der kaufmännische Blick auf Aufwand und Nutzen ist mir dabei genauso wichtig wie die Technik. Das System soll nicht überfordern, sondern entlasten.


FAQ

Was ist Digi-Pal Recall? Ein lokales Open-Source-System zur automatischen Verarbeitung von Gesprächsaufzeichnungen — von Transkription über Zusammenfassung bis zur strukturierten Wissensspeicherung.

Wie unterscheidet sich Recall von Tools wie Fireflies oder Otter.ai? Recall ist vollständig on premise und Open Source. Die Daten verlassen nie die eigene Infrastruktur. Es gibt keine Cloud-Abhängigkeit, keine API-Kosten pro Meeting, keine undurchsichtige Datenverarbeitung.

Welche Hardware wird benötigt? Das System läuft auf einem MacBook M4 Pro, aber auch auf handelsüblichen Servern. Für Echtzeit-Transkription wird eine GPU empfohlen, aber nicht zwingend vorausgesetzt.

Welche Sprachen werden unterstützt? Whisper.cpp unterstützt über 90 Sprachen. Die Zusammenfassung erfolgt aktuell über lokal laufende Sprachmodelle (z. B. qwen2.5:7b), die je nach Modell mehrsprachig arbeiten können.

Wie wird der Datenschutz gewährleistet? Alle Verarbeitungsschritte laufen lokal. Es werden keine Daten an externe APIs gesendet. Die gesamte Kommunikation erfolgt innerhalb des Docker-Netzwerks.

Kann Recall in bestehende Wissensmanagementsysteme integriert werden? Ja, durch die FastAPI-Schnittstelle und den Markdown-Export ist eine Integration in Systeme wie Paperless-ngx, Obsidian oder eigene Wissensdatenbanken möglich.

Ist das System produktiv einsetzbar? Der aktuelle Prototyp ist funktionsfähig und wird aktiv genutzt. Für den breiten Produktiveinsatz sind noch semantische Suche, robustes Monitoring und UX-Feinschliff in Entwicklung.

Was kostet der Betrieb? Die Kosten beschränken sich auf die eigene Hardware und Strom. Es fallen keine Lizenzkosten, API-Gebühren oder Abonnements an — alle Komponenten sind Open Source.

Gibt es eine Demo oder Screenshots? Das System ist aktuell nicht öffentlich zugänglich. Eine Demo-Umgebung oder Dokumentation mit Screenshots ist in Planung.

Wer ist die Zielgruppe? KMU, Verwaltungen, Bildungsträger, Beratungshäuser und alle Organisationen, die sensible Gesprächsinhalte datenschutzkonform verarbeiten wollen — ohne Abhängigkeit von Cloud-Plattformen.


Fussnoten