// 07_AI_AGENTS

Der BeeAI Security Analyst

20. Jan 2026 • Interaktive Web-Demo

Während CLI-Agenten leistungsfähig sind, ist manchmal ein visuelles Dashboard unerlässlich, um komplexe, mehrstufige Denkprozesse zu überwachen. Der BeeAI Analyst kombiniert die rohe Kraft lokaler LLMs mit einer reaktiven FastAPI-Weboberfläche.

Unten sehen Sie eine Simulation der tatsächlichen Weboberfläche. Beobachten Sie, wie der Agent ein Sicherheitsmandat auf hoher Ebene erhält, seine Recherche mit dem ThinkTool plant, Informationen über DuckDuckGo und Wikipedia sammelt und einen strategischen Abschlussbericht erstellt.

🛡️ BeeAI Analyst (FastAPI)

📟 Live Terminal Events & Tools

Bereit für Eingabe...

💡 Analyse Bericht Final Answer

Dieser "Glass Box"-Ansatz ermöglicht es Operatoren, den Schlussfolgerungen der KI zu vertrauen, indem sie die Quellen (Wikipedia, DuckDuckGo) und die Denkschritte (ThinkTool) überprüfen, die zu diesen Ergebnissen geführt haben.

Unter der Haube

Der BeeAI Analyst ist auf Leistung und Datenschutz ausgelegt. Im Gegensatz zu cloudbasierten Agenten läuft dieser gesamte Stack lokal auf Ihrer Maschine, sodass keine sensiblen Daten Ihr Netzwerk verlassen.

1. FastAPI & Async Architektur

Das Backend wird von FastAPI und Uvicorn betrieben und nutzt Pythons asyncio, um mehrere gleichzeitige Verbindungen ohne Blockierung zu verarbeiten. Wir verwenden Server-Sent Events (SSE), um den Denkprozess des Agenten in Echtzeit an das Frontend zu streamen und dem Benutzer sofortiges Feedback zu geben.

2. Ressourcenmanagement mit Semaphoren

Das lokale Ausführen großer Sprachmodelle (LLMs) ist GPU-intensiv. Um "Out-Of-Memory" (OOM) Fehler zu vermeiden, implementiert das System ein Async Semaphore (gpu_semaphore). Dies fungiert als Verkehrskontrolle und stellt sicher, dass immer nur eine schwere Inferenzaufgabe die GPU belegt, während andere Anfragen effizient in eine Warteschlange gestellt werden.

3. Das BeeAI Framework

Im Kern liegt das BeeAI Framework. Es orchestriert den Lebenszyklus des Agenten:

ThinkTool: Ermöglicht dem Agenten, innezuhalten und seine nächsten Schritte zu planen.
Research Tools: Integration mit DuckDuckGo, Wikipedia und OpenMeteo für Daten aus der realen Welt.
Memory: Unbegrenzter Speicher ermöglicht es dem Agenten, den Kontext während der gesamten Sitzung beizubehalten.

4. Lokales LLM via Ollama

Die Intelligenz wird von Ollama bereitgestellt, das ein speziell abgestimmtes gemma-agent Modell ausführt. Durch die Verwendung des OpenAI-kompatiblen Endpunkts können wir die zugrunde liegenden Modelle (Llama 3, Mistral, Gemma) austauschen, ohne eine einzige Zeile Anwendungscode zu ändern.

5. RAG & Document Intelligence mit Docling

Der Analyst verfügt über fortschrittliche Retrieval-Augmented Generation (RAG) Fähigkeiten. Benutzer können verschiedene Dateiformate (PDF, DOCX, Bilder) hochladen, die mit Docling für eine hochwertige Textextraktion verarbeitet werden. Die Inhalte werden anschließend partitioniert und in einer lokalen Vektordatenbank gespeichert, was es dem Agenten ermöglicht, kontextbezogene Antworten basierend auf Ihren privaten Dokumenten zu geben.

Erkunden Sie den Code

Der vollständige Quellcode, einschließlich des FastAPI-Servers, der Agentenkonfiguration und der Frontend-Vorlagen, ist auf GitHub verfügbar.

Auf GitHub ansehen →