Das Hauptkriterium: Genauigkeit auf echten Daten
Akademische Benchmarks (LLMSec, PhishBench) sind nutzlich, ersetzen aber keine echten Daten. Wir haben unseren eigenen Datensatz erstellt: 40.000 legitime E-Mails von Freiwilligen (Newsletter, Rechnungen, Konversationen) + 10.000 bestatigte Phishing-E-Mails (PhishTank, ApWG, Nutzermeldungen).
Top 3 Ergebnisse:
- Claude Sonnet 4.6: 99,7% Genauigkeit, 0,18% Fehlalarme
- GPT-4 Turbo: 99,3% Genauigkeit, 0,42% Fehlalarme
- Claude Haiku 4.5: 99,1% Genauigkeit, 0,29% Fehlalarme
Schlusselunterschied: Claude erkennt sophisticated Phishing besser (Spear-Phishing, BEC), wo der soziale Kontext mehr zahlt als die technische Signatur.
Die hybride Architektur Haiku + Sonnet
Claude Haiku 4.5 ist ~12-mal gunstiger als Sonnet 4.6 (~0,80 $/M Token vs ~10 $/M Token). Zur Kostenoptimierung nutzt Fiabli eine zweistufige Architektur:
- Alle E-Mails durchlaufen zuerst Haiku (Schnellanalyse)
- Wenn das Vertrauen in der Grauzone 0,4-0,7 liegt, automatische Eskalation zu Sonnet
- In anderen Fallen, finale Entscheidung von Haiku
Ergebnis: 80% der E-Mails werden nur von Haiku verarbeitet. Durchschnittliche Kosten pro Analyse: 0,008 €. Mit unseren Plan wollen wir auch im Free-Plan profitabel bleiben, unverzichtbar fur Nachhaltigkeit.
Datensicherheit: Anthropic und europaisches Vertrauen
Kritischer Punkt fur Phishing: E-Mails sind personenbezogene Daten, oft mit sensiblen Infos (Banken, Gesundheit, Vertrage). Diese Daten durch eine Cloud-KI laufen zu lassen, ist eine wichtige Entscheidung.
Anthropic bietet starke Garantien:
- Kein Training mit API-Kundendaten (vertraglich garantiert)
- Prompt-Speicherung: 30 Tage (technisches Logging) dann Loschung
- Konformitat SOC 2 Type II + DSGVO + HIPAA
- Moglichkeit von Europa-Hosting fur Enterprise-Kunden (kommt bald)
Daruber hinaus redactiert (verschleiert) Fiabli automatisch bestimmte Informationen vor dem Versand (Kartennummern, vollstandige IBANs, Passworter) uber eine Pre-LLM-Schicht.
Warum kein lokales Modell?
Haufige Frage: "Warum nicht Llama 3.3 8B im Self-Hosting?" Wir haben es ernsthaft getestet. Drei Schlussfolgerungen:
1. Genauigkeit: 92% Genauigkeit vs 99% fur Claude. Der Unterschied scheint klein, aber bei 1M Analysen/Monat sind das 70.000 zusatzliche Fehler (FN oder FP). Inakzeptabel.
2. Tatsachliche Kosten: Eine L40S GPU im Self-Hosting kostet 2.500 €/Monat (TCO). Fur unser aktuelles Volumen kostet die Claude-API 4-mal weniger. Erst bei 10x Volumen wird es interessant.
3. Updates: Phishing entwickelt sich jede Woche (neue Vorwande, neue Marken). Die neuen Claude-Versionen integrieren regelmassig diese Entwicklungen. Im Self-Hosting muss man neu trainieren.
Welche Auswirkung fur den Nutzer?
Konkret fur Sie als Nutzer:
- Genauigkeit: Weniger als 0,3% Fehlalarme. Ihre legitimen E-Mails werden nie blockiert.
- Geschwindigkeit: 1,8 Sekunden durchschnittliche Latenz vs 4-6 Sek. fur GPT-4.
- Kontrollierte Kosten: Der kostenlose Fiabli-Plan (50 Analysen/Monat) ist profitabel und garantiert die langfristige Nachhaltigkeit.
- Kontinuierliche Evolution: Alle 2 Monate veroffentlicht Anthropic einen verbesserten Haiku/Sonnet. Fiabli aktualisiert sich, ohne dass Sie etwas tun mussen.
Unsere Wette
Claude von Anthropic zu wahlen ist keine Marketing-Wahl, sondern eine technische Wahl nach 3 Monaten Benchmark. Sie ermoglicht uns, die genaueste Phishing-Erkennung des Marktes zu einem Preis anzubieten, der fur Privatpersonen zuganglich bleibt.
Zum Ausprobieren: Erstellen Sie ein Fiabli-Konto und analysieren Sie Ihre ersten 50 E-Mails kostenlos. Um die KI manuell an einer verdachtigen E-Mail zu testen, gehen Sie zu unserer interaktiven Demo.
Bereit, Ihr Postfach zu schutzen?
Erstellen Sie kostenlos ein Fiabli-Konto. 50 Analysen/Monat ohne Kreditkarte.
Kostenlos starten