- Allgemeine Architektur
- Praktische Schritte zur Erstellung einer App (Schritt für Schritt)
- 1. Vorbereiten der Entwicklungsumgebung
- 2. Fügen Sie die Authentifizierung mit Cognito hinzu.
- 3. Erstellen Sie eine serverlose API (REST oder GraphQL)
- 4. Schreiben einer Lambda-Funktion, die mit dem generativen KI-Modell interagiert
- 5. Streaming-/Echtzeit-Implementierung (optional)
- 6. Frontend-Hosting mit Amplify Hosting und CI/CD
- Sicherheits-, Schlüsselverwaltungs- und IAM-Richtlinien
- Auswahl eines Rechenzentrumsstandorts und Vergleich von Latenz und Compliance
- Model Hosting – Cloud-GPU vs. Managed API (Vor- und Nachteile)
- Leistungs- und Kostenoptimierung
- Abschließende Sicherheits- und Datenschutztipps
- Anwendungsbeispiele und Szenarien
- Praktische Tipps für den Einstieg in unser Unternehmen (mit über 85 Standorten)
- Kurze Zusammenfassung und Checkliste vor dem Verkaufsstart
- Technischer Support und Beratungsoptionen
- Häufig gestellte Fragen
Allgemeine Architektur
Dieser Leitfaden bietet eine empfohlene Architektur für die Entwicklung einer Webanwendung. Serverlos Diese Lösung nutzt *generative KI*-Funktionen. Ziel ist es, AWS Amplify für das Frontend und CI/CD mit serverlosen AWS-Diensten für das Backend zu kombinieren, um eine skalierbare, sichere und wartungsfreundliche Lösung zu schaffen.
- Frontend: React oder Next.js gehostet auf AWS Amplify Hosting + CDN (CloudFront).
- Authentifizierung: Amazon Cognito (Registrierung/Anmeldung + Föderation).
- API: API-Gateway (REST/HTTP) oder AppSync (GraphQL), das Anfragen an Lambda weiterleitet.
- Generative Logik: Lambda (Node/Python), die die Anfrage an das generative Modell sendet – das Modell kann verwaltet (OpenAI/Hugging Face/Bedrock) oder selbst auf einem GPU-Server mit Triton/TorchServe gehostet sein.
- Lagerung: S3 für Dateien, DynamoDB oder RDS für Metadaten/Sitzungen.
- Sicherheit und Netzwerk: WAF, Shield Advanced, IAM Least-Privilege, Secrets Manager.
- CDN und Caching: CloudFront + Lambda@Edge oder Caching von Headern zur Verbesserung der Latenz und Reduzierung der Kosten.
Praktische Schritte zur Erstellung einer App (Schritt für Schritt)
1. Vorbereiten der Entwicklungsumgebung
Installieren Sie die benötigten Basistools: Node.js, npm und die AWS Amplify CLI. Klonen Sie anschließend das Projekt-Repository und installieren Sie die Abhängigkeiten.
curl -sL https://deb.nodesource.com/setup_18.x | sudo -E bash -
sudo apt-get install -y nodejs
npm install -g @aws-amplify/cli
git clone <repo>
cd <repo>
npm installKonfigurieren Sie die AWS CLI und Amplify und initialisieren Sie das Amplify-Projekt:
aws configure
amplify configure
amplify init
2. Fügen Sie die Authentifizierung mit Cognito hinzu.
Mit Amplify können Sie schnell eine Authentifizierung hinzufügen. Sie haben die Wahl zwischen Standardeinstellungen und manueller Anpassung. Nutzen Sie bei Bedarf die Verbundauthentifizierung mit Google/Facebook und aktivieren Sie Passwortregeln, Multi-Faktor-Authentifizierung (MFA) und E-Mail-Verifizierung.
amplify add auth
# choose default or manual configuration
amplify push
3. Erstellen Sie eine serverlose API (REST oder GraphQL)
Mit Amplify können Sie eine API hinzufügen; Sie haben die Wahl zwischen REST mit Lambda oder GraphQL mit AppSync + DynamoDB.
amplify add api
# choose REST and Lambda function template
amplify pushOder für GraphQL:
amplify add api
# choose GraphQL + DynamoDB
amplify push
4. Schreiben einer Lambda-Funktion, die mit dem generativen KI-Modell interagiert
Lambda fungiert als Schnittstelle zwischen dem Frontend und dem generativen Modell. Wenn Sie einen externen Dienst wie OpenAI verwenden, bewahren Sie den API-Schlüssel sicher auf und senden Sie die Anfrage über Lambda.
const fetch = require('node-fetch');
exports.handler = async (event) => {
const prompt = JSON.parse(event.body).prompt;
const apiKey = process.env.OPENAI_API_KEY;
const res = await fetch('https://api.openai.com/v1/chat/completions', {
method: 'POST',
headers: { 'Authorization': `Bearer ${apiKey}`, 'Content-Type': 'application/json' },
body: JSON.stringify({
model: 'gpt-4o-mini',
messages: [{ role: 'user', content: prompt }]
})
});
const data = await res.json();
return { statusCode: 200, body: JSON.stringify(data) };
};Wenn Sie das Modell auf Ihrem GPU-Server hosten, sendet Lambda oder der Backend-Dienst die Anfrage an seinen Endpunkt:
const res = await fetch('https://gpu.example.com/inference', {
method: 'POST',
headers: { 'Authorization': `Bearer ${process.env.MODEL_TOKEN}`, 'Content-Type': 'application/json' },
body: JSON.stringify({ inputs: prompt })
});
5. Streaming-/Echtzeit-Implementierung (optional)
Für lange Antworten oder Streaming-Token verwenden Sie WebSocket oder Server-Sent Events. Auf AWS können Sie API Gateway WebSocket oder AppSync Subscriptions nutzen.
6. Frontend-Hosting mit Amplify Hosting und CI/CD
Amplify Hosting ermöglicht es Ihnen, CI/CD aus einem Git-Repository zu starten; jeder Push in einen bestimmten Branch löst einen automatischen Build und eine automatische Bereitstellung aus.
amplify hosting add
amplify publish
Sicherheits-, Schlüsselverwaltungs- und IAM-Richtlinien
Geheimnismanagement
Aus AWS Secrets Manager Dient zum Speichern von API-Schlüsseln und Geheimnissen. Die IAM-Rolle für Lambda sollte nur Lesezugriff auf das angegebene Geheimnis beinhalten.
Beispielhafte IAM-Richtlinien
Ein minimales Richtlinienbeispiel, das Lambda das Lesen eines bestimmten Geheimnisses ermöglicht:
{
"Version": "2012-10-17",
"Statement": [
{
"Effect": "Allow",
"Action": "secretsmanager:GetSecretValue",
"Resource": "arn:aws:secretsmanager:region:acct-id:secret:myOpenAIKey"
}
]
}
Schutz vor Angriffen und Inhaltssicherheit
Zum Schutz der Anwendung:
- Aktivierung AWS WAF Um schädliche Anfragen zu blockieren.
- Verwendung von AWS Shield (Standardmäßig aktiviert, für mehr Schutz als Shield Advanced).
- Auf API-Ebene sollten Sie die Ratenbegrenzung und die Nutzungspläne im API Gateway nutzen.
- Inhaltsmoderation Für produktive Ergebnisse: Antworten mit Moderationsmodellen (OpenAI/HuggingFace) prüfen und filtern.
Auswahl eines Rechenzentrumsstandorts und Vergleich von Latenz und Compliance
Die Wahl der richtigen Region ist aufgrund der Nutzerverteilung und der rechtlichen Anforderungen wichtig. Häufige Tipps:
- us-east-1: Schnelle Verbindungen nach Nordamerika und niedrigere Kosten für grundlegende Dienstleistungen.
- eu-west-1: Geeignet für Europa mit strengeren Datenschutzgesetzen.
- ap-southeast-1 / ap-northeast-1: Asiatische Regionen für Nutzer auf diesem Kontinent.
Für verteilte Benutzer empfiehlt sich der Einsatz eines CDN (CloudFront), um das Modell über mehrere Regionen zu verteilen oder Edge-Inferenz zu nutzen.
Falls erforderlich Sehr geringe Latenz Oder, falls Sie die vollständige Kontrolle über die Daten haben, können Sie das Modell auf dem GPU-Server des Unternehmens an über 85 Standorten hosten, was die Vorteile geringerer Latenz, Datenkontrolle und hardwareseitiger Anti-DDoS-Funktionen bietet.
Model Hosting – Cloud-GPU vs. Managed API (Vor- und Nachteile)
Gesamtvergleich zwischen verwalteten und selbstgehosteten Diensten auf GPUs:
- Verwaltet (OpenAI/Bedrock/Hugging Face):
- Vorteile: Wartungsfrei, einfache Modellaktualisierungen, schneller Zugriff.
- Nachteile: Kosten pro Anfrage, Datenschutzbedenken.
- Selbstgehostet auf der GPU:
- Vorteile: Feste Serverkosten, volle Kontrolle, dedizierte Einstellungen, Nutzung unserer Grafikserver für Rendering und KI.
- Nachteile: Bedarf an Management und Überwachung, manuelle Skalierbarkeit.
Empfehlung: Für PoC-Projekte verwenden Sie Managed Server; für hohe Datenmengen und geringe Latenzzeiten migrieren Sie zu GPU-Servern.
Leistungs- und Kostenoptimierung
- Dehnen: Nicht sensible Ausgaben im CloudFront- oder Redis/ElastiCache zwischenspeichern.
- Modellauswahl: Verwenden Sie das kleinstmögliche Modell für die tatsächlichen Anforderungen (destilliert oder quantisiert).
- Lambda-Grenze: Für längere Inferenzvorgänge verwenden Sie ECS/EKS oder einen GPU-Server, da Lambda zeitliche/CPU-Beschränkungen hat.
- Überwachung: CloudWatch für Protokolle und Metriken, X-Ray für Tracing.
- Kosteneinsparungen: Für Langzeitinferenzen können reservierte Instanzen oder dedizierte GPU-Server verwendet werden.
Beispiel für die Konfiguration eines Nginx-Reverse-Proxys zu Triton auf der GPU
Wenn das Modell auf einem GPU-Server läuft, können Sie einen Reverse-Proxy mit Nginx einrichten:
server {
listen 443 ssl;
server_name ai.example.com;
location / {
proxy_pass http://127.0.0.1:8000;
proxy_set_header Host $host;
proxy_set_header X-Real-IP $remote_addr;
}
}
Abschließende Sicherheits- und Datenschutztipps
Einige praktische Ratschläge zum Schutz von Daten und zur Einhaltung der Gesetze:
- Sensible Protokollierung: Vermeiden Sie es, sensible Eingabeaufforderungen direkt zu speichern oder verschlüsseln Sie diese.
- Datenaufbewahrung: Prüfen Sie die Anforderungen der DSGVO/des PDPA; verwenden Sie gegebenenfalls spezifische Standorte (Datenresidenz).
- Ein-/Ausgabe: Durch Validierung und Datenbereinigung lassen sich eine sofortige Dateneinschleusung und ein Datenabfluss verhindern.
Anwendungsbeispiele und Szenarien
- Anwendung zur Erstellung von Inhalten und zur Bearbeitung von Texten mit Vorschlägen und Zusammenfassungsfunktion.
- Intelligenter Chatbot mit in DynamoDB gespeichertem Sitzungskontext.
- Intelligentes Codierungstool für Entwickler mit Autovervollständigung und Refactoring-Vorschlägen.
- KI-Hybrid-Rendering-Tools, die den GPU-Server zur Verarbeitung von Bildern und Videos nutzen.
Praktische Tipps für den Einstieg in unser Unternehmen (mit über 85 Standorten)
Praktische Tipps zur Reduzierung der Latenz und zur Optimierung der Benutzererfahrung auf globaler Ebene:
- Für Benutzer in Europa, Asien oder Lateinamerika sollten nahegelegene Standorte verwendet werden, um die p99-Latenz zu reduzieren.
- Für Trading und Gaming empfiehlt sich die Verwendung eines dedizierten Trading-VPS und Gaming-VPS mit Anti-DDoS und BGP Anycast, um Ping und Paketverlust zu reduzieren.
- Nutzen Sie GPU Cloud für das Training und die Inferenz großer Modelle, um Kosten und Latenz zu optimieren.
- Nutzen Sie das Netzwerk und das CDN, um Inhalte zu verteilen und Ladezeiten zu verkürzen.
Kurze Zusammenfassung und Checkliste vor dem Verkaufsstart
- Amplify Hosting und CI sind aktiv.
- Cognito ist für die Authentifizierung konfiguriert und MFA ist bei Bedarf aktiviert.
- Lambda mit minimalem Zugriff und konfiguriertem Secrets Manager absichern.
- WAF und Ratenbegrenzung werden auf die API angewendet.
- CDN und Caching sollten aktiviert werden, um Nutzung und Latenz zu reduzieren.
- Der geeignete Standort wird anhand der Zielgruppe und der rechtlichen Erfordernisse ausgewählt.
- Es wurde ein Überwachungs- und Alarmierungsprogramm (CloudWatch + Slack/E-Mail) eingerichtet.
- Vor der öffentlichen Markteinführung sollten Last- und Penetrationstests durchgeführt werden.
Technischer Support und Beratungsoptionen
Um Ihnen die Auswahl der optimalen Kombination aus Region, GPU und Netzwerk zu erleichtern, stehen Ihnen Hosting-Pakete und Grafikserver an über 85 Standorten zur Verfügung. Unser technisches Team unterstützt Sie gerne bei der Modellmigration und der Einrichtung von CI/CD-Pipelines.









