From a9f147f8e5da92164420d897c5ab92884d9d4264 Mon Sep 17 00:00:00 2001 From: Vidit-Ostwal Date: Tue, 23 Sep 2025 22:36:30 +0530 Subject: [PATCH 1/3] Added prompt caching idea --- docs/en/concepts/llms.mdx | 28 ++++++++++++++++++++++++++++ 1 file changed, 28 insertions(+) diff --git a/docs/en/concepts/llms.mdx b/docs/en/concepts/llms.mdx index 1e04fb1cb0..4b58a62211 100644 --- a/docs/en/concepts/llms.mdx +++ b/docs/en/concepts/llms.mdx @@ -709,6 +709,34 @@ In this section, you'll find detailed examples that help you select, configure, +## Prompt Caching Via LiteLLM +Prompt caching is a technique that improves large language model (LLM) efficiency by storing and reusing static parts of a prompt, such as system instructions or template text, to avoid repeated processing. When a user sends a prompt with a known, static prefix, the system reuses the cached portion, significantly reducing computation, latency, and cost for subsequent interactions. This is particularly beneficial for applications with repetitive prompts, like chatbots or document analysis tools, allowing for faster and more cost-effective operation. + +LiteLLM currently supports: + +- OpenAI (`openai/`) +- Anthropic API (`anthropic/`) +- Bedrock + - `bedrock/` + - `bedrock/invoke/` + - `bedrock/converse` +- Deepseek API (`deepseek/`) + +Here is how you can enable it +```python code +from crewai import LLM + +llm = LLM( + model="bedrock/anthropic.claude-3-7-sonnet-20250219-v1:0", + reasoning_effort='high', + cache_control_injection_points = [{ + "location" : "message", + "role" : "system" + }] +) +``` +For more information check out the Litellm docs [here](https://docs.litellm.ai/docs/tutorials/prompt_caching) + ## Streaming Responses CrewAI supports streaming responses from LLMs, allowing your application to receive and process outputs in real-time as they're generated. From 908cc59f71beb15e6819f6eed81b757ac63290c9 Mon Sep 17 00:00:00 2001 From: Vidit-Ostwal Date: Fri, 31 Oct 2025 00:17:02 +0530 Subject: [PATCH 2/3] COMMIT - Updated Korean translation for prompt caching section. --- docs/ko/concepts/llms.mdx | 30 ++++++++++++++++++++++++++++++ 1 file changed, 30 insertions(+) diff --git a/docs/ko/concepts/llms.mdx b/docs/ko/concepts/llms.mdx index 36bf0dbd03..032251e6e1 100644 --- a/docs/ko/concepts/llms.mdx +++ b/docs/ko/concepts/llms.mdx @@ -707,6 +707,36 @@ CrewAI는 고유한 기능, 인증 방법, 모델 역량을 제공하는 다양 + + +## 프롬프트 캐싱을 통한 LiteLLM +프롬프트 캐싱은 시스템 지침이나 템플릿 텍스트와 같은 프롬프트의 정적 부분을 저장하고 재사용하여 대형 언어 모델(LLM)의 효율성을 개선하는 기법입니다. 사용자가 알려진 정적 접두사를 가진 프롬프트를 전송할 때 시스템은 캐시된 부분을 재사용하여 후속 상호 작용의 계산, 대기 시간 및 비용을 크게 줄입니다. 이는 반복적인 프롬프트가 있는 애플리케이션, 예를 들어 챗봇이나 문서 분석 도구에 특히 유용하여 더 빠르고 경제적인 작업을 가능하게 합니다. + +LiteLLM은 현재 다음을 지원합니다: + +- OpenAI (`openai/`) +- Anthropic API (`anthropic/`) +- Bedrock + - `bedrock/` + - `bedrock/invoke/` + - `bedrock/converse` +- Deepseek API (`deepseek/`) + +다음은 이를 활성화하는 방법입니다: +```python +from crewai import LLM + +llm = LLM( + model="bedrock/anthropic.claude-3-7-sonnet-20250219-v1:0", + reasoning_effort='high', + cache_control_injection_points = [{ + "location" : "message", + "role" : "system" + }] +) +``` +자세한 내용은 Litellm 문서를 확인하세요 [여기](https://docs.litellm.ai/docs/tutorials/prompt_caching)에서. + ## 스트리밍 응답 CrewAI는 LLM의 스트리밍 응답을 지원하여, 애플리케이션이 출력물을 생성되는 즉시 실시간으로 수신하고 처리할 수 있습니다. From bde7ca30307447b7bb1cff31f9332a53f44cc8eb Mon Sep 17 00:00:00 2001 From: Vidit-Ostwal Date: Fri, 31 Oct 2025 00:17:14 +0530 Subject: [PATCH 3/3] COMMIT - Updated Portuguese (Brazil) translation for prompt caching section. --- docs/pt-BR/concepts/llms.mdx | 30 ++++++++++++++++++++++++++++++ 1 file changed, 30 insertions(+) diff --git a/docs/pt-BR/concepts/llms.mdx b/docs/pt-BR/concepts/llms.mdx index 0f02910089..96a729d8d7 100644 --- a/docs/pt-BR/concepts/llms.mdx +++ b/docs/pt-BR/concepts/llms.mdx @@ -684,6 +684,36 @@ Nesta seção, você encontrará exemplos detalhados que ajudam a selecionar, co + + +## Cache de Prompt via LiteLLM +O cache de prompt é uma técnica que melhora a eficiência do modelo de linguagem grande (LLM) armazenando e reutilizando partes estáticas de um prompt, como instruções do sistema ou texto de modelo, para evitar processamento repetido. Quando um usuário envia um prompt com um prefixo estático conhecido, o sistema reutiliza a parte em cache, reduzindo significativamente a computação, latência e custo para interações subsequentes. Isso é particularmente benéfico para aplicações com prompts repetitivos, como chatbots ou ferramentas de análise de documentos, permitindo operações mais rápidas e econômicas. + +O LiteLLM atualmente suporta: + +- OpenAI (`openai/`) +- API Anthropic (`anthropic/`) +- Bedrock + - `bedrock/` + - `bedrock/invoke/` + - `bedrock/converse` +- API Deepseek (`deepseek/`) + +Aqui está como você pode habilitá-lo: +```python +from crewai import LLM + +llm = LLM( + model="bedrock/anthropic.claude-3-7-sonnet-20250219-v1:0", + reasoning_effort='high', + cache_control_injection_points=[{ + "location": "message", + "role": "system" + }] +) +``` +Para mais informações, consulte a documentação do LiteLLM [aqui](https://docs.litellm.ai/docs/tutorials/prompt_caching). + ## Respostas em streaming O CrewAI suporta respostas em streaming de LLMs, permitindo que sua aplicação receba e processe saídas em tempo real assim que são geradas.