Name: Rag Architect
Author: Jeffallan

Install

Terminal · npx

$npx skills add https://github.com/jeffallan/claude-skills --skill rag-architect

Works with Paperclip

How Rag Architect fits into a Paperclip company.

Rag Architect drops into any Paperclip agent that handles this kind of work. Assign it to a specialist inside a pre-configured PaperclipOrg company and the skill becomes available on every heartbeat — no prompt engineering, no tool wiring.

SaaS FactoryPaired

Pre-configured AI company — 18 agents, 18 skills, one-time purchase.

$27$59

Explore pack

Source file

SKILL.md194 linesmarkdown

Expand

1---2name: rag-architect3description: Designs and implements production-grade RAG systems by chunking documents, generating embeddings, configuring vector stores, building hybrid search pipelines, applying reranking, and evaluating retrieval quality. Use when building RAG systems, vector databases, or knowledge-grounded AI applications requiring semantic search, document retrieval, context augmentation, similarity search, or embedding-based indexing.4license: MIT5metadata:6  author: https://github.com/Jeffallan7  version: "1.1.0"8  domain: data-ml9  triggers: RAG, retrieval-augmented generation, vector search, embeddings, semantic search, vector database, document retrieval, knowledge base, context retrieval, similarity search10  role: architect11  scope: system-design12  output-format: architecture13  related-skills: python-pro, database-optimizer, monitoring-expert, api-designer14---15 16# RAG Architect17 18## Core Workflow19 201. **Requirements Analysis** — Identify retrieval needs, latency constraints, accuracy requirements, and scale212. **Vector Store Design** — Select database, schema design, indexing strategy, sharding approach223. **Chunking Strategy** — Document splitting, overlap, semantic boundaries, metadata enrichment234. **Retrieval Pipeline** — Embedding selection, query transformation, hybrid search, reranking245. **Evaluation & Iteration** — Metrics tracking, retrieval debugging, continuous optimization25 26For each step, validate before moving on (see checkpoints below).27 28## Reference Guide29 30Load detailed guidance based on context:31 32| Topic | Reference | Load When |33|-------|-----------|-----------|34| Vector Databases | `references/vector-databases.md` | Comparing Pinecone, Weaviate, Chroma, pgvector, Qdrant |35| Embedding Models | `references/embedding-models.md` | Selecting embeddings, fine-tuning, dimension trade-offs |36| Chunking Strategies | `references/chunking-strategies.md` | Document splitting, overlap, semantic chunking |37| Retrieval Optimization | `references/retrieval-optimization.md` | Hybrid search, reranking, query expansion, filtering |38| RAG Evaluation | `references/rag-evaluation.md` | Metrics, evaluation frameworks, debugging retrieval |39 40## Implementation Examples41 42### 1. Chunking Documents43 44```python45from langchain.text_splitter import RecursiveCharacterTextSplitter46 47# Evaluate chunk_size on your domain data — never use 512 blindly48splitter = RecursiveCharacterTextSplitter(49    chunk_size=800,50    chunk_overlap=100,51    separators=["\n\n", "\n", ". ", " "],52)53 54chunks = splitter.create_documents(55    texts=[doc.page_content for doc in raw_docs],56    metadatas=[{"source": doc.metadata["source"], "timestamp": doc.metadata.get("timestamp")} for doc in raw_docs],57)58```59 60**Checkpoint:** `assert all(c.metadata.get("source") for c in chunks), "Missing source metadata"`61 62### 2. Generating Embeddings & Indexing63 64```python65from openai import OpenAI66import qdrant_client67from qdrant_client.models import VectorParams, Distance, PointStruct68 69client = OpenAI()70qdrant = qdrant_client.QdrantClient("localhost", port=6333)71 72# Create collection73qdrant.recreate_collection(74    collection_name="knowledge_base",75    vectors_config=VectorParams(size=1536, distance=Distance.COSINE),76)77 78def embed_chunks(chunks: list[str], model: str = "text-embedding-3-small") -> list[list[float]]:79    response = client.embeddings.create(input=chunks, model=model)80    return [r.embedding for r in response.data]81 82# Idempotent upsert with deduplication via deterministic IDs83import hashlib, uuid84 85points = []86for i, chunk in enumerate(chunks):87    doc_id = str(uuid.UUID(hashlib.md5(chunk.page_content.encode()).hexdigest()))88    embedding = embed_chunks([chunk.page_content])[0]89    points.append(PointStruct(id=doc_id, vector=embedding, payload=chunk.metadata))90 91qdrant.upsert(collection_name="knowledge_base", points=points)92```93 94**Checkpoint:** `assert qdrant.count("knowledge_base").count == len(set(p.id for p in points)), "Deduplication failed"`95 96### 3. Hybrid Search (Vector + BM25)97 98```python99from qdrant_client.models import Filter, FieldCondition, MatchValue, SparseVector100from rank_bm25 import BM25Okapi101 102def hybrid_search(query: str, tenant_id: str, top_k: int = 20) -> list:103    # Dense retrieval104    query_embedding = embed_chunks([query])[0]105    tenant_filter = Filter(must=[FieldCondition(key="tenant_id", match=MatchValue(value=tenant_id))])106    dense_results = qdrant.search(107        collection_name="knowledge_base",108        query_vector=query_embedding,109        query_filter=tenant_filter,110        limit=top_k,111    )112 113    # Sparse retrieval (BM25)114    corpus = [r.payload.get("text", "") for r in dense_results]115    bm25 = BM25Okapi([doc.split() for doc in corpus])116    bm25_scores = bm25.get_scores(query.split())117 118    # Reciprocal Rank Fusion119    ranked = sorted(120        zip(dense_results, bm25_scores),121        key=lambda x: 0.6 * x[0].score + 0.4 * x[1],122        reverse=True,123    )124    return [r for r, _ in ranked[:top_k]]125```126 127**Checkpoint:** `assert len(hybrid_search("test query", tenant_id="demo")) > 0, "Hybrid search returned no results"`128 129### 4. Reranking Top-K Results130 131```python132import cohere133 134co = cohere.Client("YOUR_API_KEY")135 136def rerank(query: str, results: list, top_n: int = 5) -> list:137    docs = [r.payload.get("text", "") for r in results]138    reranked = co.rerank(query=query, documents=docs, top_n=top_n, model="rerank-english-v3.0")139    return [results[r.index] for r in reranked.results]140```141 142### 5. Retrieval Evaluation143 144```python145# Run precision@k and recall@k against a labeled evaluation set146# python evaluate.py --metrics precision@10 recall@10 mrr --collection knowledge_base147 148from ragas import evaluate149from ragas.metrics import context_precision, context_recall, faithfulness, answer_relevancy150from datasets import Dataset151 152eval_dataset = Dataset.from_dict({153    "question": questions,154    "contexts": retrieved_contexts,155    "answer": generated_answers,156    "ground_truth": ground_truth_answers,157})158 159results = evaluate(eval_dataset, metrics=[context_precision, context_recall, faithfulness, answer_relevancy])160print(results)161```162 163**Checkpoint:** Target `context_precision >= 0.7` and `context_recall >= 0.6` before moving to LLM integration.164 165## Constraints166 167### MUST DO168- Evaluate multiple embedding models on your domain data before committing169- Implement hybrid search (vector + keyword) for production systems170- Add metadata filters for multi-tenant or domain-specific retrieval171- Measure retrieval metrics (precision@k, recall@k, MRR, NDCG)172- Use reranking for top-k results before passing context to LLM173- Implement idempotent ingestion with deduplication (deterministic IDs)174- Monitor retrieval latency and quality over time175- Version embeddings and plan for model migration176 177### MUST NOT DO178- Use default chunk size (512) without evaluation on your domain data179- Skip metadata enrichment (source, timestamp, section)180- Ignore retrieval quality metrics in favor of only LLM output quality181- Store raw documents without preprocessing/cleaning182- Use cosine similarity alone for complex multi-domain retrieval183- Deploy without testing on production-like data volumes184- Forget to handle edge cases (empty results, malformed docs)185- Couple the embedding model tightly to application code186 187## Output Templates188 189When designing RAG architecture, deliver:1901. System architecture diagram (ingestion + retrieval pipelines)1912. Vector database selection with trade-off analysis1923. Chunking strategy with examples and rationale1934. Retrieval pipeline design (query → results flow)1945. Evaluation plan with metrics, benchmarks, and pass/fail thresholds

Related skills

Angular Architect

Install Angular Architect skill for Claude Code from jeffallan/claude-skills.

Api Designer

Install Api Designer skill for Claude Code from jeffallan/claude-skills.

Architecture Designer

Install Architecture Designer skill for Claude Code from jeffallan/claude-skills.