Install
Terminal · npx
$npx skills add https://github.com/affaan-m/everything-claude-code --skill clickhouse-io
Works with Paperclip
How Clickhouse Io fits into a Paperclip company.

Clickhouse Io drops into any Paperclip agent that handles this kind of work. Assign it to a specialist inside a pre-configured PaperclipOrg company and the skill becomes available on every heartbeat — no prompt engineering, no tool wiring.
SaaS FactoryPaired
Pre-configured AI company — 18 agents, 18 skills, one-time purchase.
$27$59
Explore pack
Source file
SKILL.md439 linesmarkdown
Expand
1---2name: clickhouse-io3description: ClickHouse database patterns, query optimization, analytics, and data engineering best practices for high-performance analytical workloads.4origin: ECC5---6 7# ClickHouse Analytics Patterns8 9ClickHouse-specific patterns for high-performance analytics and data engineering.10 11## When to Activate12 13- Designing ClickHouse table schemas (MergeTree engine selection)14- Writing analytical queries (aggregations, window functions, joins)15- Optimizing query performance (partition pruning, projections, materialized views)16- Ingesting large volumes of data (batch inserts, Kafka integration)17- Migrating from PostgreSQL/MySQL to ClickHouse for analytics18- Implementing real-time dashboards or time-series analytics19 20## Overview21 22ClickHouse is a column-oriented database management system (DBMS) for online analytical processing (OLAP). It's optimized for fast analytical queries on large datasets.23 24**Key Features:**25- Column-oriented storage26- Data compression27- Parallel query execution28- Distributed queries29- Real-time analytics30 31## Table Design Patterns32 33### MergeTree Engine (Most Common)34 35```sql36CREATE TABLE markets_analytics (37    date Date,38    market_id String,39    market_name String,40    volume UInt64,41    trades UInt32,42    unique_traders UInt32,43    avg_trade_size Float64,44    created_at DateTime45) ENGINE = MergeTree()46PARTITION BY toYYYYMM(date)47ORDER BY (date, market_id)48SETTINGS index_granularity = 8192;49```50 51### ReplacingMergeTree (Deduplication)52 53```sql54-- For data that may have duplicates (e.g., from multiple sources)55CREATE TABLE user_events (56    event_id String,57    user_id String,58    event_type String,59    timestamp DateTime,60    properties String61) ENGINE = ReplacingMergeTree()62PARTITION BY toYYYYMM(timestamp)63ORDER BY (user_id, event_id, timestamp)64PRIMARY KEY (user_id, event_id);65```66 67### AggregatingMergeTree (Pre-aggregation)68 69```sql70-- For maintaining aggregated metrics71CREATE TABLE market_stats_hourly (72    hour DateTime,73    market_id String,74    total_volume AggregateFunction(sum, UInt64),75    total_trades AggregateFunction(count, UInt32),76    unique_users AggregateFunction(uniq, String)77) ENGINE = AggregatingMergeTree()78PARTITION BY toYYYYMM(hour)79ORDER BY (hour, market_id);80 81-- Query aggregated data82SELECT83    hour,84    market_id,85    sumMerge(total_volume) AS volume,86    countMerge(total_trades) AS trades,87    uniqMerge(unique_users) AS users88FROM market_stats_hourly89WHERE hour >= toStartOfHour(now() - INTERVAL 24 HOUR)90GROUP BY hour, market_id91ORDER BY hour DESC;92```93 94## Query Optimization Patterns95 96### Efficient Filtering97 98```sql99-- PASS: GOOD: Use indexed columns first100SELECT *101FROM markets_analytics102WHERE date >= '2025-01-01'103  AND market_id = 'market-123'104  AND volume > 1000105ORDER BY date DESC106LIMIT 100;107 108-- FAIL: BAD: Filter on non-indexed columns first109SELECT *110FROM markets_analytics111WHERE volume > 1000112  AND market_name LIKE '%election%'113  AND date >= '2025-01-01';114```115 116### Aggregations117 118```sql119-- PASS: GOOD: Use ClickHouse-specific aggregation functions120SELECT121    toStartOfDay(created_at) AS day,122    market_id,123    sum(volume) AS total_volume,124    count() AS total_trades,125    uniq(trader_id) AS unique_traders,126    avg(trade_size) AS avg_size127FROM trades128WHERE created_at >= today() - INTERVAL 7 DAY129GROUP BY day, market_id130ORDER BY day DESC, total_volume DESC;131 132-- PASS: Use quantile for percentiles (more efficient than percentile)133SELECT134    quantile(0.50)(trade_size) AS median,135    quantile(0.95)(trade_size) AS p95,136    quantile(0.99)(trade_size) AS p99137FROM trades138WHERE created_at >= now() - INTERVAL 1 HOUR;139```140 141### Window Functions142 143```sql144-- Calculate running totals145SELECT146    date,147    market_id,148    volume,149    sum(volume) OVER (150        PARTITION BY market_id151        ORDER BY date152        ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW153    ) AS cumulative_volume154FROM markets_analytics155WHERE date >= today() - INTERVAL 30 DAY156ORDER BY market_id, date;157```158 159## Data Insertion Patterns160 161### Bulk Insert (Recommended)162 163```typescript164import { ClickHouse } from 'clickhouse'165 166const clickhouse = new ClickHouse({167  url: process.env.CLICKHOUSE_URL,168  port: 8123,169  basicAuth: {170    username: process.env.CLICKHOUSE_USER,171    password: process.env.CLICKHOUSE_PASSWORD172  }173})174 175// PASS: Batch insert (efficient)176async function bulkInsertTrades(trades: Trade[]) {177  const values = trades.map(trade => `(178    '${trade.id}',179    '${trade.market_id}',180    '${trade.user_id}',181    ${trade.amount},182    '${trade.timestamp.toISOString()}'183  )`).join(',')184 185  await clickhouse.query(`186    INSERT INTO trades (id, market_id, user_id, amount, timestamp)187    VALUES ${values}188  `).toPromise()189}190 191// FAIL: Individual inserts (slow)192async function insertTrade(trade: Trade) {193  // Don't do this in a loop!194  await clickhouse.query(`195    INSERT INTO trades VALUES ('${trade.id}', ...)196  `).toPromise()197}198```199 200### Streaming Insert201 202```typescript203// For continuous data ingestion204import { createWriteStream } from 'fs'205import { pipeline } from 'stream/promises'206 207async function streamInserts() {208  const stream = clickhouse.insert('trades').stream()209 210  for await (const batch of dataSource) {211    stream.write(batch)212  }213 214  await stream.end()215}216```217 218## Materialized Views219 220### Real-time Aggregations221 222```sql223-- Create materialized view for hourly stats224CREATE MATERIALIZED VIEW market_stats_hourly_mv225TO market_stats_hourly226AS SELECT227    toStartOfHour(timestamp) AS hour,228    market_id,229    sumState(amount) AS total_volume,230    countState() AS total_trades,231    uniqState(user_id) AS unique_users232FROM trades233GROUP BY hour, market_id;234 235-- Query the materialized view236SELECT237    hour,238    market_id,239    sumMerge(total_volume) AS volume,240    countMerge(total_trades) AS trades,241    uniqMerge(unique_users) AS users242FROM market_stats_hourly243WHERE hour >= now() - INTERVAL 24 HOUR244GROUP BY hour, market_id;245```246 247## Performance Monitoring248 249### Query Performance250 251```sql252-- Check slow queries253SELECT254    query_id,255    user,256    query,257    query_duration_ms,258    read_rows,259    read_bytes,260    memory_usage261FROM system.query_log262WHERE type = 'QueryFinish'263  AND query_duration_ms > 1000264  AND event_time >= now() - INTERVAL 1 HOUR265ORDER BY query_duration_ms DESC266LIMIT 10;267```268 269### Table Statistics270 271```sql272-- Check table sizes273SELECT274    database,275    table,276    formatReadableSize(sum(bytes)) AS size,277    sum(rows) AS rows,278    max(modification_time) AS latest_modification279FROM system.parts280WHERE active281GROUP BY database, table282ORDER BY sum(bytes) DESC;283```284 285## Common Analytics Queries286 287### Time Series Analysis288 289```sql290-- Daily active users291SELECT292    toDate(timestamp) AS date,293    uniq(user_id) AS daily_active_users294FROM events295WHERE timestamp >= today() - INTERVAL 30 DAY296GROUP BY date297ORDER BY date;298 299-- Retention analysis300SELECT301    signup_date,302    countIf(days_since_signup = 0) AS day_0,303    countIf(days_since_signup = 1) AS day_1,304    countIf(days_since_signup = 7) AS day_7,305    countIf(days_since_signup = 30) AS day_30306FROM (307    SELECT308        user_id,309        min(toDate(timestamp)) AS signup_date,310        toDate(timestamp) AS activity_date,311        dateDiff('day', signup_date, activity_date) AS days_since_signup312    FROM events313    GROUP BY user_id, activity_date314)315GROUP BY signup_date316ORDER BY signup_date DESC;317```318 319### Funnel Analysis320 321```sql322-- Conversion funnel323SELECT324    countIf(step = 'viewed_market') AS viewed,325    countIf(step = 'clicked_trade') AS clicked,326    countIf(step = 'completed_trade') AS completed,327    round(clicked / viewed * 100, 2) AS view_to_click_rate,328    round(completed / clicked * 100, 2) AS click_to_completion_rate329FROM (330    SELECT331        user_id,332        session_id,333        event_type AS step334    FROM events335    WHERE event_date = today()336)337GROUP BY session_id;338```339 340### Cohort Analysis341 342```sql343-- User cohorts by signup month344SELECT345    toStartOfMonth(signup_date) AS cohort,346    toStartOfMonth(activity_date) AS month,347    dateDiff('month', cohort, month) AS months_since_signup,348    count(DISTINCT user_id) AS active_users349FROM (350    SELECT351        user_id,352        min(toDate(timestamp)) OVER (PARTITION BY user_id) AS signup_date,353        toDate(timestamp) AS activity_date354    FROM events355)356GROUP BY cohort, month, months_since_signup357ORDER BY cohort, months_since_signup;358```359 360## Data Pipeline Patterns361 362### ETL Pattern363 364```typescript365// Extract, Transform, Load366async function etlPipeline() {367  // 1. Extract from source368  const rawData = await extractFromPostgres()369 370  // 2. Transform371  const transformed = rawData.map(row => ({372    date: new Date(row.created_at).toISOString().split('T')[0],373    market_id: row.market_slug,374    volume: parseFloat(row.total_volume),375    trades: parseInt(row.trade_count)376  }))377 378  // 3. Load to ClickHouse379  await bulkInsertToClickHouse(transformed)380}381 382// Run periodically383setInterval(etlPipeline, 60 * 60 * 1000)  // Every hour384```385 386### Change Data Capture (CDC)387 388```typescript389// Listen to PostgreSQL changes and sync to ClickHouse390import { Client } from 'pg'391 392const pgClient = new Client({ connectionString: process.env.DATABASE_URL })393 394pgClient.query('LISTEN market_updates')395 396pgClient.on('notification', async (msg) => {397  const update = JSON.parse(msg.payload)398 399  await clickhouse.insert('market_updates', [400    {401      market_id: update.id,402      event_type: update.operation,  // INSERT, UPDATE, DELETE403      timestamp: new Date(),404      data: JSON.stringify(update.new_data)405    }406  ])407})408```409 410## Best Practices411 412### 1. Partitioning Strategy413- Partition by time (usually month or day)414- Avoid too many partitions (performance impact)415- Use DATE type for partition key416 417### 2. Ordering Key418- Put most frequently filtered columns first419- Consider cardinality (high cardinality first)420- Order impacts compression421 422### 3. Data Types423- Use smallest appropriate type (UInt32 vs UInt64)424- Use LowCardinality for repeated strings425- Use Enum for categorical data426 427### 4. Avoid428- SELECT * (specify columns)429- FINAL (merge data before query instead)430- Too many JOINs (denormalize for analytics)431- Small frequent inserts (batch instead)432 433### 5. Monitoring434- Track query performance435- Monitor disk usage436- Check merge operations437- Review slow query log438 439**Remember**: ClickHouse excels at analytical workloads. Design tables for your query patterns, batch inserts, and leverage materialized views for real-time aggregations.
Related skills
Agent Eval

Install Agent Eval skill for Claude Code from affaan-m/everything-claude-code.
Agent Harness Construction

Install Agent Harness Construction skill for Claude Code from affaan-m/everything-claude-code.
Agent Payment X402

Install Agent Payment X402 skill for Claude Code from affaan-m/everything-claude-code.