How Spark Optimization fits into a Paperclip company.

Spark Optimization drops into any Paperclip agent that handles this kind of work. Assign it to a specialist inside a pre-configured PaperclipOrg company and the skill becomes available on every heartbeat — no prompt engineering, no tool wiring.
SaaS FactoryPaired
Pre-configured AI company — 18 agents, 18 skills, one-time purchase.
$27$59
Explore pack
Source file
SKILL.md411 linesmarkdown
Expand
1---2name: spark-optimization3description: Optimize Apache Spark jobs with partitioning, caching, shuffle optimization, and memory tuning. Use when improving Spark performance, debugging slow jobs, or scaling data processing pipelines.4---5 6# Apache Spark Optimization7 8Production patterns for optimizing Apache Spark jobs including partitioning strategies, memory management, shuffle optimization, and performance tuning.9 10## When to Use This Skill11 12- Optimizing slow Spark jobs13- Tuning memory and executor configuration14- Implementing efficient partitioning strategies15- Debugging Spark performance issues16- Scaling Spark pipelines for large datasets17- Reducing shuffle and data skew18 19## Core Concepts20 21### 1. Spark Execution Model22 23```24Driver Program25    ↓26Job (triggered by action)27    ↓28Stages (separated by shuffles)29    ↓30Tasks (one per partition)31```32 33### 2. Key Performance Factors34 35| Factor            | Impact                | Solution                      |36| ----------------- | --------------------- | ----------------------------- |37| **Shuffle**       | Network I/O, disk I/O | Minimize wide transformations |38| **Data Skew**     | Uneven task duration  | Salting, broadcast joins      |39| **Serialization** | CPU overhead          | Use Kryo, columnar formats    |40| **Memory**        | GC pressure, spills   | Tune executor memory          |41| **Partitions**    | Parallelism           | Right-size partitions         |42 43## Quick Start44 45```python46from pyspark.sql import SparkSession47from pyspark.sql import functions as F48 49# Create optimized Spark session50spark = (SparkSession.builder51    .appName("OptimizedJob")52    .config("spark.sql.adaptive.enabled", "true")53    .config("spark.sql.adaptive.coalescePartitions.enabled", "true")54    .config("spark.sql.adaptive.skewJoin.enabled", "true")55    .config("spark.serializer", "org.apache.spark.serializer.KryoSerializer")56    .config("spark.sql.shuffle.partitions", "200")57    .getOrCreate())58 59# Read with optimized settings60df = (spark.read61    .format("parquet")62    .option("mergeSchema", "false")63    .load("s3://bucket/data/"))64 65# Efficient transformations66result = (df67    .filter(F.col("date") >= "2024-01-01")68    .select("id", "amount", "category")69    .groupBy("category")70    .agg(F.sum("amount").alias("total")))71 72result.write.mode("overwrite").parquet("s3://bucket/output/")73```74 75## Patterns76 77### Pattern 1: Optimal Partitioning78 79```python80# Calculate optimal partition count81def calculate_partitions(data_size_gb: float, partition_size_mb: int = 128) -> int:82    """83    Optimal partition size: 128MB - 256MB84    Too few: Under-utilization, memory pressure85    Too many: Task scheduling overhead86    """87    return max(int(data_size_gb * 1024 / partition_size_mb), 1)88 89# Repartition for even distribution90df_repartitioned = df.repartition(200, "partition_key")91 92# Coalesce to reduce partitions (no shuffle)93df_coalesced = df.coalesce(100)94 95# Partition pruning with predicate pushdown96df = (spark.read.parquet("s3://bucket/data/")97    .filter(F.col("date") == "2024-01-01"))  # Spark pushes this down98 99# Write with partitioning for future queries100(df.write101    .partitionBy("year", "month", "day")102    .mode("overwrite")103    .parquet("s3://bucket/partitioned_output/"))104```105 106### Pattern 2: Join Optimization107 108```python109from pyspark.sql import functions as F110from pyspark.sql.types import *111 112# 1. Broadcast Join - Small table joins113# Best when: One side < 10MB (configurable)114small_df = spark.read.parquet("s3://bucket/small_table/")  # < 10MB115large_df = spark.read.parquet("s3://bucket/large_table/")  # TBs116 117# Explicit broadcast hint118result = large_df.join(119    F.broadcast(small_df),120    on="key",121    how="left"122)123 124# 2. Sort-Merge Join - Default for large tables125# Requires shuffle, but handles any size126result = large_df1.join(large_df2, on="key", how="inner")127 128# 3. Bucket Join - Pre-sorted, no shuffle at join time129# Write bucketed tables130(df.write131    .bucketBy(200, "customer_id")132    .sortBy("customer_id")133    .mode("overwrite")134    .saveAsTable("bucketed_orders"))135 136# Join bucketed tables (no shuffle!)137orders = spark.table("bucketed_orders")138customers = spark.table("bucketed_customers")  # Same bucket count139result = orders.join(customers, on="customer_id")140 141# 4. Skew Join Handling142# Enable AQE skew join optimization143spark.conf.set("spark.sql.adaptive.skewJoin.enabled", "true")144spark.conf.set("spark.sql.adaptive.skewJoin.skewedPartitionFactor", "5")145spark.conf.set("spark.sql.adaptive.skewJoin.skewedPartitionThresholdInBytes", "256MB")146 147# Manual salting for severe skew148def salt_join(df_skewed, df_other, key_col, num_salts=10):149    """Add salt to distribute skewed keys"""150    # Add salt to skewed side151    df_salted = df_skewed.withColumn(152        "salt",153        (F.rand() * num_salts).cast("int")154    ).withColumn(155        "salted_key",156        F.concat(F.col(key_col), F.lit("_"), F.col("salt"))157    )158 159    # Explode other side with all salts160    df_exploded = df_other.crossJoin(161        spark.range(num_salts).withColumnRenamed("id", "salt")162    ).withColumn(163        "salted_key",164        F.concat(F.col(key_col), F.lit("_"), F.col("salt"))165    )166 167    # Join on salted key168    return df_salted.join(df_exploded, on="salted_key", how="inner")169```170 171### Pattern 3: Caching and Persistence172 173```python174from pyspark import StorageLevel175 176# Cache when reusing DataFrame multiple times177df = spark.read.parquet("s3://bucket/data/")178df_filtered = df.filter(F.col("status") == "active")179 180# Cache in memory (MEMORY_AND_DISK is default)181df_filtered.cache()182 183# Or with specific storage level184df_filtered.persist(StorageLevel.MEMORY_AND_DISK_SER)185 186# Force materialization187df_filtered.count()188 189# Use in multiple actions190agg1 = df_filtered.groupBy("category").count()191agg2 = df_filtered.groupBy("region").sum("amount")192 193# Unpersist when done194df_filtered.unpersist()195 196# Storage levels explained:197# MEMORY_ONLY - Fast, but may not fit198# MEMORY_AND_DISK - Spills to disk if needed (recommended)199# MEMORY_ONLY_SER - Serialized, less memory, more CPU200# DISK_ONLY - When memory is tight201# OFF_HEAP - Tungsten off-heap memory202 203# Checkpoint for complex lineage204spark.sparkContext.setCheckpointDir("s3://bucket/checkpoints/")205df_complex = (df206    .join(other_df, "key")207    .groupBy("category")208    .agg(F.sum("amount")))209df_complex.checkpoint()  # Breaks lineage, materializes210```211 212### Pattern 4: Memory Tuning213 214```python215# Executor memory configuration216# spark-submit --executor-memory 8g --executor-cores 4217 218# Memory breakdown (8GB executor):219# - spark.memory.fraction = 0.6 (60% = 4.8GB for execution + storage)220#   - spark.memory.storageFraction = 0.5 (50% of 4.8GB = 2.4GB for cache)221#   - Remaining 2.4GB for execution (shuffles, joins, sorts)222# - 40% = 3.2GB for user data structures and internal metadata223 224spark = (SparkSession.builder225    .config("spark.executor.memory", "8g")226    .config("spark.executor.memoryOverhead", "2g")  # For non-JVM memory227    .config("spark.memory.fraction", "0.6")228    .config("spark.memory.storageFraction", "0.5")229    .config("spark.sql.shuffle.partitions", "200")230    # For memory-intensive operations231    .config("spark.sql.autoBroadcastJoinThreshold", "50MB")232    # Prevent OOM on large shuffles233    .config("spark.sql.files.maxPartitionBytes", "128MB")234    .getOrCreate())235 236# Monitor memory usage237def print_memory_usage(spark):238    """Print current memory usage"""239    sc = spark.sparkContext240    for executor in sc._jsc.sc().getExecutorMemoryStatus().keySet().toArray():241        mem_status = sc._jsc.sc().getExecutorMemoryStatus().get(executor)242        total = mem_status._1() / (1024**3)243        free = mem_status._2() / (1024**3)244        print(f"{executor}: {total:.2f}GB total, {free:.2f}GB free")245```246 247### Pattern 5: Shuffle Optimization248 249```python250# Reduce shuffle data size251spark.conf.set("spark.sql.shuffle.partitions", "auto")  # With AQE252spark.conf.set("spark.shuffle.compress", "true")253spark.conf.set("spark.shuffle.spill.compress", "true")254 255# Pre-aggregate before shuffle256df_optimized = (df257    # Local aggregation first (combiner)258    .groupBy("key", "partition_col")259    .agg(F.sum("value").alias("partial_sum"))260    # Then global aggregation261    .groupBy("key")262    .agg(F.sum("partial_sum").alias("total")))263 264# Avoid shuffle with map-side operations265# BAD: Shuffle for each distinct266distinct_count = df.select("category").distinct().count()267 268# GOOD: Approximate distinct (no shuffle)269approx_count = df.select(F.approx_count_distinct("category")).collect()[0][0]270 271# Use coalesce instead of repartition when reducing partitions272df_reduced = df.coalesce(10)  # No shuffle273 274# Optimize shuffle with compression275spark.conf.set("spark.io.compression.codec", "lz4")  # Fast compression276```277 278### Pattern 6: Data Format Optimization279 280```python281# Parquet optimizations282(df.write283    .option("compression", "snappy")  # Fast compression284    .option("parquet.block.size", 128 * 1024 * 1024)  # 128MB row groups285    .parquet("s3://bucket/output/"))286 287# Column pruning - only read needed columns288df = (spark.read.parquet("s3://bucket/data/")289    .select("id", "amount", "date"))  # Spark only reads these columns290 291# Predicate pushdown - filter at storage level292df = (spark.read.parquet("s3://bucket/partitioned/year=2024/")293    .filter(F.col("status") == "active"))  # Pushed to Parquet reader294 295# Delta Lake optimizations296(df.write297    .format("delta")298    .option("optimizeWrite", "true")  # Bin-packing299    .option("autoCompact", "true")  # Compact small files300    .mode("overwrite")301    .save("s3://bucket/delta_table/"))302 303# Z-ordering for multi-dimensional queries304spark.sql("""305    OPTIMIZE delta.`s3://bucket/delta_table/`306    ZORDER BY (customer_id, date)307""")308```309 310### Pattern 7: Monitoring and Debugging311 312```python313# Enable detailed metrics314spark.conf.set("spark.sql.codegen.wholeStage", "true")315spark.conf.set("spark.sql.execution.arrow.pyspark.enabled", "true")316 317# Explain query plan318df.explain(mode="extended")319# Modes: simple, extended, codegen, cost, formatted320 321# Get physical plan statistics322df.explain(mode="cost")323 324# Monitor task metrics325def analyze_stage_metrics(spark):326    """Analyze recent stage metrics"""327    status_tracker = spark.sparkContext.statusTracker()328 329    for stage_id in status_tracker.getActiveStageIds():330        stage_info = status_tracker.getStageInfo(stage_id)331        print(f"Stage {stage_id}:")332        print(f"  Tasks: {stage_info.numTasks}")333        print(f"  Completed: {stage_info.numCompletedTasks}")334        print(f"  Failed: {stage_info.numFailedTasks}")335 336# Identify data skew337def check_partition_skew(df):338    """Check for partition skew"""339    partition_counts = (df340        .withColumn("partition_id", F.spark_partition_id())341        .groupBy("partition_id")342        .count()343        .orderBy(F.desc("count")))344 345    partition_counts.show(20)346 347    stats = partition_counts.select(348        F.min("count").alias("min"),349        F.max("count").alias("max"),350        F.avg("count").alias("avg"),351        F.stddev("count").alias("stddev")352    ).collect()[0]353 354    skew_ratio = stats["max"] / stats["avg"]355    print(f"Skew ratio: {skew_ratio:.2f}x (>2x indicates skew)")356```357 358## Configuration Cheat Sheet359 360```python361# Production configuration template362spark_configs = {363    # Adaptive Query Execution (AQE)364    "spark.sql.adaptive.enabled": "true",365    "spark.sql.adaptive.coalescePartitions.enabled": "true",366    "spark.sql.adaptive.skewJoin.enabled": "true",367 368    # Memory369    "spark.executor.memory": "8g",370    "spark.executor.memoryOverhead": "2g",371    "spark.memory.fraction": "0.6",372    "spark.memory.storageFraction": "0.5",373 374    # Parallelism375    "spark.sql.shuffle.partitions": "200",376    "spark.default.parallelism": "200",377 378    # Serialization379    "spark.serializer": "org.apache.spark.serializer.KryoSerializer",380    "spark.sql.execution.arrow.pyspark.enabled": "true",381 382    # Compression383    "spark.io.compression.codec": "lz4",384    "spark.shuffle.compress": "true",385 386    # Broadcast387    "spark.sql.autoBroadcastJoinThreshold": "50MB",388 389    # File handling390    "spark.sql.files.maxPartitionBytes": "128MB",391    "spark.sql.files.openCostInBytes": "4MB",392}393```394 395## Best Practices396 397### Do's398 399- **Enable AQE** - Adaptive query execution handles many issues400- **Use Parquet/Delta** - Columnar formats with compression401- **Broadcast small tables** - Avoid shuffle for small joins402- **Monitor Spark UI** - Check for skew, spills, GC403- **Right-size partitions** - 128MB - 256MB per partition404 405### Don'ts406 407- **Don't collect large data** - Keep data distributed408- **Don't use UDFs unnecessarily** - Use built-in functions409- **Don't over-cache** - Memory is limited410- **Don't ignore data skew** - It dominates job time411- **Don't use `.count()` for existence** - Use `.take(1)` or `.isEmpty()`
Related skills
Accessibility Compliance

This walks you through implementing proper WCAG 2.2 compliance with real code patterns for screen readers, keyboard navigation, and mobile accessibility. It cov
Airflow Dag Patterns

If you're building data pipelines with Airflow, this skill gives you production-ready DAG patterns that actually work in the real world. It covers TaskFlow API
Angular Migration

Migrating from AngularJS to Angular is notoriously painful, and this skill tackles the practical stuff that makes or breaks these projects. It covers hybrid app