Name: Speech Recognition
Author: Dpearson2699
Install
Terminal · npx
$npx skills add https://github.com/vercel-labs/agent-skills --skill vercel-react-native-skills
Works with Paperclip
How Speech Recognition fits into a Paperclip company.

Speech Recognition drops into any Paperclip agent that handles this kind of work. Assign it to a specialist inside a pre-configured PaperclipOrg company and the skill becomes available on every heartbeat — no prompt engineering, no tool wiring.
SaaS FactoryPaired
Pre-configured AI company — 18 agents, 18 skills, one-time purchase.
$27$59
Explore pack
Source file
SKILL.md485 linesmarkdown
Expand
1---2name: speech-recognition3description: "Transcribe speech to text using the Speech framework. Use when implementing live microphone transcription with AVAudioEngine, recognizing pre-recorded audio files, configuring on-device vs server-based recognition, handling authorization flows, or adopting the new SpeechAnalyzer API (iOS 26+) for modern async/await speech-to-text."4---5 6# Speech Recognition7 8Transcribe live and pre-recorded audio to text using Apple's Speech framework.9Covers `SFSpeechRecognizer` (iOS 10+) and the new `SpeechAnalyzer` API (iOS 26+).10 11## Contents12 13- [SpeechAnalyzer (iOS 26+)](#speechanalyzer-ios-26)14- [SFSpeechRecognizer Setup](#sfspeechrecognizer-setup)15- [Authorization](#authorization)16- [Live Microphone Transcription](#live-microphone-transcription)17- [Pre-Recorded Audio File Recognition](#pre-recorded-audio-file-recognition)18- [On-Device vs Server Recognition](#on-device-vs-server-recognition)19- [Handling Results](#handling-results)20- [Common Mistakes](#common-mistakes)21- [Review Checklist](#review-checklist)22- [References](#references)23 24## SpeechAnalyzer (iOS 26+)25 26`SpeechAnalyzer` is an actor-based API introduced in iOS 26 that replaces27`SFSpeechRecognizer` for new projects. It uses Swift concurrency, `AsyncSequence`28for results, and supports modular analysis via `SpeechTranscriber`.29 30### Basic transcription with SpeechAnalyzer31 32```swift33import Speech34 35// 1. Create a transcriber module36guard let locale = SpeechTranscriber.supportedLocale(37    equivalentTo: Locale.current38) else { return }39let transcriber = SpeechTranscriber(locale: locale, preset: .offlineTranscription)40 41// 2. Ensure assets are installed42if let request = try await AssetInventory.assetInstallationRequest(43    supporting: [transcriber]44) {45    try await request.downloadAndInstall()46}47 48// 3. Create input stream and analyzer49let (inputSequence, inputBuilder) = AsyncStream.makeStream(of: AnalyzerInput.self)50let audioFormat = await SpeechAnalyzer.bestAvailableAudioFormat(51    compatibleWith: [transcriber]52)53let analyzer = SpeechAnalyzer(modules: [transcriber])54 55// 4. Feed audio buffers (from AVAudioEngine or file)56Task {57    // Append PCM buffers converted to audioFormat58    let pcmBuffer: AVAudioPCMBuffer = // ... your audio buffer59    inputBuilder.yield(AnalyzerInput(buffer: pcmBuffer))60    inputBuilder.finish()61}62 63// 5. Consume results64Task {65    for try await result in transcriber.results {66        let text = String(result.text.characters)67        print(text)68    }69}70 71// 6. Run analysis72let lastSampleTime = try await analyzer.analyzeSequence(inputSequence)73 74// 7. Finalize75if let lastSampleTime {76    try await analyzer.finalizeAndFinish(through: lastSampleTime)77} else {78    try analyzer.cancelAndFinishNow()79}80```81 82### Transcribing an audio file with SpeechAnalyzer83 84```swift85let transcriber = SpeechTranscriber(locale: locale, preset: .offlineTranscription)86let audioFile = try AVAudioFile(forReading: fileURL)87let analyzer = SpeechAnalyzer(88    inputAudioFile: audioFile, modules: [transcriber], finishAfterFile: true89)90for try await result in transcriber.results {91    print(String(result.text.characters))92}93```94 95### Key differences from SFSpeechRecognizer96 97| Feature | SFSpeechRecognizer | SpeechAnalyzer |98|---|---|---|99| Concurrency | Callbacks/delegates | async/await + AsyncSequence |100| Type | `class` | `actor` |101| Modules | Monolithic | Composable (`SpeechTranscriber`, `SpeechDetector`) |102| Audio input | `append(_:)` on request | `AsyncStream<AnalyzerInput>` |103| Availability | iOS 10+ | iOS 26+ |104| On-device | `requiresOnDeviceRecognition` | Asset-based via `AssetInventory` |105 106## SFSpeechRecognizer Setup107 108### Creating a recognizer with locale109 110```swift111import Speech112 113// Default locale (user's current language)114let recognizer = SFSpeechRecognizer()115 116// Specific locale117let recognizer = SFSpeechRecognizer(locale: Locale(identifier: "en-US"))118 119// Check if recognition is available for this locale120guard let recognizer, recognizer.isAvailable else {121    print("Speech recognition not available")122    return123}124```125 126### Monitoring availability changes127 128```swift129final class SpeechManager: NSObject, SFSpeechRecognizerDelegate {130    private let recognizer = SFSpeechRecognizer()!131 132    override init() {133        super.init()134        recognizer.delegate = self135    }136 137    func speechRecognizer(138        _ speechRecognizer: SFSpeechRecognizer,139        availabilityDidChange available: Bool140    ) {141        // Update UI — disable record button when unavailable142    }143}144```145 146## Authorization147 148Request **both** speech recognition and microphone permissions before starting149live transcription. Add these keys to `Info.plist`:150 151- `NSSpeechRecognitionUsageDescription`152- `NSMicrophoneUsageDescription`153 154```swift155import Speech156import AVFoundation157 158func requestPermissions() async -> Bool {159    let speechStatus = await withCheckedContinuation { continuation in160        SFSpeechRecognizer.requestAuthorization { status in161            continuation.resume(returning: status)162        }163    }164    guard speechStatus == .authorized else { return false }165 166    let micStatus: Bool167    if #available(iOS 17, *) {168        micStatus = await AVAudioApplication.requestRecordPermission()169    } else {170        micStatus = await withCheckedContinuation { continuation in171            AVAudioSession.sharedInstance().requestRecordPermission { granted in172                continuation.resume(returning: granted)173            }174        }175    }176    return micStatus177}178```179 180## Live Microphone Transcription181 182The standard pattern: `AVAudioEngine` captures microphone audio → buffers are183appended to `SFSpeechAudioBufferRecognitionRequest` → results stream in.184 185```swift186import Speech187import AVFoundation188 189final class LiveTranscriber {190    private let recognizer = SFSpeechRecognizer(locale: Locale(identifier: "en-US"))!191    private let audioEngine = AVAudioEngine()192    private var recognitionRequest: SFSpeechAudioBufferRecognitionRequest?193    private var recognitionTask: SFSpeechRecognitionTask?194 195    func startTranscribing() throws {196        // Cancel any in-progress task197        recognitionTask?.cancel()198        recognitionTask = nil199 200        // Configure audio session201        let audioSession = AVAudioSession.sharedInstance()202        try audioSession.setCategory(.record, mode: .measurement, options: .duckOthers)203        try audioSession.setActive(true, options: .notifyOthersOnDeactivation)204 205        // Create request206        let request = SFSpeechAudioBufferRecognitionRequest()207        request.shouldReportPartialResults = true208        self.recognitionRequest = request209 210        // Start recognition task211        recognitionTask = recognizer.recognitionTask(with: request) { result, error in212            if let result {213                let text = result.bestTranscription.formattedString214                print("Transcription: \(text)")215 216                if result.isFinal {217                    self.stopTranscribing()218                }219            }220            if let error {221                print("Recognition error: \(error)")222                self.stopTranscribing()223            }224        }225 226        // Install audio tap227        let inputNode = audioEngine.inputNode228        let recordingFormat = inputNode.outputFormat(forBus: 0)229        inputNode.installTap(onBus: 0, bufferSize: 1024, format: recordingFormat) {230            buffer, _ in231            request.append(buffer)232        }233 234        audioEngine.prepare()235        try audioEngine.start()236    }237 238    func stopTranscribing() {239        audioEngine.stop()240        audioEngine.inputNode.removeTap(onBus: 0)241        recognitionRequest?.endAudio()242        recognitionRequest = nil243        recognitionTask?.cancel()244        recognitionTask = nil245    }246}247```248 249## Pre-Recorded Audio File Recognition250 251Use `SFSpeechURLRecognitionRequest` for audio files on disk:252 253```swift254func transcribeFile(at url: URL) async throws -> String {255    guard let recognizer = SFSpeechRecognizer(), recognizer.isAvailable else {256        throw SpeechError.unavailable257    }258    let request = SFSpeechURLRecognitionRequest(url: url)259    request.shouldReportPartialResults = false260 261    return try await withCheckedThrowingContinuation { continuation in262        recognizer.recognitionTask(with: request) { result, error in263            if let error {264                continuation.resume(throwing: error)265            } else if let result, result.isFinal {266                continuation.resume(267                    returning: result.bestTranscription.formattedString268                )269            }270        }271    }272}273```274 275## On-Device vs Server Recognition276 277On-device recognition (iOS 13+) works offline but supports fewer locales:278 279```swift280let recognizer = SFSpeechRecognizer(locale: Locale(identifier: "en-US"))!281 282// Check if on-device is supported for this locale283if recognizer.supportsOnDeviceRecognition {284    let request = SFSpeechAudioBufferRecognitionRequest()285    request.requiresOnDeviceRecognition = true  // Force on-device286}287```288 289> **Tip:** On-device recognition avoids network latency and the one-minute290> audio limit imposed by server-based recognition. However, accuracy may be291> lower and not all locales are supported. Check `supportsOnDeviceRecognition`292> before forcing on-device mode.293 294## Handling Results295 296### Partial vs final results297 298```swift299let request = SFSpeechAudioBufferRecognitionRequest()300request.shouldReportPartialResults = true  // default is true301 302recognizer.recognitionTask(with: request) { result, error in303    guard let result else { return }304 305    if result.isFinal {306        // Final transcription — recognition is complete307        let final = result.bestTranscription.formattedString308    } else {309        // Partial result — may change as more audio is processed310        let partial = result.bestTranscription.formattedString311    }312}313```314 315### Accessing alternative transcriptions and confidence316 317```swift318recognizer.recognitionTask(with: request) { result, error in319    guard let result else { return }320 321    // Best transcription322    let best = result.bestTranscription323 324    // All alternatives (sorted by confidence, descending)325    for transcription in result.transcriptions {326        for segment in transcription.segments {327            print("\(segment.substring): \(segment.confidence)")328        }329    }330}331```332 333### Adding punctuation (iOS 16+)334 335```swift336let request = SFSpeechAudioBufferRecognitionRequest()337request.addsPunctuation = true338```339 340### Contextual strings341 342Improve recognition of domain-specific terms:343 344```swift345let request = SFSpeechAudioBufferRecognitionRequest()346request.contextualStrings = ["SwiftUI", "Xcode", "CloudKit"]347```348 349## Common Mistakes350 351### Not requesting both speech and microphone authorization352 353```swift354// ❌ DON'T: Only request speech authorization for live audio355SFSpeechRecognizer.requestAuthorization { status in356    // Missing microphone permission — audio engine will fail357    self.startRecording()358}359 360// ✅ DO: Request both permissions before recording361SFSpeechRecognizer.requestAuthorization { status in362    guard status == .authorized else { return }363    AVAudioSession.sharedInstance().requestRecordPermission { granted in364        guard granted else { return }365        self.startRecording()366    }367}368```369 370### Not handling availability changes371 372```swift373// ❌ DON'T: Assume recognizer stays available after initial check374let recognizer = SFSpeechRecognizer()!375// Recognition may fail if network drops or locale changes376 377// ✅ DO: Monitor availability via delegate378recognizer.delegate = self379func speechRecognizer(380    _ speechRecognizer: SFSpeechRecognizer,381    availabilityDidChange available: Bool382) {383    recordButton.isEnabled = available384}385```386 387### Not stopping the audio engine when recognition ends388 389```swift390// ❌ DON'T: Leave audio engine running after recognition finishes391recognizer.recognitionTask(with: request) { result, error in392    if result?.isFinal == true {393        // Audio engine still running, wasting resources and battery394    }395}396 397// ✅ DO: Clean up all audio resources398recognizer.recognitionTask(with: request) { result, error in399    if result?.isFinal == true || error != nil {400        self.audioEngine.stop()401        self.audioEngine.inputNode.removeTap(onBus: 0)402        self.recognitionRequest?.endAudio()403        self.recognitionRequest = nil404    }405}406```407 408### Assuming on-device recognition is available for all locales409 410```swift411// ❌ DON'T: Force on-device without checking support412let request = SFSpeechAudioBufferRecognitionRequest()413request.requiresOnDeviceRecognition = true // May silently fail414 415// ✅ DO: Check support before requiring on-device416if recognizer.supportsOnDeviceRecognition {417    request.requiresOnDeviceRecognition = true418} else {419    // Fall back to server-based or inform user420}421```422 423### Not handling the one-minute recognition limit424 425```swift426// ❌ DON'T: Start one long continuous recognition session427func startRecording() {428    // This will be cut off after ~60 seconds (server-based)429}430 431// ✅ DO: Restart recognition when approaching the limit432func startRecording() {433    // Use a timer to restart before the limit434    recognitionTimer = Timer.scheduledTimer(withTimeInterval: 55, repeats: false) {435        [weak self] _ in436        self?.restartRecognition()437    }438}439```440 441### Creating multiple simultaneous recognition tasks442 443```swift444// ❌ DON'T: Start a new task without canceling the previous one445func startRecording() {446    recognitionTask = recognizer.recognitionTask(with: request) { ... }447    // Previous task is still running — undefined behavior448}449 450// ✅ DO: Cancel existing task before creating a new one451func startRecording() {452    recognitionTask?.cancel()453    recognitionTask = nil454    recognitionTask = recognizer.recognitionTask(with: request) { ... }455}456```457 458## Review Checklist459 460- [ ] `NSSpeechRecognitionUsageDescription` is in Info.plist461- [ ] `NSMicrophoneUsageDescription` is in Info.plist (if using live audio)462- [ ] Authorization is requested before starting recognition463- [ ] `SFSpeechRecognizerDelegate` is set to handle `availabilityDidChange`464- [ ] Audio engine is stopped and tap removed when recognition ends465- [ ] `recognitionRequest.endAudio()` is called when done recording466- [ ] Previous `recognitionTask` is canceled before starting a new one467- [ ] `supportsOnDeviceRecognition` is checked before requiring on-device mode468- [ ] Partial results are handled separately from final (`isFinal`) results469- [ ] One-minute limit is accounted for in server-based recognition470- [ ] For iOS 26+: `AssetInventory` assets are installed before using `SpeechAnalyzer`471- [ ] For iOS 26+: `SpeechTranscriber.supportedLocale(equivalentTo:)` is checked472 473## References474 475- [Speech framework](https://sosumi.ai/documentation/speech)476- [SpeechAnalyzer](https://sosumi.ai/documentation/speech/speechanalyzer)477- [SpeechTranscriber](https://sosumi.ai/documentation/speech/speechtranscriber)478- [SFSpeechRecognizer](https://sosumi.ai/documentation/speech/sfspeechrecognizer)479- [SFSpeechAudioBufferRecognitionRequest](https://sosumi.ai/documentation/speech/sfspeechaudiobufferrecognitionrequest)480- [SFSpeechURLRecognitionRequest](https://sosumi.ai/documentation/speech/sfspeechurlrecognitionrequest)481- [SFSpeechRecognitionResult](https://sosumi.ai/documentation/speech/sfspeechrecognitionresult)482- [SFSpeechRecognitionRequest](https://sosumi.ai/documentation/speech/sfspeechrecognitionrequest)483- [AssetInventory](https://sosumi.ai/documentation/speech/assetinventory)484- [Asking Permission to Use Speech Recognition](https://sosumi.ai/documentation/speech/asking-permission-to-use-speech-recognition)485- [Recognizing Speech in Live Audio](https://sosumi.ai/documentation/speech/recognizing-speech-in-live-audio)
Related skills
Alarmkit

Install Alarmkit skill for Claude Code from dpearson2699/swift-ios-skills.
App Clips

Install App Clips skill for Claude Code from dpearson2699/swift-ios-skills.
App Intents

Install App Intents skill for Claude Code from dpearson2699/swift-ios-skills.