Apple rivoluziona la trascrizione automatica con framework proprietari più veloci e precisi
Quando si tratta di convertire audio o video in testo, gran parte delle applicazioni attuali si affidano al modello Whisper di OpenAI. Se utilizzate strumenti come MacWhisper, è molto probabile che stiate sfruttando questa tecnologia per trascrivere lezioni, riunioni o per generare sottotitoli per i vostri video su YouTube.
Tuttavia, con il rilascio delle ultime beta di iOS 26 e degli altri sistemi Apple dedicati agli sviluppatori, la società ha introdotto un nuovo set di framework interni per la trascrizione, capaci di offrire performance paragonabili a Whisper, ma con velocità decisamente superiori – oltre il doppio rispetto alle app più ottimizzate sul mercato.
Il motore dietro la dettatura Apple si evolve
chiunque abbia usato le funzionalità di dettatura presenti su dispositivi Apple conosce già il framework vocale proprietario che trasforma la voce in testo.Nelle nuove beta, Apple ha introdotto due moduli chiave: SpeechAnalyzer e SpeechTranscriber, strumenti pensati per essere integrati nelle app di terze parti, ampliando così le possibilità di utilizzo della trascrizione automatica.
Questi framework riconoscono la parola parlata da audio preregistrati o in diretta, simulando ciò che accade con la dettatura da tastiera, ma senza necessità di interazioni con essa. Il risultato? Applicazioni che possono comprendere comandi vocali o trascrivere lunghi testi in modo più autonomo e flessibile.
Funzionamento e flessibilità
La struttura di SpeechAnalyzer permette di aggiungere moduli specifici per differenti tipologie di analisi e trascrizione, adeguandosi così a vari scenari d’uso. Nella maggior parte dei casi, però, basta il semplice modulo SpeechTranscriber, che converte l’audio in testo in maniera veloce e precisa.
Un test concreto con yap, il tool basato su Apple Speech
John Voorhees di MacStories ha chiesto al figlio Finn di sviluppare rapidamente un’app a riga di comando per mettere alla prova queste novità. La sorpresa è stata grande: in pochi minuti è nato Yap, un’applicazione semplice in grado di trasformare file audio e video in trascrizioni testuali in formato SRT e TXT.
Per valutare le performance, Finn ha utilizzato un video di 34 minuti confrontando i tempi e l’accuratezza di Yap con due delle applicazioni più diffuse: MacWhisper e VidCap. Il risultato ha confermato che i moduli di Apple mantengono una precisione similare a quei software, ma con una velocità superiore, più del doppio rispetto all’app più performante tra quelle testate.
- Yap (framework Apple): 45 secondi
- MacWhisper (Large V3 Turbo): 1 minuto e 41 secondi
- VidCap: 1 minuto e 55 secondi
- MacWhisper (large V2): 3 minuti e 55 secondi
Questo slancio nei tempi di elaborazione può sembrare marginale per una singola trascrizione, ma acquisisce peso quando si parla di grandi quantità di file o di un utilizzo costante, come nel caso degli studenti che archiviano appunti vocali o professionisti che gestiscono numerosi audio e video.
Come sperimentare con le nuove tecnologie Apple
Chi utilizza la beta sviluppatore di macOS Tahoe può provare Yap direttamente da repository pubblici, analizzando in prima persona questa nuova frontiera della trascrizione automatica.
Accessori evidenziati per migliorare l’esperienza Apple
- Caricatore ultra-compatto Anker 511 Nano Pro per iPhone
- Custodia Spigen MagFit per iPhone 16e con supporto MagSafe
- Caricatore Apple MagSafe da 25W per iPhone 16
- Alimentatore Apple da 30W
- Cavo USB-C intrecciato Anker da 240W
Siamo social! Clicca e seguici per essere sempre connesso con noi!