구글이 오프라인에서도 작동하는 AI 기반 음성 인식 앱을 아이폰용으로 출시했습니다.

  • 구글 AI 기반 음성 인식 앱인 엣지 엘로퀀트가 iOS에 무료 출시되었습니다. 이 앱은 오프라인에서도 작동합니다.
  • 실시간으로 텍스트를 입력하고, 불필요한 단어를 제거하며, 텍스트를 다양한 형식으로 변환할 수 있습니다.
  • 이 제품은 기기의 Gemma 모델과 클라우드의 Gemini를 결합하고, 고급 개인 정보 보호 및 맞춤 설정 옵션을 제공합니다.
  • 현재는 영어로만 제공되며, 유럽 출시를 위해서는 규제 당국의 승인이 필요합니다.

구글의 아이폰용 AI 기반 음성 인식 앱

구글이 아이폰용 새로운 받아쓰기 앱을 조용히 출시했습니다. 구글 AI 엣지 엘로퀀트이 도구는 인공지능과 오프라인 기능을 활용합니다. 타이핑보다 음성 입력을 선호하고, 바로 전송할 수 있는 텍스트와 최대한 유사한 결과물을 원하는 사용자를 위해 설계되었습니다.

이 새로운 구글 앱은 다양한 솔루션들이 출시되는 시점에 맞춰 출시되었습니다. AI 기반 음성-텍스트 변환 Wispr Flow, SuperWhisper, Willow와 같은 대안들이 비슷한 사용자층을 놓고 경쟁하면서 점차 시장 점유율을 넓혀가고 있습니다. Eloquent의 핵심 차별점은 "오프라인 우선" 접근 방식입니다. 적절한 템플릿을 다운로드하면 아이폰이 클라우드에 의존하지 않고도 음성 인식 및 텍스트 정리 작업을 처리할 수 있습니다.

Google AI Edge Eloquent는 무엇이며, 기존 제품과 어떤 점이 다른가요?

실제로 Google AI Edge Eloquent는 사용법이 간단합니다. 사용자가 애플리케이션을 열고 녹음 버튼을 누른 후 말하기 시작하면 화면에 녹음 시작 화면이 표시됩니다. 실시간 전사음성 인식이 끝나면 AI 레이어가 작동하여 말한 내용을 편집하여 더 읽기 쉬운 텍스트로 만듭니다.

가장 눈에 띄는 특징 중 하나는 앱이 자동으로 삭제한다는 점입니다. 군더더기 말과 머뭇거림 "어," "음," "어," "아,"와 같은 일반적인 말소리와 문장 중간에 하는 수정 사항까지 포함됩니다. 따라서 결과물은 발언 내용을 그대로 복사한 것이 아니라 이메일, 보고서 또는 업무 메모에서 기대되는 글쓰기 형식에 더 가깝게 정리된 버전입니다.

Eloquent는 콘텐츠 전사 및 정리 외에도 다양한 옵션을 제공합니다. 텍스트를 변환합니다 다른 편집기로 복사할 필요 없이 바로 사용할 수 있습니다. 녹취록 아래에는 "핵심 요점", "정식", "간략", "장문"과 같은 미리 정의된 형식을 가진 버튼이 있어, 간략한 요약부터 더 자세한 내용까지 상황에 맞게 받아쓰기 내용을 조정할 수 있습니다.

앱스토어에 있는 앱 설명에 따르면, 이 도구는 우리가 말하는 방식과 일반적으로 글을 쓰는 방식 사이의 "격차를 해소"하는 것을 목표로 합니다. 단순히 단어를 텍스트로 옮기는 대신, 의도를 포착하려고 노력하세요 상대방이 전달하고자 하는 바를 정확하게 파악하고, 오류투성이 초안이 아닌 완성도 높은 문서처럼 보이도록 전달하는 것이 중요합니다.

기기 및 클라우드 기반 AI: Gemma와 Gemini

Google AI Edge Eloquent의 기술적 핵심은 자체 아키텍처에 있습니다. 로컬 음성 인식을 위해 다음과 같은 기술을 사용합니다. 아체이러한 모델은 모바일 폰과 같이 리소스가 제한된 기기에서 작동하도록 설계된 오픈 소스 Google 모델 제품군입니다. 이 모델은 앱을 처음 사용할 때 다운로드되므로 그 이후로는 오프라인에서 받아쓰기를 할 수 있습니다.

"오프라인" 접근 방식은 단순히 편의성의 문제만이 아니라 여러 가지 의미를 내포하고 있습니다. 개인 정보 보호, 지연 시간 및 데이터 소비아이폰에서 직접 오디오를 처리하기 때문에 각 음성 조각을 회사 서버에 업로드할 필요가 없어 민감한 정보 노출을 줄이고 연결 품질에 대한 의존성을 없앨 수 있습니다.

이 앱에는 클라우드 처리를 비활성화하는 스위치가 있어 전체 워크플로를 기기에서 계속 처리할 수 있습니다. 사용자가 클라우드 모드를 활성화하면 다음과 같은 과정이 진행됩니다. 쌍둥이 자리구글의 생성형 AI 모델 제품군은 이미 전사되고 정리된 텍스트를 스타일, 일관성 또는 구조를 조정하는 등의 방식으로 더욱 정교하게 다듬는 데 사용됩니다.

로컬 처리와 선택적 클라우드 지원을 결합한 이러한 하이브리드 아키텍처는 이 분야에서 Google의 전략을 반영합니다. 즉, Gemma를 활용하여 기기가 핵심적인 작업을 처리하도록 하는 것입니다. 자동 음성 인식(ASR) 좀 더 세련된 표현이나 변형이 필요할 때는 제미니를 활용하세요. 사용자 입장에서 목표는 말하는 내용과 바로 사용할 수 있는 텍스트를 얻는 과정 사이의 단계를 최소화하는 것입니다.

어휘 개인화 및 전문적인 활용

받아쓰기의 명료함 외에도 일상생활에 큰 영향을 미칠 수 있는 기능 중 하나는 앱의 다음과 같은 기능입니다. 사용자의 어휘력을 학습하다Google AI Edge Eloquent를 사용하면 자주 사용하는 용어(고유명사, 기술 용어, 약어 또는 특정 분야의 전문 용어)로 맞춤 사전을 만들 수 있습니다.

이 사전은 특정 단어를 추가하여 수동으로 구축하거나, 사용자가 앱이 계정의 특정 데이터에 접근할 수 있도록 권한을 부여하는 경우 앱을 통해 구축할 수 있습니다. Google Workspace 또는 Gmail해당 권한을 통해 시스템은 이메일 및 기타 콘텐츠를 분석하여 받아쓰기 시 정확하게 인식해야 하는 이름과 용어를 식별합니다.

구글은 이러한 접근 권한이 선택 사항이며 사용자 동의가 필요하다고 강조하는데, 이는 유럽에서 관련 규제 체계로 인해 민감한 문제입니다. 데이터 보호 및 개인정보 보호동시에, 이 기능은 분명히 전문가용을 겨냥한 것입니다. 고객 목록, 법률 문서, 의료 보고서 또는 기술 콘텐츠를 다루는 사람들은 모델이 그들의 일반적인 용어를 잘 이해한다면 많은 수정 작업을 줄일 수 있습니다.

이 앱에는 이전 받아쓰기 내용을 검색할 수 있는 세션 기록과 함께 다음과 같은 섹션도 포함되어 있습니다. 기본 사용 통계받아쓰기 단어 수, 분당 단어 수로 측정된 받아쓰기 속도, 그리고 생성된 콘텐츠의 총량. 이러한 정보는 생산성에 중점을 둔 도구를 강조하며, 단순한 녹음 및 텍스트 변환 기능이 있는 도구라기보다는 지속적인 글쓰기 도우미에 더 가깝다는 점을 보여줍니다.

이용 가능 여부, 언어 제한 사항 및 유럽 내 위치

현재 Google AI Edge Eloquent는 다음과 같이 제공됩니다. App Store에서 무료로 이용 가능 아이폰 사용자에게는 구독료가 필요 없고 사용량 제한도 명시되어 있지 않습니다. 하지만 이 서비스에는 두 가지 주요 조건이 있습니다. 현재로서는 영어로만 이용 가능하며, 유럽 내 서비스 제공 지역이 제한적입니다.

구글 자체에서도 다음과 같은 지역에서의 이용 가능성을 언급하고 있습니다. 영국, 유럽 경제 지역 및 스위스 해당 앱은 규제 당국의 승인 요건을 충족해야 합니다. 회사 측은 필요한 승인을 획득하고 해당 시장에 앱을 "곧" 출시하기 위해 노력하고 있다고 밝혔지만, 구체적인 날짜나 어떤 기관 또는 규정이 진행 속도를 좌우하는지는 밝히지 않았습니다.

스페인을 비롯한 유럽 대륙의 아이폰 사용자에게는 해당 앱이 현지 앱스토어에 아직 출시되지 않았거나 기능이 제한될 수 있음을 의미합니다. 유럽 규정의 맥락을 고려할 때 이러한 규제 측면은 매우 중요합니다. 디지털 서비스, 개인 데이터 및 인공지능이는 대형 기술 기업들이 모델을 학습시키고, 정보를 처리하고, 동의를 구하는 방식에 매우 신중을 기하도록 만듭니다.

언어와 관련해서는 영어 이외의 언어 지원에 대한 공식 발표는 아직 없습니다. 한편, 다음과 같은 기능들은... 아이폰에서 문자 메시지를 번역하세요 이러한 기능들은 여전히 ​​유용한 보완 요소입니다. 구글 생태계에서 스페인어의 중요성과 다국어 AI에 대한 추진력을 고려할 때, 구글이 결국 지원 언어 범위를 확장할 것이라고 생각하는 것은 합리적이지만, 현재로서는 브랜드의 다른 제품들의 전례를 바탕으로 한 기대에 불과합니다.

음성 인식 시장의 경쟁 및 안드로이드용 앱 개발 계획

Eloquent의 iOS 출시 소식은 이미 여러 전문 음성 인식 및 텍스트 변환 도구들이 경쟁하는 시장에 대한 것입니다. 대표적인 도구로는 다음과 같은 것들이 있습니다. 위스퍼 플로우, 슈퍼위스퍼 또는 윌로우 그들은 주로 클라우드 기반의 음성-텍스트 변환 서비스를 제공하고, 생성형 AI를 활용하여 콘텐츠를 요약, 번역 또는 재구성하는 방식으로 틈새시장을 개척해 왔습니다.

구글의 접근 방식은 중요한 미묘한 차이를 드러냅니다. 즉, 독자적인 솔루션을 결합하여 사용한다는 점입니다. 기기 및 클라우드 서비스에서의 AIGemma 및 Gemini 모델 생태계에 통합되었습니다. 일부 사용자에게는 앱을 오프라인에서 사용할 수 있고 유료 구독이 필요 없다는 점만으로도 큰 장점이 될 수 있으며, 특히 통신 상태가 항상 좋지 않은 업무 환경이나 이동이 잦은 환경에서 더욱 그렇습니다.

이 앱은 iOS에서 처음 출시되었지만, 공식 설명에는 향후 [불명확] 버전이 출시될 예정이라고 명시되어 있습니다. Android구글은 자사 운영체제와의 완벽한 통합을 언급하며, 모바일 기기의 모든 텍스트 입력란에서 스마트 받아쓰기 기능을 사용할 수 있도록 Eloquent를 기본 키보드로 설정할 수 있다고 밝혔습니다.

가능한 사항에 대해서도 언급됩니다. 플로팅 버튼안드로이드의 다른 음성 인식 앱들이 이미 제공하는 기능과 유사하게, 이 기능이 구현된다면 사용자는 앱을 전환하지 않고도 어느 화면에서든 음성 인식을 시작할 수 있을 것입니다. 만약 이 통합이 실현된다면, Eloquent는 iOS의 실험적인 앱에서 많은 안드로이드 스마트폰의 기본 기능으로 자리 잡을 수 있을 것입니다.

이와 동시에 구글은 개발자와 스타트업이 자체적인 음성 인식 도구와 음성 비서를 개발할 수 있는 기반으로 젬마 모델을 지속적으로 홍보하고 있습니다. 100% 매장 내 구매그런 의미에서 엘로퀀트는 단순한 기술 데모를 넘어 아이폰과 같은 소비자 기기에서 이러한 모델로 무엇을 할 수 있는지 보여주는 쇼케이스 역할도 합니다.

종합적으로 볼 때, Google AI Edge Eloquent의 출시는 명확한 전략적 방향을 제시합니다. 즉, Google은 단순히 음성을 받아쓰기하는 것을 넘어, 차세대 음성 인식 앱 시장에서 입지를 다지고자 하는 것입니다. 그들은 음성을 정리하고, 구조화하고, 재구성합니다. 모바일 기기에서 바로 사용할 수 있는 텍스트 형식으로 오프라인 기능, 개인화, 그리고 이론적으로는 개인정보 보호를 강화하는 것을 목표로 합니다. 하지만 이 접근 방식이 앱이 유럽에 정식 출시되어 언어 및 접근성 측면에서 공정한 경쟁을 펼칠 때 실제로 어떤 결과를 가져올지는 두고 봐야 할 것입니다.

iPhone에서 텍스트를 번역하는 방법
관련 기사 :
iPhone에서 텍스트를 번역하는 방법: 가능한 모든 방법을 자세히 설명합니다.

Google 뉴스에서 팔로우