Open AI에서 GPT-5 보다 먼저 출시할 'AI 음성 비서'

오픈AI가 VOICE ENGINE 이라는 상표를 출원했다.

미국 특허청(USPTO)에서 찾아보니, 2024년 03월 19일 기준으로 올라왔다.

상표의 정의를 보면 아래와 같이 작성 되어 있다.

providing online non-downloadable software and software development tools for using artificial intelligence for automatic text to voice and text to audio conversion; providing online non-downloadable software and software development tools for use as an application programming interface (API)

(텍스트를 음성으로, 텍스트를 오디오로 자동 변환하기 위해 인공 지능을 사용하기 위한 온라인 다운로드 불가 소프트웨어 및 소프트웨어 개발 도구를 제공합니다. API(응용 프로그래밍 인터페이스)로 사용하기 위해 다운로드할 수 없는 온라인 소프트웨어 및 소프트웨어 개발 도구를 제공합니다.)

심지어 이 상표는 샘 알트먼(OpenAI CEO)이 "GPT-5에 앞서 공개할 중요한 것이 있다"라고 밝힌 다음 날에 올라왔다고 한다.

음성으로 변환이 되는 모든 근간은 Text이다. (TTS, STT)

이미 GPT로 생성형 AI 기술이 있는 OpenAI로서는 음성 기술까지 있으면 금상첨화!

이번에 출원한 Voice engine에는 10개분야의 소프트웨어가 포함되어 있다고 한다.

▲디지털 음성 비서 구축 ▲음성 및 음성 인식, 음성 명령 처리, 텍스트-음성 변환 ▲음성 명령 처리 및 텍스트-음성 변환 ▲자동 음성 인식 및 생성 ▲자연어 프롬프트, 텍스트, 음성, 시각적 프롬프트, 이미지 및 비디오를 기반으로 음성 및 오디오 출력 생성 ▲사용자 프롬프트에 대한 응답으로 오디오 및 음성 생성 ▲머신러닝 기반 자연어 및 음성처리 ▲다국어 음성 인식, 번역, 전사 ▲자동 텍스트-음성 및 텍스트-오디오 변환을 위해 AI 사용 ▲음성 서비스 전달 개발 ▲API ▲SDK 등이다.

출처 : AI타임스(https://www.aitimes.com)

아직 출원 단계여서 등록될지는 모르지만 일단 보이스 엔진에 대한 내용이 노출된 거로 보아서는

앞으로 open ai에서 보여줄 기술이 무엇인지는 느낌이 온다.

TTS, SST 정의
(나무위키)

TTS (Text to speech)

한국어로는 '음성합성(音聲合成)'이라 부른다. 보통 TTS라고 하면 이것을 의미한다. 컴퓨터의 프로그램을 통해 사람의 목소리를 구현해내는 것으로, 성우 없이도 거의 모든 단어와 문장의 음성을 쉽게 구할 수 있다. 하지만 사전녹음된 목소리 자료를 기반으로 쓰는 만큼 억양이 자연스럽지 못하다는 단점이 있다.

STT (Speech to text)

TTS가 Text를 음성으로 변환하는 거라면, STT는 반대로 음성을 Text화 하는 것이다.

[출처 및 참고]

이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.

'IT 동향' 카테고리의 다른 글

gen AI, AI로 인한 일자리 난이 올까? (생성형 인공지능) (0)	2024.03.29
오픈AI 소라, 비주얼 아티스트, 디자이너, 크리에이티브 디렉터 및 영화 제작자와 협력한 생성형 AI 동영상 공개 (OPEN AI - SORA) (0)	2024.03.28
딥브레인 AI, 한국 기업도 텍스트 입력만으로 영상을 생성할 수 있다. (2)	2024.03.26
GIST, 장애물을 피해 착륙하는 AI 드론 (광주과학기술원) (0)	2024.03.25
뉴럴링크, 생각만으로도 체스게임이 된다? (Neuralink) (0)	2024.03.22