반응형
아이들에게 말을 해주면 알려주는 교구가 있다면 어떨까 ?
요즘 아이들이 사용하는 스마트 교구들은 하나하나가 똑똑합니다.
블럭을 끼우면 소리가 나오고 터치 패드를 사용해서 수학도 배운다고 하네요
저희 디자인 웨일은 조금 더 똑똑한 교구를 만들어 보고 싶었습니다.
과외선생님처럼 한자, 수학, 영어 이런 것들을 알려주는 만능교구를 만들 수 있을까?
그래서 만들어 보기로 했습니다.
대충 구상은 이렇습니다.
발화 : 아이는 도담이라는 교구에 말을 한다.
STT 엔진 : 도담이는 자연어를 해석한다.
AI Chat bot : 문장 분석을 한다.
TTS 엔진 발화: 자연어로 아이에게 말한다.
그래서 기본적으로 사용해야할 프로그램이나 언어들을 공부해보기로 했습니다.
사실 우리는 프로그램언어에 대해서 정말 무지하기 때문에 google과 github, 몇 가지 서적을 구매하여
근본없는 개발을 하기로 시작했습니다.
Working flow
발화 > STT 엔진 > 텍스트 > 문장분석1 > 도메인 판단 > 문장분석2 > 의도 판단 > 동작 > TTS 엔진 > 음성 피드백
발화
Annyang: 브라우저를 이용해서 발화가 가능한 JS 라이브러리
PyAudio: PortAudio Python 바인딩 라이브러리
Jasper: Alexa와 같은 Always on 보이스 앱을 만들 수 있는 플랫폼
STT 엔진
발화를 인식하는 방법에 따라 STT 엔진이 달라질 수 있음
네이버 음성인식: 4개 언어(한국어, 영어, 일어, 중국어(간체))지원, 처리한도 : 3,600초/일
MS Bing Speech Recognition API: 28개 언어 지원, 처리한도: 10,000 건/월, 20건/분
google-speech js: Google Speech API를 이용하는 JS 라이브러리
문장분석1
scikit-learn 이용: SVN 이용 고려 중
도메인 판단
문장분석1의 결과를 이용한 도메인 판단 필요
문장분석2
scikit-learn 이용: 뭘 써야하지??
의도 판단
문장분석2의 결과를 이용해서 정확히 어떤 의도의 발화인지 판단 필요
동작
리모컨 사용 가능한 디바이스: IR신호 이용
Wemo 디바이스: Wemo API 이용
Hue Light: Hue API 이용
일정: Google Calendar API 이용
기타: Google or Wikipedia 검색
TTS 엔진
네이버 음성합성
MS Bing Text To Speech API: 18개 언어 지원, 한국어 지원 안함, 처리한도: 5,000건/월, 20건/분 (총 60분 한도) 사용불가 (한국어 지원 안함)
ResponsiveVoice.js: JS 라이브러리
google-speech js: Google Speech API를 이용하는 JS 라이브러리
음성 피드백
TTS 엔진에 따라 결정 필요
관련 동영상
Raspberry Pi + Jasper 를 이용한 assistant 개발
반응형
'디자인웨일' 카테고리의 다른 글
아크릴의 특성과 용도 (1) | 2022.02.18 |
---|---|
시제품 제작 업체 선정 방법 (0) | 2022.02.16 |
3D프린터로 투명실리콘 출력하기 (0) | 2022.02.14 |
[TIP]시제품 제작시 업체선정 노하우 (0) | 2022.02.14 |
3d 프린팅 출력물의 다양한 재질(투명, 실리콘) (0) | 2022.02.11 |
댓글