You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Transducer inference할 때 audio encoder의 output을 time step마다 한개씩 넣는 이유가 있을까요?
Real time을 대비해서 그렇게 inference를 하는 것 같은데 non-real time일때는 어떻게 inference가 되는건지
제가 이해하고 있는게 맞는건지 잘 모르겠습니다.
The text was updated successfully, but these errors were encountered:
Transducer inference할 때 audio encoder의 output을 time step마다 한개씩 넣는 이유가 있을까요?
Real time을 대비해서 그렇게 inference를 하는 것 같은데 non-real time일때는 어떻게 inference가 되는건지
제가 이해하고 있는게 맞는건지 잘 모르겠습니다.
The text was updated successfully, but these errors were encountered: