AI mới của Microsoft có thể bắt chước chính xác giọng nói của con người sau khi phân tích 3 giây

Nguyễn_Cương

Well-Known Member
Tham gia
5/10/17
Bài viết
4,341
Được thích
2,501
576 #1

Trí tuệ nhân tạo (AI) dường như đang phát triển với tốc độ chóng mặt, điều đó khiến nhiều người trên thế giới lo ngại rằng chúng có khả năng đe dọa nhiều việc làm của con người trong tương lai gần. Điều đó hoàn toàn khả thi khi một nhóm các nhà nghiên cứu của Microsoft đã công bố một AI mới có thể bắt chước chính xác giọng nói của con người từ một mẫu âm thanh chỉ dài ba giây.

Công cụ AI sao chép giọng nói của Microsoft, được gọi là Vall-E. AI này được đào tạo 60.000 giờ phân tích các giọng nói từ hơn 7.000 diễn giả, gấp 100 lần so với các hệ thống hiện có. Ars Technica báo cáo rằng Vall-E xây dựng trên một công nghệ có tên là EnCodec mà Meta đã công bố vào tháng 10 năm 2022. Nó hoạt động bằng cách phân tích giọng nói của một người, chia nhỏ thông tin thành các thành phần và sử dụng quá trình máy học để tổng hợp âm thanh của giọng nói nếu người đó đang nói. Ngay cả sau khi chỉ nghe một đoạn mẫu dài ba giây, Vall-E có thể tái tạo âm sắc và giai điệu cảm xúc của người nói như thật.

"Kết quả thử nghiệm cho thấy Vall-E vượt trội đáng kể so với hệ thống TTS zero-shot tiên tiến nhất [AI tái tạo giọng nói mà nó chưa từng nghe thấy] về độ tự nhiên của giọng nói và độ tương đồng của người nói", tài liệu nghiên cứ của Cornell cho biết.


Bạn có thể nghe các ví dụ về cách tạo lại giọng nói của Vall-E trên GitHub. Nhiều ví dụ thực sự tuyệt vời, âm thanh gần giống với người nói mặc dù dựa trên một mẫu âm thanh ngắn như vậy. Có một số ví dụ nghe giống robot hơn một chút và nghe có vẻ gần giống với phần mềm chuyển văn bản thành giọng nói truyền thống hơn một chút, nhưng nó vẫn rất ấn tượng và chúng ta có thể mong đợi AI sẽ cải thiện theo thời gian.

Các nhà nghiên cứu của Microsoft tin rằng Vall-E có thể được sử dụng như một công cụ chuyển văn bản thành giọng nói, một cách chỉnh sửa giọng nói và một hệ thống tạo âm thanh bằng cách kết hợp nó với các AI thế hệ thứ hai khác như GPT-3.


Như với tất cả các AI, có những lo ngại về khả năng lạm dụng Vall-E. Mạo danh các nhân vật của công chúng như các chính trị gia là một ví dụ, đặc biệt là khi sử dụng nó cùng với Deepfakes. Hoặc nó có thể lừa mọi người tin rằng họ đang nói chuyện với gia đình, bạn bè hoặc quan chức và chuyển giao dữ liệu nhạy cảm. Ngoài ra còn có một thực tế là một số hệ thống an ninh sử dụng nhận dạng giọng nói. Đối với tác động của nó đối với việc làm, Vall-E có thể sẽ là một giải pháp thay thế rẻ hơn so với việc thuê diễn viên lồng tiếng.

Theo Techspot
 

Theo dõi Youtube

Quảng Cáo

Quảng Cáo

Có thể bạn quan tâm

Top Bottom