Miscellaneous

Công ty khởi nghiệp này muốn nhân bản sâu sắc giọng nói của bạn và bán nó cho người trả giá cao nhất

Veritone MARVEL.ai

Có một video bật lên định kỳ trên nguồn cấp dữ liệu YouTube của tôi. Đó là cuộc trò chuyện giữa rapper Snoop Dogg và 50 Cent than vãn rằng, so với thế hệ của họ, tất cả các nghệ sĩ hip-hop hiện đại đều có vẻ giống nhau. 50 Cent nói: “Khi một người quyết định là chính họ, họ đưa ra một thứ mà không ai khác có thể có được. “Ừ, ‘vì một khi bạn là bạn – ai có thể là bạn ngoài bạn?” Snoop trả lời.

Khi video được tải lên vào tháng 10 năm 2014, điều đó có thể đúng. Nhưng chỉ vài năm sau thì chắc chắn là không. Trong thế giới âm thanh sâu sắc, có thể huấn luyện AI để nghe giống người khác một cách kỳ lạ bằng cách cung cấp cho nó một kho dữ liệu âm thanh bao gồm hàng giờ dữ liệu nói của họ. Kết quả là chính xác đáng kinh ngạc .

Những nhân vật của công chúng như rapper Jay-Z và nhà tâm lý học Jordan Peterson đã phàn nàn về việc mọi người chiếm dụng giọng nói của họ bằng cách tạo ra những đoạn âm thanh sâu sắc và sau đó khiến họ nói những điều ngớ ngẩn trên internet. Peterson viết: “Hãy thức dậy. Sự tôn nghiêm của giọng nói và hình ảnh của bạn, đang bị đe dọa nghiêm trọng.” Đó chỉ là những trường hợp tinh quái. Ở những người khác, kết quả có thể chuyển thành tội phạm không sắc thái. Trong một vụ việc năm 2019 , bọn tội phạm đã sử dụng một đoạn âm thanh để giả giọng nói của Giám đốc điều hành của một công ty năng lượng và thuyết phục một kẻ thuộc hạ qua điện thoại khẩn cấp chuyển 243.000 USD vào tài khoản ngân hàng.

Veritone, một công ty AI chuyên tạo ra các công cụ thông minh để gắn nhãn phương tiện cho ngành công nghiệp giải trí, đang đưa sức mạnh âm thanh sâu sắc trở lại vào tay (hoặc, sai, cổ họng) của những người mà nó thuộc về. Trong tháng này, công ty đã công bố Marvel.ai , điều mà chủ tịch công ty Ryan Steelberg đã mô tả với Xu hướng kỹ thuật số là một “giải pháp hoàn chỉnh về giọng nói như một dịch vụ”. Với một khoản phí, Veritone sẽ xây dựng một mô hình AI giống như bạn (hoặc nhiều khả năng là một người nổi tiếng với giọng nói có thể nhận ra ngay lập tức), sau đó có thể được cấp phép cho mượn giống như một phiên bản công nghệ cao của của Ariel, giọng nói – món hời song phương từ The Little Mermaid .

Steelberg nói: “Tiếng nói của bạn cũng có giá trị như bất kỳ nội dung hoặc thuộc tính thương hiệu nào khác mà bạn có. “[Nó ở một cấp độ với] tên và vẻ ngoài của bạn, khuôn mặt của bạn, chữ ký của bạn hoặc một bài hát bạn đã viết hoặc một phần nội dung bạn đã tạo.”

“Chúng tôi có thể tái sử dụng rất nhiều”

Tất nhiên, một số cá nhân đã bán giọng hát của họ từ lâu dưới hình thức thu âm quảng cáo hoặc lồng tiếng, hát bài hát và vô số hình thức kiếm tiền khác. Nhưng tất cả những nỗ lực này đều yêu cầu người đó phải thực sự nói ra lời. Những gì giải pháp của Veritone hứa hẹn sẽ làm là làm cho điều này có thể mở rộng riêng lẻ.

Chẳng hạn, điều gì sẽ xảy ra nếu Kevin Hart có thể cấp phép tiếng nói của mình cho một thương hiệu xa xỉ, sau đó họ có thể sử dụng nó để tạo quảng cáo được cá nhân hóa có tên người xem, vị trí của cửa hàng bán hàng truyền thống gần nhất của họ, và sản phẩm cụ thể mà họ có khả năng mua nhất? Thay vì dành nhiều ngày trong phòng thu âm theo đúng nghĩa đen, AI có thể cho phép thực hiện điều này với ít hơn (ít nhất là về phía Hart) so với việc ký vào dòng chấm để đồng ý cho bên thứ ba khai thác giọng nói của anh ấy. Trong khi anh ấy đang đóng phim, thực hiện một chuyến lưu diễn hài kịch, đi nghỉ hoặc thậm chí là ngủ, giọng nói kỹ thuật số của anh ấy có thể kiếm được tiền.

“Chúng tôi có thể tái sử dụng rất nhiều,” Steelberg giải thích về quá trình đào tạo. “Những người đã nói rất nhiều, nếu họ đang sản xuất một podcast hoặc trên các phương tiện truyền thông, có rất nhiều dữ liệu ở đó. Chúng tôi có thể đã có rất nhiều thứ nếu họ là khách hàng của chúng tôi. ”

“Điều chúng tôi thấy rất hấp dẫn về loại AI mới này là khả năng mở rộng và khả năng thay đổi.”

Steelberg nói rằng ý tưởng giọng nói như một dịch vụ đã xuất hiện với Veritone vài năm trước. Tuy nhiên, vào thời điểm đó, ông không tin rằng các mô hình học máy có thể tạo ra giọng nói tổng hợp siêu thực mà ông đang tìm kiếm. Điều này đặc biệt quan trọng khi nói đến giọng nói mà chúng ta biết gần gũi, ngay cả khi chúng ta chưa bao giờ thực sự gặp người nói được đề cập. Kết quả có thể là một dạng thung lũng kỳ lạ có thể nghe được, với mỗi âm thanh sai sẽ cảnh báo người nghe về sự thật rằng họ đang nghe nhạc giả. Nhưng ở đây vào năm 2021, anh ấy tin rằng mọi thứ đã tiến triển đến mức có thể bây giờ. Do đó Marvel.ai.

Steelberg nói bằng những từ thông dụng đầy phấn khích về tiềm năng to lớn của công nghệ, nói lên rất nhiều “phương thức thực thi” có thể có của nó. Veritone có thể tạo các mô hình chuyển văn bản thành giọng nói. Nó cũng có thể xây dựng các mô hình cho giọng nói thành lời nói, theo đó một diễn viên lồng tiếng có thể “thúc đẩy” màn trình diễn giọng hát bằng cách đọc các từ với độ uốn thích hợp và sau đó đặt giọng nói hoàn chỉnh ở cuối giống như một bộ lọc Snapchat. Công ty cũng có thể lấy dấu vân tay từng giọng nói để có thể biết liệu một đoạn âm thanh thực sự bật lên ở đâu đó có được tạo ra bằng công nghệ của họ hay không.

“Bạn càng nghĩ nhiều về nó… thì bạn sẽ nghĩ ra thêm 50 [trường hợp sử dụng có thể có],” anh nói. “Điều chúng tôi thấy rất hấp dẫn về loại AI mới này là khả năng mở rộng và khả năng thay đổi.”

Hãy xem xét một số người khác. Một vận động viên nổi tiếng có thể là một vị thần trên sân bóng rổ, nhưng là một ác quỷ khi đọc lời thoại trong kịch bản theo cách nghe có vẻ tự nhiên . Sử dụng công nghệ của Veritone, phần của họ trong các đoạn cắt cảnh trò chơi điện tử hoặc đọc một cuốn sách nói trong hồi ký của họ (mà họ cũng có thể chưa viết) có thể được thực hiện bởi một diễn viên lồng tiếng, sau đó được điều chỉnh kỹ thuật số để nghe giống như vận động viên. Như một khả năng khác, một bộ phim có thể được dịch cho các quốc gia khác với cùng giọng nói của diễn viên hiện đang đọc lời thoại bằng tiếng Pháp, tiếng Quan Thoại hoặc bất kỳ ngôn ngữ nào khác trong một số ngôn ngữ, ngay cả khi diễn viên không thực sự nói chúng.

Công chúng sẽ phản ứng như thế nào?

Graphical user interface, application

Description automatically generated

Tất nhiên, một câu hỏi lớn đặt ra cho tất cả những điều này là làm thế nào mà các thành viên của công chúng sẽ trả lời tất cả. Đây là một chút khó khăn, không thể đoán trước được. Những người nổi tiếng ngày nay phải đóng một vai trò phức tạp: Cả những nhân vật lớn hơn cuộc sống xứng đáng được dán mặt trên biển quảng cáo, và cả những cá nhân có liên quan gặp vấn đề về mối quan hệ, tweet về việc xem TV trong bộ đồ ngủ của họ và làm khuôn mặt ngớ ngẩn khi họ ăn sốt .

Sau đó, điều gì sẽ xảy ra khi các quảng cáo xuất hiện không chỉ có lời thoại của một người nổi tiếng mà trong trường hợp chúng ta biết rằng người biểu diễn đó không bao giờ thực sự nói những câu đó, mà là giọng nói của họ được lập trình để mang lại cho chúng ta một quảng cáo được nhắm mục tiêu? Steelberg nói rằng việc một người nổi tiếng giao quyền kiểm soát phương tiện truyền thông xã hội của họ cho người quản lý tài khoản bên thứ ba có chút khác biệt. Nếu chúng ta thấy dòng tweet của Taylor Swift, chúng ta biết rằng rất có thể không phải chính Taylor đang khai thác thông điệp, đặc biệt nếu đó là một sự chứng thực hoặc một phần nội dung quảng cáo.

Nhưng giọng nói, theo một cách rất thực tế, khác biệt, chính xác là vì nó mang tính cá nhân hơn. Đặc biệt nếu nó đi kèm với mức độ cá nhân hóa, đây là một trong những trường hợp sử dụng có ý nghĩa nhất. Sự thật là, trích lời nhà biên kịch William Goldman, không ai biết phản ứng của công chúng sẽ như thế nào – chính xác là vì chưa ai làm chính xác điều này trước đây.

“Nó sẽ chạy quang phổ, phải không?” Steelberg nói. “[Một số] người sẽ nói, ‘Tôi sẽ sử dụng công cụ này một chút để làm tăng thêm một ngày của tôi và giúp tôi tiết kiệm thời gian.’ Những người khác sẽ nói, tràn đầy sức sống, ‘Tôi muốn tiếng nói của mình ở khắp mọi nơi để mở rộng thương hiệu của mình, và tôi sẽ cấp phép nó’. ”

Dự đoán tốt nhất của anh ấy là việc chấp nhận sẽ được thực hiện trên cơ sở từng trường hợp. Ông nói: “Bạn cần phải hòa hợp với phản ứng của khán giả và nếu bạn thấy mọi thứ đang hoạt động hiệu quả hay không hiệu quả. “Họ có thể thích nó. Họ có thể nói, ‘Bạn biết không? Tôi thích việc bạn cung cấp nội dung nhiều hơn gấp 10 lần hoặc nhiều nội dung cá nhân hơn cho tôi, mặc dù tôi biết bạn đã sử dụng nội dung tổng hợp để tăng thêm nội dung đó. Cảm ơn bạn. Cảm ơn bạn.'”

Suy nghĩ về tương lai

Veritone MARVEL.ai Veritone

Còn về tương lai? Steelberg nói rằng “Chúng tôi muốn làm việc với tất cả các cơ quan tài năng lớn. Chúng tôi nghĩ rằng bất kỳ ai đang kinh doanh kiếm tiền từ một thương hiệu khan hiếm nên suy nghĩ về chiến lược tiếng nói của họ. ”

Và cũng đừng mong đợi nó chỉ hoàn toàn là về âm thanh. “Chúng tôi luôn bị cuốn hút bởi tiềm năng sử dụng nội dung tổng hợp để mở rộng, tăng cường hoặc có khả năng thay thế hoàn toàn một số hình thức sản xuất nội dung cũ,” anh tiếp tục. “Đó là theo nghĩa âm thanh hoặc cuối cùng là trong tương lai, theo nghĩa video ”.

Đúng vậy: Khi đã lũng đoạn thị trường trong thế giới âm thanh sâu sắc, Veritone có kế hoạch tiến thêm một bước nữa và bước vào thế giới của những hình đại diện ảo hoàn toàn được thực hiện hóa mà cả âm thanh và vẻ ngoài không thể phân biệt được với nguồn của chúng.

Phương pháp chính là biểu hiện của trí tuệ. Ai ai cũng có sẵn tiềm năng sử dụng trí tuệ của mình để vận hành công việc, cuộc sống. Những công cụ mạnh để hỗ trợ chúng ta đưa ra các giải pháp tối ưu cho các khó khăn đã được xây dựng từ rất lâu bởi nhà khoa học người Nga. Nếu bạn quan tâm đến việc cải thiện khả năng giải quyết vấn đề và ra quyết định một cách mới mẻ, nhanh chóng thì khóa học PHƯƠNG PHÁP LUẬN SÁNG TẠO và ĐỔI MỚI tại Trung tâm Sáng tạo Khoa học–kỹ thuật (TSK) thuộc trường Khoa Học Tự Nhiên là một lựa chọn phù hợp. Bạn có thể điền thông tin tại đây hoặc liên hệ số điện thoại: (028) 38 301 743; 089 668 36 31 để thực hiện đăng ký.

Nguồn: DigitalTrends

You may also like...