Cơ hội kinh doanh sáng tạo với công nghệ Deepfakes

Du khách được nói chuyện với danh họa Dalí tại bảo tàng của ông nhờ công nghệ Deepfakes

Nghệ sĩ siêu thực Dalí “sống lại”

Một du khách đến Bảo tàng Dalí ở St Petersburg, Florida, (Mỹ) nhấn chuông bên cạnh một màn hình có kích thước to bằng người thật. Một dáng người mặc trang phục bảnh bao với bộ ria mép đặc trưng từ từ rời khỏi giá vẽ và tiến về phía du khách. “Người này” không ai khác chính là Salvador Dalí (11-5-1904/23-1-1989), nghệ sĩ vĩ đại của phong trào nghệ thuật siêu thực, một trong những bậc thầy nghệ thuật có ảnh hưởng lớn nhất thế kỷ XX với tác phẩm nổi tiếng “The Persistence of Memory” (Sự dai dẳng của ký ức) mà hình ảnh chủ đạo là bốn chiếc đồng hồ “biến dạng như đang bị tan chảy” đặt nổi bật trong khung cảnh sa mạc hoang vắng. Salvador Dalí mỉm cười chào vị khách và giới thiệu về tác phẩm nghệ thuật cũng như bảo tàng của mình. Khi vị khách chuẩn bị rời đi, họa sĩ Salvador Dalí lại xuất hiện và hỏi khách có muốn chụp ảnh cùng không, rồi ông nhanh chóng rút điện thoại di động ra selfie cùng khách.

Điều thú vị đối với du khách về cuộc gặp gỡ này đó là họ đã thực sự “gặp” được chính Dalí. Làm thế nào mà nhà siêu thực vĩ đại người Tây Ban Nha có thể tương tác với du khách đến thăm bảo tàng nhiều năm sau khi ông qua đời, thậm chí còn chụp ảnh bằng chiếc điện thoại chưa hề tồn tại vào thời ông sống? Chào mừng bạn đến với thế giới của công nghệ Deepfakes.

Deepfakes là một công nghệ mạnh mẽ để tạo nội dung âm thanh hoặc video giả giống như thật. Để “thổi hồn” vào nghệ sĩ Dalí, bảo tàng này đã sử dụng công nghệ học sâu cho phép máy tính tạo khuôn mặt của một diễn viên thực ăn mặc và hành động giống Dalí với hình ảnh khuôn mặt và biểu cảm của nghệ sĩ được tạo bằng kỹ thuật số. Điều này liên quan đến một “quy trình đào tạo”, trong đó các thuật toán máy học tiên tiến sàng lọc các hình ảnh của danh họa Dalí và nam diễn viên để học cách tạo ra những hình ảnh khuôn mặt giống thật mới của cả hai người. Nó cũng học cách lấy hình ảnh hiện có của một trong hai người và tạo ra hình ảnh của người này khớp hoàn hảo với nét mặt và tư thế của người kia. Điều này giúp có thể tạo khuôn mặt Dalí khớp với chuyển động của diễn viên, sau đó các chuyển động này sẽ tự động được chèn vào video mới - tạo ảo giác về hình ảnh của chính danh họa Dalí.

Bằng cách sử dụng các thuật toán, phần mềm có thể học cách tái tạo hình ảnh và âm thanh giống như người thật và có thể tạo ra những video khó phân biệt so với thực tế. Deepfake hoạt động dựa trên các thuật toán học sâu phức tạp, trong đó hình ảnh gốc được phân tích và các đặc trưng khuôn mặt như các điểm đầu mắt, mũi và miệng được trích xuất và biểu diễn bằng các số liệu số. Sau đó, các hình ảnh này được sử dụng để huấn luyện một mạng neural nhằm tạo ra một mô hình 3D của khuôn mặt.

Công nghệ Deepfakes không chỉ để… lừa đảo

Cho đến nay, phần lớn công nghệ Deepfake đều bị khai thác mặt tối của công nghệ này. Đó là những video, giả mạo mang ý nghĩa châm biếm, chẳng hạn như một clip được đăng tải vào ngày Cá tháng tư cho thấy Mark Zuckerberg thông báo rằng ông ấy sẽ “xóa sổ” Facebook; đến những cảnh quay, video gây tổn hại danh tiếng của các ngôi sao Hollywood được cho là đóng phim khiêu dâm; hay các hoạt động nhằm mục đích lừa đảo, chẳng hạn như giả giọng người quen để lừa đảo yêu cầu chuyển tiền…

Những rủi ro từ công nghệ Deepfakes là không thể phủ nhận. Tuy nhiên, ví dụ của Bảo tàng Dalí cho thấy rằng công nghệ này có thể khai thác ở nhiều lĩnh vực tích cực. Các nhà kinh doanh công nghệ đã thấy cơ hội kinh doanh rõ ràng từ công nghệ này với các danh mục như hoán đổi giọng nói, chuyển văn bản thành giọng nói, hoán đổi khuôn mặt trong video, biểu diễn hình thể hay hát nhép…

Hoán đổi giọng nói

Công nghệ hoán đổi giọng nói có thể thay đổi giọng nói của một người hoặc bắt chước giọng nói của người khác. Nó có thể được điều khiển để phát ra âm thanh của đối tượng trẻ hơn hoặc già hơn, nam hoặc nữ và với các phương ngữ hoặc giọng khác nhau. Các ứng dụng có thể bao gồm một người kể chuyện sách nói bằng giọng của các nhân vật khác nhau hoặc sử dụng người nổi tiếng làm người kể chuyện. Nó cũng mở ra những khả năng hấp dẫn cho trợ lý ảo như Siri. Thay vì phải ghi lại giọng của các diễn viên lồng tiếng với các giọng và giới tính khác nhau, hoán đổi giọng nói bằng âm thanh giúp có thể thực hiện việc này chỉ bằng một giọng nói.

“Lấy lại” giọng nói

Trong nhiều năm, người ta đã có thể làm cho máy tính “nói” bằng cách nhập văn bản vào một ứng dụng. Giờ đây, công nghệ Deepfakes giúp thực hiện điều này với giọng nói của một người cụ thể ngay cả khi trước đó họ chưa ghi lại các câu từ được sử dụng. Công nghệ này đang giúp thay đổi cuộc sống cho những người mất khả năng nói, chẳng hạn như những người bị đột quỵ hoặc mắc bệnh liên quan đến giọng nói… Các cách sử dụng khả thi khác của công nghệ chuyển văn bản âm thanh thành giọng nói bao gồm sửa các từ phát âm sai trong phần lồng tiếng thay vì phải yêu cầu người đó ghi âm lại.

Tiềm năng lớn trong công nghệ phim ảnh

Như chúng ta đã thấy với ví dụ về danh họa Dalí, hoán đổi khuôn mặt video có thể thay thế khuôn mặt của một người trong video bằng khuôn mặt của người khác. Điều này có tiềm năng lớn trong công nghệ phim ảnh. Chẳng hạn, một nghệ sĩ sử dụng công nghệ Deepfake chuyên nghiệp đã chứng minh các kỹ thuật tương tự như Bảo tàng Dalí có thể được sử dụng giúp giảm chi phí sản xuất phim với chất lượng tương tự. Một cách sử dụng khả thi khác của công nghệ này là giúp xử lý những cảnh quay nguy hiểm giả giống như thật hơn.

Trò chơi

Biểu diễn hình thể bằng video có thể chuyển đổi chuyển động từ cơ thể của người này sang cơ thể của người khác. Các mục đích sử dụng có thể bao gồm các trò chơi điện tử nhập vai hơn, trong đó người chơi có thể tự đưa mình vào hành động, với các đặc điểm về dáng đi và chuyển động của riêng họ; và những bộ phim mà các diễn viên không phải là vũ công chuyên nghiệp dường như có thể nhảy bằng cách sử dụng cảnh quay của các vũ công chuyên nghiệp.

Kỹ thuật “nhép môi”

Công nghệ này có thể thay đổi chuyển động của miệng và lời nói trong video. Với công nghệ này, có thể thực hiện các bản dịch chất lượng cao, tiết kiệm chi phí cho quá trình sản xuất phim, chương trình truyền hình và các video khác. Một thuật toán được đào tạo sẽ bắt chước giọng nói của diễn viên ban đầu nhưng bằng một ngôn ngữ khác, với chuyển động môi đồng bộ với các từ mới…

Theo Theconversation