Trong những năm gần đây, hình ảnh động của động vật và con người do máy tính tạo ra ngày càng trở nên chi tiết và chân thực. Tuy nhiên, việc tạo ra những hình ảnh động thuyết phục về khuôn mặt của một nhân vật khi nó đang nói vẫn là một thách thức quan trọng, vì nó thường đòi hỏi sự kết hợp thành công của một loạt các yếu tố âm thanh và video khác nhau.
Một nhóm các nhà khoa học máy tính tại TCS Research ở Ấn Độ gần đây đã tạo ra một mô hình mới có thể tạo ra hình ảnh động khuôn mặt nói chuyện có độ chân thực cao, tích hợp bản ghi âm với chuyển động đầu của nhân vật. Mô hình này, được giới thiệu trong một bài báo trình bày tại ICVGIP 2021, Hội nghị lần thứ mười hai của Ấn Độ về Thị giác Máy tính, Đồ họa và Xử lý Hình ảnh, có thể được sử dụng để tạo hình đại diện ảo, trợ lý kỹ thuật số và phim hoạt hình thuyết phục hơn.
Brojeshwar Bhowmick, một trong những nhà nghiên cứu thực hiện nghiên cứu cho biết: “Để có trải nghiệm xem thú vị, nhận thức về chủ nghĩa hiện thực là vô cùng quan trọng, và bất chấp những tiến bộ nghiên cứu gần đây, việc tạo ra một khuôn mặt nói chuyện thực tế vẫn là một vấn đề nghiên cứu đầy thách thức,” Brojeshwar Bhowmick, một trong những nhà nghiên cứu thực hiện nghiên cứu, cho biết TechXplore. “Bên cạnh đồng bộ hóa môi chính xác, hoạt ảnh khuôn mặt nói chuyện thực tế yêu cầu các thuộc tính khác của chủ nghĩa hiện thực như chớp mắt tự nhiên, chuyển động của đầu và lưu giữ thông tin nhận dạng của khuôn mặt mục tiêu tùy ý.”
Hầu hết các phương pháp điều khiển bằng giọng nói hiện có để tạo hoạt ảnh trên khuôn mặt tập trung vào việc đảm bảo đồng bộ hóa tốt giữa chuyển động môi và giọng nói được ghi lại, duy trì danh tính của nhân vật và đảm bảo rằng nhân vật đó thỉnh thoảng chớp mắt. Một vài trong số các phương pháp này cũng cố gắng tạo ra các chuyển động của đầu có sức thuyết phục, chủ yếu bằng cách mô phỏng các chuyển động của người nói trong một video đào tạo ngắn.
“Những phương pháp này tạo ra cử động từ video lái xe, có thể không liên quan đến nội dung bài phát biểu hiện tại và do đó có vẻ không thực tế đối với hoạt ảnh của các bài phát biểu dài “, Bhowmick nói.” Nói chung, chuyển động của đầu phụ thuộc phần lớn vào thông tin thuận chiều của bài phát biểu tại thời điểm hiện tại . ”
Các nghiên cứu trước đây đã phát hiện ra rằng có mối tương quan chặt chẽ giữa chuyển động của đầu do người nói và cả cao độ và biên độ giọng nói của họ. Những phát hiện này đã truyền cảm hứng cho Bhowmick và các đồng nghiệp của anh ấy tạo ra một phương pháp mới có thể tạo ra chuyển động của đầu cho hình ảnh động khuôn mặt phản ánh giọng nói của nhân vật và những gì anh ấy / cô ấy đang nói.
Trong một trong những bài báo trước đây của họ, các nhà nghiên cứu đã trình bày một kiến trúc dựa trên mạng đối thủ chung (GAN) có thể tạo ra hình ảnh động thuyết phục về những khuôn mặt đang nói chuyện. Mặc dù kỹ thuật này đầy hứa hẹn, nhưng nó chỉ có thể tạo ra các hình ảnh động trong đó phần đầu của người nói không di chuyển.
Bhowmick cho biết: “Hiện chúng tôi đã phát triển một hệ thống hoạt hình khuôn mặt thực tế theo hướng giọng nói hoàn chỉnh để tạo video khuôn mặt nói chuyện với tính năng đồng bộ hóa môi chính xác, nháy mắt tự nhiên và chuyển động đầu thực tế, bằng cách đưa ra phương pháp phân cấp để học chuyển động và kết cấu không giống nhau”, Bhowmick nói. “Chúng tôi học chuyển động do giọng nói tạo ra trên các điểm mốc trên khuôn mặt và sử dụng các điểm mốc để tạo kết cấu của khung video hoạt hình.”
Mô hình chung mới do Bhowmick và các đồng nghiệp của ông tạo ra có thể tạo ra chuyển động đầu thực tế và theo hướng giọng nói một cách hiệu quả cho các khuôn mặt đang nói chuyện hoạt hình, tương quan chặt chẽ với đặc điểm giọng nói của người nói và những gì anh ta / cô ta đang nói. Cũng giống như kỹ thuật mà họ đã tạo ra trước đây, mô hình mới này dựa trên GAN, một lớp thuật toán máy học được nhận thấy có nhiều hứa hẹn để tạo nội dung nhân tạo.
Mô hình có thể xác định người nói đang nói gì và giọng nói của họ âm điệu trong khoảng thời gian cụ thể. Sau đó, nó sử dụng thông tin này để tạo ra các chuyển động đầu phù hợp và tương quan.
Bhowmick cho biết: “Phương pháp của chúng tôi về cơ bản khác với các phương pháp hiện đại tập trung vào việc tạo ra phong cách nói chuyện cụ thể cho từng người từ video lái xe mẫu của đối tượng mục tiêu. “Do mối quan hệ giữa âm thanh và chuyển động của đầu không phải là duy nhất, cơ chế chú ý của chúng tôi cố gắng tìm hiểu tầm quan trọng của các tính năng âm thanh cục bộ đối với chuyển động của đầu cục bộ, giữ cho dự đoán trơn tru theo thời gian mà không yêu cầu bất kỳ video lái xe đầu vào nào tại thời điểm thử nghiệm. Chúng tôi cũng sử dụng meta-learning để tạo kết cấu, vì nó giúp nhanh chóng thích ứng với những khuôn mặt sử dụng rất ít hình ảnh tại thời điểm thử nghiệm. ”
Bhowmick và các đồng nghiệp của ông đã đánh giá mô hình của họ trên một loạt bộ dữ liệu điểm chuẩn, so sánh hiệu suất của nó với hiệu suất của các kỹ thuật hiện đại được phát triển trong quá khứ. Họ phát hiện ra rằng nó có thể tạo ra những hình ảnh động có tính thuyết phục cao với khả năng đồng bộ hóa môi tuyệt vời, chớp mắt tự nhiên và chuyển động đầu mạch lạc bằng giọng nói.
“Công việc của chúng tôi là một bước tiến xa hơn nhằm đạt được hình ảnh động khuôn mặt nói chuyện thực tế có thể chuyển thành nhiều ứng dụng trong thế giới thực, chẳng hạn như trợ lý kỹ thuật số, băng hình lồng tiếng hoặc khả năng ngoại cảm “, Bhowmick nói thêm.” Trong các nghiên cứu tiếp theo, chúng tôi dự định tích hợp các biểu cảm và cảm xúc trên khuôn mặt thực tế cùng với đồng bộ hóa môi, nháy mắt và giọng nói mạch lạc cái đầu cử động.”