Bộ não con người được tinh chỉnh không chỉ để nhận ra những âm thanh cụ thể mà còn để xác định chúng đến từ hướng nào. Bằng cách so sánh sự khác biệt về âm thanh truyền đến tai phải và tai trái, não có thể ước tính vị trí của tiếng chó sủa, tiếng động cơ cứu hỏa hoặc ô tô đang lao tới.
Các nhà khoa học thần kinh của MIT hiện đã phát triển một mô hình máy tính cũng có thể thực hiện nhiệm vụ phức tạp đó. Mô hình, bao gồm một số mạng nơ-ron phức hợp, không chỉ thực hiện nhiệm vụ tốt như con người làm, nó còn đấu tranh theo những cách giống như con người.
Josh McDermott, phó giáo sư về não bộ và khoa học nhận thức, đồng thời là thành viên của Viện nghiên cứu não bộ McGovern của MIT cho biết: “Giờ đây chúng tôi có một mô hình thực sự có thể bản địa hóa âm thanh trong thế giới thực. “Và khi chúng tôi đối xử với mô hình như một người tham gia thí nghiệm trên người và mô phỏng một loạt thí nghiệm mà người ta đã thử nghiệm trên người trong quá khứ, những gì chúng tôi tìm thấy lặp đi lặp lại là mô hình tổng hợp lại kết quả mà bạn thấy ở người.”
McDermott, người cũng là thành viên của Trung tâm Trí não, Tư duy và Máy móc của MIT, cho biết, phát hiện từ nghiên cứu mới cũng cho thấy khả năng nhận thức vị trí của con người được điều chỉnh để phù hợp với những thách thức cụ thể trong môi trường của chúng ta.
McDermott là tác giả chính của bài báo, xuất hiện ngày hôm nay trong Hành vi tự nhiên của con người. Tác giả chính của bài báo là Andrew Francl, sinh viên tốt nghiệp của MIT.
Mô hình hóa bản địa hóa
Khi chúng ta nghe thấy một âm thanh chẳng hạn như tiếng còi tàu, sóng âm đến tai phải và trái của chúng ta ở những thời điểm và cường độ hơi khác nhau, tùy thuộc vào hướng phát ra của âm thanh. Các bộ phận của não giữa được chuyên môn hóa để so sánh những khác biệt nhỏ này nhằm giúp ước tính âm thanh phát ra từ hướng nào, một nhiệm vụ còn được gọi là bản địa hóa.
Nhiệm vụ này trở nên khó khăn hơn rõ rệt trong điều kiện thế giới thực – nơi môi trường tạo ra tiếng vang và nhiều âm thanh được nghe thấy cùng một lúc.
Từ lâu, các nhà khoa học đã tìm cách chế tạo các mô hình máy tính có thể thực hiện các phép tính tương tự như bộ não sử dụng để định vị âm thanh. Các mô hình này đôi khi hoạt động tốt trong các cài đặt lý tưởng không có tiếng ồn xung quanh, nhưng không bao giờ hoạt động trong môi trường thực tế với tiếng ồn và tiếng vọng của chúng.
Để phát triển một mô hình bản địa hóa phức tạp hơn, nhóm MIT đã chuyển sang mạng nơ ron phức hợp. Loại mô hình máy tính này đã được sử dụng rộng rãi để lập mô hình hệ thống thị giác của con ngườivà gần đây, McDermott và các nhà khoa học khác đã bắt đầu áp dụng nó vào thử giọng cũng.
Mạng nơ-ron chuyển đổi có thể được thiết kế với nhiều kiến trúc khác nhau, vì vậy để giúp họ tìm ra những kiến trúc phù hợp nhất để bản địa hóa, nhóm MIT đã sử dụng một siêu máy tính cho phép họ đào tạo và thử nghiệm khoảng 1.500 mô hình khác nhau. Tìm kiếm đó đã xác định 10 có vẻ phù hợp nhất để bản địa hóa, được các nhà nghiên cứu đào tạo thêm và sử dụng cho tất cả các nghiên cứu tiếp theo của họ.
Để đào tạo các mô hình, các nhà nghiên cứu đã tạo ra một thế giới ảo trong đó họ có thể kiểm soát kích thước của căn phòng và đặc tính phản chiếu của các bức tường trong phòng. Tất cả âm thanh được cung cấp cho các mô hình đều bắt nguồn từ một nơi nào đó trong một trong những phòng ảo này. Bộ hơn 400 âm thanh luyện tập bao gồm giọng người, âm thanh động vật, âm thanh máy móc như động cơ ô tô và âm thanh tự nhiên như tiếng sấm.
Các nhà nghiên cứu cũng đảm bảo rằng mô hình bắt đầu với cùng một thông tin do tai người cung cấp. Tai ngoài, hay loa tai, có nhiều nếp gấp phản xạ âm thanh, làm thay đổi tần số đi vào tai và những phản xạ này khác nhau tùy thuộc vào nơi phát ra âm thanh. Các nhà nghiên cứu đã mô phỏng hiệu ứng này bằng cách chạy từng âm thanh thông qua một hàm toán học chuyên biệt trước khi nó đi vào mô hình máy tính.
“Điều này cho phép chúng tôi cung cấp cho mô hình cùng một loại thông tin mà một người sẽ có”, Francl nói.
Sau khi đào tạo các mô hình, các nhà nghiên cứu đã thử nghiệm chúng trong môi trường thực tế. Họ đặt một hình nộm có micrô trong tai của nó trong một căn phòng thực tế và phát âm thanh từ các hướng khác nhau, sau đó đưa những bản ghi đó vào mô hình. Các mô hình đã thực hiện rất giống với con người khi được yêu cầu xác định vị trí của những âm thanh này.
“Mặc dù mô hình đã được đào tạo trong thế giới ảo, nhưng khi chúng tôi đánh giá, nó có thể bản địa hóa âm thanh trong thế giới thực, “Francl nói.
Các mẫu tương tự
Sau đó, các nhà nghiên cứu đưa các mô hình vào một loạt các bài kiểm tra mà các nhà khoa học đã sử dụng trong quá khứ để nghiên cứu khả năng bản địa hóa của con người.
Ngoài việc phân tích sự khác biệt về thời gian đến tai trái và phải, bộ não con người cũng căn cứ để phán đoán vị trí của mình dựa trên sự khác biệt về cường độ âm thanh truyền đến mỗi tai. Các nghiên cứu trước đây đã chỉ ra rằng sự thành công của cả hai chiến lược này khác nhau tùy thuộc vào tần số của âm thanh đến. Trong nghiên cứu mới, nhóm nghiên cứu của MIT đã phát hiện ra rằng các mô hình cho thấy độ nhạy với tần số giống nhau.
McDermott nói: “Mô hình dường như sử dụng sự khác biệt về thời gian và mức độ giữa hai tai giống như cách mọi người làm, theo cách phụ thuộc vào tần số,” McDermott nói.
Các nhà nghiên cứu cũng chỉ ra rằng khi họ thực hiện các nhiệm vụ nội địa hóa khó khăn hơn, bằng cách thêm nhiều nguồn âm thanh phát cùng lúc, hiệu suất của các mô hình máy tính giảm theo cách bắt chước gần giống với các mô hình thất bại của con người trong cùng một trường hợp.
Francl nói: “Khi bạn thêm ngày càng nhiều nguồn, bạn sẽ nhận được một mô hình suy giảm cụ thể về khả năng đánh giá chính xác số lượng nguồn hiện có và khả năng bản địa hóa các nguồn đó của con người. “Con người dường như bị giới hạn trong việc xác định khoảng ba nguồn cùng một lúc và khi chúng tôi chạy thử nghiệm tương tự trên mô hình, chúng tôi thấy một kiểu hành vi thực sự giống nhau.”
Bởi vì các nhà nghiên cứu đã sử dụng thế giới ảo để đào tạo mô hình của họ, họ cũng có thể khám phá điều gì sẽ xảy ra khi mô hình học cách bản địa hóa trong các loại điều kiện phi tự nhiên khác nhau. Các nhà nghiên cứu đã đào tạo một tập hợp các mô hình trong một thế giới ảo không có tiếng vọng, và một thế giới khác trong một thế giới không bao giờ có nhiều hơn một âm thanh nghe tại một thời điểm. Trong một phần ba, các mô hình chỉ được tiếp xúc với âm thanh có dải tần số hẹp, thay vì âm thanh xuất hiện tự nhiên.
Khi các mô hình được đào tạo trong các thế giới phi tự nhiên này được đánh giá trên cùng một loạt các bài kiểm tra hành vi, các mô hình đã đi chệch khỏi hành vi của con người và cách thức mà chúng thất bại khác nhau tùy thuộc vào loại môi trường mà chúng đã được đào tạo. Những kết quả này hỗ trợ cho ý tưởng rằng khả năng bản địa hóa của não người Các nhà nghiên cứu nói rằng chúng thích nghi với môi trường mà con người tiến hóa.
Các nhà nghiên cứu hiện đang áp dụng loại mô hình này cho các khía cạnh khác của cuộc thử giọng, chẳng hạn như nhận thức cao độ và nhận dạng giọng nói, và tin rằng nó cũng có thể được sử dụng để hiểu các hiện tượng nhận thức khác, chẳng hạn như giới hạn về những gì một người có thể chú ý hoặc ghi nhớ McDermott nói